CN117313676A - 一种文本数据清洗方法、系统、装置及存储介质 - Google Patents
一种文本数据清洗方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN117313676A CN117313676A CN202311610152.9A CN202311610152A CN117313676A CN 117313676 A CN117313676 A CN 117313676A CN 202311610152 A CN202311610152 A CN 202311610152A CN 117313676 A CN117313676 A CN 117313676A
- Authority
- CN
- China
- Prior art keywords
- text data
- deleting
- target line
- characters
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000004140 cleaning Methods 0.000 title claims abstract description 110
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012217 deletion Methods 0.000 claims description 173
- 230000037430 deletion Effects 0.000 claims description 173
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 39
- 230000014509 gene expression Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010926 purge Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种文本数据清洗方法、系统、装置及存储介质,涉及数据处理领域,用于解决AI训练模型的数据质量差的问题。该方法包括获取包括若干篇文章的文本数据,每篇文章包括若干行文本数据;轮询各文章中的各行文本数据;确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作。本申请中通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。
Description
技术领域
本申请涉及数据处理领域,特别涉及一种文本数据清洗方法、系统、装置及存储介质。
背景技术
人工智能的发展取得了巨大突破,其中的关键之一是高质量数据的不断发展。特别是对于大型语言模型来说,更高质量、更丰富的训练数据集至关重要。在模型相对固定的前提下,提升数据的质量和数量可以有效地提升整个模型的训练效果。针对AI(ArtificialIntelligence,人工智能)语言大模型来说,它们需要使用高质量、大规模、以及多样性的数据集进行训练。在中文大语言模型的预训练数据集中,主要来源于互联网抓取数据、网络百科全书、以及书籍等。在数据集中,尤其是书籍的使用,主要是为了训练模型的故事讲述能力和反应能力,这主要包括了小说和非小说两大类。然而,尽管国内数据资源十分丰富,但是由于数据挖掘不足,优质中文数据集仍然稀缺。主要的瓶颈在于形形色色的中文文本语料质量参差不齐,以及原始文本数据中包含大量噪声、错误、无用数据和其他类型的垃圾信息,这些都会影响文本分析的准确性。而且,人工收集文本数据集需要巨大的人力资金投入,在数据挖掘和数据治理上的力度和投入也存在不足的情况。
因此,如何解决数据集中的低质量文本、噪声信息等问题,以及如何通过更加有效的方式进行数据收集和挖掘,是当前亟需解决的关键问题。
发明内容
本申请的目的是提供一种文本数据清洗方法、系统、装置及存储介质,通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。
第一方面,本申请提供了一种文本数据清洗方法,包括:
获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
轮询各所述文章中的各行文本数据;
确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
若存在,则对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
在一种实施例中,对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作之后,还包括:
将清洗后的文本数据输入至语言训练模型中进行训练学习。
在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的所述目标行文本数据是否满足删除条件;
若满足所述删除条件,则删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行;
若存在空行,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述空行。
在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
判断当前轮询的所述目标行文本数据是否只包括若干个换行符;
若只包括若干个所述换行符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述目标行文本数据。
在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
判断所述目标行文本数据的结尾是否包括不止一个换行符;
若包括不止一个所述换行符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除若干个所述换行符以使所述目标行文本数据的结尾只有一个所述换行符。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中预设字符的个数是否超过第一预设个数,所述预设字符为非中文且非数字的字符;
若超过所述第一预设个数,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除预设字符的个数超过第一预设个数的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在满足空格删除条件的空格,其中所述空格删除条件为:所述空格前的字符为非英文字符且所述空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;
若存在,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
将满足所述空格删除条件的空格删除。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
若包括所述敏感词汇,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括所述敏感词汇的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
判断当前轮询的所述目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
若包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据是否为非中文文本数据;
若所述目标行文本数据为所述非中文文本数据,则判断所述目标行文本数据是否为连续多行非中文文本数据中的一行;
若所述目标行文本数据不是连续多行非中文文本数据中的一行,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
对为所述非中文文本数据且不是连续多行非中文文本数据中的一行的目标行文本数据进行删除。
在一种实施例中,获取文本数据之后,还包括:
统计每篇所述文章中各行文本数据的重复次数;
判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断是否存在重复次数超过第一预设次数的行文本数据;
若存在,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述重复次数超过所述第一预设次数的行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符;
若包括用于表征解释说明的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括用于表征解释说明的字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征脚注信息的字符;
若包括用于表征所述脚注信息的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括用于表征所述脚注信息的字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的所述目标行文本数据中是否包括大括号或中括号或小括号的字符;
若包括大括号或中括号或小括号的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述大括号或所述中括号或所述小括号中的文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征网址链接的字符;
若包括用于表征所述网址链接的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述用于表征网址链接的字符。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括特殊字符,所述特殊字符为除中文、英文、数字、预设标点、数学符号和希腊字母之外的其它字符;
若包括所述特殊字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述特殊字符。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征角标的角标字符,所述角标字符的特征为在终止标点后、包括括号且括号中为数字信息;
若存在所述角标字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述角标字符及所述角标字符之后的文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征页脚的页脚字符,所述页脚字符的特征为包括预设页码字符或只包括一个页码数字且所述页码数字的上一行文本数据和下一行文本数据均为中文文本数据;
若存在所述页脚字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述页脚字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征章节题目的章节性字符,所述章节性字符为预设章节性字符库中的任意一种或预设章节格式的字符;
若存在所述章节性字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述章节性字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征图片或表格或图片的题目或表格的题目的图表字符,其中所述图片的题目或所述表格的题目的字符特征为:图或表为起始字符、所述起始字符后为字母或数字、所在行文本数据的最后没有标点;
若存在所述图表字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述图表字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符;
若存在所述文献字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述文献字符的目标行文本数据。
在一种实施例中,判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符之后,还包括:
若存在所述文献字符,则判断当前轮询的所述目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据;
若是,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述目标行文本数据及其之后的所有文本数据。
在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符;
若存在,则使用预设替换字符替换满足所述替换条件的字符。
在一种实施例中,判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符,包括:
判断当前轮询的所述目标行文本数据中是否存在繁体字;
若存在,则判定满足所述替换条件;
使用预设替换字符替换满足所述替换条件的字符,包括:
使用与所述繁体字对应的简体字替换所述繁体字。
在一种实施例中,还包括:
在删除所有行文本数据中满足所述预设条件的字符或行文本数据之后,依次轮询所述文章中的各行文本数据;
确定当前轮询的所述目标行文本数据是否满足合并条件;
若满足所述合并条件,则将所述目标行文本数据与所述目标行文本数据的下一行本文数据合并。
在一种实施例中,确定当前轮询的所述目标行文本数据是否满足合并条件,包括:
确定当前轮询的所述目标行文本数据的结尾是否存在终止标点;
若不存在所述终止标点,则判定所述目标行文本数据满足所述合并条件。
在一种实施例中,还包括:
在完成对整篇文章的合并后,依次轮询所述文章中的各个段落;
判断当前轮询的目标段落是否满足预设段落删除条件;
若满足所述预设段落删除条件,则删除所述目标段落。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
计算所述目标段落中的中文字符与所有字符的比值;
判断所述比值是否小于预设比值;
若小于所述预设比值,则判定所述目标段落满足所述预设段落删除条件。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
统计所述目标段落中标点符号的个数;
判断所述标点符号的个数是否小于第一临界值;
若小于所述第一临界值,则判定所述目标段落满足所述预设段落删除条件。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
对所述目标段落中的所有字符进行分词处理,并统计分词处理之后的词语个数;
判断所述词语个数与所述目标段落的所有字符的比值是否大于第二临界值;
若大于,则判定所述目标段落满足所述预设段落删除条件。
在一种实施例中,还包括:
在完成对整篇文章的合并后,对同一类型的标点符号统一替换为与所述类型对应的标准标点符号。
第二方面,本申请还提供了一种文本数据清洗系统,包括:
获取单元,用于获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
行轮询单元,用于轮询各所述文章中的各行文本数据;
确定单元,用于确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
清洗单元,用于在当前轮询的目标行文本数据中存在满足预设清洗条件的文本数据时,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
第三方面,本申请还提供了一种文本数据清洗装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时,实现上述所述的文本数据清洗方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的文本数据清洗方法的步骤。
本申请提供了一种文本数据清洗方法、系统、装置及存储介质,涉及数据处理领域,用于解决AI训练模型的数据质量差的问题。获取包括若干篇文章的文本数据,每篇文章包括若干行文本数据;轮询各文章中的各行文本数据;确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;若存在,则对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作,清洗操作包括删除操作、替换操作和合并操作中的任意一种。本申请中通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种文本数据清洗方法的流程图;
图2为本申请提供的一种文本数据清洗系统的示意图;
图3为本申请提供的一种文本数据清洗装置的示意图;
图4为本申请提供的一种计算机可读存储介质的示意图。
具体实施方式
本申请的核心是提供一种文本数据清洗方法、系统、装置及存储介质,通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据和其他类型的垃圾信息,从而提高数据的准确性和质量,从而消除噪声或错误信息,提高文本数据的质量。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在描述本申请之前,首先需要了解:数据准备是进行大模型训练的关键步骤,它要求收集、清洗、标注和处理大量数据,以确保后续训练的有效性和准确性。在数据准备阶段,需要考虑数据的多样性、质量和数量等因素,并可以利用数据增强和预处理技术来提高训练效果,如数据扩增、降噪和归一化等。数据准备是大模型训练的基础,对后续的训练和应用都具有重要意义。
数据准备的基本流程如下:(1)首先,需要确定采集哪些数据以及从何种来源获取这些数据,例如可以通过互联网爬取网页数据或从企业内部收集文本语料数据;(2)接着,获取得到的数据类型多样,需要利用格式转换工具完成数据格式的转换,例如将pdf文档、word文档转换为txt等纯文本文档;(3)在获得文本格式的原始数据后,需要对其进行清洗和预处理,以提高数据质量;(4)对于一些对数据集要求比较高的任务,还需要对数据进行标注以进一步提升丰富度和质量,然而标注过程需要人工参与,因此时间和成本较高;(5)随后,整个数据集需要分割为训练集、测试集和验证集,通常按照7:2:1的比例划分;(6)最后,需要对文本进行分词编码,将文本分成词语并将数据集转换为机器学习模型能理解的形式,常用的编码方式有one-hot编码和word-embedding编码。
整个数据准备过程旨在提供一个干净的数据集,让模型学习到有意义的特征,而不是学习到过拟合的噪音。这样的数据集能够为模型训练和应用提供可靠的基础,从而提高模型的准确性和可靠性。本申请中则是只要针对上述步骤(3)进行优化处理。
需要强调的是,本申请中所收集到的文章类的文本数据特指书籍类的文章,目前技术中存在的对文本数据的清理并不涉及书籍类文本数据的清洗,例如目前技术中主要针对的文本数据是一些普通的网络文本数据或社交媒体文本数据等。然而,将这些现有的文本数据清洗方法直接应用于书籍类文本数据时,可能会面临一些弊端。首先,书籍类文本数据具有一定的结构性,包含章节、目录、脚注等元素,而这些特殊格式在传统的文本数据清洗方法中并没有得到很好的处理。其次,书籍类文本数据常常存在引用和注释的情况,例如引用其他文献、注释说明等,这些信息在清洗过程中需要特殊处理,以免丢失重要内容。此外,书籍类文本数据还可能包含特殊的排版样式、字体、图片等,这些特点在传统的文本数据清洗方法中也没有得到很好的应对。
因此,在处理书籍类文本数据时,需要考虑到其特殊性,如可能涉及到的章节划分、引用格式、脚注注释等特点。因此,在进行清洗时,需要采用专门针对书籍类文本的清洗方法,针对书籍类文本的特点进行定制化处理,从而更好地满足数据清洗的需求,以确保清洗的准确性和有效性。
第一方面,本申请提供了一种文本数据清洗方法,如图1所示,包括:
S11:获取文本数据,文本数据包括若干篇文章,每篇文章包括若干行文本数据;
本步骤是指获取文本数据,其中文本数据包括若干篇文章,每篇文章包括若干行文本数据。在这个过程中,获取文本数据的关键在于收集和汇总相关的文章和文本信息,以便后续的数据清洗操作。
具体步骤可以包括:
收集文章:从各种来源获取包含所需文本信息的文章,这些来源可能包括互联网、书籍、期刊、报纸等,收集的文章可以涵盖各种主题领域,以确保数据集的多样性和丰富性。
文本提取:对于获取到的文章,需要进行文本提取操作,将文章中的文本数据抽取出来,以便后续的处理和分析,如文本解析和抽取,以确保获取到的文本数据是完整且准确的。
文本汇总:将从不同来源获取到的文本数据汇总整理,可能需要对文本数据进行格式化和标准化,以便后续的清洗操作和数据处理。
本步骤可以确保获取到的文本数据是全面、准确且完整的,以支持后续的清洗和处理操作。
S12:轮询各文章中的各行文本数据;
本步骤中,首先需要按照顺序或者随机的方式遍历每一篇文章,确保对每篇文章都进行了全面的处理。如对文章进行编号或其他形式的标识,以便进行后续的轮询操作。在每篇文章内部,需要逐行地遍历文本数据,确保每一行文本都被纳入清洗的范围之内。这需要考虑到不同文章的格式差异,例如段落、列表、标题等,以确保所有的文本数据都被正确处理。
针对每一行文本数据,需要确定是否满足预设的清洗条件。这涉及到文本质量、格式规范、语法错误、噪音识别等多方面的判断标准,以确保清洗操作是基于客观、可量化的条件进行的。对于满足清洗条件的文本数据,需要进行记录或标记,以便后续的清洗操作。
通过以上操作可以确保对每篇文章中的每行文本数据都进行了全面的轮询,并且明确了哪些文本数据需要进行后续的清洗操作,这将为后续的文本数据清洗方法奠定基础,提高清洗的全面性和准确性。
S13:确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
本步骤中,需要明确定义清洗条件,这些条件可能包括文本质量、格式规范、语法错误、噪音识别等多方面的判断标准。例如,清洗条件可以包括去除特定类型的垃圾字符、修复拼写错误、识别并删除重复内容等。
在轮询的过程中,针对每行文本数据,需要对其进行判断,以确定该行文本数据是否满足预设的清洗条件。对于满足清洗条件的文本数据,需要进行标记或记录,以便后续的清洗操作。其中,对文章中的各行文本数据进行轮询,目标行文本数据为当前轮询到的一行文本数据。
通过以上操作,确保了对目标行文本数据的清洗条件判断,为后续的清洗操作提供了清晰的指引和依据,这将有助于提高清洗操作的准确性和效率,从而改善文本数据的质量和可用性。
S14:若存在,则对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作,清洗操作包括删除操作、替换操作和合并操作中的任意一种。
具体地,清洗操作可能包括删除操作,即将目标行文本数据中的特定部分或整行文本删除。这可以用于去除噪音、无效信息或特定类型的错误文本数据。
清洗操作还可能包括替换操作,即将目标行文本数据中的特定内容替换为其他内容,这可以用于修复拼写错误、规范格式、统一术语等。
此外,清洗操作中还可能包括合并操作,即将目标行文本数据与相邻行或其他文本数据进行合并,这可以用于处理分段不规范的文本或者合并相关信息。
在执行清洗操作时,需要根据预设的清洗条件和实际文本数据的特点,选择合适的清洗方式。清洗操作的目的是提高文本数据的质量和可用性,使其更适合用于训练AI模型或进行文本分析等应用。
在一种实施例中,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作之后,还包括:
将清洗后的文本数据输入至语言训练模型中进行训练学习。
进一步的,在上述完成对文本数据的清洗之后,将清洗后的文本数据输入至语言训练模型中进行训练学习。通过清洗操作,可以去除无关的噪声、特殊字符、网址标签等不必要的信息,从而获得更干净、规范的文本数据。清洗后的文本数据有利于提升语言训练模型的准确性和可靠性,避免语言训练模型在学习过程中受到干扰或误导。
将清洗后的文本数据输入至语言训练模型中进行训练学习,可以帮助语言训练模型更好地理解和处理原始文本的语义、结构和上下文信息。语言训练模型可以通过学习清洗后的文本数据中的模式、关联和规律,逐渐提升其自然语言处理的能力和理解水平。语言训练模型可以通过大量的样本数据进行迭代训练,从而不断优化语言训练模型的性能,提高其对语言任务的适应能力。
值得注意的是,在输入清洗后的文本数据进行训练学习之前,可能需要进一步进行预处理和数据转换,以满足训练模型的要求。这可能包括分词、词向量化、序列化等操作,以便将文本数据转化为语言训练模型能够接受的形式。
综上所述,将清洗后的文本数据输入至语言训练模型中进行训练学习可以帮助提升语言训练模型的性能和表现,使其更好地应对各种自然语言处理任务。
在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的目标行文本数据是否满足删除条件;
若满足删除条件,则删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据。
本实施例中,在进行文本数据清洗时,首先判断当前轮询的目标行文本数据是否满足删除条件。例如,删除条件可能包括拼写错误、非法字符、特定词汇或符号等。一旦确定目标行文本数据满足删除条件,就需要按照预设的规则执行删除操作。这可能涉及删除特定字符、词语或是整个目标行文本数据,以确保清洗后的文本数据符合预期的质量标准。
在这一实施例中,对于满足删除条件的目标行文本数据,执行删除操作是文本数据清洗过程中的重要步骤之一。该步骤能够帮助去除噪音、纠正错误或排除无效信息,从而提高文本数据的质量和可用性。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
在轮询目标行文本数据时,通过目标行文本数据中的字符判断文章是否存在空行;
若存在空行,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除空行。
文本数据中常充斥着大量的空字符串行,空字符串行的存在影响文本数据统计信息的精确性,降低流式文本的数据的效率,训练数据中的空行数据影响模型的精度。本实施例旨在删除文本数据中多余的空行。
在这种实施例中,判断当前轮询的目标行文本数据是否满足删除条件的具体实现方式可以为:首先对文章中的各行文本数据进行轮询,逐行进行处理和判断,在每一行文本数据中,检查字符以确定是否存在空行;空行通常指的是不包含任何可见字符的行,如空格、制表符等;如果在目标行文本数据中存在空行,根据预设的清洗条件,执行删除操作以删除这些空行。删除空行可以帮助去除文本数据中的无效或不必要内容,从而提高数据的整洁性和可读性。
在这一实施例中,对于存在空行的目标行文本数据,执行删除操作是文本数据清洗过程中的一部分,通过删除空行,可以使文本数据更加紧凑和规范,便于后续的处理和分析。
在一种实施例中,在轮询目标行文本数据时,通过目标行文本数据中的字符判断文章是否存在空行,包括:
判断当前轮询的目标行文本数据是否只包括若干个换行符;
若只包括若干个换行符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除只包括若干个换行符的目标行文本数据。
本实施例中,判断文章是否存在空行的一种实现方式具体为:首先对目标文本数据中的各行进行轮询,逐行进行处理和判断;在每一行文本数据中,通过检查字符的方式来判断目标行文本数据是否只包括若干个换行符,换行符通常用来表示空行;如果在目标行文本数据中发现只包括若干个换行符的情况,根据预设的清洗条件,执行删除操作以删除这些目标行文本数据。这样可以有效去除空行,提高文本数据的整洁性和可读性。
在这一实施例中,对于只包括若干个换行符的目标行文本数据,执行删除操作是文本数据清洗过程中的一部分。通过删除这些目标行文本数据,可以使文本数据更加规范和易于处理。
在一种实施例中,在轮询目标行文本数据时,通过目标行文本数据中的字符判断文章是否存在空行,包括:
判断目标行文本数据的结尾是否包括不止一个换行符;
若包括不止一个换行符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除若干个换行符以使目标行文本数据的结尾只有一个换行符。
本实施例中,判断文章是否存在空行的一种实现方式具体为:首先对目标文本数据中的各行进行轮询,逐行进行处理和判断;在每一行文本数据中,通过检查字符的方式来判断目标行文本数据的结尾是否包括不止一个换行符;如果在目标行文本数据的结尾包括不止一个换行符的情况,根据预设的清洗条件,执行删除操作以删除多余的换行符,使目标行文本数据的结尾只有一个换行符。这样可以有效去除多余的空行,提高文本数据的整洁性和可读性。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中预设字符的个数是否超过第一预设个数,预设字符为非中文且非数字的字符;
若超过第一预设个数,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除预设字符的个数超过第一预设个数的目标行文本数据。
本实施例提供了一种删除分隔行的实现方式,具体地,首先需要判断目标行文本数据中预设字符的个数是否超过第一预设个数。预设字符是指非中文且非数字的字符。如果预设字符的个数超过了第一预设个数,那么就判定该行为分隔行,需要执行删除操作,删除目标行文本数据。
例如,在文本数据中,有一种特殊的格式,即在章节之间或者重要的段落之间会出现类似的分割行,比如"---------------------------------"或"- - - - - - - - - -- - - - - - - -"等。这类数据的特征是非中文或非数字的字符信息连续出现6次及6次以上。当出现这种特征的数据样本时,需要对目标行文本数据进行删除处理。
具体地,本实施例可以采用正则表达式替换的方式完成数据清理,可完成该匹配以及替换任务的正则表达式分别为:匹配正则表达式:"^.*([^\u4e00-\u9fa5\d]|[^\u4e00-\u9fa5\d]\s)\1{5,}.*$",其中匹配正则表达式用于定位预设字符的个数是否超过第一预设个数;替换正则表达式:"",其中替换正则表达式用于将此目标行文本数据替换为空,也表示删除。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在满足空格删除条件的空格,其中空格删除条件为:空格前的字符为非英文字符且空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;
若存在,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
将满足空格删除条件的空格删除。
在文本数据中,由于影印版电子数据通过OCR(Optical Character Recognition,光学字符识别)技术识别并转换获得,中文字符与中文字符、数字字符与数字字符之间通常会混入多余的空格。为了保证大模型训练数据的准确性,需要对这部分数据进行清洗,即将多余的空格删除,但同时保留英文字符与英文字符之间的空格(因为空格是划分英文单词的必要字符)。
本实施例中,在轮询目标行文本数据时,需要对每行文本数据进行检查。针对每行文本数据,需要判断其中的空格是否符合空格删除条件。空格删除条件包括两种情况:其一、空格前的字符为非英文字符且空格后的字符为非英文字符;其二、相邻两个英文字符之间存在超过一个以上的空格。对于符合空格删除条件的空格,按照要求执行删除操作,即将满足条件的空格删除。
需要特别注意,保证英文字符与英文字符之间的空格保留。这意味着在执行删除操作时,需要确保不影响符合保留条件的空格。
具体地,可采用正则表达式替换的方式完成空格的清洗,对满足如下正则匹配的空格进行删除:"[\u4e00-\u9fa5\\\.\?\[\]\^\*\$\(\)\+\{\}\@\-;:!<>《》/_`~、·,﹐﹑。﹒﹔﹕﹖﹗﹙﹚—…‘’“”!'"(),.:;?[]"']{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+"。
本实施例,通过对文本数据进行逐行检查,并根据空格删除条件判断是否执行删除操作,从而实现对目标行文本数据的清洗。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否包括敏感词汇;
若包括敏感词汇,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除包括敏感词汇的目标行文本数据。
网络空间复杂多变,海量的互联网信息鱼龙混杂、良莠不齐,需要对一些敏感词汇进行针对性的清除。
本实施例中,对当前轮询的目标行文本数据进行判断,是否包括敏感词汇。敏感词汇是指那些可能会引起争议或不适当的词语,判断的目的是为了识别出这些敏感词汇,从而确定文本数据是否满足删除条件。如果当前轮询的目标行文本数据中包括敏感词汇,则执行删除操作。删除操作可以是删除目标行文本数据中包括敏感词汇的部分字符,也可以是删除整个目标行文本数据,以确保清洗后的文本数据不包含任何敏感词汇。
综上,本实施例在文本数据清洗方法中对于删除条件的判断和操作,特别是针对敏感词汇的识别和删除,使得清洗方法更加具体和有效。
在一种实施例中,判断当前轮询的目标行文本数据中是否包括敏感词汇,包括:
判断当前轮询的目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的目标行文本数据中是否包括敏感词汇。
若包括预设敏感词汇数据库中的任意字符串或预设敏感词汇判定模型的输出结果为存在敏感词汇,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除包括预设敏感词汇数据库中的任意字符串或预设敏感词汇判定模型的输出结果为存在敏感词汇的目标行文本数据。
本实施例是针对确定当前轮询的目标行文本数据中是否包括敏感词汇的具体实施步骤进行了详细描述。在这种实施例中,判断的方式可以是两种:第一种是判断当前轮询的目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串,也就是将目标文本与预先设定的敏感词库进行比对,如果存在匹配的字符串,则认定为包括敏感词汇;第二种方式是通过预设敏感词汇判定模型(如微调Bert预模型)判断当前轮询的目标行文本数据中是否包括敏感词汇,即通过机器学习或其他算法建立的模型对目标文本进行分析,如果模型的输出结果为存在敏感词汇,则认定为包括敏感词汇。
在任一种判断方式下,若结果为存在敏感词汇,则执行删除目标行文本数据的操作,以完成对文本数据的清洗。这样的清洗方法可以有效地识别并删除文本数据中的敏感内容,保障清洁和安全的数据环境。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据是否为非中文文本数据;
若目标行文本数据为非中文文本数据,则判断目标行文本数据是否为连续多行非中文文本数据中的一行;
若目标行文本数据不是连续多行非中文文本数据中的一行,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
对为非中文文本数据且不是连续多行非中文文本数据中的一行的目标行文本数据进行删除。
无论互联网数据,还是书籍数据,都混杂着大量的非中文文本信息,其中以英文文本、数学公式为多,这些非中文文本信息的存在对大模型训练而言为干扰因素,需要予以删除处理。
具体来说,该实施例首先判断当前轮询的目标行文本数据是否为非中文文本数据;如果是非中文文本数据,接着判断该目标行文本数据是否为连续多行非中文文本数据中的一行。如果目标行文本数据不是连续多行非中文文本数据中的一行,则对目标行文本数据进行删除操作。
这意味着在清洗文本数据的过程中,对于非中文文本数据,只有当它不是连续多行非中文文本数据中的一行时才会被删除。这样的判断条件通常删除一行或连续两行的非中文文本数据。对于连续三行及其以上的非中文文本数据在后续实施例中使用段落删除条件判断是否删除。
综上,本实施例提供了一种针对非中文文本数据的删除条件判断方式,可以帮助实现文本数据清洗的自动化和高效化处理。
在一种实施例中,获取文本数据之后,还包括:
统计每篇文章中各行文本数据的重复次数;
判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断是否存在重复次数超过第一预设次数的行文本数据;
若存在,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除重复次数超过第一预设次数的行文本数据。
在书籍类文本数据中,每一页的页眉通常会包括章节的题目以及书籍的名称等信息,这些信息的存在割裂了原始文本的连续性,即上一页文本的结尾和下一页文本的开始插入了页面信息,因此需要进行针对性的识别与删除。
鉴于这些页眉信息会多次出现,且频次较高,因此本实施例中,对每篇文章中的各行文本数据进行统计,记录每行文本数据的重复次数。然后,在轮询目标行文本数据时,判断是否存在重复次数超过第一预设次数的行文本数据。若存在,则执行删除操作,删除重复次数超过第一预设次数的行文本数据。
这一步骤的作用是通过对文本数据进行统计和筛选,去除重复次数超过预设次数的文本数据,从而保证数据的准确性和完整性。这样做可以有效地清洗文本数据,提高数据的质量和可用性。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否包括用于表征解释说明的字符;
若包括用于表征解释说明的字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除包括用于表征解释说明的字符的目标行文本数据。
本实施例描述了一种文本数据清洗方法中关于删除表征解释说明的字符的判断和处理步骤。具体来说,首先需要获取当前轮询的目标行文本数据,针对每个目标行文本数据,需要判断其中是否包括用于表征解释说明的字符。如果目标行文本数据中包括用于表征解释说明的字符,则执行删除操作,将包含这些字符的文本数据进行删除。
其中要删除表征解释说明的字符的原因为:在某些情况下,文本数据中可能包含一些用于解释说明的特殊字符,例如注释符号、标记符号等,这些字符通常不是文本的实际内容,而是用于辅助理解和解释文本的工具,在进行文本数据清洗时,删除这些表征解释说明的字符可以使得清洗后的文本更加干净和整洁,去除了对实际内容没有直接贡献的无关信息。
通过删除表征解释说明的字符,可以提高文本数据的可读性和可理解性,同时也有助于进一步处理和分析清洗后的文本数据。
在一种实施例中,判断当前轮询的目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的目标行文本数据中是否包括用于表征脚注信息的字符;
若包括用于表征脚注信息的字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除包括用于表征脚注信息的字符的目标行文本数据。
在书籍数据中,存在对特定词语进行解释的脚注信息,该部分信息一般存在于当页的下方。该实施例描述了一种文本数据清洗方法中关于判断目标行文本数据中是否包括用于表征脚注信息的字符的步骤。具体来说,针对每个目标行文本数据,需要进行判断,检查其中是否包括用于表征脚注信息的字符。这些字符可能是用于标记脚注、注释或其他类似用途的特殊符号或标记。如果目标行文本数据中包括用于表征脚注信息的字符,需要将这些字符所在的目标行文本数据进行删除操作。
例如,用于表征脚注信息的字符的具体的特征为:以"注:"或者"①②③④⑤⑥⑦⑧⑨⑩"等顺序信息为开头进行标识,该脚注信息可以通过正则表达式的方式进行匹配与替换,正则表达式为:"^\s*注?\s*[::﹕]?\s*[①②③④⑤⑥⑦⑧⑨⑩].*$"。
通过以上步骤,该实施例旨在清洗文本数据时,排除掉用于表征脚注信息的字符,以确保清洗后的文本数据更加干净和整洁,去除了与正文内容无关的注释性信息。这有助于提高文本数据的可读性和准确性,使得清洗后的文本数据更适合进行进一步的处理和分析。
在一种实施例中,判断当前轮询的目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的目标行文本数据中是否包括大括号或中括号或小括号的字符;
若包括大括号或中括号或小括号的字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除大括号或中括号或小括号中的文本数据。
在互联网数据中,【】通常用于对其包裹的文本内容进行强调,或者用【】括号区分文本内容的逻辑关系,【】中的文本内容为有用信息,而【】本身为无用信息,需要予以删除。在中文文本数据中,[]包裹的内容多为参考文献的标识信息,如[1]、[方世玉,1923年],或者为对前序中文词语的解释,此类信息对于大模型训练用数据集而言为无用信息,可予以删除。在互联网收集的文本信息中,小括号中的英文内容多为对前序中文词语的解释,该信息为非必要信息,其留存会干扰大模型的文本生成精度,需予以删除。
因此,该实施例针对每个目标行文本数据,需要进行判断,检查其中是否包括大括号、中括号或小括号这些字符。这些字符通常被用于表征解释说明、注释或其他类似用途。如果目标行文本数据中包括大括号、中括号或小括号这些字符,对这些字符所包含的文本数据进行删除操作,以清除这部分包含解释说明的内容。
例如,删除大括号及其大括号内的内容使用的正则表达式为"【.*?】"。删除中括号及其中括号内的内容使用的正则表达式为"(.*?)([\[〔].*?[\]〕])(.*?)"。删除小括号及其小括号内的内容使用的正则表达式为"[\(﹙(][^\u4e00-\u9fa5]{%s,}?[\)﹚)]"。
通过以上步骤,该实施例旨在清洗文本数据时,排除掉用于表征解释说明的特定字符及其所包含的文本数据,以确保清洗后的文本数据更加干净和整洁,去除了与正文内容无关的解释性信息。这有助于提高文本数据的可读性和准确性,使得清洗后的文本数据更适合进行进一步的处理和分析。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否包括用于表征网址链接的字符;
若包括用于表征网址链接字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除用于表征网址链接的字符。
该实施例中,对当前轮询的目标行文本数据进行判断,是否满足删除条件。具体判断的条件是目标行文本数据中是否包括用于表征网址链接的字符。如果目标行文本数据中包括这样的字符,就要进行删除操作,即删除用于表征网址链接的字符。
本实施例使用正则表达式来去除HTML标签和特殊字符。涉及到正则表达式包括:"[wW\s]{3,5}\.[-A-Za-z0-9+&@#/%?=~_|!:,.;\s]+[-A-Za-z0-9+&@#/%=~_|]"、"(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;\s]+[-A-Za-z0-9+&@#/%=~_|]"。其中,第一个正则表达式用以过滤如"www.baidu.com"格式的网址文本,第二个正文表达式用于过滤如"https://www.alibaba.com"格式的网址文本。
这个实施例在实际应用中具有很高的实用性,因为在文本数据清洗过程中,经常会遇到需要删除网址链接的情况。例如,在爬取网页内容后,文本数据中可能包括各种网址链接,这些链接对于文本分析和挖掘并没有意义,甚至会对后续处理造成干扰。因此,通过判断文本数据中是否包括用于表征网址链接的字符,并进行相应的删除操作,可以有效地清洗文本数据,提高数据分析的准确性和效率。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否包括特殊字符,特殊字符为除中文、英文、数字、预设标点、数学符号和希腊字母之外的其它字符;
若包括特殊字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除特殊字符。
互联网中的文本数据常充斥大量非常用流行字等特殊字符,如火星文"嗳"、"僦"等。该类数据的存在,一方面会降低大模型的训练效率,同时也会影响大模型的文本处理精度,需要予以删除处理。
具体来说,本实施例判断当前轮询的目标行文本数据中是否包括特殊字符,而特殊字符的定义是除中文、英文、数字、预设标点、数学符号和希腊字母之外的其它字符。如果包括特殊字符,则执行删除特殊字符的操作。
本实施例的目的是对文本数据进行清洗,去除非常用流行字等特殊字符,从而提高文本数据的质量和可用性。这样做有利于后续文本处理和分析工作的进行,同时也有利于提高大模型的训练效率和文本处理精度。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在用于表征角标的角标字符,角标字符的特征为在终止标点后、包括括号且括号中为数字信息;
若存在角标字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除角标字符及角标字符之后的文本数据。
在书籍数据中,除了存在于章节末尾或者书籍末尾的参考文献信息外,在添加参考文献的文本后存在类似"[1]"的信息用于标识参考文献标识的问题,类似的信息对于大模型而言属于无用信息,需要进行删除。
因此本实施例提供了一种针对角标字符的处理方式。在实施例中,首先判断当前轮询的目标行文本数据中是否存在用于表征角标的角标字符,其特征为在终止标点后、包括括号且括号中为数字信息。如果存在这样的角标字符,则执行删除操作,删除角标字符及角标字符之后的文本数据。
如可以通过正则表达式的方式进行匹配与替换,正则表达式为:"^(.*?[。!?!?,])(\[.*?\]\s*)(.*?)$"。
通过本实施例的方式可以有效清洗文本数据,去除无关信息,使得文本数据更加干净和规范。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在用于表征页脚的页脚字符,页脚字符的特征为包括预设页码字符或只包括一个页码数字且页码数字的上一行文本数据和下一行文本数据均为中文文本数据;
若存在页脚字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除存在页脚字符的目标行文本数据。
对于书籍数据,每一页的页脚中均带有页码信息,页码信息割裂了上一页文本末尾和下一页文本开始的连贯性,需要予以删除。
因此,本实施例描述了对于目标行文本数据中是否存在用于表征页脚的页脚字符的判断方法,以及如果存在页脚字符的话,执行删除操作的步骤。
具体而言,首先需要检查目标行文本数据中是否存在用于表征页脚的页脚字符。这里指出了页脚字符的特征,即包括预设页码字符或只包括一个页码数字且页码数字的上一行文本数据和下一行文本数据均为中文文本数据。这些特征可以帮助识别出可能用于表征页脚的字符。如果存在符合上述特征的页脚字符,那么根据要求,需要执行删除操作,这意味着删除目标行文本数据中满足删除条件的字符或者删除整个目标行文本数据。这样可以清洗文本数据,去除可能存在的页脚信息,从而使数据更加整洁和规范。
页脚中页码信息具有两个特征:其一,形如"第 33 页"的页码信息(前后面是正常文本、该行的字符小于字符数阈值、用于表征分页的字符);其二、某行只有一个数字,但该数字的上一行与下一行均为正常的中文文本。这两种特征均可以借助正则表达式的方式予以匹配与删除,其中对于第一种特征,正则表达式为"^[\s]*[·]+\s*[第]+\s*[\d\s]{0,8}\s*[页]+\s*[·]+[\s]*$";对于第二种特征,正则表达式为:"^.*[\u4e00-\u9fa5\\\.\?\[\]\^\*\$\(\)\+\{\}\@\-;:!<>《》/_`~、·,﹐﹑。﹒﹔﹕﹖﹗﹙﹚—…‘’“”!'"(),.:;?[]"']\s*\n[\d ]{1,8}\n\s*[\u4e00-\u9fa5].*"。
综上,本实施例提供了一种针对可能存在的页脚信息的处理方式,有助于提高文本数据的质量和可用性。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在用于表征章节题目的章节性字符,章节性字符为预设章节性字符库中的任意一种或预设章节格式的字符;
若存在章节性字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除存在章节性字符的目标行文本数据。
书籍数据中,存在一些并不以章节序号进行标定的内容,如序言、前言等。其中,"序言"、"前言"等字样的存在割裂了文本的连续性,需要进行删除操作。章与章之间、节与节之间以章、节的题目作为分割,题目的存在割裂了文本的连续性,需要进行删除操作。
本实施例中,在当前轮询的目标行文本数据中,判断是否存在用于表征章节题目的章节性字符。这些章节性字符可以是预设章节性字符库中的任意一种。如书籍数据中,存在一些并不以章节序号进行标定的内容,如序言、前言等。其中,"序言"、"前言"等字样的存在割裂了文本的连续性,预设章节性字符库中的字符串可以包括提要、目录、自序、注释、序言、前言、总序、引言、复习、译从、习题、译者序、讨论题、译后记、结束语、总结提要、编辑推荐、补充读物等。
或者判断是否存在符合预设章节格式的字符。如果存在这些章节性字符,就执行删除操作,将这些字符或整个目标行文本数据删除。如章与章之间、节与节之间以章、节的题目作为分割,题目的存在割裂了文本的连续性,章、节题目具有两个特征:其一、形如"第1章模型的概述",以章、回、节、讲作为题目的顺序标识;其二、形如"1.1 模型的概述",以数字排序作为题目的顺序标识。对于上述特征,可以通过正则表达式的形式进行删除,具体对于第一种特征,正则表达式为:"^([\s\d]*?第\s*?[\d\s一二三四五六七八九十]{1,4}\s*?[章节编篇回目卷集部课讲][^\?﹖?!!﹗;、,﹐﹑。,.;]*?[^;、,﹐﹑。,.;])$"。对于第二种特征,正则表达式为:"^([\dA-Za-z]{1,3}[\.\-][\d]{1,3}[\u4e00-\u9fa5a-zA-Z0-9\s]*?[\u4e00-\u9fa5][\u4e00-\u9fa5a-zA-Z0-9\s]+)$"。
综上,本实施例的目的是清洗文本数据中的章节题目,因为在一些文本数据中,章节题目可能会对文本分析和处理造成干扰,通过删除这些章节性字符可以有效地清洗文本数据,使其更适合后续的文本处理和分析操作。这个步骤可以帮助提高文本数据的质量和准确性,从而提升文本处理的效率和结果的可靠性。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在用于表征图片或表格或图片的题目或表格的题目的图表字符,其中图片的题目或表格的题目的字符特征为:图或表为起始字符、起始字符后为字母或数字、所在行文本数据的最后没有标点;
若存在图表字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除存在图表字符的目标行文本数据。
无论是互联网数据,还是书籍数据,文本内容中穿插的图片、表格等信息无法有效的进行留存,而这个图、表的题目却以文本的形式保留在了大模型的训练文本数据中,这些文本数据的存在会影响原本上下文内容的连贯性,需要进行删除操作。
因此,本实施例首先判断当前轮询的目标行文本数据中是否存在用于表征图片或表格的题目的字符。这些图表字符的特征包括:以“图”或“表”作为起始字符,后跟着一个或多个字母或数字,这一整个词组(包括标点符号)后面没有标点符号或特定的标点符号。
如果存在符合这些特征的图表字符,那么就会对目标行文本数据执行删除操作,即删除目标行文本数据中满足删除条件的字符,或者直接删除整个目标行文本数据。
具体而言,采用正则表达式匹配与替换的方式进行此类图标题目的删除,涉及的表达式如下:"^\s*[表图]\s*[A-Za-z0-9]+?\s*?[—\.\-]\s*?[A-Za-z0-9]+?.*[^\?;:!、,﹐﹑。﹕﹖﹗!,.:;?]$"。
这种实施例是为了解决文本数据中可能存在的图片或表格题目对于数据清洗的干扰问题,通过对这些特定字符的识别和删除操作,提高了文本数据清洗的准确性和效率。
在一种实施例中,判断当前轮询的目标行文本数据是否满足删除条件,包括:
判断当前轮询的目标行文本数据中是否存在用于表征参考文献的文献字符;
若存在文献字符,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除存在文献字符的目标行文本数据。
互联网文本数据、书籍数据、期刊数据中常包含大量的参考文献信息(多数出现在一篇文本的末尾,少数出现在文本中部,也即每个章节的末尾处),该部分参考文献信息包括了参考文献的题目、作者、发表时间、涉及页面,该部分内容对于大模型而言为无用信息,需要进行删除处理。
因此,本实施例中针对每个目标行文本数据,需要进行判断,检查其中是否包括用于表征参考文献的特定文献字符。这些文献字符通常用于引用其他文献或提供参考文献信息。如果目标行文本数据中包含了用于表征参考文献的文献字符,需要将整个目标行文本数据进行删除操作,以清除包含参考文献信息的行。
文本中部的参考文献需并进行删除,该部分文本的特征为:1."第"、"页"、"出版"、"年"等字样出现;2.以"注:"、"[注]"、"资料来源"等字样开头。对于特征1,可通过字符对比进行文本的匹配并对参考文献信息进行删除;对于特证2,可通过正则表达式匹配与替换的方式进行删除,对应的正则表达式为:"^\s*[\[〔][注\d\s]+[\]〕].*$"、"^\s*?注[\d\s]*?[::﹕].*$"、"^\s*?资料来源\s*?[::﹕].*$"。
通过以上步骤,该实施例旨在清洗文本数据时,排除掉包含参考文献信息的行,以确保清洗后的文本数据更加干净和整洁。这有助于提高文本数据的质量和可读性,使得清洗后的文本数据更适合进行进一步的处理、分析或展示。
对于文章末尾出现的参考文信息而言,在一种实施例中,判断当前轮询的目标行文本数据中是否存在用于表征参考文献的文献字符之后,还包括:
若存在文献字符,则判断当前轮询的目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据;
若是,则判定满足删除条件;
删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据,包括:
删除目标行文本数据及其之后的所有文本数据。
对于出现在一篇文本末尾中(例如,一篇文本的总行数的80%以及80%以后的文本内容)的"参考文献"、"资料来源"字样以及该字样后的所有内容均进行删除处理。
具体来说,在判断目标行文本数据中是否存在用于表征参考文献的文献字符之后,还判断当前轮询的目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据:这意味着需要确定目标行文本数据在其所在文章中的位置,并计算它与文章总行数的比例。如果目标行文本数据位于文章末尾,并且与总行数的比例达到或超过预设的比例阈值,那么它被认为是参考文献信息,需要将目标行文本数据及其之后的所有文本数据进行删除操作,以清除可能包含参考文献信息的行。
通过以上步骤,该实施例能够在文本数据清洗过程中判断并删除目标行文本数据之后的可能包含参考文献信息的行。这有助于确保清洗后的文本数据不包含参考文献信息,使其更具可读性和适用性。
在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的目标行文本数据中是否存在满足替换条件的字符;
若存在,则使用预设替换字符替换满足替换条件的字符。
具体而言,该实施例描述了一种文本数据清洗方法中关于确定当前轮询的目标行文本数据中是否存在满足替换条件的字符,并进行替换操作的步骤。具体来说,判断当前轮询的目标行文本数据中是否存在满足替换条件的字符,也即需要对目标行文本数据进行扫描和分析,以确定其中是否包含符合预设替换条件的特定字符或字符组合。如果在目标行文本数据中发现了符合替换条件的字符,需要对这些字符进行替换操作。替换操作涉及使用预先设定的替换字符来代替满足替换条件的字符,从而达到清洗文本数据的目的。
通过以上步骤,该实施例能够在文本数据清洗过程中对目标行文本数据中满足替换条件的字符进行替换操作,以消除特定字符可能带来的干扰或错误,并确保清洗后的文本数据符合预期的标准和质量要求。
在一种实施例中,判断当前轮询的目标行文本数据中是否存在满足替换条件的字符,包括:
判断当前轮询的目标行文本数据中是否存在繁体字;
若存在,则判定满足替换条件;
使用预设替换字符替换满足替换条件的字符,包括:
使用与繁体字对应的简体字替换繁体字。
互联网中的中文文本数据以及部分中文古籍是以繁体字的形式进行组织的,而繁体字在书写上的复杂性也意味着繁体文档更难被机器处理和分析,而繁体转简体可以极大地提升机器的处理效率,因此将文本中出现的繁体字全部替换为简体字,该过滤器亦可有效提升大模型的精度和训练效率。
具体而言,对目标行文本数据进行扫描和分析,以确定其中是否包含繁体字。如果在目标行文本数据中发现了繁体字,需要将这些繁体字替换为与之对应的简体字。这样可以实现将繁体字转换为简体字的效果,以符合清洗后文本数据的要求。
通过以上步骤,该实施例能够在文本数据清洗过程中对目标行文本数据中满足替换条件的繁体字进行替换操作,将其转换为对应的简体字,从而消除繁体字可能带来的干扰或错误,并确保清洗后的文本数据与繁体字无关,符合预期的标准和质量要求。
在一种实施例中,还包括:
在删除所有行文本数据中满足预设条件的字符或行文本数据之后,依次轮询文章中的各行文本数据;
确定当前轮询的目标行文本数据是否满足合并条件;
若满足合并条件,则将目标行文本数据与目标行文本数据的下一行本文数据合并。
对于书籍文本数据,一部分来自于对影印书籍进行OCR识别转换,对于这部分数据,一行文本内容并不完整,即对于某段落的每一行的末尾均存在换行符"\n"进行分隔,这无疑会极大的影响大模型的训练以及文本生成精度。
因此,本实施例中,在删除满足预设条件的字符或行文本数据之后,依次轮询文章中的各行文本数据,并确定当前轮询的目标行文本数据是否满足合并条件,若满足则进行合并操作的步骤。
具体来说,首先在对目标行文本数据进行轮询并确定其中是否存在满足预设清洗条件的文本数据后,对满足删除条件的字符或整行文本数据进行删除操作。这一步骤确保了清洗后的文本数据不包含符合删除条件的内容。
在完成删除操作之后,对文章中的各行文本数据进行依次轮询,以便进一步的清洗处理。对每行文本数据进行判断,确定当前轮询的目标行文本数据是否符合预设的合并条件。如果确定目标行文本数据满足合并条件,即两行文本可以合并为一行,则进行合并操作,将目标行文本数据与其下一行文本数据进行合并。
通过以上步骤,该实施例能够在文本数据清洗过程中进行合并操作,以便消除不必要的换行或者将相关内容合并为一行,从而使得清洗后的文本数据更加整洁和易于处理。
在一种实施例中,确定当前轮询的目标行文本数据是否满足合并条件,包括:
确定当前轮询的目标行文本数据的结尾是否存在终止标点;
若不存在终止标点,则判定目标行文本数据满足合并条件。
在一种实施例中,确定当前轮询的目标行文本数据是否满足合并条件的具体实现方式为:确定当前轮询的目标行文本数据的结尾是否存在终止标点。
这是指在清洗文本数据时,会判断每行文本数据的结尾是否存在终止标点,比如句号、问号或感叹号等。如果不存在终止标点,那么会判定目标行文本数据满足合并条件,即可以将目标行文本数据与下一行文本数据合并在一起进行处理,重复进行判断,直至某一行最后一个字符为"?﹖?﹗!!。"等终止标点时,完成多行文本的内容的合并,以确保清洗后的文本数据保持完整的句子结构和语法规范。这样可以有效避免在文本数据清洗过程中产生断句或断句的问题,确保清洗后的文本数据质量和可读性。
在一种实施例中,还包括:
在完成对整篇文章的合并后,依次轮询文章中的各个段落;
判断当前轮询的目标段落是否满足预设段落删除条件;
若满足预设段落删除条件,则删除目标段落。
在这个实施例中,清洗方法首先完成对整篇文章的合并,然后依次轮询文章中的各个段落。对于每个目标段落,会判断当前轮询的目标段落是否满足预设段落删除条件。若满足预设段落删除条件,则会执行删除目标段落的操作。
本实施例扩展了清洗方法的功能,不仅可以清洗行文本数据,还可以针对段落进行清洗。这样,无论是清洗整篇文章,还是针对特定的段落进行清洗,都可以有效地实现文本数据的清洗和处理操作。这种方法可以帮助用户更准确地清洗文本数据,去除不必要的内容,提高文本数据质量,满足用户的具体需求。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
计算目标段落中的中文字符与所有字符的比值;
判断比值是否小于预设比值;
若小于预设比值,则判定目标段落满足预设段落删除条件。
中文文本数据中难免混入非中文文本内容,比如期刊中的大段落的英文摘要,比如译从书籍中所保留的原始外文序言,比如部分书籍中出现的中英对照表,这些大段落的外文数据对于中文语言大模型而言为非必要信息,其存在干扰模型生成文本的精度,需要进行删除处理。
具体地,首先,计算目标段落中的中文字符与所有字符的比值。这个步骤是为了确定目标段落中中文字符的占比是否低于预设比值。通过计算目标段落中中文字符的数量与所有字符数量的比值,可以得出目标段落中中文字符的相对数量,从而评估段落中是否包含足够多的中文内容。
然后,判断比值是否小于预设比值。在这个步骤中,将计算得到的中文字符与所有字符的比值与预设比值进行对比。如果计算得到的比值低于预设比值,就可以判定目标段落满足预设段落删除条件,即段落中包含的中文内容不足,需要进行删除操作。如可以对于中文字符占比少于50%的段落进行删除。
总的来说,本实施例用于确定目标段落是否满足预设段落删除条件。这样的文本数据清洗方法可以帮助对文本数据进行有效清洗和处理,提高文本数据质量和可用性。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
统计目标段落中标点符号的个数;
判断标点符号的个数是否小于第一临界值;
若小于第一临界值,则判定目标段落满足预设段落删除条件。
本实施例中主要针对互联网数据和书籍数据中的一些特殊情况进行删除操作。首先,对于表格信息的处理,表格信息通常以tab制表符进行分隔,对大模型训练来说可能会造成干扰,因此需要将这些表格信息进行删除或清洗操作。其次,在书籍数据中,正文内容开始前往往包含大量关于出版社、版本号、印刷时间等元信息,这些信息对于大模型训练来说并无用处,因此也需要进行删除操作。
这些数据公共的特征为:中文字符间以tab制表符或者空格进行分隔,少见标点符号。具体而言,本实施例给出了预设段落删除条件:首先是统计目标段落中标点符号的个数,判断是否小于第一临界值,如果小于则可以判定目标段落满足删除条件。这个条件的设定是基于标点符号个数较少的段落往往为无用信息的假设。
在一种实施例中,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
对目标段落中的所有字符进行分词处理,并统计分词处理之后的词语个数;
判断词语个数与目标段落的所有字符的比值是否大于第二临界值;
若大于,则判定目标段落满足预设段落删除条件。
对于通用中文文本生成模型而言,其中的文言文内容对于模型训练为异常数据,会干扰模型文本生成的精度,需要进行针对性的删除,文言文数据的删除可借助本实施例中的方法。分词是中文文本处理的基础技术之一,它的作用是将一段中文文本按照词语进行分割,以便于后续的处理和分析。分词的主要作用是将连续的汉字序列分割成有意义的词语序列,以便于后续的处理和分析。对于文言文数据而言,分词操作将会得到非常零散的数据列表,即大部分的分词为单个字;而对于白话文数据,分词操作得到的数据会相对集中,得到的分词大多为连续的词语。
因此,首先对当前轮询的目标段落进行分词处理,并统计分词处理后的词语个数。接下来判断词语个数与目标段落的所有字符的比值是否大于第二临界值。若比值大于第二临界值,则判定此段落为文言文段落,也即目标段落满足预设段落删除条件。
这一步骤的目的是在清洗文本数据时,根据词语个数与字符比值来判断目标段落是否符合预设的删除条件。这样的方法可以帮助筛选出内容不符合文本数据规范的段落,以便进一步的清洗操作。
在一种实施例中,还包括:
在完成对整篇文章的合并后,对同一类型的标点符号统一替换为与该类型对应的标准标点符号。
互联网中的中文文本信息以及书籍中通过OCR识别转换而来的中文文本信息,标点符号的使用方式并未得到统一,句号或有通过"."而非"。"进行表示的情况,问号亦有各种各样的表达形式,如"?﹖?"。种类多样且未进行统一的标点符号势必会影响大模型文本生成的精确度,需要在数据清洗阶段进行针对性的统一。
具体来说,在完成对整篇文章的合并后,对合并后的文本数据进行进一步处理,将同一类型的标点符号进行替换。对每个字符进行判断,确定当前字符是否属于需要替换的标点符号类型。如果确定当前字符属于需要替换的标点符号类型,则将该字符替换为与该类型对应的标准标点符号。
以下为标幺化处理标点符号的几个示例,叹号"﹗!!"均统一为"!",问号"?﹖?"均统一为"?",冒号":﹕"均统一为"﹕",顿号"﹑、"均统一为"、",分号"﹔;;"均统一为";",逗号",,﹐"均统一为",",括号"﹙(("均统一为"("。
通过以上步骤,该实施例能够在文本数据清洗过程中对标点符号进行替换操作,使得清洗后的文本数据更加规范和易于阅读。这有助于统一标点符号的使用风格,并提高文本数据的可读性和一致性。
第二方面,本申请还提供了一种文本数据清洗系统,如图2所示,该系统包括:
获取单元21,用于获取文本数据,文本数据包括若干篇文章,每篇文章包括若干行文本数据;
行轮询单元22,用于轮询各文章中的各行文本数据;
确定单元23,用于确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
清洗单元24,用于在当前轮询的目标行文本数据中存在满足预设清洗条件的文本数据时,对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作,清洗操作包括删除操作、替换操作和合并操作中的任意一种。
在一种实施例中,确定单元23,包括:
删除判断单元,用于判断当前轮询的目标行文本数据是否满足删除条件;
删除单元,用于在满足删除条件时,则删除目标行文本数据中满足删除条件的字符或删除整个目标行文本数据。
在一种实施例中,删除判断单元,具体用于在轮询目标行文本数据时,通过目标行文本数据中的字符判断文章是否存在空行;若存在空行,则判定满足删除条件;
删除单元,具体用于删除空行。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据是否只包括若干个换行符;若只包括若干个换行符,则判定满足删除条件;
删除单元,具体用于删除只包括若干个换行符的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断目标行文本数据的结尾是否包括不止一个换行符;若包括不止一个换行符,则判定满足删除条件;
删除单元,具体用于删除若干个换行符以使目标行文本数据的结尾只有一个换行符。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中预设字符的个数是否超过第一预设个数,预设字符为非中文且非数字的字符;若超过第一预设个数,则判定满足删除条件;
删除单元,具体用于删除预设字符的个数超过第一预设个数的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在满足空格删除条件的空格,其中空格删除条件为:空格前的字符为非英文字符且空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;若存在,则判定满足删除条件;
删除单元,具体用于将满足空格删除条件的空格删除。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括敏感词汇;若包括敏感词汇,则判定满足删除条件;
删除单元,具体用于删除包括敏感词汇的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的目标行文本数据中是否包括敏感词汇;若包括预设敏感词汇数据库中的任意字符串或预设敏感词汇判定模型的输出结果为存在敏感词汇,则判定满足删除条件;
删除单元,具体用于删除包括预设敏感词汇数据库中的任意字符串或预设敏感词汇判定模型的输出结果为存在敏感词汇的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据是否为非中文文本数据;若目标行文本数据为非中文文本数据,则判断目标行文本数据是否为连续多行非中文文本数据中的一行;若目标行文本数据不是连续多行非中文文本数据中的一行,则判定满足删除条件;
删除单元,具体用于对为非中文文本数据且不是连续多行非中文文本数据中的一行的目标行文本数据进行删除。
在一种实施例中,还包括:
统计单元,用于获取文本数据之后,统计每篇文章中各行文本数据的重复次数;
删除判断单元,具体用于判断是否存在重复次数超过第一预设次数的行文本数据;若存在,则判定满足删除条件;
删除单元,具体用于删除重复次数超过第一预设次数的行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括用于表征解释说明的字符;若包括用于表征解释说明的字符,则判定满足删除条件;
删除单元,具体用于删除包括用于表征解释说明的字符目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括用于表征脚注信息的字符;若包括用于表征脚注信息的字符,则判定满足删除条件;
删除单元,具体用于删除包括用于表征脚注信息的字符的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括大括号或中括号或小括号的字符;若包括大括号或中括号或小括号的字符,则判定满足删除条件;
删除单元,具体用于删除大括号或中括号或小括号中的文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括用于表征网址链接的字符;若包括用于表征网址链接字符,则判定满足删除条件;
删除单元,具体用于删除用于表征网址链接的字符。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否包括特殊字符,特殊字符为除中文、英文、数字、预设标点和数学符号、希腊字母之外的其它字符;若包括特殊字符,则判定满足删除条件;
删除单元,具体用于删除特殊字符。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在用于表征角标的角标字符,角标字符的特征为在终止标点后、包括括号且括号中为数字信息;若存在角标字符,则判定满足删除条件;
删除单元,具体用于删除角标字符及角标字符之后的文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在用于表征页脚的页脚字符,页脚字符的特征为包括预设页码字符或只包括一个页码数字且页码数字的上一行文本数据和下一行文本数据均为中文文本数据;若存在页脚字符,则判定满足删除条件;
删除单元,具体用于删除存在用于表征页脚的页脚字符的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在用于表征章节题目的章节性字符,章节性字符为预设章节性字符库中的任意一种或预设章节格式的字符;若存在章节性字符,则判定满足删除条件;
删除单元,具体用于删除存在章节性字符的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在用于表征图片或表格或图片的题目或表格的题目的图表字符,其中图片的题目或表格的题目的字符特征为:图或表为起始字符、起始字符后为字母或数字、所在行文本数据的最后没有标点;若存在图表字符,则判定满足删除条件;
删除单元,具体用于删除存在图表字符的目标行文本数据。
在一种实施例中,删除判断单元,具体用于判断当前轮询的目标行文本数据中是否存在用于表征参考文献的文献字符;若存在文献字符,则判定满足删除条件;
删除单元,具体用于删除存在文献字符的目标行文本数据。
在一种实施例中,还包括:
末尾文献删除单元,用于在判定存在文献字符之后,判断当前轮询的目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据;若是,则删除目标行文本数据及其之后的所有文本数据。
在一种实施例中,确定单元23,包括:
替换单元,用于判断当前轮询的目标行文本数据中是否存在满足替换条件的字符;若存在,则使用预设替换字符替换满足替换条件的字符。
在一种实施例中,替换单元,具体用于判断当前轮询的目标行文本数据中是否存在繁体字;若存在,则使用与繁体字对应的简体字替换繁体字。
在一种实施例中,还包括:
合并轮询单元,用于在删除所有行文本数据中满足预设条件的字符或行文本数据之后,依次轮询文章中的各行文本数据;
合并单元,用于确定当前轮询的目标行文本数据是否满足合并条件;若满足合并条件,则将目标行文本数据与目标行文本数据的下一行本文数据合并。
在一种实施例中,合并单元,具体用于确定当前轮询的目标行文本数据的结尾是否存在终止标点;若不存在终止标点,则判定目标行文本数据满足合并条件。
在一种实施例中,还包括:
段落轮询单元,用于在完成对整篇文章的合并后,依次轮询文章中的各个段落;
段落删除单元,用于判断当前轮询的目标段落是否满足预设段落删除条件;若满足预设段落删除条件,则删除目标段落。
在一种实施例中,段落删除单元,具体用于计算目标段落中的中文字符与所有字符的比值;判断比值是否小于预设比值;若小于预设比值,则判定目标段落满足预设段落删除条件。
在一种实施例中,段落删除单元,具体用于统计目标段落中标点符号的个数;判断标点符号的个数是否小于第一临界值;若小于第一临界值,则判定目标段落满足预设段落删除条件。
在一种实施例中,段落删除单元,具体用于对目标段落中的所有字符进行分词处理,并统计分词处理之后的词语个数;判断词语个数与目标段落的所有字符的比值是否大于第二临界值;若大于,则判定目标段落满足预设段落删除条件。
在一种实施例中,还包括:
标点统一化单元,用于在完成对整篇文章的合并后,对同一类型的标点符号统一替换为与该类型对应的标准标点符号。
对于文本数据清洗系统的介绍请参照上述实施例,本申请在此不再赘述。
第三方面,本申请还提供了一种文本数据清洗装置,如图3所示,该装置包括:
存储器31,用于存储计算机程序;
处理器32,用于在执行计算机程序时,实现上述的文本数据清洗方法的步骤。
对于文本数据清洗装置的介绍请参照上述实施例,本申请在此不再赘述。
第四方面,本申请还提供了一种计算机可读存储介质,如图4所示,该计算机可读存储介质41上存储有计算机程序42,计算机程序42被处理器执行时实现上述的文本数据清洗方法的步骤。对于计算机可读存储介质41的介绍请参照上述实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (35)
1.一种文本数据清洗方法,其特征在于,包括:
获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
轮询各所述文章中的各行文本数据;
确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
若存在,则对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
2.如权利要求1所述的文本数据清洗方法,其特征在于,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作之后,还包括:
将清洗后的文本数据输入至语言训练模型中进行训练学习。
3.如权利要求1所述的文本数据清洗方法,其特征在于,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的所述目标行文本数据是否满足删除条件;
若满足所述删除条件,则删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据。
4.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行;
若存在空行,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述空行。
5.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
判断当前轮询的所述目标行文本数据是否只包括若干个换行符;
若只包括若干个所述换行符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除只包括若干个所述换行符的目标行文本数据。
6.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
判断所述目标行文本数据的结尾是否包括不止一个换行符;
若包括不止一个所述换行符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除若干个所述换行符以使所述目标行文本数据的结尾只有一个所述换行符。
7.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中预设字符的个数是否超过第一预设个数,所述预设字符为非中文且非数字的字符;
若超过所述第一预设个数,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除预设字符的个数超过第一预设个数的目标行文本数据。
8.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在满足空格删除条件的空格,其中所述空格删除条件为:所述空格前的字符为非英文字符且所述空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;
若存在,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
将满足所述空格删除条件的空格删除。
9.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
若包括所述敏感词汇,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括敏感词汇的目标行文本数据。
10.如权利要求9所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
判断当前轮询的所述目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
若包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇的目标行文本数据。
11.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据是否为非中文文本数据;
若所述目标行文本数据为所述非中文文本数据,则判断所述目标行文本数据是否为连续多行非中文文本数据中的一行;
若所述目标行文本数据不是连续多行非中文文本数据中的一行,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
对为所述非中文文本数据且不是连续多行非中文文本数据中的一行的目标行文本数据进行删除。
12.如权利要求3所述的文本数据清洗方法,其特征在于,获取文本数据之后,还包括:
统计每篇所述文章中各行文本数据的重复次数;
判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断是否存在重复次数超过第一预设次数的行文本数据;
若存在,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述重复次数超过所述第一预设次数的行文本数据。
13.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符;
若包括用于表征解释说明的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括用于表征解释说明的字符的目标行文本数据。
14.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征脚注信息的字符;
若包括用于表征所述脚注信息的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除包括用于表征所述脚注信息的字符的目标行文本数据。
15.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
判断当前轮询的所述目标行文本数据中是否包括大括号或中括号或小括号的字符;
若包括大括号或中括号或小括号的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述大括号或所述中括号或所述小括号中的文本数据。
16.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括用于表征网址链接的字符;
若包括用于表征所述网址链接的字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述用于表征网址链接的字符。
17.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否包括特殊字符,所述特殊字符为除中文、英文、数字、预设标点、数学符号和希腊字母之外的其它字符;
若包括所述特殊字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述特殊字符。
18.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征角标的角标字符,所述角标字符的特征为在终止标点后、包括括号且括号中为数字信息;
若存在所述角标字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述角标字符及所述角标字符之后的文本数据。
19.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征页脚的页脚字符,所述页脚字符的特征为包括预设页码字符或只包括一个页码数字且所述页码数字的上一行文本数据和下一行文本数据均为中文文本数据;
若存在所述页脚字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述页脚字符的目标行文本数据。
20.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征章节题目的章节性字符,所述章节性字符为预设章节性字符库中的任意一种或预设章节格式的字符;
若存在所述章节性字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述章节性字符的目标行文本数据。
21.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征图片或表格或图片的题目或表格的题目的图表字符,其中所述图片的题目或所述表格的题目的字符特征为:图或表为起始字符、所述起始字符后为字母或数字、所在行文本数据的最后没有标点;
若存在所述图表字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述图表字符的目标行文本数据。
22.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符;
若存在所述文献字符,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除存在所述文献字符的目标行文本数据。
23.如权利要求22所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符之后,还包括:
若存在所述文献字符,则判断当前轮询的所述目标行文本数据是否为自身对应的文章的总行数的预设比例之后的行文本数据;
若是,则判定满足所述删除条件;
删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
删除所述目标行文本数据及其之后的所有文本数据。
24.如权利要求3所述的文本数据清洗方法,其特征在于,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符;
若存在,则使用预设替换字符替换满足所述替换条件的字符。
25.如权利要求24所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符,包括:
判断当前轮询的所述目标行文本数据中是否存在繁体字;
若存在,则判定满足所述替换条件;
使用预设替换字符替换满足所述替换条件的字符,包括:
使用与所述繁体字对应的简体字替换所述繁体字。
26.如权利要求3-25任一项所述的文本数据清洗方法,其特征在于,还包括:
在删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据之后,依次轮询所述文章中的各行文本数据;
确定当前轮询的所述目标行文本数据是否满足合并条件;
若满足所述合并条件,则将所述目标行文本数据与所述目标行文本数据的下一行本文数据合并。
27.如权利要求26所述的文本数据清洗方法,其特征在于,确定当前轮询的所述目标行文本数据是否满足合并条件,包括:
确定当前轮询的所述目标行文本数据的结尾是否存在终止标点;
若不存在所述终止标点,则判定所述目标行文本数据满足所述合并条件。
28.如权利要求26所述的文本数据清洗方法,其特征在于,还包括:
在完成对整篇文章的合并后,依次轮询所述文章中的各个段落;
判断当前轮询的目标段落是否满足预设段落删除条件;
若满足所述预设段落删除条件,则删除所述目标段落。
29.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
计算所述目标段落中的中文字符与所有字符的比值;
判断所述比值是否小于预设比值;
若小于所述预设比值,则判定所述目标段落满足所述预设段落删除条件。
30.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
统计所述目标段落中标点符号的个数;
判断所述标点符号的个数是否小于第一临界值;
若小于所述第一临界值,则判定所述目标段落满足所述预设段落删除条件。
31.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
对所述目标段落中的所有字符进行分词处理,并统计分词处理之后的词语个数;
判断所述词语个数与所述目标段落的所有字符的比值是否大于第二临界值;
若大于,则判定所述目标段落满足所述预设段落删除条件。
32.如权利要求26所述的文本数据清洗方法,其特征在于,还包括:
在完成对整篇文章的合并后,对同一类型的标点符号统一替换为与所述类型对应的标准标点符号。
33.一种文本数据清洗系统,其特征在于,包括:
获取单元,用于获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
行轮询单元,用于轮询各所述文章中的各行文本数据;
确定单元,用于确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
清洗单元,用于在当前轮询的目标行文本数据中存在满足预设清洗条件的文本数据时,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
34.一种文本数据清洗装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时,实现权利要求1-32任一项所述的文本数据清洗方法的步骤。
35.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-32任一项所述的文本数据清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311610152.9A CN117313676A (zh) | 2023-11-29 | 2023-11-29 | 一种文本数据清洗方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311610152.9A CN117313676A (zh) | 2023-11-29 | 2023-11-29 | 一种文本数据清洗方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117313676A true CN117313676A (zh) | 2023-12-29 |
Family
ID=89260767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311610152.9A Pending CN117313676A (zh) | 2023-11-29 | 2023-11-29 | 一种文本数据清洗方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313676A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767211A (zh) * | 2019-09-23 | 2020-02-07 | 浙江从泰网络科技有限公司 | 一种基于文本内容数据清洗的语音合成播报系统 |
CN111339765A (zh) * | 2020-02-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本质量评估方法、文本推荐方法及装置、介质及设备 |
CN113722416A (zh) * | 2021-08-24 | 2021-11-30 | 苏州浪潮智能科技有限公司 | 一种数据清洗方法、装置、设备及可读存储介质 |
-
2023
- 2023-11-29 CN CN202311610152.9A patent/CN117313676A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767211A (zh) * | 2019-09-23 | 2020-02-07 | 浙江从泰网络科技有限公司 | 一种基于文本内容数据清洗的语音合成播报系统 |
CN111339765A (zh) * | 2020-02-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本质量评估方法、文本推荐方法及装置、介质及设备 |
CN113722416A (zh) * | 2021-08-24 | 2021-11-30 | 苏州浪潮智能科技有限公司 | 一种数据清洗方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7469251B2 (en) | Extraction of information from documents | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
Margaretha et al. | Building linguistic corpora from Wikipedia articles and discussions | |
Alexa et al. | A review of software for text analysis | |
US20130103695A1 (en) | Machine translation detection in web-scraped parallel corpora | |
Hana et al. | Error-tagged learner corpus of Czech | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
WO2009026193A2 (en) | System and method for search | |
CN111797630B (zh) | 一种面向pdf格式论文的生物医学实体识别方法 | |
CN109344355B (zh) | 针对网页变化的自动回归检测与块匹配自适应方法和装置 | |
CN110609983A (zh) | 一种政策文件结构化分解方法 | |
US20150199422A1 (en) | Universal text representation with import/export support for various document formats | |
Cardoso et al. | An efficient language-independent method to extract content from news webpages | |
CN111737623A (zh) | 网页信息提取方法及相关设备 | |
Aumiller et al. | Klexikon: A German dataset for joint summarization and simplification | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN112395851A (zh) | 一种文本比对方法、装置、计算机设备及可读存储介质 | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN111460162A (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
Embley et al. | Notes on contemporary table recognition | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
Kirkup et al. | Towards a digital African flora | |
Darģis et al. | Lessons learned from creating a balanced corpus from online data | |
Nghiem et al. | Using MathML parallel markup corpora for semantic enrichment of mathematical expressions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |