CN117350283A - 文本缺陷检测方法、装置、设备和存储介质 - Google Patents
文本缺陷检测方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117350283A CN117350283A CN202311318926.0A CN202311318926A CN117350283A CN 117350283 A CN117350283 A CN 117350283A CN 202311318926 A CN202311318926 A CN 202311318926A CN 117350283 A CN117350283 A CN 117350283A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- text data
- target
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 84
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 67
- 238000012545 processing Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了文本缺陷检测方法、装置、设备和存储介质,属于缺陷检测技术领域,其方法包括:获取原始文本数据,并对所述原始文本数据进行预处理;对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息;基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。解决了背景技术中在大量文本数据中,识别文本中拼写错误、语法错误、用词不当的问题。
Description
技术领域
本发明涉及缺陷检测技术领域,特别涉及文本缺陷检测方法、装置、设备和存储介质。
背景技术
目前,在计算机科学与技术领域,文本缺陷检测是自然语言处理的重要任务之一,在大量文本数据中,可能存在拼写错误、语法错误、用词不当等问题,这些问题极大地影响了文本数据的质量,文本缺陷检测的主要目的是自动识别和纠正文本中的错误,为文本数据处理提供便利。
因此,本发明提出文本缺陷检测方法、装置、设备和存储介质。
发明内容
本发明提供文本缺陷检测方法、装置、设备和存储介质,通过获取原始文本数据,并对原始文本数据进行预处理,对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征和属性信息,基于文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估,基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈,解决了背景技术中在大量文本数据中,识别文本中拼写错误、语法错误、用词不当的问题。
本发明提出一种文本缺陷检测方法,该方法包括:
步骤1:获取原始文本数据,并对所述原始文本数据进行预处理;
步骤2:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息;
步骤3:基于所述文本数据的特征及属性信息训练神经网络模型,并对训
练后的神经网络模型进行模型评估;
步骤4:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
优选的,获取原始文本数据,并对所述原始文本数据进行预处理,包括:
利用爬虫工具从指定网站上抓取需要的原始文本数据;
利用预处理工具对所述原始文本数据进行数据清洗、合并和数据转换。
优选的,获取原始文本数据,并对所述原始文本数据进行预处理之后,还包括:
检查所述目标文本数据的完整性;
检查完毕后,将完整目标文本以句子为单位,获取完整目标文本组成语句的多个第一分词集合;
对第一分词集合进行过滤,获取第二分词集合;
将所述多个第二分词集合按照组成语句的序列进行排序陈列,获得目标分词列表。
优选的,对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息,包括:
采用分词算法对预处理后的原始文本数据进行分词处理;
基于所述分词处理获取文本数据中的关键词和短语;
基于所述关键词和短语对原始文本数据进行词法分析,根据分析结果获取文本数据的特征;
根据实体识别方法对原始文本数据进行实体识别,获取文本中的实体;
基于所述文本中的实体提取文本数据中的属性信息。
优选的,基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估,包括:
使用深度学习框架构建神经网络模型;
将所述文本数据的特征及属性信息输入到神经网络模型中,训练神经网络模型;
获取训练后的神经网络模型的准确率和召回率;
基于所述准确率和召回率对所述神经网络模型进行模型评估。
优选的,基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈,包括:
基于评估后的模型对目标文本数据进行文本缺陷检测,获取文本缺陷类型和程度;
基于所述缺陷类型和程度确定缺陷反馈方法;
基于所述缺陷反馈方法将检测结果进行反馈。
优选的,在检查所述目标文本数据的完整性后,还包括:
将完整目标文本输入到任务栏中以构建缓冲任务;
将所述缓冲任务送入到数据包缓冲区中以进行数据预读取;
根据预读取结果确认数据包缓冲区对应的网络节点的工作进度;
根据所述网络节点的工作进度为缓冲任务设定预缓存区间以及为预缓存区间设置预缓存值;
根据所述预缓存值在多个预设处理线程中选择目标预设处理线程对所述目标文本数据进行预缓冲处理;
实时采集目标预设处理线程的处理数据,对所述处理数据进行分析以确定其中的未缓冲数据;
根据所述完整目标文本对应的数据资源构建预设信息表项;
确定各项子数据在预设信息表中的数据帧序列信息;
确定所述未缓冲数据对应的目标子数据,获取目标子数据的序列断点信息;
确定目标子数据的序列断点信息是否为完整目标文本中的中间数据帧,若是,判断完整目标文本中存在乱序数据;
对完整目标文本进行逻辑性检查,根据检查结果对乱序数据进行修正和调整处理,获取处理后的目标文本;
将处理后的目标文本作为分词检查参考数据。
优选的,一种文本缺陷检测装置,包括:
获取模块:获取原始文本数据,并对所述原始文本数据进行预处理;
提取模块:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本中的属性信息;
评估模块:基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;
反馈模块:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
一种文本缺陷检测设备,包括存储器和处理器,所述存储器存储有文本缺陷检测程序,所述文本缺陷检测程序被所述处理器执行时,使得所述处理器执行任一项所述方法的步骤。
一种文本缺陷检测存储介质,存储有文本缺陷检测程序,所述文本缺陷检测程序被处理器执行时,使得所述处理器执行任一项所述方法的步骤。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中文本缺陷检测方法的流程图;
图2为本发明实施例中文本缺陷检测装置的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供一种文本缺陷检测方法,如图1所示,该方法包括:
步骤1:获取原始文本数据,并对所述原始文本数据进行预处理;
步骤2:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息;
步骤3:基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;
步骤4:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
该实施例中,原始文本数据是指未经任何处理或转换的原始文本信息,它们可能来自于各种来源,如文本文件、新闻稿、小说。
该实施例中,预处理是指对原始数据进行清洗、转换和集成的操作。
该实施例中,词法分析是指对词汇进行拆分和解析,例如将一个短语拆分成其组成部分的词汇,获取关键词和短语,利用关键词和短语的分析结果来理解文本的含义和内容。
该实施例中,实体识别是指识别出文本中的人物、地点、组织实体。
该实施例中,文本数据的特征包括:文本长度、文本格式、文本内容、 文本质量、文本来源。
该实施例中,属性信息比如是文本长度是长还是短。
该实施例中,神经网络模型神经网络模型是指一类模仿生物神经网络的计算模型,它主要通过多层神经元组成网络,每层神经元中都包括文本数据的一种特征或属性。
该实施例中,模型评估是衡量模型性能的过程,通常包括对模型进行测试或训练,常用的模型评估指标包括精度、召回率、精确率。
该实施例中,文本缺陷检测是指识别和修复文本中的拼写、语法、标点等错误。
上述技术方案的有益效果是:通过对原始文本数据进行预处理,能够提高数据的质量和可靠性,进一步的,对预处理后的原始文本数据进行特征提取和获取文本属性信息,基于文本数据的特征及属性信息训练神经网络模型并进行模型评估,利用评估后的模型对文本数据进行缺陷检测,能够自动识别和纠正文本中的错误,为文本数据处理提供便利。
实施例2:
本发明提供一种文本缺陷检测方法,获取原始文本数据,并对所述原始文本数据进行预处理,包括:
利用爬虫工具从指定网站上抓取需要的原始文本数据;
利用预处理工具对所述原始文本数据进行数据清洗、合并和数据转换。
该实施例中,爬虫工具是一种用于从网站上抓取数据的软件工具,通常用于获取网页数据或者提取文本数据,比如: Python 爬虫工、Ruby爬虫工具、 Java爬虫工具。
该实施例中,原始文本数据是指未经任何处理或转换的原始文本信息,它们可能来自于各种来源,如文本文件、新闻稿、小说。
该实施例中,数据清洗是指在数据收集、存储或传输过程中,对数据进行去重、去噪声、去格式化、填充缺失值等操作,以提高数据质量,以便于后续的数据分析和应用。
该实施例中,数据合并是指将两个或多个数据集合并为一个数据集的过程,并且根据合并后的数据集创建新的数据集。
该实施例中,数据转换是指将一种数据类型转换为另一种数据类型,数据转换涉及到数据格式的转换、数据类型的转换、数值范围的转换,比如:将 Excel 中的数值转换为Python 中的整数。
上述技术方案的有益效果是:通过爬虫工具获取原始文本数据,并利用预处理工具对原始文本数据进行预处理,能够消除数据集中的重复数据,提高文本数据的数据质量,以便于进行有效的数据分析和挖掘。
实施例3:
本发明提供一种文本缺陷检测方法,获取原始文本数据,并对所述原始文本数据进行预处理之后,还包括:
检查所述目标文本数据的完整性;
检查完毕后,将完整目标文本以句子为单位,获取完整目标文本组成语句的多个第一分词集合;
对第一分词集合进行过滤,获取第二分词集合;
将所述多个第二分词集合按照组成语句的序列进行排序陈列,获得目标分词列表。
该实施例中,对第一分词集合进行过滤,获取第二分词集合,包括:
获取每个语句对应的每个第一分词集合的特征因子;
利用所述每个语句对应的每个第一分词集合的特征因子计算出每个语句对于其对应的每个第一分词集合的特征因子的依赖度:
;其中,/>表示为第i个语句对于第i个语句内第q个第一分词集合的特征因子的依赖度,/>表示为第i个语句内第q个第一分词集合的特征因子对于第i个语句的目标标签属性的参数的模糊相似度,/>表示为第i个语句内第q个第一分词集合与第i个语句的目标标签属性的目标关联度,/>表示为第i个语句内第q个第一分词集合的特征因子的知识扩展系数,/>表示为语句内容评分函数,/>表示为第i个段落内重要度大于等于第一预设阈值的文本内容的丰富度,/>表示为第i个段落内重要度小于所述第一预设阈值的文本内容的丰富度;
筛选出每个语句对于其对应的每个第一分词集合的特征因子的依赖度中依赖度大于等于第一预设阈值的组成第二分词集合。
该实施例中,特征因子则是指在分词的过程中,需要考虑哪些因素来确定一个词语是否应该被划分出来,比如:
词汇的词性:对于一个词语来说,需要考虑它的词性是名词、动词还是形容词等。
词汇的词义:需要考虑词汇的含义是否与上下文相关。
词汇的位置:需要考虑词汇在句子中的位置是否合理,是否符合语法规则等。
词汇的相似性:需要考虑词汇之间的相似性,即是否有相似的词汇可以代替它。
该实施例中,依赖度是指语句对第一分词的依赖程度,若删除某一分词,对句意无影响,那么就证明语句对这个分词的依赖度为0。
该实施例中,文本数据的完整性指的是在存储、传输和使用文本数据时,确保数据的正确性、准确性和一致性,例如,文本数据可能存在拼写错误、语法错误、标点符号使用错误等问题,这些问题都会导致数据的准确性下降。
该实施例中,第一分词集合是指将一段文本分割成一个个单独的词汇,并且去除掉中间的标点符号,比如:
基于空格的分词集合:将文本中的每个单词用空格分隔,然后将空格去掉,得到一个分词结果,例如,文本 “我喜欢的颜色是红色” 经过空格分词之后,得到分词结果 "我喜欢 的颜色 是 红色 "。
基于词性的分词集合:根据词汇的词性(如名词、动词、形容词等),将文本分割成一个个单独的词汇,例如,文本 “他去了学校” 经过词性分词之后,得到分词结果 "他 去了 学校 "。
该实施例中,第二分词集合是指删除重复出现的分词以后的集合。
该实施例中,获得目标分词列表的目的是为了在特定场景下对文本进行分词,以便于后续进行更深入的处理,分词是将一段文本分解成一个个单独的词汇,从而使得文本更易于处理和管理,自然语言处理中,分词是实现词法分析、句法分析等关键步骤的基础。
上述技术方案的有益效果是:通过将文本完整目标文本以句子为单位,获取完整目标文本组成语句的多个第一分词集合,进行唯一性检查,将重复出现的分词删除,获取第二分词集合,并按照组成语句的序列进行排序陈列获得目标分词列表,可以快速地找到文本中的词汇,进而提取出有用的信息,为后续的文本处理提供便利。
实施例4:
本发明提供一种文本缺陷检测方法,对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息,包括:
采用分词算法对预处理后的原始文本数据进行分词处理;
基于所述分词处理获取文本数据中的关键词和短语;
基于所述关键词和短语对原始文本数据进行词法分析,根据分析结果获取文本数据的特征;
根据实体识别方法对原始文本数据进行实体识别,获取文本中的实体;
基于所述文本中的实体提取文本数据中的属性信息。
该实施例中,分词算法通常包括两个主要步骤:分词和词性标注。分词是将文本分解为一个个单独的词汇,而词性标注则是给这些词汇分配一个或多个词性标签,以便于后续的语言处理任务,常用的分词算法有基于规则的分词、基于统计的分词和基于深度学习的分词。
该实施例中,词法分析用于分析语句或文本中每个句子或词汇的语法结构,包括句子的成分、句子之间的关系、词汇的属性。
该实施例中,文本数据的特征包括:文本长度、文本格式、文本内容、 文本质量、文本来源。
该实施例中,文本中的实体通常是指在文本中具有一定意义和语法关系的词或短语,可以是人名、地名、组织机构名、产品名。
该实施例中,属性信息比如是文本长度是长还是短。
上述技术方案的有益效果是:通过分词算法对原始文本数据进行分词处理,获取文本数据中的关键词和短语,基于关键词和短语对文本进行词法分析,以便进一步进行文本分析、信息抽取、情感分析的任务,进一步的,提取文本数据特征和提取文本数据的属性信息,能够深入了解文本数据的特征,方便对文本数据进行缺陷检测。
实施例5:
本发明提供一种文本缺陷检测方法,基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估,包括:
使用深度学习框架构建神经网络模型;
将所述文本数据的特征及属性信息输入到神经网络模型中,训练神经网络模型;
获取训练后的神经网络模型的准确率和召回率;
基于所述准确率和召回率对所述神经网络模型进行模型评估。
该实施例中,深度学习框架是一种用于构建、训练和部署深度学习模型的软件库。
该实施例中,神经网络模型的准确率是指在测试集上对神经网络进行预测时,正确的预测结果所占的比例,比如共要预测100个,预测正确的是50个,那么准确率就是50%。
该实施例中,神经网络模型的召回率是指在预测正样本时,实际正样本的比例。
上述技术方案的有益效果是:通过将文本数据特征和属性信息输入到构建的神经网络模型中,获取训练后的神经网络模型的准确率和召回率,根据准确率和召回率对模型进行模型评估,能够确定模型的性能。
实施例6:
本发明提供一种文本缺陷检测方法,基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈,包括:
基于评估后的模型对目标文本数据进行文本缺陷检测,获取文本缺陷类型和程度;
基于所述缺陷类型和程度确定缺陷反馈方法;
基于所述缺陷反馈方法将检测结果进行反馈。
该实施例中,文本缺陷类型包括:
语法错误,比如单词拼写错误、语法结构混乱等。
语言表达不清,比如词汇选用不当、句子结构混乱等。
逻辑错误,比如错误的前提条件、错误的推理等。
信息缺失,比如缺少必要的信息、信息量不足等。
模糊不清,比如用词不当、语调不合适等。
该实施例中,文本缺陷程度取决于缺陷的类型和影响程度,包括:
非常严重,指文本中存在严重的语法错误、逻辑错误或信息缺失等,导致理解困难或误解。
严重,指文本中存在多个语法错误、逻辑错误或信息缺失等,导致理解困难或误解。
一般,指文本中存在一些语法错误、逻辑错误或信息缺失等,但还能理解。
较轻,指文本中存在一些语法错误、逻辑错误或信息缺失等,但理解并不困难。
该实施例中,缺陷反馈方法是指将发现的文本缺陷信息进行反馈,比如:邮件反馈、不同颜色重点标记。
上述技术方案的有益效果是:通过评估后的模型对目标文本数据进行文本缺陷检测确定其缺陷类型和程度。以此来确定缺陷反馈方法,并利用缺陷反馈方法将文本缺陷检测结果进行反馈,能够观察文本缺陷的缺陷程度,方便对缺陷进行及时修改,保证文本的完整性。
实施例7:
本发明提供一种文本缺陷检测方法,所述目标文本数据的完整性后,还包括:
将完整目标文本输入到任务栏中以构建缓冲任务;
将所述缓冲任务送入到数据包缓冲区中以进行数据预读取;
根据预读取结果确认数据包缓冲区对应的网络节点的工作进度;
根据所述网络节点的工作进度为缓冲任务设定预缓存区间以及为预缓存区间设置预缓存值;
根据所述预缓存值在多个预设处理线程中选择目标预设处理线程对所述目标文本数据进行预缓冲处理;
实时采集目标预设处理线程的处理数据,对所述处理数据进行分析以确定其中的未缓冲数据;
根据所述完整目标文本对应的数据资源构建预设信息表项;
确定各项子数据在预设信息表中的数据帧序列信息;
确定所述未缓冲数据对应的目标子数据,获取目标子数据的序列断点信息;
确定目标子数据的序列断点信息是否为完整目标文本中的中间数据帧,若是,判断完整目标文本中存在乱序数据;
对完整目标文本进行逻辑性检查,根据检查结果对乱序数据进行修正和调整处理,获取处理后的目标文本;
将处理后的目标文本作为分词检查参考数据。
该实施例中,任务栏是指为了存储临时性数据或结果,可以使用计算机系统中的任务栏进行管理。
该实施例中,缓冲任务是指在软件或系统中,由于数据处理过程中可能会产生的临时性延迟或不确定性,导致某些任务被暂时搁置或缓存起来,等待某个关键时间或条件满足时再进行处理。
该实施例中,数据预读取是指在处理大量数据时,为了提高数据处理效率,提前读取部分数据并存储在内存中,以便在后续处理时直接使用,从而避免重复读取数据。
该实施例中,网络节点是指在计算机网络中,连接多个设备的网络接口。
该实施例中,网络节点的工作进度是根据预读取结果确定,预读取速度越快,说明工作进度快,预读取速度越慢,说明工作进度慢。
该实施例中,预缓存区间可以包括:
预缓存策略:确定预缓存数据的策略,如基于时间、基于内容或基于频率的缓存策略。
预缓存存储位置:选择合适的预缓存存储位置,如内存、磁盘或网络缓存。
预缓存容量:确定缓存区间的容量大小。
该实施例中,预缓存值是指比如,某个预缓存区间的存储量不能超过10个缓存任务,且具体的确定过程如下:
解析预读取结果的读取格式类型以及每个读取格式类型下的读取集合,其中,每个读取集合中包含同个读取格式类型下不同单独读取段的读取量;
从每个读取集合中提取最大读取量以及第二大读取量,并对提取的读取结果进行标准化处理,从结果-因子映射表中匹配每个读取集合的调节因子;
根据所有调节因子且结合工作进度以及预缓存区间,确定预缓存值;
;其中,C1表示预缓存值;C0表示基于所述工作进度以及预缓存区间确定的初始缓存值;/>表示所有调节因子中的最大调节系数;/>表示m01读取集合下的第j01个读取集合所对应所有调节因子的平均调节系数;表示系数阈值;[ ]表示取整符号;n01表示读取集合中只存在一个调节因子的集合数量;n02表示读取集合中存在2个及以上调节因子的集合数量;n03表示存在与n02下的每个读取集合中的所有因子数量的平均数量。
该实施例中,读取格式类型指的是在读取过程中因为数据包缓冲区中会存在不同类型的数据,所以在读取的过程中会存在不同读取格式类型,因为,不同数据类型下的不同数据可能是随机排布的,所以在读取的时候同个类型可能会存在多个单独排序的情况,每个单独排序的情况视为一个单独读取段,进而将该单独读取段中的数据的量视为读取量。
该实施例中,结果-因子映射表中包含不同类型的读取集合下的标准化读取结果与读取结果所匹配的调节因子在内,且调节因子主要是为了对进度进行修正,方便直接匹配,也就是每个读取集合下的调节因子的数量至少为1个。
该实施例中,处理线程是指允许程序在同时执行多个任务。
该实施例中,未缓冲数据是指在计算机的内存中,还没有被暂存的数据。
该实施例中,预设信息表项是指在计算机中,预先设置好的信息表项,包括用户输入的文本、图像、声音等信息,以及计算过程中需要使用的变量、函数调用等信息。
该实施例中,数据帧序列信息是指在计算机网络协议中,数据帧的顺序信息。数据帧序列信息是指数据帧的顺序、时序、分组编号等信息,这些信息用于保证数据帧的传输顺序和质量。
该实施例中,序列断点信息通常是指在计算机网络协议中,用于标识数据帧的序列位置的信息。这些信息用于确定数据帧的起始位置和结束位置,以确保数据帧的传输过程中不会出现丢包、重传等问题
该实施例中,中间数据帧是指数据帧在文本数据的中间位置。
该实施例中,乱序数据指数据中的顺序关系不按照通常的逻辑顺序出现,可能存在丢失、插入、删除、重复和错误的数据。
该实施例中,分词检查参考数据是指在确定文本完整性后,利用分词算法对文本数据进行分词后,利用分词检查参考数据对分词后的文本进行判断是否存在乱序数据,并进行调整。
上述技术方案的有益效果是:通过将完整目标文本输入,构建缓冲任务,将缓冲任务预读取数据,确认网络节点进度,预设预缓存区间与值,根据所述预缓存值在多个预设处理线程中选择目标预设处理线程对所述目标文本数据进行预缓冲处理,实时分析未缓冲数据,构建信息表项,确定目标子数据的序列断点信息,判断目标子数据是否为中间数据帧,若是,则判断目标文本中存在乱序数据,对目标文本乱序数据进行修正,能够保证数据的逻辑性合理,进一步的,将处理后的目标文本作为分词检查参考数据,能够保证分词后的数据有参考数据,确保分词后的数据不存在逻辑问题。
实施例8:
本发明提供一种文本缺陷检测装置,如图2所示,包括:
获取模块:获取原始文本数据,并对所述原始文本数据进行预处理;
提取模块:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本中的属性信息;
评估模块:基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;
反馈模块:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
上述技术方案的有益效果是:通过对原始文本数据进行预处理,能够提高
数据的质量和可靠性,进一步的,对预处理后的原始文本数据进行特征提取和获取文本属性信息,基于文本数据的特征及属性信息训练神经网络模型并进行模型评估,利用评估后的模型对文本数据进行缺陷检测,能够自动识别和纠正文本中的错误,为文本数据处理提供便利。
本发明提供一种文本缺陷检测设备,包括存储器和处理器,所述存储器存储有文本缺陷检测程序,所述文本缺陷检测程序被所述处理器执行时,使得所述处理器执行任一项所述方法的步骤。
本发明提供一种文本缺陷检测存储介质,存储有文本缺陷检测程序,所述文本缺陷检测程序被处理器执行时,使得所述处理器执行任一项所述方法的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本缺陷检测方法,其特征在于,该方法包括:
步骤1:获取原始文本数据,并对所述原始文本数据进行预处理;
步骤2:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息;
步骤3:基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;
步骤4:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
2.根据权利要求1所述的一种文本缺陷检测方法,其特征在于,获取原始文本数据,并对所述原始文本数据进行预处理,包括:
利用爬虫工具从指定网站上抓取需要的原始文本数据;
利用预处理工具对所述原始文本数据进行数据清洗、合并和数据转换。
3.根据权利要求1所述抽取文本中实体属性信息的方法,其特征在于,获取原始文本数据,并对所述原始文本数据进行预处理之后,还包括:
检查所述目标文本数据的完整性;
检查完毕后,将完整目标文本以句子为单位,获取完整目标文本组成语句的多个第一分词集合;
对第一分词集合进行过滤,获取第二分词集合;
将所述多个第二分词集合按照组成语句的序列进行排序陈列,获得目标分词列表。
4.根据权利要求1所述的一种文本缺陷检测方法,其特征在于,对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本数据中的属性信息,包括:
采用分词算法对预处理后的原始文本数据进行分词处理;
基于所述分词处理获取文本数据中的关键词和短语;
基于所述关键词和短语对原始文本数据进行词法分析,根据分析结果获取文本数据的特征;
根据实体识别方法对原始文本数据进行实体识别,获取文本中的实体;
基于所述文本中的实体提取文本数据中的属性信息。
5.根据权利要求1所述的一种文本缺陷检测方法,其特征在于,基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估,包括:
使用深度学习框架构建神经网络模型;
将所述文本数据的特征及属性信息输入到神经网络模型中,训练神经网络模型;
获取训练后的神经网络模型的准确率和召回率;
基于所述准确率和召回率对所述神经网络模型进行模型评估。
6.根据权利要求1所述的一种文本缺陷检测方法,其特征在于,基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈,包括:
基于评估后的模型对目标文本数据进行文本缺陷检测,获取文本缺陷类型和程度;
基于所述缺陷类型和程度确定缺陷反馈方法;
基于所述缺陷反馈方法将检测结果进行反馈。
7.根据权利要求3所述的一种文本缺陷检测方法,其特征在于,在检查所述目标文本数据的完整性后,还包括:
将完整目标文本输入到任务栏中以构建缓冲任务;
将所述缓冲任务送入到数据包缓冲区中以进行数据预读取;
根据预读取结果确认数据包缓冲区对应的网络节点的工作进度;
根据所述网络节点的工作进度为缓冲任务设定预缓存区间以及为预缓存区间设置预缓存值;
根据所述预缓存值在多个预设处理线程中选择目标预设处理线程对所述目标文本数据进行预缓冲处理;
实时采集目标预设处理线程的处理数据,对所述处理数据进行分析以确定其中的未缓冲数据;
根据所述完整目标文本对应的数据资源构建预设信息表项;
确定各项子数据在预设信息表中的数据帧序列信息;
确定所述未缓冲数据对应的目标子数据,获取目标子数据的序列断点信息;
确定目标子数据的序列断点信息是否为完整目标文本中的中间数据帧,若是,判断完整目标文本中存在乱序数据;
对完整目标文本进行逻辑性检查,根据检查结果对乱序数据进行修正和调整处理,获取处理后的目标文本;
将处理后的目标文本作为分词检查参考数据。
8.一种文本缺陷检测装置,其特征在于,包括:
获取模块:获取原始文本数据,并对所述原始文本数据进行预处理;
提取模块:对预处理后的原始文本数据进行词法分析和实体识别,获取文本数据的特征,并提取文本中的属性信息;
评估模块:基于所述文本数据的特征及属性信息训练神经网络模型,并对训练后的神经网络模型进行模型评估;
反馈模块:基于评估后的模型对目标文本数据进行文本缺陷检测,并将检测结果进行反馈。
9.一种文本缺陷检测设备,包括存储器和处理器,其特征在于,所述存储器存储有文本缺陷检测程序,所述文本缺陷检测程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种文本缺陷检测存储介质,存储有文本缺陷检测程序,其特征在于,所述文本缺陷检测程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311318926.0A CN117350283A (zh) | 2023-10-11 | 2023-10-11 | 文本缺陷检测方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311318926.0A CN117350283A (zh) | 2023-10-11 | 2023-10-11 | 文本缺陷检测方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117350283A true CN117350283A (zh) | 2024-01-05 |
Family
ID=89355363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311318926.0A Pending CN117350283A (zh) | 2023-10-11 | 2023-10-11 | 文本缺陷检测方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117350283A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111226222A (zh) * | 2017-08-03 | 2020-06-02 | 语冠信息技术(上海)有限公司 | 使用人工神经网络的基于深度上下文的语法错误校正 |
CN112183094A (zh) * | 2020-11-03 | 2021-01-05 | 北京信息科技大学 | 一种基于多元文本特征的中文语法查错方法及系统 |
CN112613321A (zh) * | 2020-12-17 | 2021-04-06 | 南京数动信息科技有限公司 | 一种抽取文本中实体属性信息的方法及系统 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112949288A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于字符序列的文本检错方法 |
CN113705207A (zh) * | 2021-03-16 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语法错误识别方法及装置 |
CN113992609A (zh) * | 2021-09-23 | 2022-01-28 | 北京连山科技股份有限公司 | 一种处理多链路业务数据乱序的方法及系统 |
-
2023
- 2023-10-11 CN CN202311318926.0A patent/CN117350283A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111226222A (zh) * | 2017-08-03 | 2020-06-02 | 语冠信息技术(上海)有限公司 | 使用人工神经网络的基于深度上下文的语法错误校正 |
CN112949288A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于字符序列的文本检错方法 |
CN112183094A (zh) * | 2020-11-03 | 2021-01-05 | 北京信息科技大学 | 一种基于多元文本特征的中文语法查错方法及系统 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112613321A (zh) * | 2020-12-17 | 2021-04-06 | 南京数动信息科技有限公司 | 一种抽取文本中实体属性信息的方法及系统 |
CN113705207A (zh) * | 2021-03-16 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语法错误识别方法及装置 |
CN113992609A (zh) * | 2021-09-23 | 2022-01-28 | 北京连山科技股份有限公司 | 一种处理多链路业务数据乱序的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491389B (zh) | 点击诱饵标题语料识别模型训练方法和装置 | |
US11914963B2 (en) | Systems and methods for determining and using semantic relatedness to classify segments of text | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111180025A (zh) | 表示病历文本向量的方法、装置及问诊系统 | |
CN111078839A (zh) | 一种用于裁判文书的结构化处理方法及处理装置 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN112181490A (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
CN115798661A (zh) | 临床医学领域的知识挖掘方法和装置 | |
CN115658905A (zh) | 一种跨篇章的事件多维画像生成方法 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN116629238A (zh) | 文本增强质量评估方法、电子设备、存储介质 | |
CN117350283A (zh) | 文本缺陷检测方法、装置、设备和存储介质 | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
WO2010038481A1 (ja) | 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置 | |
US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
CN112686055B (zh) | 语义识别方法、装置、电子设备和存储介质 | |
CN111858894B (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |