CN112329445A - 乱码判断方法、系统、信息抽取方法及信息抽取系统 - Google Patents
乱码判断方法、系统、信息抽取方法及信息抽取系统 Download PDFInfo
- Publication number
- CN112329445A CN112329445A CN202011304545.3A CN202011304545A CN112329445A CN 112329445 A CN112329445 A CN 112329445A CN 202011304545 A CN202011304545 A CN 202011304545A CN 112329445 A CN112329445 A CN 112329445A
- Authority
- CN
- China
- Prior art keywords
- file
- messy code
- identified
- code
- messy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- PLQDLOBGKJCDSZ-UHFFFAOYSA-N Cypromid Chemical compound C1=C(Cl)C(Cl)=CC=C1NC(=O)C1CC1 PLQDLOBGKJCDSZ-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种乱码判断方法、系统、采用该乱码判断方法的信息抽取方法及系统,其中,该乱码判断方法包括:数据获取步骤,用于获取待识别文件及一乱码词典;数据预处理步骤,用于预先训练一N‑Gram模型并对所述待识别文件进行过滤;乱码统计步骤,用于将所述待识别文件基于所述乱码词典进行对比、统计得到所述待识别文件中的乱码计数值,并利用所述N‑Gram模型对所述待识别文件进行预测,更新所述乱码计数值;乱码判断步骤,用于根据一乱码阈值与所述乱码计数值判断所述待识别文件是否为乱码文件。通过本申请,利用乱码词典和N‑Gram模型相结合来判断待识别文件是否为乱码文件,并进一步用于判断是否进行信息抽取,提高了乱码判断的准确率及效率。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及乱码判断方法、系统、信息抽取方法及信息抽取系统。
背景技术
随着经济的发展和信息基础设施建设的日益完善,互联网在人们日常生活中变的越来越重要,它已经深入到人们生产、生活的各个领域。特别是近几年移动互联网的发展,更是渗透到我们生活的方方面面,不断的改变着我们的生活方式,在衣,食,住,行各个方面都发挥着重要影响。伴随而来的是海量的文件,这些海量的文件正是通过互联网进行生成、传播、交换、存储和访问,进入世界各地人们的日常生活中。
自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的语言模型,它是今天所有自然语言处理的基础,并且广泛应用与机器翻译、语音识别等场景中。简单来说,语言模型就是用来计算一个句子概率的模型,也是判断一句话是否合理的概率模型。
在互联网带来的海量文件中,可用信息资源得到了极大的丰富。人们迫切需要从海量的非结构化文件中通过实体识别或别的信息抽取技术获得有用信息。这就需要确定该数据是不是乱码,如果数据不是乱码,就可以进行编码判断与转换、语言判断、实体识别、关系提取、标签抽取、事件抽取等操作,以此来获得有用信息,并对信息进行分析。如果数据是乱码,则进行编码判断与转换、语言判断、实体识别等操作时,就无法进行下去,或者返回不可预知的结果。因为,文件的乱码判断在信息抽取和自然语言处理领域具有重要的作用。
现存乱码判断方法是通过收集特殊字符,用特殊字符进行对比,从而确定文件是不是乱码。但是这种方法存在两个问题,一是,如果特殊字符不能覆盖所有的文件乱码字符,会造成误判;二是,如果文件过大,逐个字符对比耗时会比较长,造成性能问题。
发明内容
本申请实施例提供了一种乱码判断方法、系统、采用该乱码判断方法的信息抽取方法及系统、计算机设备和计算机可读存储介质,本申请实施例利用乱码词典和N-Gram模型相结合来判断待识别文件是否为乱码文件,并进一步用于判断是否进行信息抽取,提高了乱码判断的准确率及效率,为信息抽取提供便利。
第一方面,本申请实施例提供了一种乱码判断方法,包括:
数据获取步骤,用于获取待识别文件及一乱码词典,其中,所述乱码词典用于存储乱码符号;
数据预处理步骤,用于预先训练一N-Gram模型并对所述待识别文件进行过滤;
乱码统计步骤,用于将所述待识别文件基于所述乱码词典进行对比、统计得到所述待识别文件中的乱码计数值,并利用所述N-Gram模型对所述待识别文件进行预测,更新所述乱码计数值;
乱码判断步骤,用于根据一乱码阈值与所述乱码计数值判断所述待识别文件是否为乱码文件。
通过上述步骤,把利用乱码字符字典判断乱码的方法和利用N-Gram判断乱码的方法相结合,有效提高对文本进行乱码判断的准确率。
在其中一些实施例中,考虑到对大文件进行乱码统计判断时会占用较多内存,且耗时较久,因此,为了进一步提高文件乱码识别效率,减小对内存需求,本方法还包括:
文件大小判断步骤,用于根据一判断阈值根据所述待识别文件的大小判断所述待识别文件是否为大文件;
大文件抽样步骤,用于当所述待识别文件判断为大文件,则将所述待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经所述乱码统计步骤进行乱码统计。
在其中一些实施例中,所述大文件抽样步骤进一步包括:
文件切分步骤,用于计算所述待识别文件的总长度并根据所述从长度将所述文件进行切分,得到切分后的多个子文件数据;
文件抽取步骤,用于设置一抽取长度,根据所述抽取长度分别在多个所述子文件数据中进行数据抽取,得到抽取后的所述样本文件。
第二方面,本申请实施例提供了一种乱码判断系统,包括:
数据获取模块,用于获取待识别文件及一乱码词典,其中,所述乱码词典用于存储乱码符号;
数据预处理模块,用于预先训练一N-Gram模型并对所述待识别文件进行过滤;
乱码统计模块,用于将所述待识别文件基于所述乱码词典进行对比、统计得到所述待识别文件中的乱码计数值,并利用所述N-Gram模型对所述待识别文件进行预测,更新所述乱码计数值;
乱码判断模块,用于根据一乱码阈值与所述乱码计数值判断所述待识别文件是否为乱码文件。
通过上述模块,把乱码字符字典判断乱码方法和N-Gram判断乱码方法相结合,有效提高对文本进行乱码判断的准确率。
在其中一些实施例中,考虑到对大文件进行乱码统计判断时会占用较多内存,且系统耗时较久,为了进一步提高文件乱码识别效率,减小对内存需求,本系统还包括:
文件大小判断模块,用于根据一判断阈值根据所述待识别文件的大小判断所述待识别文件是否为大文件;
大文件抽样模块,用于当所述待识别文件判断为大文件,则将所述待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经所述乱码统计模块进行乱码统计。
在其中一些实施例中,所述大文件抽样模块进一步包括:
文件切分模块,用于计算所述待识别文件的总长度并根据所述从长度将所述文件进行切分,得到切分后的多个子文件数据;
文件抽取模块,用于设置一抽取长度,根据所述抽取长度分别在多个所述子文件数据中进行数据抽取,得到抽取后的所述样本文件。
第三方面,本申请实施例提供了一种信息抽取方法,包括:
目标数据获取步骤,用于获取多个待抽取文件;
乱码判断步骤,用于基于如上述第一方面所述的乱码判断方法判断每一所述待抽取文件是否为乱码文件,得到所述多个待抽取文件中的乱码文件及非乱码文件;
信息抽取步骤,用于对所述非乱码文件进行信息分析、信息抽取。
通过上述步骤,采用上述乱码判断方法对文件是否为乱码文件进行判断,为在海量非结构化文件中通过信息收取获取有用信息提供了便利。
第四方面,本申请实施例提供了一种信息抽取系统,包括:
目标数据获取模块,用于获取多个待抽取文件;
乱码判断模块,用于基于如上述第一方面所述的乱码判断方法判断每一所述待抽取文件是否为乱码文件,得到所述多个待抽取文件中的乱码文件及非乱码文件;
信息抽取模块,用于对所述非乱码文件进行信息分析、信息抽取。
通过上述模块,采用上述乱码判断方法对文件是否为乱码文件进行判断,为在海量非结构化文件中通过信息收取获取有用信息提供了便利。
第五方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的乱码判断方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的乱码判断方法。
相比于相关技术,本申请实施例提供的乱码判断方法、系统、采用该乱码判断方法的信息抽取方法及系统、计算机设备和计算机可读存储介质,有效的把乱码字符字典判断乱码方法和N-Gram判断乱码方法相结合,并且对大文件进行切分抽样判断,可以有效的对文本进行乱码判断,提高判断的准确率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的乱码判断方法的流程示意图;
图2是根据本申请实施例的乱码判断方法的另一流程示意图;
图3是根据本申请实施例的乱码判断方法的分步骤流程示意图;
图4是根据本申请实施例的乱码判断系统的结构框图;
图5是根据本申请实施例的乱码判断系统的另一结构框图;
图6是根据本申请实施例的信息抽取方法的流程示意图;
图7是根据本申请实施例的信息抽取系统的结构框图。
附图说明:
10、数据获取模块;13、数据预处理模块;14、文件大小判断模块;15、大文件抽样模块;151、文件切分模块;152、文件抽取模块;16、乱码统计模块;19、乱码判断模块;21、目标数据获取模块;22、乱码判断模块;23、信息抽取模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种乱码判断方法。图1是根据本申请实施例的乱码判断方法的流程示意图,如图1所示,该流程包括如下步骤:
数据获取步骤S10,用于获取待识别文件及一乱码词典,其中,乱码词典用于存储乱码符号;
数据预处理步骤S13,用于预先训练一N-Gram模型并对待识别文件进行过滤;
乱码统计步骤S16,用于将待识别文件基于乱码词典进行对比、统计得到待识别文件中的乱码计数值,并利用N-Gram模型对待识别文件进行预测,更新乱码计数值;
乱码判断步骤S19,用于根据一乱码阈值与乱码计数值判断待识别文件是否为乱码文件。
通过上述步骤,把乱码字符字典判断乱码方法和N-Gram判断乱码方法相结合,有效提高对文本进行乱码判断的准确率。
考虑到对大文件进行乱码统计判断时会占用较多内存,且耗时较久,因此,为了进一步提高文件乱码识别效率,减小对内存需求,本实施例还提供了一种乱码判断方法。图2-3是根据本申请实施例的另一种乱码判断方法的流程示意图,如图2-3所示,该流程与上述乱码判断方法的相同之处不在赘述,两者的区别在于,本实施例的方法还包括如下步骤:
文件大小判断步骤S14,用于根据一判断阈值根据待识别文件的大小判断待识别文件是否为大文件;
大文件抽样步骤S15,用于当待识别文件判断为大文件,则将待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经乱码统计步骤进行乱码统计。
在其中一些实施例中,大文件抽样步骤S15进一步包括:
文件切分步骤S151,用于计算待识别文件的总长度并根据从长度将文件进行切分,得到切分后的多个子文件数据;
文件抽取步骤S152,用于设置一抽取长度,根据抽取长度分别在多个子文件数据中进行数据抽取,得到抽取后的样本文件。
下面通过优选实施例对本申请实施例进行描述和说明。
首先,通过数据获取步骤S10获取待识别文件及一乱码词典进行数据准备,其中,乱码字符字典包含各种各样的乱码字符,具体的,乱码是指显示的毫无意义的字符,如:
然后,执行数据预处理步骤S13预先训练N-Gram模型并对待识别文件进行过滤;具体的,N-Gram语言模型表达式如下:
,其中,T用于表示句子,w1w2w3,...,wm用于表示句子中的m个词序列,n为阶数参数。
本申请实施例利用人民日报为训练语料,以N作为N-gram模型中的阶数参数。此时设n等于3,当n=3时,是一个三元模型(trigram mdel),公式(1)即为:
,并基于最大似然估计方法估计条件概率,其表达式为:
p(wn|w1,w2,...,wn-1)=(C(w1,w2,...,wn))/(C(w1,w2,...,wn-1))(3)
,其中,C(w1,w2,...,wn)是序列w1,w2,...,wn在语料中出现的次数,C(w1,w2,...,wn-1)是序列w1,w2,...,wn-1在语料中出现的次数。
则本实施例的分子为words[i:i+n],分母为words[i:i+n-1],words为人民日报语料的每一行字符,分子中i的范围为[0,lenStr-n+1)。具体的,分母中i的范围为[0,lenStr-n+2),lenStr等于每一行字符的长度。然后统计分子词频词典和分母词频词典,由于假设的三元模型主要预测的是最后一个字,所以前两个字已知的情况下求第三个字的出现概率,如果最后一个字出现的概率非常小,或预测不出来,则判定前两个字为乱码。这样,N-Gram预测乱码模型已经训练完成。
由于读取的文本,可能包含一些网址或者图片的链接信息,例如html标签、style标签等,这些在自然语言处理中特别是语言识别中是无效的信息,有可能还会成为干扰信息,所以需要过滤掉。本实施例对待识别文件中html标签、style标签及图片img标签通过正则表达式匹配方式过滤,具体表达式如下:
“正则表达式匹配html标签:String regxHtml="<([^>]*)>";
正则表达式匹配style标签:
StringregxStyle=”<[\s]*?(script|style)[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?(script|style)[\s]*?>”
正则表达式匹配img标签:String regxpImg="<\\s*img\\s+([^>]*)\\s*>"”。
完成上述步骤后,执行步骤S14根据一判断阈值根据待识别文件的大小判断待识别文件是否为大文件,具体的,根据文件字符数量进行判断。若是小文件,则进行步骤S16;若是大文件则经步骤S15进行数据抽取后再进行乱码统计。
步骤S15具体包括:计算待识别文件的总长度SumLength,根据总长度把文件分为三个部分SumLength/3,这三个部分分别是:文件的头部,文件三分之一位置处,文件三分之二位置处。进行文件抽取时,设置固定的长度,分别从上述三个部分再加上从文件结尾处进行抽样,具体的,读取固定长度的字符数,如此得到抽取后的样本文件作为待识别文件。
步骤S16具体包括:读取待识别文件的每一个字符与乱码词典里的每一个字符进行对比,读取的字符如果在乱码词典里,则乱码计数值加1。并且用N-Gram模型对待识别文件进行预测,如果预测为乱码,则乱码计数值加1。
最后,根据步骤S16得到的乱码计数值进行判断。在本实施例中,对步骤S14判断的大文件、小文件分别设置乱码阈值,具体的,设置小文件的乱码阈值为minFileMaxValue,设置大文件的乱码阈值为maxFileMaxValue。如果小文件的乱码计数值大于等于minFileMaxValue,则判断此小文件为乱码文件;如果大文件的乱码计数值大于等于maxFileMaxValue,则判断此大文件为乱码文件。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种乱码判断系统。图4是根据本申请实施例的乱码判断系统的结构框图。如图4所示,该乱码判断系统包括:数据获取模块10、数据预处理模块13、乱码统计模块16及乱码判断模块19。本领域技术人员可以理解,图1中示出的乱码判断系统结构并不构成对乱码判断系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对乱码判断系统的各个构成部件进行具体的介绍:
数据获取模块10,用于获取待识别文件及一乱码词典,其中,乱码词典用于存储乱码符号;
数据预处理模块13,用于预先训练一N-Gram模型并对待识别文件进行过滤;
乱码统计模块16,用于将待识别文件基于乱码词典进行对比、统计得到待识别文件中的乱码计数值,并利用N-Gram模型对待识别文件进行预测,更新乱码计数值;
乱码判断模块19,用于根据一乱码阈值与乱码计数值判断待识别文件是否为乱码文件。
通过上述模块,把乱码字符字典判断乱码方法和N-Gram判断乱码方法相结合,有效提高对文本进行乱码判断的准确率。
图5是根据本申请实施例的乱码判断系统的另一结构框图,参考图5所示,该乱码判断系统包括图4所示的所有模块,此外还包括:
文件大小判断模块14,用于根据一判断阈值根据待识别文件的大小判断待识别文件是否为大文件;
大文件抽样模块15,用于当待识别文件判断为大文件,则将待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经乱码统计模块进行乱码统计。
在其中一些实施例中,大文件抽样模块15进一步包括:
文件切分模块151,用于计算待识别文件的总长度并根据从长度将文件进行切分,得到切分后的多个子文件数据;
文件抽取模块152,用于设置一抽取长度,根据抽取长度分别在多个子文件数据中进行数据抽取,得到抽取后的样本文件。
通过上述模块,进一步提高文件乱码识别效率,减小对内存需求。
本实施例提供了一种信息抽取方法。图6是根据本申请实施例的信息抽取方法的流程示意图,如图6所示,该流程包括如下步骤:
目标数据获取步骤S21,用于获取多个待抽取文件;
乱码判断步骤S22,用于基于如上述实施例乱码判断方法判断每一待抽取文件是否为乱码文件,得到多个待抽取文件中的乱码文件及非乱码文件;
信息抽取步骤S23,用于对非乱码文件进行信息分析、信息抽取。
通过上述步骤,采用上述乱码判断方法对文件是否为乱码文件进行判断,为在海量非结构化文件中通过信息收取获取有用信息提供了便利。
本实施例还提供了一种信息抽取系统,该系统用于实现上述信息抽取方法,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本申请实施例的信息抽取系统的结构框图,如图7所示,该系统包括图7所示的所有模块,此外还包括:
目标数据获取模块21,用于获取多个待抽取文件;
乱码判断模块22,用于基于如上述实施例的乱码判断方法判断每一待抽取文件是否为乱码文件,得到多个待抽取文件中的乱码文件及非乱码文件;
信息抽取模块23,用于对非乱码文件进行信息分析、信息抽取。
通过上述模块,采用上述乱码判断方法对文件是否为乱码文件进行判断,为在海量非结构化文件中通过信息收取获取有用信息提供了便利。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1-3描述的本申请实施例乱码判断方法可以由计算机设备来实现,该计算机设备设备可以包括处理器以及存储有计算机程序指令的存储器。
具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种乱码判断方法。
另外,结合上述实施例中的乱码判断方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种乱码判断方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种乱码判断方法,其特征在于,包括:
数据获取步骤,用于获取待识别文件及一乱码词典;
数据预处理步骤,用于预先训练一N-Gram模型并对所述待识别文件进行过滤;
乱码统计步骤,用于将所述待识别文件基于所述乱码词典进行对比、统计得到所述待识别文件中的乱码计数值,并利用所述N-Gram模型对所述待识别文件进行预测,更新所述乱码计数值;
乱码判断步骤,用于根据一乱码阈值与所述乱码计数值判断所述待识别文件是否为乱码文件。
2.根据权利要求1所述的乱码判断方法,其特征在于,还包括:
文件大小判断步骤,用于根据一判断阈值根据所述待识别文件的大小判断所述待识别文件是否为大文件;
大文件抽样步骤,用于当所述待识别文件判断为大文件,则将所述待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经所述乱码统计步骤进行乱码统计。
3.根据权利要求2所述的乱码判断方法,其特征在于,所述大文件抽样步骤进一步包括:
文件切分步骤,用于计算所述待识别文件的总长度并根据所述从长度将所述文件进行切分,得到切分后的多个子文件数据;
文件抽取步骤,用于设置一抽取长度,根据所述抽取长度分别在多个所述子文件数据中进行数据抽取,得到抽取后的所述样本文件。
4.一种乱码判断系统,其特征在于,包括:
数据获取模块,用于获取待识别文件及一乱码词典;
数据预处理模块,用于预先训练一N-Gram模型并对所述待识别文件进行过滤;
乱码统计模块,用于将所述待识别文件基于所述乱码词典进行对比、统计得到所述待识别文件中的乱码计数值,并利用所述N-Gram模型对所述待识别文件进行预测,更新所述乱码计数值;
乱码判断模块,用于根据一乱码阈值与所述乱码计数值判断所述待识别文件是否为乱码文件。
5.根据权利要求4所述的乱码判断系统,其特征在于,还包括:
文件大小判断模块,用于根据一判断阈值根据所述待识别文件的大小判断所述待识别文件是否为大文件;
大文件抽样模块,用于当所述待识别文件判断为大文件,则将所述待识别文件进行切分抽样后,将抽样得到的样本文件作为待识别文件经所述乱码统计模块进行乱码统计。
6.根据权利要求5所述的乱码判断系统,其特征在于,所述大文件抽样模块进一步包括:
文件切分模块,用于计算所述待识别文件的总长度并根据所述从长度将所述文件进行切分,得到切分后的多个子文件数据;
文件抽取模块,用于设置一抽取长度,根据所述抽取长度分别在多个所述子文件数据中进行数据抽取,得到抽取后的所述样本文件。
7.一种信息抽取方法,其特征在于,包括:
目标数据获取步骤,用于获取多个待抽取文件;
乱码判断步骤,用于基于如权利要求1至3中任一项所述的乱码判断方法判断每一所述待抽取文件是否为乱码文件,得到所述多个待抽取文件中的乱码文件及非乱码文件;
信息抽取步骤,用于对所述非乱码文件进行信息分析、信息抽取。
8.一种信息抽取系统,其特征在于,包括:
目标数据获取模块,用于获取多个待抽取文件;
乱码判断模块,用于基于如权利要求1至3中任一项所述的乱码判断方法判断每一所述待抽取文件是否为乱码文件,得到所述多个待抽取文件中的乱码文件及非乱码文件;
信息抽取模块,用于对所述非乱码文件进行信息分析、信息抽取。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的乱码判断方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3中任一项所述的乱码判断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011304545.3A CN112329445A (zh) | 2020-11-19 | 2020-11-19 | 乱码判断方法、系统、信息抽取方法及信息抽取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011304545.3A CN112329445A (zh) | 2020-11-19 | 2020-11-19 | 乱码判断方法、系统、信息抽取方法及信息抽取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329445A true CN112329445A (zh) | 2021-02-05 |
Family
ID=74321632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011304545.3A Pending CN112329445A (zh) | 2020-11-19 | 2020-11-19 | 乱码判断方法、系统、信息抽取方法及信息抽取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329445A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114629707A (zh) * | 2022-03-16 | 2022-06-14 | 深信服科技股份有限公司 | 一种乱码检测方法、装置及电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11167574A (ja) * | 1997-12-04 | 1999-06-22 | Oki Electric Ind Co Ltd | 自然言語処理装置 |
CN1924866A (zh) * | 2006-09-28 | 2007-03-07 | 北京理工大学 | 基于统计特征的网页恶意脚本检测方法 |
US20080181504A1 (en) * | 2007-01-31 | 2008-07-31 | International Business Machines Corporation | Apparatus, method, and program for detecting garbled characters |
CN103593463A (zh) * | 2013-11-26 | 2014-02-19 | 蓝盾信息安全技术股份有限公司 | 一种判断html网页为非文本类型的方法 |
CN108427762A (zh) * | 2018-03-21 | 2018-08-21 | 北京理工大学 | 利用随机游走的自编码文档表示方法 |
CN108985289A (zh) * | 2018-07-18 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 乱码检测方法及装置 |
CN111339768A (zh) * | 2020-02-27 | 2020-06-26 | 携程旅游网络技术(上海)有限公司 | 敏感文本检测方法、系统、电子设备及介质 |
-
2020
- 2020-11-19 CN CN202011304545.3A patent/CN112329445A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11167574A (ja) * | 1997-12-04 | 1999-06-22 | Oki Electric Ind Co Ltd | 自然言語処理装置 |
CN1924866A (zh) * | 2006-09-28 | 2007-03-07 | 北京理工大学 | 基于统计特征的网页恶意脚本检测方法 |
US20080181504A1 (en) * | 2007-01-31 | 2008-07-31 | International Business Machines Corporation | Apparatus, method, and program for detecting garbled characters |
CN103593463A (zh) * | 2013-11-26 | 2014-02-19 | 蓝盾信息安全技术股份有限公司 | 一种判断html网页为非文本类型的方法 |
CN108427762A (zh) * | 2018-03-21 | 2018-08-21 | 北京理工大学 | 利用随机游走的自编码文档表示方法 |
CN108985289A (zh) * | 2018-07-18 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 乱码检测方法及装置 |
CN111339768A (zh) * | 2020-02-27 | 2020-06-26 | 携程旅游网络技术(上海)有限公司 | 敏感文本检测方法、系统、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
张昊;陶然;李志勇;杜华;: "判断矩阵法在网页恶意脚本检测中的应用", 兵工学报, no. 04, pages 88 - 92 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114629707A (zh) * | 2022-03-16 | 2022-06-14 | 深信服科技股份有限公司 | 一种乱码检测方法、装置及电子设备和存储介质 |
CN114629707B (zh) * | 2022-03-16 | 2024-05-24 | 深信服科技股份有限公司 | 一种乱码检测方法、装置及电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
CN109635296B (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
CN111460153B (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN112612761B (zh) | 一种数据清洗方法、装置、设备及存储介质 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN112329445A (zh) | 乱码判断方法、系统、信息抽取方法及信息抽取系统 | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
CN112784572A (zh) | 一种营销场景话术分析方法和系统 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN115169345A (zh) | 文本情感分析模型的训练方法、装置、设备及存储介质 | |
CN113869057A (zh) | 文本数据增强方法、系统和计算机设备和存储介质 | |
CN114996472A (zh) | 一种基于关系抽取模型的样本优化方法及系统 | |
CN113255334A (zh) | 一种计算字向量方法、系统、电子设备及存储介质 | |
CN113569704A (zh) | 分割点判断方法、系统、存储介质及电子设备 | |
CN111488432A (zh) | 基于用户评论的情感分析方法、设备、存储介质 | |
CN113821661B (zh) | 图像检索方法、系统、存储介质及电子设备 | |
CN113204955A (zh) | 文本信息抽取框架、方法、计算机设备和存储介质 | |
CN112560457B (zh) | 基于非监督的文本去噪方法、系统、电子设备及存储介质 | |
CN113177117B (zh) | 新闻素材的采集方法及装置、存储介质、电子装置 | |
CN116127236B (zh) | 基于并行结构的网页web组件识别方法及装置 | |
CN115659969B (zh) | 文档标注方法、装置、电子设备及存储介质 | |
CN113919350A (zh) | 一种实体识别方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |