CN110196968A - 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法 - Google Patents

一种基于特定字符串查找的简体中文编码方式自动识别系统及方法 Download PDF

Info

Publication number
CN110196968A
CN110196968A CN201910488932.8A CN201910488932A CN110196968A CN 110196968 A CN110196968 A CN 110196968A CN 201910488932 A CN201910488932 A CN 201910488932A CN 110196968 A CN110196968 A CN 110196968A
Authority
CN
China
Prior art keywords
character
string
coding
utf8
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910488932.8A
Other languages
English (en)
Other versions
CN110196968B (zh
Inventor
蒋东辰
贾婉华
牛颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Forestry University
Original Assignee
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Forestry University filed Critical Beijing Forestry University
Priority to CN201910488932.8A priority Critical patent/CN110196968B/zh
Publication of CN110196968A publication Critical patent/CN110196968A/zh
Application granted granted Critical
Publication of CN110196968B publication Critical patent/CN110196968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。

Description

一种基于特定字符串查找的简体中文编码方式自动识别系统 及方法
技术领域
本发明涉及网络通信、信息检索、中文信息处理等相关技术领域,特别涉及浏览器、爬虫等网页获取工具对简体中文编码网页编码方式的自动识别系统及方法。
技术背景
随着互联网技术和大数据处理能力的高速发展,万维网(World Wide Web)已经成为世界上最大的文本资料库。如何有效地提取万维网上的信息已经成为当前的一个新的研究方向,其内容涉及高速的收集、处理和提取网页文本信息。
人们在使用浏览器浏览网页或者利用爬虫自动提取信息时,首先需要利用程序对网页文件源码进行编码解析。对于内容为中文的网页而言,常用的简体中文编码包括GBK、UTF-8、GB2312、GB18030等。其中,GBK、GB2312等常用简体中文编码方式与GB18030编码是兼容的,而UTF8编码与GB18030等编码方式存在差异。同样的网页数据、不同的解码会导致显示内容的差异,甚至会出现乱码现象。因此,只有正确解码才能有效地识别网页文本中的中文信息,为后续的内容处理提供正确的文本解读。
一般地,网页HTML文本的编码方式会在<head>标签内部的<meta>标签中的charset字段标识。浏览器或爬虫只要找到<meta>标签中的charset字段就可自动识别HTML文本的编码方式。这种识别方法要求网页生成程序或网页内容书写者准确的标注中文网页文本的编码方式。然而,随着网页的制作手段多样化、网站申请和发布愈加灵活,许多可公开访问的网页在页面代码编写方面并不完善,许多中文网页并未包含charset字段甚至不含<meta>标签。这使得基于网页标签的中文编码识别变得困难。为此,浏览器等相关软件开发者尝试不同的方法自动识别中文网页的编码方式,以实现中文文本的正确解析。
常用的中文编码识别方法大致可分为以下几类:
基于编码特征提取的识别方法。由于各类中文编码在中文字符长度等数字特征方面存在差异,基于编码特征提取的识别方法通过统计文本中连续的中文字符串长度、单个汉字的平均编码长度等数字特征识别网页的编码方式。这类方法对具有较长文本的纯中文网页十分有效。但对于中英文混合文本,该方法会受到英文字符编码的干扰,准确率下降;对于短文本的中文网页,该方法则会因为样本数量不足而难以准确识别。
基于字频统计的识别方法。该类方法通过统计文本中常用汉字、词语的数量来区分网页文本编码方式。该类方法的基本假设如下:如果按照某种编码方式的中文字符出现多,则文本以该方式编码的可能性大。基于频率统计识别方法十分有效,但是其计算和存储开销都较大、效率不高。同时,如果常用汉字选择不恰当,还会导致错位编码的现象出现,进而降低识别的准确率。
中文编码特征和频率统计方法的结合。这类方法结合了上述两类方法的优势,能够准确识别中文文本的编码方式。该类方法一般会首先根据文本的字符序列的数字特征识别编码方式,如果无法识别,再采用分词、频率统计等方法辅助识别编码方式。由于该类方法综合了多种方法的优势,其准确率和适用度得到显著地提升。但也正因为其尝试组合了多种方法,计算效率相对较低。
发明内容
本发明技术解决问题:针对现有中文编码方法识别技术上的不足,提供一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
本发明技术解决方案:一种基于特定字符串查找的简体中文编码方式自动识别系统,包括:字符串集合设置模块及中文文本编码识别模块,其中:
字符串集合设置模块:用于设置GB18030和UTF8的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合;根据中文字符的字频分布,从频率最高的中文字符开始,按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符;然后,根据这些中文字符的GB18030编码和UTF8编码,分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字;最后基于上述字符的前超字、后超字、前超子字、后超子字、前子字和后子字与GB18030编码、UTF8编码的对应关系,得到设置的GB18030编码和UTF8编码的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合;
中文文本编码识别模块:根据GB18030和UTF8的排他字符串集合以及GB18030编码和UTF8编码的高概率字符串集合,确定目标文本的中文编码方式;如果目标文本为网页文本,首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式;如果在目标文本中不存在该字段或目标文本为非网页的中文文本,则根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别网页文本的简体中文编码方式;如果仍然不能确定,再根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式;如果仍然不能识别,最后再调用其他现有识别方法(如基于编码特征提取的识别方法或基于字频统计的识别方法)最终获得目标文本的中文编码方式。
所述字符串集合设置模块中,根据中文字符的字频分布,从频率最高的中文字符开始,按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符具体实现步骤如下:
(1)对具有大量中文字符的文本做字频统计,计算各个中文字符,包括中文汉字或中文标点出现的频率,并用P(C)表示中文字符C的字频;
(2)将所有的中文字符按照字频排序,按字频由高到低顺序从中选出频率最高的前k个中文字符C1,...,Ck,使概率满足该不等式表示:在各字符出现独立假设下,n个中文字符中至少出现C1,...,Ck中一个字符的概率不小于0.95,该条件确保了本发明对大多数短文本也有效,其中n取15~20;
(3)令S={C1,...,Ck},将S作为备用字符集合。
所述字符串集合设置模块中,分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字,具体如下:
(1)对于中文字符C,GB18030(C)表示C的GB18030编码二进制字符串,UTF8(C)表示C的UTF8编码二进制字符串;
(2)对于二进制字符串S,C_GB18030(S)表示GB18030编码为S的原始字符(ACSII字符、中文符号,以及其他由GB18030编码的符号),C_UTF8(S)表示UTF8编码为S的原始字符,由UTF8编码的多种国际字符;所述原始字符包括:ACSII字符、中文符号以及其他由GB18030编码的符号;
(3)对于常用中文字符C,如果GB18030(C)=B1B2,B1和B2都是二进制字节,确定C_UTF8(~B1B2)和C_UTF8(B1B2~)分别为C的前超字和后超字,其中~表示一个或多个字节;确定C_UTF8(~B1)为C的前超子字,C_UTF8(B2~)为C的后超子字;
(4)对于中文字符C,如果UTF8(C)=B1B2B3,B1、B2、B3都是二进制字节,确定C_GB18030(B1B2)为C的前子字;C_GB18030(B2B3)为C的后子字。
所述字符串集合设置模块中,得到设置的GB18030编码和UTF8编码的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合过程为:从备用字符集合S中,按照字频P(Ci)从高到低的顺序依次取出中文字符Ci,并按判别规则确定Ci是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合,其中,所述排他字符串指的是该字符串只可能出现在这种编码方式的文本中,其在逻辑上具有排他性;所述高概率字符串指的是该字符串能以较高(所述较高是指按照中文字符出现频率从高到低排列,频率排序位于前k的字符,其中k满足公式该不等式表示:在各字符出现独立假设下,n个中文字符中至少出现C1,...,Ck中一个字符的概率不小于0.95,该条件确保了本发明对大多数短文本也有效,其中n取15~20)的概率出现在这种编码方式的文本中,而在其他编码方式的文本中出现的概率极低(极低是指低于其在这种编码方式中出现频率的N分之一,其中N是大于1的一个倍率,取20~1000间的整数)。
所述判别规则确定Ci是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合的步骤如下:
(1)如果Ci的前超字、后超字和前超子字或后超子字全都不存在或不是汉字,则将字符串GB18030(Ci)加入GB18030的排他字符串集合G;
(2)如果Ci的前子字和后子字都不存在,将字符串UTF8(Ci)加入UTF8的排他字符串集合U;
(3)如果Ci的前超字和后超字的字频都小于P(Ci)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(Ci)/N,将字符串GB18030(Ci)加入GB18030的高概率字符串集合GP,其中N是大于1的一个倍率。本发明实际使用中取20~1000间的整数;
(4)如果Ci的前子字和后子字在中文中出现的字频都小于P(Ci)/N,将字符串UTF8(Ci)加入UTF8的高概率编码字符串集合UP,其中N是大于1的一个倍率。本发明实际使用中取20~1000间的整数。
所述中文文本的编码识别模块中,如果目标文本为网页文本,首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式,其实现方法方法如下:在网页head标签范围内的所有<meta>标签内,查找“charset=”字符串:如果找到,则该<meta>标签内,查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串,包括与这些字符串对应的小写字符串,并将找到的某一目标字符串作为该网页文本的编码方式;否则,不能由charset相关字符串查找的方法确定网页文本的编码方式。
所述编码识别模块中,根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别目标文本的简体中文编码方式,实现步骤如下:
(1)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str,并在目标文本中查找该字符串,str视为一个字符串变量,在每轮操作中,其存储着不同的字符串;如果在文本中找到str,则确定该中文文本的编码方式为GB18030;否则,继续从G中选取下一个字符串并在文本中查找;如果G中的所有字符串都不在目标文本中出现,则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式;
(2)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str,并在目标文本中查找该字符串:如果在文本中找到str,则确定网页文本的编码方式为UTF8;否则,继续从U中选取下一个字符串并在文本中查找;如果U中的所有字符串都不在该文本中出现,则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式。
所述中文文本的编码识别模块中,根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式,实现步骤如下:
(1)统计目标文本的字节长度ByteLength,设置阈值NA和字频倍率B(本发明取NA=3,B=10000);
(2)按照对应中文字符字频由高到底的顺序,从UTF8编码的高概率字符串集合UP中逐个取出字符串str,在网页文本中统计该字符串str出现次数UTF8_Count;如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值,则确定目标文本的编码方式为UTF8,其中3为常用中文在UTF8编码中的字节长度;如果UP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式;
(3)按照对应中文字符字频由高到底的顺序,从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str,在网页文本中统计这些字符串出现次数GB18030_Count;如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值,则确定目标文本的编码方式为GB18030,其中2为常用中文在GB18030编码中的字节长度;如果GP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式。
本发明的一种基于特定字符串查找的简体中文编码方式自动识别方法,包括以下步骤:
(1)对具有大量中文字符的文本做字频统计,计算各个中文字符,包括中文汉字或中文标点出现的频率,并用P(C)表示中文字符C的字频;
(2)将所有的中文字符按照字频排序,按字频由高到低顺序从中选出频率最高的前k个中文字符C1,...,Ck,使概率满足该不等式表示:在各字符出现独立假设下,n个中文字符中至少出现C1,...,Ck中一个字符的概率不小于0.95,该条件确保了本发明对大多数短文本也有效,其中n取15~20;
(3)令S={C1,...,Ck},将S作为备用字符集合;
(4)对S中的每一个字符Ci,确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字,并以此计算GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合:如果Ci的前超字、后超字和前超子字或后超子字全都不存在或不是汉字,则将字符串GB18030(Ci)加入GB18030的排他字符串集合G;如果Ci的前子字和后子字都不存在,将字符串UTF8(Ci)加入UTF8的排他字符串集合U;如果Ci的前超字和后超字的字频都小于P(Ci)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(Ci)/N,将字符串GB18030(Ci)加入GB18030的高概率字符串集合GP;如果Ci的前子字和后子字在中文中出现的字频都小于P(Ci)/N,将字符串UTF8(Ci)加入UTF8的高概率编码字符串集合UP,其中N是大于1的一个倍率,实际使用中常取20~1000间的整数;
(5)对于给定的目标文本,如果目标文本为网页文本,首先在网页head标签范围内的所有<meta>标签内,查找“charset=”字符串:如果找到,则该<meta>标签内,查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串,包括与这些字符串对应的小写字符串,并将找到的某一目标字符串作为该网页文本的编码方式,执行步骤(11);否则,不能由charset相关字符串查找的方法确定网页文本的编码方式,执行步骤(6);
(6)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str,并在目标文本中查找该字符串,str视为一个字符串变量,在每轮操作中,其存储着不同的字符串;如果在文本中找到str,则确定该中文文本的编码方式为GB18030,执行步骤(11);否则,继续从G中选取下一个字符串并在文本中查找;如果G中的所有字符串都不在目标文本中出现,则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式,执行步骤(7);
(7)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str,并在目标文本中查找该字符串:如果在文本中找到str,则确定网页文本的编码方式为UTF8,执行步骤(11);否则,继续从U中选取下一个字符串并在文本中查找;如果U中的所有字符串都不在该文本中出现,则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式,执行步骤(8);
(8)统计目标文本的字节长度ByteLength,设置阈值NA和字频倍率B(通常取NA=3,B=10000),执行步骤(9);
(9)按照对应中文字符字频由高到底的顺序,从UTF8编码的高概率字符串集合UP中逐个取出字符串str,在网页文本中统计该字符串str出现次数UTF8_Count;如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值,则确定目标文本的编码方式为UTF8,其中3为常用中文在UTF8编码中的字节长度,执行步骤(11);如果UP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式,执行步骤(10);
(10)按照对应中文字符字频由高到底的顺序,从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str,在网页文本中统计这些字符串出现次数GB18030_Count;如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值,则确定目标文本的编码方式为GB18030,其中2为常用中文在GB18030编码中的字节长度,执行步骤(11);如果GP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式,执行步骤(12);
(11)中文编码识别成功,输出目标文本的中文编码方式;
(12)目标文本的中文编码识别失败。
本发明与现有技术相比的优点在于:本发明能够有效快速的识别简体中文文本,特别是中文网页文本的编码方式,提高了中文文本编码方式识别的效率和准确度。该方法能够适应于多种类型中文文本、中文网页编码方式的识别,无需特定的分词工具和数据处理技术。本发明具有实现简单、执行高效等特点。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的字符串集合设置流程图;
图3为本发明的目标文本编码识别流程图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
本发明以中文文本或带有中文的网页源码为输入,输出目标中文文本的编码方式。如图1所示,本发明的处理过程包括:GB18030和UTF8的排他字符串集合和高概率字符串集合的设置和网页文本的编码识别两个模块。
为了实现本发明,需要两套额外的查询装置:一套装置用于查找中文字符的UTF8编码和GB18030编码,另一套装置用于从二进制编码查询其对应的UTF8字符或GB18030字符。在本发明中,如果C表示一个中文字符(汉字或标点),我们用P(C)表示C的字频概率,用GB18030(C)表示由GB18030编码C的二进制字符串,用UTF8(C)表示由UTF8编码C的二进制字符串。对于一个给定的二进制字符串S,用C_GB18030(S)表示GB18030编码为S的原始字符(ACSII字符、中文符号,以及其他由GB18030编码的符号),用C_UTF8(S)表示UTF8编码为S的原始字符(由UTF8编码的多种国际字符)。由于S可代表任意的二进制字符串,C_GB18030(S)和C_UTF8(S)有可能不存在。
任意给定常用中文字符C:如果GB18030(C)=B1B2(Bi为一个字节),分别称C_UTF8(~B1B2)和C_UTF8(B1B2~)是C的前超字和后超字,其中~表示一个或多个字节,分别称C_UTF8(~B1)和C_UTF8(B2~)是C的前超子字和后超子字;如果UTF8(C)=B1B2B3,分别称C_GB18030(B1B2)和C_GB18030(B2B3)是C的前子字和后子字。
本发明具体通过以下技术方案实现:
一、排他字符串集合和高概率字符串集合设置模块,如图2所示。
排他字符串集合和高概率字符串集合设置:首先,需要根据字频从中文字符中选择若干字频最高的汉字、标点作为备用字符。中文字符频率即可通过对特定领域文本统计获得,也可是基于现有人们的尝试和积累得到,例如汉字“的”、“一”、“是”、“了”、“我”,以及标点“,”和“。”等中文字符在常规中文本文中具有较高地频率;然后,分别确定这些中文字符的前/后超字、前/后超子字、前/后子字;最后,再根据判别规则1-4分别确定GB18030和UTF8的排他字符串集合和高概率字符串集合。其中,一种编码方式的排他字符串指的是该字符串只可能出现在这种编码方式的文本中,其在逻辑上具有排他性;一种编码方式的高概率字符串指的是该字符串能以较高的概率出现在这种编码方式的文本中,而在其他编码方式的文本中出现的概率极低。
判定准则1:如果中文字符C的前超字、后超字和前超子字(或后超子字)不存在或者不是中文字符,那么GB18030(C)为GB18030编码的排他字符串。
判定准则2:如果中文字符C的前超字和后超字的字频相对值极低(如小于P(C)/N,N可取20,50,100等)且其前超子字和后超子字组合出现的字符组的频率相对值也极低,那么GB18030(C)为GB18030编码的高概率字符串。
判定准则3:如果中文字符C的前子字和后子字都不存在,那么UTF8(C)为UTF8编码的排他字符串。
判定准则4:如果汉字C的前子字和后子字在中文中出现的字频相对值极低(如小于P(C)/N,N可取20,50,100等),那么UTF8(C)为UTF8编码的高概率编码字符串。
具体的,排他字符串集合和高概率字符串集合设置方法步骤如下:
步骤1:从常用中文字符集中,按字频由高到低顺序选出k个中文字符C1,...,Ck,使得在各字符独立出现假设下,n个连续中文字符中至少出现其中一个中文字符的概率不小于95%,即通常n取15~20;令S={C1,...,Ck},转步骤2。
步骤2:从S中,按照P(Ci)从高到低的顺序依次取出中文字符Ci,并按判定准则1-5,设定GB18030和UTF8的排他字符串集合和高概率字符串集合。其具体步骤如下:
步骤2.1:如果Ci的前超字、后超字和前超子字(或后超子字)都不存在或都不是汉字,则将字符串GB18030(Ci)加入GB18030的排他编码字符串集合G;转步骤2.2。
步骤2.2:如果Ci的前子字和后子字都不存在,将字符串UTF8(Ci)加入UTF8的排他字符串集合U;转步骤2.3。
步骤2.3:如果Ci的前超字和后超字的字频都小于P(Ci)/N且其前超子字和后超子字的组合出现的字符组合频率也小于P(Ci)/N(N可取20,50,100等),将字符串GB18030(Ci)加入GB18030的高概率字符串集合GP;转步骤2.4。
步骤2.4:如果Ci的前子字和后子字在中文中出现的字频都小于P(Ci)/N(N可取20,50,100等),则将字符串UTF8(Ci)加入UTF8的高概率编码字符串集合UP;结束步骤2。
步骤1的作用在于选择出少量的高频中文字符,以确保在少量文本中也能够以大概率出现这些字符中的某一个,确保识别的有效性。步骤2的作用在对选定的中文字符分类,分别构建GB18030和UTF8的具体排他字符串集合和高概率字符串集合:G、U、GP和UP,这些集合将被用于识别目标中文文本的编码方式。
二、目标文本编码识别模块,如图3所示。
目标文本编码识别阶段主要以GB18030和UTF8的排他字符串集合和高概率字符串集合为基础,根据排他字符串出现的逻辑属性和高概率字符串的概率属性判定目标文本的中文编码方式。在具体实现中,本发明会结合现有的技术作为本发明的补充。例如,对于中文网页文本,本发明装置会首先通过查找charset标签来直接确定文本编码方式;如果基于特定字符串查找的中文编码识别方法无效,在本发明装置还可调用其他装置进一步补充识别。具体的,该模块由下述步骤完成:
步骤3:在网页head标签范围内的所有<meta>标签内,查找“charset=”字符串:如果找到,则该<meta>标签内,查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串(包括与这些字符串对应的小写字符串);如果找到字符串“GBK”或“GB2312”或“GB18030”,则将目标文本编码方式标注为GB18030,执行步骤10;如果找到字符串“UTF8”,则将目标文本编码方式标注为UTF8,执行步骤10;否则,执行步骤4。
步骤4:按照对应中文字符字频由高到低的顺序从GB18030的排他字符串集合G中逐个取出字符串str,并在网页文本中查找该字符串:如果找到str,则标示文本编码方式为GB18030,执行步骤10;否则,继续从G中选取字符串并在目标文本中查找。如果G中的所有字符串都不在目标文本中出现,执行步骤5。
步骤5:按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str,并在目标文本中查找该字符串:如果找到str,则标示文本编码方式为UTF8,执行步骤10;否则,继续从U中选取字符串并在目标文本中查找。如果U中的所有字符串都不在目标文本中出现,执行步骤6。
步骤6:统计网页文本的字节长度ByteLength,设置阈值NA和字频倍率B(通常可以取NA=3,B=10000),转步骤7。
步骤7:按照对应中文字符字频由高到底的顺序从UTF8的高概率字符串集合UP中逐个取出字符串str,在目标文本中查找并累积这些字符串出现次数UTF8_Count;如果UTF8_Count大于等于max{NA,ByteLength/(3*B)},则标示目标文本编码方式为UTF8,执行步骤10;否则,执行步骤8。
步骤8:逐个取出GB18030高概率编码字符串集合GP中的字符串str,在目标文本中依次查找并累积这些字符串的找到次数GB18030_Count;如果GB18030_Count大于等于max{NA,ByteLength/(2*B)},则标示目标文本编码方式为GB18030,执行步骤10;否则,执行步骤9。
步骤9:调用其他已有编码识别方法(如基于编码特征提取的识别方法或基于字频统计的识别方法)解决疑难问题。
步骤10:输出编码方式,结束程序。
对于步骤4和步骤5中,根据GB18030和UTF8的排他字符串集合分别在目标文本中查找排他字符串的过程中,只要文本中出现一次排他字符串就可以确定文本的编码方式。但在实际使用中,特别是对由网络传输获得的文本,如果考虑到传输错误的可能,可以类似步骤6和步骤7中的操作,适当增加判别次数,将一次出现即识别改变为超过某一阈值即识别。
中文编码识别模块结合了现有的编码识别方法,首先尝试最简单的charset标示查找确定,然后再根据GB18030和UTF8的排他字符串集合及逻辑关系,以及它们的高概率字符串集合和概率关系判别目标网页的中文编码方式。该方法能够快速、有效地识别中文文本的编码。应该理解的是,本实施例只是该发明的一种优选的实施方式。在不脱离本发明的精神和原则的前提下,任何对本发明做出的等同替换或变化,都应计入本发明的保护范围之内。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做出各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (9)

1.一种基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于,包括:字符串集合设置模块及中文文本编码识别模块,其中:
字符串集合设置模块:用于设置GB18030和UTF8的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合;根据中文字符的字频分布,从频率最高的中文字符开始,按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符;然后,根据这些中文字符的GB18030编码和UTF8编码,分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字;最后基于上述字符的前超字、后超字、前超子字、后超子字、前子字和后子字与GB18030编码、UTF8编码的对应关系,得到设置的GB18030编码和UTF8编码的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合;
中文文本编码识别模块:根据GB18030和UTF8的排他字符串集合以及GB18030编码和UTF8编码的高概率字符串集合,确定目标文本的中文编码方式;如果目标文本为网页文本,首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式;如果在目标文本中不存在该字段或目标文本为非网页的中文文本,则根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别网页文本的简体中文编码方式;如果仍然不能确定,再根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式;如果仍然不能识别,最后再调用其他现有识别方法,最终获得目标文本的中文编码方式。
2.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述字符串集合设置模块中,根据中文字符的字频分布,从频率最高的中文字符开始,按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符具体实现步骤如下:
(1)对具有大量中文字符的文本做字频统计,计算各个中文字符,包括中文汉字或中文标点出现的频率,并用P(C)表示中文字符C的字频;
(2)将所有的中文字符按照字频排序,按字频由高到低顺序从中选出频率最高的前k个中文字符C1,...,Ck,使概率满足该不等式表示:在各字符出现独立假设下,n个中文字符中至少出现C1,...,Ck中一个字符的概率不小于0.95;
(3)令S={C1,...,Ck},将S作为备用字符集合。
3.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述字符串集合设置模块中,分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字,具体如下:
(1)对于中文字符C,GB18030(C)表示C的GB18030编码二进制字符串,UTF8(C)表示C的UTF8编码二进制字符串;
(2)对于二进制字符串S,C_GB18030(S)表示GB18030编码为S的原始字符(ACSII字符、中文符号,以及其他由GB18030编码的符号),C_UTF8(S)表示UTF8编码为S的原始字符,由UTF8编码的多种国际字符;所述原始字符包括:ACSII字符、中文符号以及其他由GB18030编码的符号;
(3)对于常用中文字符C,如果GB18030(C)=B1B2,B1和B2都是二进制字节,确定C_UTF8(~B1B2)和C_UTF8(B1B2~)分别为C的前超字和后超字,其中~表示一个或多个字节;确定C_UTF8(~B1)为C的前超子字,C_UTF8(B2~)为C的后超子字;
(4)对于中文字符C,如果UTF8(C)=B1B2B3,B1、B2、B3都是二进制字节,确定C_GB18030(B1B2)为C的前子字;C_GB18030(B2B3)为C的后子字。
4.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述字符串集合设置模块中,得到设置的GB18030编码和UTF8编码的排他字符串集合,及GB18030编码和UTF8编码的高概率字符串集合过程为:从备用字符集合S中,按照字频P(Ci)从高到低的顺序依次取出中文字符Ci,并判别规则确定Ci是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合,其中,所述排他字符串指的是该字符串只可能出现在这种编码方式的文本中,其在逻辑上具有排他性;所述高概率字符串指的是该字符串能以较高的概率出现在这种编码方式的文本中,而在其他编码方式的文本中出现的概率极低,极低是指低于其在这种编码方式中出现频率的N分之一,其中N是大于1的一个倍率。
5.根据权利要求4所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:判别规则确定Ci是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合的步骤如下:
(1)如果Ci的前超字、后超字和前超子字或后超子字全都不存在或不是汉字,则将字符串GB18030(Ci)加入GB18030的排他字符串集合G;
(2)如果Ci的前子字和后子字都不存在,将字符串UTF8(Ci)加入UTF8的排他字符串集合U;
(3)如果Ci的前超字和后超字的字频都小于P(Ci)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(Ci)/N,将字符串GB18030(Ci)加入GB18030的高概率字符串集合GP,其中N是大于1的一个倍率;
(4)如果Ci的前子字和后子字在中文中出现的字频都小于P(Ci)/N,将字符串UTF8(Ci)加入UTF8的高概率编码字符串集合UP,其中N是大于1的一个倍率。
6.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述中文文本的编码识别模块中,如果目标文本为网页文本,首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式,其实现方法方法如下:在网页head标签范围内的所有<meta>标签内,查找“charset=”字符串:如果找到,则该<meta>标签内,查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串,包括与这些字符串对应的小写字符串,并将找到的某一目标字符串作为该网页文本的编码方式;否则,不能由charset相关字符串查找的方法确定网页文本的编码方式。
7.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述编码识别模块中,根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别目标文本的简体中文编码方式,实现步骤如下:
(1)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str,并在目标文本中查找该字符串,str视为一个字符串变量,在每轮操作中,其存储着不同的字符串;如果在文本中找到str,则确定该中文文本的编码方式为GB18030;否则,继续从G中选取下一个字符串并在文本中查找;如果G中的所有字符串都不在目标文本中出现,则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式;
(2)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str,并在目标文本中查找该字符串:如果在文本中找到str,则确定网页文本的编码方式为UTF8;否则,继续从U中选取下一个字符串并在文本中查找;如果U中的所有字符串都不在该文本中出现,则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式。
8.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统,其特征在于:所述中文文本的编码识别模块中,根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式,实现步骤如下:
(1)统计目标文本的字节长度ByteLength,设置阈值NA和字频倍率B;
(2)按照对应中文字符字频由高到底的顺序,从UTF8编码的高概率字符串集合UP中逐个取出字符串str,在网页文本中统计该字符串str出现次数UTF8_Count;如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值,则确定目标文本的编码方式为UTF8,其中3为常用中文在UTF8编码中的字节长度;如果UP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式;
(3)按照对应中文字符字频由高到底的顺序,从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str,在网页文本中统计这些字符串出现次数GB18030_Count;如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值,则确定目标文本的编码方式为GB18030,其中2为常用中文在GB18030编码中的字节长度;如果GP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式。
9.一种基于特定字符串查找的简体中文编码方式自动识别方法,其特征在于,包括以下步骤:
(1)对具有大量中文字符的文本做字频统计,计算各个中文字符,包括中文汉字或中文标点出现的频率,并用P(C)表示中文字符C的字频;
(2)将所有的中文字符按照字频排序,按字频由高到低顺序从中选出频率最高的前k个中文字符C1,...,Ck,使概率满足该不等式表示:在各字符出现独立假设下,n个中文字符中至少出现C1,...,Ck中一个字符的概率不小于0.95;
(3)令S={C1,...,Ck},将S作为备用字符集合;
(4)对S中的每一个字符Ci,确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字,并以此计算GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合:如果Ci的前超字、后超字和前超子字或后超子字全都不存在或不是汉字,则将字符串GB18030(Ci)加入GB18030的排他字符串集合G;如果Ci的前子字和后子字都不存在,将字符串UTF8(Ci)加入UTF8的排他字符串集合U;如果Ci的前超字和后超字的字频都小于P(Ci)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(Ci)/N,将字符串GB18030(Ci)加入GB18030的高概率字符串集合GP;如果Ci的前子字和后子字在中文中出现的字频都小于P(Ci)/N,将字符串UTF8(Ci)加入UTF8的高概率编码字符串集合UP,其中N是大于1的一个倍率,实际使用中常取20~1000间的整数;
(5)对于给定的目标文本,如果目标文本为网页文本,首先在网页head标签范围内的所有<meta>标签内,查找“charset=”字符串:如果找到,则该<meta>标签内,查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串,包括与这些字符串对应的小写字符串,并将找到的某一目标字符串作为该网页文本的编码方式,执行步骤(11);否则,不能由charset相关字符串查找的方法确定网页文本的编码方式,执行步骤(6);
(6)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str,并在目标文本中查找该字符串,str视为一个字符串变量,在每轮操作中,其存储着不同的字符串;如果在文本中找到str,则确定该中文文本的编码方式为GB18030,执行步骤(11);否则,继续从G中选取下一个字符串并在文本中查找;如果G中的所有字符串都不在目标文本中出现,则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式,执行步骤(7);
(7)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str,并在目标文本中查找该字符串:如果在文本中找到str,则确定网页文本的编码方式为UTF8,执行步骤(11);否则,继续从U中选取下一个字符串并在文本中查找;如果U中的所有字符串都不在该文本中出现,则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式,执行步骤(8);
(8)统计目标文本的字节长度ByteLength,设置阈值NA和字频倍率B,执行步骤(9);
(9)按照对应中文字符字频由高到底的顺序,从UTF8编码的高概率字符串集合UP中逐个取出字符串str,在网页文本中统计该字符串str出现次数UTF8_Count;如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值,则确定目标文本的编码方式为UTF8,其中3为常用中文在UTF8编码中的字节长度,执行步骤(11);如果UP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式,执行步骤(10);
(10)按照对应中文字符字频由高到底的顺序,从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str,在网页文本中统计这些字符串出现次数GB18030_Count;如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值,则确定目标文本的编码方式为GB18030,其中2为常用中文在GB18030编码中的字节长度,执行步骤(11);如果GP中的所有字符串都不满足上述判定条件,则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式,执行步骤(12);
(11)中文编码识别成功,输出目标文本的中文编码方式;
(12)目标文本的中文编码识别失败。
CN201910488932.8A 2019-06-06 2019-06-06 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法 Active CN110196968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910488932.8A CN110196968B (zh) 2019-06-06 2019-06-06 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910488932.8A CN110196968B (zh) 2019-06-06 2019-06-06 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法

Publications (2)

Publication Number Publication Date
CN110196968A true CN110196968A (zh) 2019-09-03
CN110196968B CN110196968B (zh) 2023-04-07

Family

ID=67754138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910488932.8A Active CN110196968B (zh) 2019-06-06 2019-06-06 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法

Country Status (1)

Country Link
CN (1) CN110196968B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259628A (zh) * 2020-02-18 2020-06-09 北京金堤科技有限公司 网页信息提取方法和装置、电子设备和存储介质
CN112925837A (zh) * 2019-12-06 2021-06-08 上海高德威智能交通系统有限公司 文本结构化方法及装置
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
WO2017080090A1 (zh) * 2015-11-14 2017-05-18 孙燕群 一种网页正文提取比对方法
CN107122342A (zh) * 2017-04-21 2017-09-01 东莞中国科学院云计算产业技术创新与育成中心 文本编码识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
WO2017080090A1 (zh) * 2015-11-14 2017-05-18 孙燕群 一种网页正文提取比对方法
CN107122342A (zh) * 2017-04-21 2017-09-01 东莞中国科学院云计算产业技术创新与育成中心 文本编码识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIXIN_34254823: "《A composite approach to language/encoding detection》", 《HTTPS://BLOG.CSDN.NET/WEIXIN_34254823/ARTICLE/DETAILS/92542158》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925837A (zh) * 2019-12-06 2021-06-08 上海高德威智能交通系统有限公司 文本结构化方法及装置
CN111259628A (zh) * 2020-02-18 2020-06-09 北京金堤科技有限公司 网页信息提取方法和装置、电子设备和存储介质
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置
CN114708133B (zh) * 2022-01-27 2022-11-15 北京国隐科技有限公司 一种通用的文本水印方法和装置

Also Published As

Publication number Publication date
CN110196968B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110196968A (zh) 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
Yang et al. HTML page analysis based on visual cues
US20050267915A1 (en) Method and apparatus for recognizing specific type of information files
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN110119444B (zh) 一种抽取式与生成式相结合的公文摘要生成模型
US7606816B2 (en) Record boundary identification and extraction through pattern mining
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
CN104598577B (zh) 一种网页正文的提取方法
WO2017080090A1 (zh) 一种网页正文提取比对方法
CN105677764A (zh) 信息提取方法和装置
CN108737423A (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN101727500A (zh) 一种基于流聚类的中文网页文本分类方法
US8200670B1 (en) Efficient document clustering
CN111726336B (zh) 一种联网智能设备识别信息提取方法及系统
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN109165373B (zh) 一种数据处理方法及装置
WO2018213783A1 (en) Computerized methods of data compression and analysis
CN115357904A (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN112069305B (zh) 数据筛选方法、装置及电子设备
CN105573981A (zh) 一种提取中文人名地名的方法及装置
CN110175288B (zh) 一种面向青少年群体的文字和图像数据的过滤方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant