CN110196968A

CN110196968A - 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法

Info

Publication number: CN110196968A
Application number: CN201910488932.8A
Authority: CN
Inventors: 蒋东辰; 贾婉华; 牛颖
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-09-03
Anticipated expiration: 2039-06-06
Also published as: CN110196968B

Abstract

本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法，包括：字符串集合设置模块及中文文本编码识别模块，其中：字符串集合设置模块：用于设置GB 18030和UTF8的排他字符串集合，及GB 18030编码和UTF8编码的高概率字符串集合；中文文本编码识别模块：根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找，快速确定简体中文文本的编码方式；既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式，也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。

Description

一种基于特定字符串查找的简体中文编码方式自动识别系统及方法

技术领域

本发明涉及网络通信、信息检索、中文信息处理等相关技术领域，特别涉及浏览器、爬虫等网页获取工具对简体中文编码网页编码方式的自动识别系统及方法。

技术背景

随着互联网技术和大数据处理能力的高速发展，万维网(World Wide Web)已经成为世界上最大的文本资料库。如何有效地提取万维网上的信息已经成为当前的一个新的研究方向，其内容涉及高速的收集、处理和提取网页文本信息。

人们在使用浏览器浏览网页或者利用爬虫自动提取信息时，首先需要利用程序对网页文件源码进行编码解析。对于内容为中文的网页而言，常用的简体中文编码包括GBK、UTF-8、GB2312、GB18030等。其中，GBK、GB2312等常用简体中文编码方式与GB18030编码是兼容的，而UTF8编码与GB18030等编码方式存在差异。同样的网页数据、不同的解码会导致显示内容的差异，甚至会出现乱码现象。因此，只有正确解码才能有效地识别网页文本中的中文信息，为后续的内容处理提供正确的文本解读。

一般地，网页HTML文本的编码方式会在<head>标签内部的<meta>标签中的charset字段标识。浏览器或爬虫只要找到<meta>标签中的charset字段就可自动识别HTML文本的编码方式。这种识别方法要求网页生成程序或网页内容书写者准确的标注中文网页文本的编码方式。然而，随着网页的制作手段多样化、网站申请和发布愈加灵活，许多可公开访问的网页在页面代码编写方面并不完善，许多中文网页并未包含charset字段甚至不含<meta>标签。这使得基于网页标签的中文编码识别变得困难。为此，浏览器等相关软件开发者尝试不同的方法自动识别中文网页的编码方式，以实现中文文本的正确解析。

常用的中文编码识别方法大致可分为以下几类：

基于编码特征提取的识别方法。由于各类中文编码在中文字符长度等数字特征方面存在差异，基于编码特征提取的识别方法通过统计文本中连续的中文字符串长度、单个汉字的平均编码长度等数字特征识别网页的编码方式。这类方法对具有较长文本的纯中文网页十分有效。但对于中英文混合文本，该方法会受到英文字符编码的干扰，准确率下降；对于短文本的中文网页，该方法则会因为样本数量不足而难以准确识别。

基于字频统计的识别方法。该类方法通过统计文本中常用汉字、词语的数量来区分网页文本编码方式。该类方法的基本假设如下：如果按照某种编码方式的中文字符出现多，则文本以该方式编码的可能性大。基于频率统计识别方法十分有效，但是其计算和存储开销都较大、效率不高。同时，如果常用汉字选择不恰当，还会导致错位编码的现象出现，进而降低识别的准确率。

中文编码特征和频率统计方法的结合。这类方法结合了上述两类方法的优势，能够准确识别中文文本的编码方式。该类方法一般会首先根据文本的字符序列的数字特征识别编码方式，如果无法识别，再采用分词、频率统计等方法辅助识别编码方式。由于该类方法综合了多种方法的优势，其准确率和适用度得到显著地提升。但也正因为其尝试组合了多种方法，计算效率相对较低。

发明内容

本发明技术解决问题：针对现有中文编码方法识别技术上的不足，提供一种基于特定字符串查找的简体中文编码方式自动识别系统及方法，能够通过对几个常用汉字特定编码字符串的查找，快速确定简体中文文本的编码方式；既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式，也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。

本发明技术解决方案：一种基于特定字符串查找的简体中文编码方式自动识别系统，包括：字符串集合设置模块及中文文本编码识别模块，其中：

字符串集合设置模块：用于设置GB18030和UTF8的排他字符串集合，及GB18030编码和UTF8编码的高概率字符串集合；根据中文字符的字频分布，从频率最高的中文字符开始，按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符；然后，根据这些中文字符的GB18030编码和UTF8编码，分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字；最后基于上述字符的前超字、后超字、前超子字、后超子字、前子字和后子字与GB18030编码、UTF8编码的对应关系，得到设置的GB18030编码和UTF8编码的排他字符串集合，及GB18030编码和UTF8编码的高概率字符串集合；

中文文本编码识别模块：根据GB18030和UTF8的排他字符串集合以及GB18030编码和UTF8编码的高概率字符串集合，确定目标文本的中文编码方式；如果目标文本为网页文本，首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式；如果在目标文本中不存在该字段或目标文本为非网页的中文文本，则根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别网页文本的简体中文编码方式；如果仍然不能确定，再根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式；如果仍然不能识别，最后再调用其他现有识别方法(如基于编码特征提取的识别方法或基于字频统计的识别方法)最终获得目标文本的中文编码方式。

所述字符串集合设置模块中，根据中文字符的字频分布，从频率最高的中文字符开始，按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符具体实现步骤如下：

(1)对具有大量中文字符的文本做字频统计，计算各个中文字符，包括中文汉字或中文标点出现的频率，并用P(C)表示中文字符C的字频；

(2)将所有的中文字符按照字频排序，按字频由高到低顺序从中选出频率最高的前k个中文字符C₁,...,C_k，使概率满足该不等式表示：在各字符出现独立假设下，n个中文字符中至少出现C₁,...,C_k中一个字符的概率不小于0.95，该条件确保了本发明对大多数短文本也有效，其中n取15～20；

(3)令S＝{C₁,...,C_k}，将S作为备用字符集合。

所述字符串集合设置模块中，分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字，具体如下：

(1)对于中文字符C，GB18030(C)表示C的GB18030编码二进制字符串，UTF8(C)表示C的UTF8编码二进制字符串；

(2)对于二进制字符串S，C_GB18030(S)表示GB18030编码为S的原始字符(ACSII字符、中文符号，以及其他由GB18030编码的符号)，C_UTF8(S)表示UTF8编码为S的原始字符，由UTF8编码的多种国际字符；所述原始字符包括：ACSII字符、中文符号以及其他由GB18030编码的符号；

(3)对于常用中文字符C，如果GB18030(C)＝B₁B₂，B₁和B₂都是二进制字节，确定C_UTF8(～B₁B₂)和C_UTF8(B₁B₂～)分别为C的前超字和后超字，其中～表示一个或多个字节；确定C_UTF8(～B₁)为C的前超子字，C_UTF8(B₂～)为C的后超子字；

(4)对于中文字符C，如果UTF8(C)＝B₁B₂B₃，B₁、B₂、B₃都是二进制字节，确定C_GB18030(B₁B₂)为C的前子字；C_GB18030(B₂B₃)为C的后子字。

所述字符串集合设置模块中，得到设置的GB18030编码和UTF8编码的排他字符串集合，及GB18030编码和UTF8编码的高概率字符串集合过程为：从备用字符集合S中，按照字频P(C_i)从高到低的顺序依次取出中文字符C_i，并按判别规则确定C_i是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合，其中，所述排他字符串指的是该字符串只可能出现在这种编码方式的文本中，其在逻辑上具有排他性；所述高概率字符串指的是该字符串能以较高(所述较高是指按照中文字符出现频率从高到低排列，频率排序位于前k的字符，其中k满足公式该不等式表示：在各字符出现独立假设下，n个中文字符中至少出现C₁,...,C_k中一个字符的概率不小于0.95，该条件确保了本发明对大多数短文本也有效，其中n取15～20)的概率出现在这种编码方式的文本中，而在其他编码方式的文本中出现的概率极低(极低是指低于其在这种编码方式中出现频率的N分之一，其中N是大于1的一个倍率，取20～1000间的整数)。

所述判别规则确定C_i是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合的步骤如下：

(1)如果C_i的前超字、后超字和前超子字或后超子字全都不存在或不是汉字，则将字符串GB18030(C_i)加入GB18030的排他字符串集合G；

(2)如果C_i的前子字和后子字都不存在，将字符串UTF8(C_i)加入UTF8的排他字符串集合U；

(3)如果C_i的前超字和后超字的字频都小于P(C_i)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(C_i)/N，将字符串GB18030(C_i)加入GB18030的高概率字符串集合GP，其中N是大于1的一个倍率。本发明实际使用中取20～1000间的整数；

(4)如果C_i的前子字和后子字在中文中出现的字频都小于P(C_i)/N，将字符串UTF8(C_i)加入UTF8的高概率编码字符串集合UP，其中N是大于1的一个倍率。本发明实际使用中取20～1000间的整数。

所述中文文本的编码识别模块中，如果目标文本为网页文本，首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式，其实现方法方法如下：在网页head标签范围内的所有<meta>标签内，查找“charset＝”字符串：如果找到，则该<meta>标签内，查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串，包括与这些字符串对应的小写字符串，并将找到的某一目标字符串作为该网页文本的编码方式；否则，不能由charset相关字符串查找的方法确定网页文本的编码方式。

所述编码识别模块中，根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别目标文本的简体中文编码方式，实现步骤如下：

(1)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str，并在目标文本中查找该字符串，str视为一个字符串变量，在每轮操作中，其存储着不同的字符串；如果在文本中找到str，则确定该中文文本的编码方式为GB18030；否则，继续从G中选取下一个字符串并在文本中查找；如果G中的所有字符串都不在目标文本中出现，则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式；

(2)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str，并在目标文本中查找该字符串：如果在文本中找到str，则确定网页文本的编码方式为UTF8；否则，继续从U中选取下一个字符串并在文本中查找；如果U中的所有字符串都不在该文本中出现，则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式。

所述中文文本的编码识别模块中，根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式，实现步骤如下：

(1)统计目标文本的字节长度ByteLength，设置阈值NA和字频倍率B(本发明取NA＝3，B＝10000)；

(2)按照对应中文字符字频由高到底的顺序，从UTF8编码的高概率字符串集合UP中逐个取出字符串str，在网页文本中统计该字符串str出现次数UTF8_Count；如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值，则确定目标文本的编码方式为UTF8，其中3为常用中文在UTF8编码中的字节长度；如果UP中的所有字符串都不满足上述判定条件，则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式；

(3)按照对应中文字符字频由高到底的顺序，从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str，在网页文本中统计这些字符串出现次数GB18030_Count；如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值，则确定目标文本的编码方式为GB18030，其中2为常用中文在GB18030编码中的字节长度；如果GP中的所有字符串都不满足上述判定条件，则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式。

本发明的一种基于特定字符串查找的简体中文编码方式自动识别方法，包括以下步骤：

(3)令S＝{C₁,...,C_k}，将S作为备用字符集合；

(4)对S中的每一个字符C_i，确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字，并以此计算GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合：如果C_i的前超字、后超字和前超子字或后超子字全都不存在或不是汉字，则将字符串GB18030(C_i)加入GB18030的排他字符串集合G；如果C_i的前子字和后子字都不存在，将字符串UTF8(C_i)加入UTF8的排他字符串集合U；如果C_i的前超字和后超字的字频都小于P(C_i)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(C_i)/N，将字符串GB18030(C_i)加入GB18030的高概率字符串集合GP；如果C_i的前子字和后子字在中文中出现的字频都小于P(C_i)/N，将字符串UTF8(C_i)加入UTF8的高概率编码字符串集合UP，其中N是大于1的一个倍率，实际使用中常取20～1000间的整数；

(5)对于给定的目标文本，如果目标文本为网页文本，首先在网页head标签范围内的所有<meta>标签内，查找“charset＝”字符串：如果找到，则该<meta>标签内，查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串，包括与这些字符串对应的小写字符串，并将找到的某一目标字符串作为该网页文本的编码方式，执行步骤(11)；否则，不能由charset相关字符串查找的方法确定网页文本的编码方式，执行步骤(6)；

(6)按照对应中文字符字频由高到底的顺序从GB18030的排他字符串集合G中逐个取出字符串str，并在目标文本中查找该字符串，str视为一个字符串变量，在每轮操作中，其存储着不同的字符串；如果在文本中找到str，则确定该中文文本的编码方式为GB18030，执行步骤(11)；否则，继续从G中选取下一个字符串并在文本中查找；如果G中的所有字符串都不在目标文本中出现，则不能由GB18030的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式，执行步骤(7)；

(7)按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str，并在目标文本中查找该字符串：如果在文本中找到str，则确定网页文本的编码方式为UTF8，执行步骤(11)；否则，继续从U中选取下一个字符串并在文本中查找；如果U中的所有字符串都不在该文本中出现，则不能由UTF8的排他字符串集合的逻辑属性识别该目标文本的简体中文编码方式，执行步骤(8)；

(8)统计目标文本的字节长度ByteLength，设置阈值NA和字频倍率B(通常取NA＝3，B＝10000)，执行步骤(9)；

(9)按照对应中文字符字频由高到底的顺序，从UTF8编码的高概率字符串集合UP中逐个取出字符串str，在网页文本中统计该字符串str出现次数UTF8_Count；如果UTF8_Count大于等于NA和ByteLength/(3*B)的最大值，则确定目标文本的编码方式为UTF8，其中3为常用中文在UTF8编码中的字节长度，执行步骤(11)；如果UP中的所有字符串都不满足上述判定条件，则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式，执行步骤(10)；

(10)按照对应中文字符字频由高到底的顺序，从GB18030编码的高概率编码字符串集合GP中逐个取出字符串str，在网页文本中统计这些字符串出现次数GB18030_Count；如果GB18030_Count大于等于NA和ByteLength/(2*B)的最大值，则确定目标文本的编码方式为GB18030，其中2为常用中文在GB18030编码中的字节长度，执行步骤(11)；如果GP中的所有字符串都不满足上述判定条件，则不能由UTF8编码的高概率字符串集合的概率属性识别该目标文本的简体中文编码方式，执行步骤(12)；

(11)中文编码识别成功，输出目标文本的中文编码方式；

(12)目标文本的中文编码识别失败。

本发明与现有技术相比的优点在于：本发明能够有效快速的识别简体中文文本，特别是中文网页文本的编码方式，提高了中文文本编码方式识别的效率和准确度。该方法能够适应于多种类型中文文本、中文网页编码方式的识别，无需特定的分词工具和数据处理技术。本发明具有实现简单、执行高效等特点。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的字符串集合设置流程图；

图3为本发明的目标文本编码识别流程图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

本发明以中文文本或带有中文的网页源码为输入，输出目标中文文本的编码方式。如图1所示，本发明的处理过程包括：GB18030和UTF8的排他字符串集合和高概率字符串集合的设置和网页文本的编码识别两个模块。

为了实现本发明，需要两套额外的查询装置：一套装置用于查找中文字符的UTF8编码和GB18030编码，另一套装置用于从二进制编码查询其对应的UTF8字符或GB18030字符。在本发明中，如果C表示一个中文字符(汉字或标点)，我们用P(C)表示C的字频概率，用GB18030(C)表示由GB18030编码C的二进制字符串，用UTF8(C)表示由UTF8编码C的二进制字符串。对于一个给定的二进制字符串S，用C_GB18030(S)表示GB18030编码为S的原始字符(ACSII字符、中文符号，以及其他由GB18030编码的符号)，用C_UTF8(S)表示UTF8编码为S的原始字符(由UTF8编码的多种国际字符)。由于S可代表任意的二进制字符串，C_GB18030(S)和C_UTF8(S)有可能不存在。

任意给定常用中文字符C：如果GB18030(C)＝B₁B₂(B_i为一个字节)，分别称C_UTF8(～B₁B₂)和C_UTF8(B₁B₂～)是C的前超字和后超字，其中～表示一个或多个字节，分别称C_UTF8(～B₁)和C_UTF8(B₂～)是C的前超子字和后超子字；如果UTF8(C)＝B₁B₂B₃，分别称C_GB18030(B₁B₂)和C_GB18030(B₂B₃)是C的前子字和后子字。

本发明具体通过以下技术方案实现：

一、排他字符串集合和高概率字符串集合设置模块，如图2所示。

排他字符串集合和高概率字符串集合设置：首先，需要根据字频从中文字符中选择若干字频最高的汉字、标点作为备用字符。中文字符频率即可通过对特定领域文本统计获得，也可是基于现有人们的尝试和积累得到，例如汉字“的”、“一”、“是”、“了”、“我”，以及标点“，”和“。”等中文字符在常规中文本文中具有较高地频率；然后，分别确定这些中文字符的前/后超字、前/后超子字、前/后子字；最后，再根据判别规则1-4分别确定GB18030和UTF8的排他字符串集合和高概率字符串集合。其中，一种编码方式的排他字符串指的是该字符串只可能出现在这种编码方式的文本中，其在逻辑上具有排他性；一种编码方式的高概率字符串指的是该字符串能以较高的概率出现在这种编码方式的文本中，而在其他编码方式的文本中出现的概率极低。

判定准则1：如果中文字符C的前超字、后超字和前超子字(或后超子字)不存在或者不是中文字符，那么GB18030(C)为GB18030编码的排他字符串。

判定准则2：如果中文字符C的前超字和后超字的字频相对值极低(如小于P(C)/N，N可取20,50,100等)且其前超子字和后超子字组合出现的字符组的频率相对值也极低，那么GB18030(C)为GB18030编码的高概率字符串。

判定准则3：如果中文字符C的前子字和后子字都不存在，那么UTF8(C)为UTF8编码的排他字符串。

判定准则4：如果汉字C的前子字和后子字在中文中出现的字频相对值极低(如小于P(C)/N，N可取20,50,100等)，那么UTF8(C)为UTF8编码的高概率编码字符串。

具体的，排他字符串集合和高概率字符串集合设置方法步骤如下：

步骤1：从常用中文字符集中，按字频由高到低顺序选出k个中文字符C₁,...,C_k，使得在各字符独立出现假设下，n个连续中文字符中至少出现其中一个中文字符的概率不小于95％，即通常n取15～20；令S＝{C₁,...,C_k}，转步骤2。

步骤2：从S中，按照P(C_i)从高到低的顺序依次取出中文字符C_i，并按判定准则1-5，设定GB18030和UTF8的排他字符串集合和高概率字符串集合。其具体步骤如下：

步骤2.1：如果C_i的前超字、后超字和前超子字(或后超子字)都不存在或都不是汉字，则将字符串GB18030(C_i)加入GB18030的排他编码字符串集合G；转步骤2.2。

步骤2.2：如果C_i的前子字和后子字都不存在，将字符串UTF8(C_i)加入UTF8的排他字符串集合U；转步骤2.3。

步骤2.3：如果C_i的前超字和后超字的字频都小于P(C_i)/N且其前超子字和后超子字的组合出现的字符组合频率也小于P(C_i)/N(N可取20,50,100等)，将字符串GB18030(C_i)加入GB18030的高概率字符串集合GP；转步骤2.4。

步骤2.4：如果C_i的前子字和后子字在中文中出现的字频都小于P(C_i)/N(N可取20,50,100等)，则将字符串UTF8(C_i)加入UTF8的高概率编码字符串集合UP；结束步骤2。

步骤1的作用在于选择出少量的高频中文字符，以确保在少量文本中也能够以大概率出现这些字符中的某一个，确保识别的有效性。步骤2的作用在对选定的中文字符分类，分别构建GB18030和UTF8的具体排他字符串集合和高概率字符串集合：G、U、GP和UP，这些集合将被用于识别目标中文文本的编码方式。

二、目标文本编码识别模块，如图3所示。

目标文本编码识别阶段主要以GB18030和UTF8的排他字符串集合和高概率字符串集合为基础，根据排他字符串出现的逻辑属性和高概率字符串的概率属性判定目标文本的中文编码方式。在具体实现中，本发明会结合现有的技术作为本发明的补充。例如，对于中文网页文本，本发明装置会首先通过查找charset标签来直接确定文本编码方式；如果基于特定字符串查找的中文编码识别方法无效，在本发明装置还可调用其他装置进一步补充识别。具体的，该模块由下述步骤完成：

步骤3：在网页head标签范围内的所有<meta>标签内，查找“charset＝”字符串：如果找到，则该<meta>标签内，查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串(包括与这些字符串对应的小写字符串)；如果找到字符串“GBK”或“GB2312”或“GB18030”，则将目标文本编码方式标注为GB18030，执行步骤10；如果找到字符串“UTF8”，则将目标文本编码方式标注为UTF8，执行步骤10；否则，执行步骤4。

步骤4：按照对应中文字符字频由高到低的顺序从GB18030的排他字符串集合G中逐个取出字符串str，并在网页文本中查找该字符串：如果找到str，则标示文本编码方式为GB18030，执行步骤10；否则，继续从G中选取字符串并在目标文本中查找。如果G中的所有字符串都不在目标文本中出现，执行步骤5。

步骤5：按照对应中文字符字频由高到底的顺序从UTF8的排他字符串集合U中逐个取出字符串str，并在目标文本中查找该字符串：如果找到str，则标示文本编码方式为UTF8，执行步骤10；否则，继续从U中选取字符串并在目标文本中查找。如果U中的所有字符串都不在目标文本中出现，执行步骤6。

步骤6：统计网页文本的字节长度ByteLength，设置阈值NA和字频倍率B(通常可以取NA＝3，B＝10000)，转步骤7。

步骤7：按照对应中文字符字频由高到底的顺序从UTF8的高概率字符串集合UP中逐个取出字符串str，在目标文本中查找并累积这些字符串出现次数UTF8_Count；如果UTF8_Count大于等于max{NA,ByteLength/(3*B)}，则标示目标文本编码方式为UTF8，执行步骤10；否则，执行步骤8。

步骤8：逐个取出GB18030高概率编码字符串集合GP中的字符串str，在目标文本中依次查找并累积这些字符串的找到次数GB18030_Count；如果GB18030_Count大于等于max{NA,ByteLength/(2*B)}，则标示目标文本编码方式为GB18030，执行步骤10；否则，执行步骤9。

步骤9：调用其他已有编码识别方法(如基于编码特征提取的识别方法或基于字频统计的识别方法)解决疑难问题。

步骤10：输出编码方式，结束程序。

对于步骤4和步骤5中，根据GB18030和UTF8的排他字符串集合分别在目标文本中查找排他字符串的过程中，只要文本中出现一次排他字符串就可以确定文本的编码方式。但在实际使用中，特别是对由网络传输获得的文本，如果考虑到传输错误的可能，可以类似步骤6和步骤7中的操作，适当增加判别次数，将一次出现即识别改变为超过某一阈值即识别。

中文编码识别模块结合了现有的编码识别方法，首先尝试最简单的charset标示查找确定，然后再根据GB18030和UTF8的排他字符串集合及逻辑关系，以及它们的高概率字符串集合和概率关系判别目标网页的中文编码方式。该方法能够快速、有效地识别中文文本的编码。应该理解的是，本实施例只是该发明的一种优选的实施方式。在不脱离本发明的精神和原则的前提下，任何对本发明做出的等同替换或变化，都应计入本发明的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做出各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于，包括：字符串集合设置模块及中文文本编码识别模块，其中：

中文文本编码识别模块：根据GB18030和UTF8的排他字符串集合以及GB18030编码和UTF8编码的高概率字符串集合，确定目标文本的中文编码方式；如果目标文本为网页文本，首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式；如果在目标文本中不存在该字段或目标文本为非网页的中文文本，则根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别网页文本的简体中文编码方式；如果仍然不能确定，再根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式；如果仍然不能识别，最后再调用其他现有识别方法，最终获得目标文本的中文编码方式。

2.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述字符串集合设置模块中，根据中文字符的字频分布，从频率最高的中文字符开始，按频率顺序选择字频最高若干的中文汉字、中文标点作为备用字符具体实现步骤如下：

(2)将所有的中文字符按照字频排序，按字频由高到低顺序从中选出频率最高的前k个中文字符C₁,...,C_k，使概率满足该不等式表示：在各字符出现独立假设下，n个中文字符中至少出现C₁,...,C_k中一个字符的概率不小于0.95；

(3)令S＝{C₁,...,C_k}，将S作为备用字符集合。

3.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述字符串集合设置模块中，分别确定这些字符的前超字、后超字、前超子字、后超子字、前子字和后子字，具体如下：

4.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述字符串集合设置模块中，得到设置的GB18030编码和UTF8编码的排他字符串集合，及GB18030编码和UTF8编码的高概率字符串集合过程为：从备用字符集合S中，按照字频P(C_i)从高到低的顺序依次取出中文字符C_i，并判别规则确定C_i是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合，其中，所述排他字符串指的是该字符串只可能出现在这种编码方式的文本中，其在逻辑上具有排他性；所述高概率字符串指的是该字符串能以较高的概率出现在这种编码方式的文本中，而在其他编码方式的文本中出现的概率极低，极低是指低于其在这种编码方式中出现频率的N分之一，其中N是大于1的一个倍率。

5.根据权利要求4所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：判别规则确定C_i是否属于GB18030编码和UTF8编码的排他字符串集合和高概率字符串集合的步骤如下：

(3)如果C_i的前超字和后超字的字频都小于P(C_i)/N且其前超子字和后超子字的组合出现的字符组合的频率也小于P(C_i)/N，将字符串GB18030(C_i)加入GB18030的高概率字符串集合GP，其中N是大于1的一个倍率；

(4)如果C_i的前子字和后子字在中文中出现的字频都小于P(C_i)/N，将字符串UTF8(C_i)加入UTF8的高概率编码字符串集合UP，其中N是大于1的一个倍率。

6.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述中文文本的编码识别模块中，如果目标文本为网页文本，首先通过查找<head>标签的<meta>标签中是否具有“charset”及具体编码方式字段来确定文本编码方式，其实现方法方法如下：在网页head标签范围内的所有<meta>标签内，查找“charset＝”字符串：如果找到，则该<meta>标签内，查找“GBK”、“GB2312”、“GB18030”或“UTF8”字符串，包括与这些字符串对应的小写字符串，并将找到的某一目标字符串作为该网页文本的编码方式；否则，不能由charset相关字符串查找的方法确定网页文本的编码方式。

7.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述编码识别模块中，根据GB18030编码和UTF8编码的排他字符串集合的逻辑属性识别目标文本的简体中文编码方式，实现步骤如下：

8.根据权利要求1所述的基于特定字符串查找的简体中文编码方式自动识别系统，其特征在于：所述中文文本的编码识别模块中，根据GB18030编码和UTF8编码的高概率字符串集合的概率属性识别目标文本的简体中文编码方式，实现步骤如下：

(1)统计目标文本的字节长度ByteLength，设置阈值NA和字频倍率B；

9.一种基于特定字符串查找的简体中文编码方式自动识别方法，其特征在于，包括以下步骤：

(3)令S＝{C₁,...,C_k}，将S作为备用字符集合；

(8)统计目标文本的字节长度ByteLength，设置阈值NA和字频倍率B，执行步骤(9)；

(11)中文编码识别成功，输出目标文本的中文编码方式；

(12)目标文本的中文编码识别失败。