CN102375818A

CN102375818A - 日文网页自动判别方法

Info

Publication number: CN102375818A
Application number: CN2010102515752A
Authority: CN
Inventors: 陈运文; 马飞涛; 宋海涛
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2010-08-12
Filing date: 2010-08-12
Publication date: 2012-03-14

Abstract

本发明公开了一种日文网页自动判别方法，包括步骤：获取网页数据头和网页数据体；读出网页数据头中的编码字符串，对编码字符串进行数据归一化；确定编码字符串的类型；根据编码字符串的类型从网页数据体中抽取一采样文本；根据编码字符串的类型设置初始置信值；判断采样文本的各字符的字符编码是否属于日文编码表并计算连续属于日文编码表的字符段的长度，将字符段的长度除以采样文本的长度，得到确认比率；用初始置信值加上确认比率得到一网页编码置信值，当网页编码置信值大于1时，确定当前网页的语言类型为日文。本发明能对采用不同网页编码的日文网页进行自动识别，能较好的区分中文网页和日文网页，能提高日文网页识别的准确度。

Description

日文网页自动判别方法

技术领域

本发明涉及网页处理，特别是涉及一种日文网页自动判别方法。

背景技术

互联网正在以爆炸式的速度在全球发展，在互联网上，用户可以访问的网页数量也越来越多。其中，互联网访问的一个特点是用户可以在接入网络的任意一个终端上，访问到全世界各地的网页信息。而这些网页中，所使用的语言是多种多样的。包括中文、英文、日文等等各个民族所使用的语言。

对特定的用户来说，其访问网页是存在语言偏好的。例如，可能某些用户只需要访问用特定语言撰写的网页。以搜索引擎google为例，google给出了特定的语言选项，可以搜索特定语言的网页，对来自中国大陆地区的用户，一般是将语言选项选择为“简体中文网页”。而中文网页和日文网页存在很大的相似性，因为日文语言中也存在大量汉字，因此，如何对日文网页进行识别和区分，是必须解决的问题。

因此，对互联网上的网页来说，非常需要一种良好的系统，能够自动的对网页的语言类型进行识别。现有技术中网页是一个HTML(HyperTextMark-up Language)即超文本标记语言或超文本链接标示语言文件，HTML的结构包括头部(Head)即网页数据头、主体(Body)即网页数据体两大部分，网页数据头是指HTML标签中<Head>和</Head>之间的部分，网页数据体是指<Body>和</Body>之间的部分。

利用现有技术在进行日文网页识别时，还具有以下主要技术难点：一、网页本身编码方式复杂，由于历史原因，当今互联网上网页编码的方式极为复杂。对于日文网页来说，既可能采用国际通行的unicode编码方式，也可能会使用日文专用的编码方式。W3C(World Wide Web Consortium)组织制订了网页编码识别标准，在网页数据头的charset或encoding后，放置网页编码类型的标识字符串；涉及到中日文网页区分的字符串包括：日文专用编码方式：sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap；中文专用编码方式：gb2312、gbk、gb18030、big、autocht；以及W3C制定的，统一内码(unicode)的编码方式UTF-8。二、日语存在汉字，易与中文网页混淆。

发明内容

本发明所要解决的技术问题是提供一种日文网页自动判别方法，能对采用不同网页编码的日文网页进行自动识别，能较好的区分中文网页和日文网页，还能提高日文网页识别的准确度。

为解决上述技术问题，本发明提供的日文网页自动判别方法，包括如下步骤：

步骤一、获取网页数据头和网页数据体。

步骤二、读出所述网页数据头中的编码字符串，对所述编码字符串进行数据归一化，数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号。读出所述编码字符串的方法为：找出所述网页数据头中的编码特征字符串，所述编码特征字符串为“encoding”或“charset”；抽取出所述编码特征字符串之后的“＝”之后、“>”之前的字符串作为所述编码字符串。

步骤三、确定所述编码字符串的类型：当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一；当所述编码字符串数据归一化后为gb、big、autocht时为类型二；当所述编码字符串数据归一化后为空即没有字符时为类型三。其中类型一的字符串属于日文专用编码方式的标识字符串的归一化后的字符串；类型二的字符串属于中文专用编码方式的标识字符串的归一化后的字符串。

步骤四、从所述网页数据体中抽取一采样文本。抽取方法为：当所述编码字符串为类型一时，抽取的采样文本长度为128字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本；当所述编码字符串为类型二时，抽取的采样文本长度为256字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本；当所述编码字符串为类型三时，抽取的采样文本长度为512字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本。

步骤五、设置初始置信值，设置方法为：当所述编码字符串为类型一时，所述初始置信值设置为0.98；当所述编码字符串为类型二时，所述初始置信值设置为0.5；当所述编码字符串为类型三时，所述初始置信值设置为0.3。

步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断，并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计，并计算所述连续属于日文编码表的字符段的长度；将所述字符段的长度除以所述采样文本的长度，得到确认比率。

步骤七、用所述初始置信值加上所述确认比率得到一网页编码置信值，当所述网页编码置信值大于1时，确定当前网页的语言类型为日文；当所述网页编码置信值小于等于1时，确定当前网页的语言类型不为日文。

进一步的改进是，当所述编码字符串为类型一时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为：

一、判断所述字符的字符编码的第一个字节是否为0x1B，若是，则所述字符共含有三个字节，则判断所述字符的字符编码是否满足条件：所述字符的字符编码的第二个字节为‘(’、第三个字节为‘B’、‘J’、‘I’之一，或者所述字符的字符编码的第二个字节为‘$’、第三个字节为‘’、‘B’之一，若满足上述条件，则所述字符的字符编码属于日文编码表且长度为三个字节。

二、判断所述字符的字符编码的第一个字节是否大于0x7F，若是，则所述字符共含有二个字节，则判断所述字符的字符编码是否满足条件：条件一、所述第一个字节为0x81～0x9F、0xE0～0xEF、0xFA、0xFB，且所述第二个字节为0x40～0x7E、0x80～0xFC；条件二、所述第一个字节为0x8E且所述第二个字节为0xA1～0xDF，或者所述第一个字节为0xA1～0xFE且所述第二个字节为0xA1～0xFE；若满足所述条件一、或所述条件二，则所述字符的字符编码属于日文编码表且长度为二个字节。

进一步的改进是，当所述编码字符串为类型二时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为：

一、判断所述字符的字符编码是否满足条件：所述字符的字符编码的第一个字节为0xA4～0xA5，且第二个字节为0xA1～0xF6；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。

二、判断所述字符的字符编码是否满足条件：所述第一个字节为0xC6且所述第二个字节为0xDB～0xFE，或所述第一个字节为0xC7且所述第二个字节为0x40～0x7E、0xA1～0xFE；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。

三、判断所述字符的字符编码是否满足条件：所述第一个字节为0x81～0xFE，且所述第二个字节为0x40～0xFE但不为0x7F，且所述字符的字符编码属于JAP_DICT1；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。

四、判断所述字符的字符编码是否满足条件：所述第一个字节为0x81～0xFE，且所述第二个字节为0x40～0xFE但不为0x7F，且所述字符的字符编码属于JAP_DICT2；若满足，则所述字符的字符编码属于日文编码表，所述字符的实际长度为2各字节，但是在计算所述字符段的长度时将所字符的长度计算为4个字节。

进一步的改进是，当所述编码字符串为类型三时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表并计算所述确认比率的方法为：

一、根据所述编码字符串为类型一时的判断方法判断各所述字符的字符编码是否属于日文编码表，并计算出确认比率一。

二、根据所述编码字符串为类型二时的判断方法判断各所述字符的字符编码是否属于日文编码表，并计算出确认比率二。

三、比较所述确认比率一和所述确认比率二，将其中较大的值作为所述确认比率。

本发明能对采用不同网页编码的日文网页进行识别，能较好的对包含汉字的网页进行判别、从而区分中文网页和日文网页，还能提高日文网页识别的准确度。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明：

图1是本发明方法的流程示意图；

图2是本发明实施例的流程框图。

具体实施方式

如图1所述为本发明方法的的流程示意图；如图2所示为本发明实施例的流程框图。本发明实施例日文网页自动判别方法，包括如下步骤：

步骤一、获取网页数据头和网页数据体。

步骤二、读出所述网页数据头中的编码字符串，对所述编码字符串进行数据归一化，数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号。读出所述编码字符串的方法为：找出所述网页数据头中的编码特征字符串(code_string)，所述编码特征字符串为“encoding”或“charset”；抽取出所述编码特征字符串之后的“＝”之后、“>”之前的字符串作为所述编码字符串。判断所述编码特征字符串是“encoding”、还是“charset”的方法是，根据网页数据头中是否出现特征字符串“<rss”或“<？xml”，若出现，则为“encoding”；若没出现，则为“charset”；在C语言中是根据is_xml的返回值进行判断，is_xml的表达式为：

bool is_xml＝(html_start！＝NULL&&(strncmp(html_start，“<rss”，4)＝＝0||strncmp(html_start，“<？xml”，5)＝＝0)。

当is_xml为1时，所述编码特征字符串为“encoding”；当is_xml为0时，所述编码特征字符串为“charset”。

步骤三、确定所述编码字符串的类型：当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap中的任意一种时为类型一(Type-I)；当所述编码字符串数据归一化后为gb、big、autocht中的任意一种时为类型二(Type-II)；当所述编码字符串数据归一化后为空即没有字符时为类型三(Type-III)。

步骤四、从所述网页数据体中抽取一采样文本。抽取方法为：当所述编码字符串为类型一时，抽取的采样文本长度(verify_length)为128字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本；当所述编码字符串为类型二时，抽取的采样文本长度为256字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本；当所述编码字符串为类型三时，抽取的采样文本长度为512字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本。

步骤五、设置初始置信值(Confidence_value)，设置方法为：当所述编码字符串为类型一时，所述初始置信值设置为0.98；当所述编码字符串为类型二时，所述初始置信值设置为0.5；当所述编码字符串为类型三时，所述初始置信值设置为0.3。

步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断，并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计，并计算所述连续属于日文编码表的字符段的长度；将所述字符段的长度除以所述采样文本的长度，得到确认比率(verify_ratio)。

在上述步骤六中，是根据所述编码字符串的不同类型，来分别判断所述采样文本各字符是否属于日文编码表并计算所述确认比率(verify_ratio)。当所述编码字符串为类型一时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为，即如图2所示的Type-I对应verify函数系列为：

用Java语言表示为：如果p[0]＝＝0x1B，则判断如下函数是否成立：

verify_jp_jis()

p[1]＝＝&&(p[2]＝＝‘B’||p[2]＝＝‘J’||p[2]＝＝‘I’)

或

p[1]＝＝‘$’&&(p[2]＝＝‘’||p[2]＝＝‘B’)

其中所述p[0]为所述字符的字符编码的第一个字节、p[1]为第二个字节、p[2]为第三个字节，即此时一个字符的字符编码的长度为三个字节。

用Java语言表示为：

如果p[0]＞0x7F，则判断如下函数之一是否成立：

条件一的函数verify_jp_sjis()的判断条件为：

((p[0]＞＝0x81&&p[0]＜＝0x9F)||(p[0]＞＝0xE0&&p[0]＜＝0xEF)||p[0]＝＝0xFA||p[0]＝＝0xFB)&&((p[1]＞＝0x40&&p[1]＜＝0x7E)||(p[1]＞＝0x80&&p[1]＜＝0xFC))。

条件二的函数verify_jp_euc()判断条件为：

(p[0]＝＝0x8E)&&(p[1]＞＝0xA1)&&(p[1]＜＝0xDF)||((p[0]＞＝0xA1)&&(p[0]＜＝0xFE)&&(p[1]＞＝0xA1)&&(p[1]＜＝0xFE))。

当所述编码字符串为类型二时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为，即如图2所示的Type-II对应verify函数系列为，即判断以下任一条件是否满足：

一、判断所述字符的字符编码是否满足条件：所述字符的字符编码的第一个字节为0xA4～0xA5，且第二个字节为0xA1～0xF6；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为，判断如下函数verify_jp_fn()是否成立：

((p[0]＝＝0xA4)||(p[0]＝＝0xA5))&&(p[1]＞＝0xA1)&&(p[1]＜＝0xF6)。

二、判断所述字符的字符编码是否满足条件：所述第一个字节为0xC6且所述第二个字节为0xDB～0xFE，或所述第一个字节为0xC7且所述第二个字节为0x40～0x7E、0xA1～0xFE；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为，判断如下函数verify_jp_big()是否成立：p[0]＝＝0xC6&&p[1]＞＝0xDB&&p[1]＜＝0xFE))||(p[0]＝＝0xC7&&p[1]＞＝0x40&&p[1]＜＝0x7E)||(p[0]＝＝0xC7&&p[1]＞＝0xA1&&p[1]＜＝0xFE)。

三、判断所述字符的字符编码是否满足条件：所述第一个字节为0x81～0xFE，且所述第二个字节为0x40～0xFE但不为0x7F，且所述字符的字符编码属于JAP_DICT1；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为，判断如下函数verify_jp_gb()是否成立：

p[0]＞＝0x81&&p[0]＜＝0xfe&&p[1]＞＝0x40&&p[1]＜＝0xfe&&p[1]！＝0x7f&&p[0]p[1]∈JAP_DICT1。

四、判断所述字符的字符编码是否满足条件：所述第一个字节为0x81～0xFE，且所述第二个字节为0x40～0xFE但不为0x7F，且所述字符的字符编码属于JAP_DICT2；若满足，则所述字符的字符编码属于日文编码表，所述字符的实际长度为2各字节，但是在计算所述字符段的长度时将所字符的长度计算为4个字节。用Java语言表示为，判断如下函数verify_jp_special()是否成立：

p[0]＞＝0x81&&p[0]＜＝0xfe&&p[1]＞＝0x40&&p[1]＜＝0xfe&&p[1]！＝0x7f&&p[0]p[1]∈JAP_DICT2

当所述编码字符串为类型三时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为，即如图2所示的Type-III对应verify函数系列为：

上述JAP_DICT1和JAP_DICT2分别为两个日文字典表，其中JAP_DICT1为日文中使用、中文中可能使用的汉字字符，JAP_DICT2为仅日文使用、中文并不使用的汉字字符，JAP_DICT1和JAP_DICT2所包含的汉字字符分别列举如下：

一、JAP_DICT1包括如下1947个字：

亜哀爱悪握圧扱安暗案衣以位依伟囲医委威尉意慰易为异移维纬胃违遗域育一壱逸芋印员因姻引饮院阴隠韵右宇羽雨运云営影映栄永泳英卫咏锐液疫益駅悦谒越阅円园宴延援沿演炎烟猿縁远铅塩汚王凹央往応押横欧殴奥桜翁黄亿屋忆乙卸恩温穏音下化仮何価佳加可夏嫁家寡科暇果架歌河火祸稼个花荷华菓课货涡过蚊我画芽贺雅饿介会解回块壊快怪悔懐戒拐改械海灰界皆絵开阶贝劾外害慨概涯街该垣吓各拡格核壳获确获覚角较郭阁隔革学岳楽额挂潟割喝括活渇滑褐辖且株刈乾冠寒刊勘勧巻唤堪完官寛干干患感惯憾换敢棺款歓汗汉环甘监看管简缓缶肝舰観贯还鉴间闲関陥馆丸含岸眼岩顽颜愿企危喜器基奇寄岐希几忌挥机旗既期棋弃机帰気汽祈季纪规记贵起轨辉饥骑鬼伪仪宜戯技拟欺犠疑义议菊吉吃诘却客脚虐逆丘久休及吸宫弓急救朽求泣球究穷级纠给旧牛去居巨拒拠挙虚许距渔鱼享京供竞共凶协叫境峡强恐恭挟教桥况狂狭矫胸胁兴郷镜响惊仰凝暁业局曲极玉勤均斤琴禁筋紧菌襟谨近金吟银九句区苦駆具愚虞空偶遇隅屈掘靴缲桑勲君薫训群军郡系倾刑兄启型契形径恵庆憩掲携敬景渓系経継茎蛍计警軽鶏芸迎鲸剧撃激杰欠决洁穴结血月件倹健兼券剣圏坚嫌建宪悬検権犬献研绢県肩见谦贤轩遣険顕験元原厳幻弦减源玄现言限个古呼固孤己库弧戸故枯湖夸雇顾鼓五互午呉娛后御悟碁语误护交侯候光公功効厚口向后坑好孔孝工巧幸広康恒慌抗拘控攻更校构江洪港沟甲皇硬稿红绞纲耕考肯航荒行衡讲贡购郊酵鉱钢降项香高刚号合拷豪克刻告国谷酷黒狱腰骨込今困垦婚恨恳昆根混绀魂佐唆左差查砂诈锁座债催再最妻宰彩才采栽歳済灾砕祭斎细菜裁载际剤在材罪财坂咲崎作削榨昨策索错册刷察撮擦札杀雑皿三伞参山惨散桟产算蚕賛酸暂残士子支止氏仕史司矢使刺嗣四始姉姿市糸伺师志思指施旨枝死祉私纸紫肢脂至视词诗试志谘资赐雌饲歯事似侍児字寺慈持时次滋治玺磁示耳自辞式识轴七执失室湿漆疾质実芝舎写射舍赦斜煮社者谢车遮蛇邪借勺尺爵酌釈若寂弱主取守手朱殊狩珠种趣酒首儒受寿授树需囚収周宗就州修愁拾秀秋终习臭舟众袭周酬集丑住充十従柔汁渋獣縦重铳叔宿淑祝缩粛塾熟出术述俊春瞬准循旬殉准润盾纯巡遵顺処初所暑庶绪署书诸助叙女如序徐除伤偿胜匠升召商唱奨宵将小少尚床彰承抄招掌升昭晶松沼消渉焼焦照症省硝礁祥称章笑妆绍肖冲讼证诏详象赏钟障上丈乗冗剰城场常情条浄状畳蒸縄壌嬢譲醸锭嘱饰植殖织职色触食辱伸信侵唇娠寝审心慎振新森浸深申真津神绅臣薪亲诊身辛进针震人仁刃寻甚尽迅阵酢図吹垂帅推水炊睡粋衰遂酔锤随髄崇数枢据杉澄寸瀬亩是井世正生成西声制势姓征性政整星婿晴清牲盛精圣制诚誓请逝青静斉税夕斥石赤昔只席惜析积籍绩责迹切拙接摂折设窃节说雪绝舌仙先千占宣専川戦扇栓泉浅洗染潜旋线繊船荐践选迁銭铣鲜前善渐然全禅缮塑措疎础祖租粗素组诉阻僧创双仓丧壮奏层想搜扫挿操早曹巣槽燥争相窓総草荘葬藻装走送遭霜騒像增憎臓蔵赠造促侧则即息束测足速俗属贼族続卒存孙尊损村他多太堕妥惰打駄体対耐帯待怠态替泰滞胎袋贷退逮队代台大第题滝卓宅択拓沢濯托浊诺但达夺脱棚谷丹単叹担探淡炭短端胆诞锻団坛弾断暖段男谈値知地耻池痴稚置致遟筑畜竹蓄逐秩窒茶嫡着中仲冲宙忠抽昼柱注虫衷鋳驻著贮丁兆帐庁吊张雕徵惩挑朝潮町眺聴胀肠调超跳长钓顶鸟勅直朕沈珍赁镇陈坠追痛通冢渍坪亭低停侦贞呈堤定帝底庭廷弟抵提程缔艇订逓邸泥摘敌滴的笛适哲彻撤迭鉄典天展店添転点伝殿田电吐涂徒斗渡登途都努度土奴怒倒党冬冻刀唐塔岛悼投搭东桃栋盗汤灯当痘等答筒糖统稲到讨誊豆踏逃透陶头腾闘働动同堂导洞童胴道铜峠匿得德特督笃毒独読凸突届屯豚昙钝内南软难二尼弐肉日乳入尿任妊忍认宁热年念燃粘悩纳能脳农浓把覇波派破婆马俳廃拝排败杯背肺辈配倍培媒梅买壳赔陪伯博拍泊白舶薄迫漠爆缚麦箱肌畑八钵発髪伐罚抜阀伴判半反帆搬板版犯班畔繁般藩贩范烦颁饭晚番盘蛮卑否妃彼悲扉批披比泌疲皮碑秘罢肥被费避非飞备尾微美鼻匹必笔姬百表标氷漂票表评描猫病秒苗品浜贫宾频敏瓶不付夫妇富布府怖扶敷普浮父符腐肤谱负赋赴附侮武舞部封风伏副复幅服福腹复覆払沸仏物分喷坟愤奋粉纷雰文闻丙并兵塀币平弊柄并闭陛米壁癖别偏変片编辺返遍便勉弁歩保舗捕浦补穂募墓慕暮母簿仿俸包报奉宝峰崩抱放方法泡炮缝胞芳褒访豊邦饱乏亡傍剖坊妨帽忘忙房暴望某棒冒纺肪膨谋贸防北仆墨扑朴牧没堀奔本翻凡盆摩磨魔麻埋妹枚每幕膜又抹末茧万慢満漫未味魅岬密脉妙民眠务梦无矛雾娘名命明盟迷铭鸣灭免绵面模茂妄毛猛盲网耗木黙目戻问纹门匁夜野厄役约薬訳跃柳由油愉谕输愈唯友有勇幽悠忧犹裕诱游邮雄融优与予余誉预幼容庸扬摇拥曜様洋溶用窑羊叶要谣踊阳养抑欲浴翌翼罗裸来頼雷络落酪乱卵栏滥覧利吏里履理痢裏离陆律率立略流留硫粒隆竜虑旅虏了僚両寮料凉猟疗粮良量陵领力绿伦厘林临轮隣塁涙累类令例冷励礼铃隷零霊齢丽暦歴列劣烈裂廉恋练连錬炉路露労廊朗楼浪漏老郎六录论和话贿惑枠湾腕鹸堺。

二、DICT2包括如下196个字：

亜悪圧扱囲壱隠営栄駅円縁塩汚応桜穏仮価菓壊懐絵拡覚楽潟渇刈勧巻寛歓観関陥帰気戯犠拠挙郷暁駆勲恵掲渓経継蛍軽鶏撃倹剣検権県険顕験厳戸呉娛碁効広鉱黒込歳済砕斎剤咲雑桟賛谘歯児実舎釈収従渋獣縦粛処奨渉焼乗剰畳縄壌壌譲醸図粋酔瀨斉摂専戦繊銭疎搜挿巣窓総荘騒蔵続馱対帯滝択沢単団弾値遟鋳庁徵町聴逓鉄転伝电稲誊闘働峠德読弐悩脳廃拝壳発抜氷払仏雰変辺弁歩舗穂豊満黙戻薬訳樣頼覧裏竜両猟塁隷霊齢暦歴錬労枠鹸堺。

以上通过具体实施例对本发明进行了详细的说明，但这些并非构成对本发明的限制。在不脱离本发明原理的情况下，本领域的技术人员还可做出许多变形和改进，这些也应视为本发明的保护范围。

Claims

1.一种日文网页自动判别方法，其特征在于，包括如下步骤：

步骤一、获取网页数据头和网页数据体；

步骤二、读出所述网页数据头中的编码字符串，对所述编码字符串进行数据归一化，数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号；

步骤三、确定所述编码字符串的类型：当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一；当所述编码字符串数据归一化后为gb、big、autocht时为类型二；当所述编码字符串数据归一化后没有字符时为类型三；

步骤四、从所述网页数据体中抽取一采样文本；抽取方法为：当所述编码字符串为类型一时，抽取的采样文本长度为128字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本；

当所述编码字符串为类型二时，抽取的采样文本长度为256字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本；

当所述编码字符串为类型三时，抽取的采样文本长度为512字节，抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本；

步骤五、设置初始置信值，设置方法为：当所述编码字符串为类型一时，所述初始置信值设置为0.98；当所述编码字符串为类型二时，所述初始置信值设置为0.5；当所述编码字符串为类型三时，所述初始置信值设置为0.3；

步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断，并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计，并计算所述连续属于日文编码表的字符段的长度，将所述字符段的长度除以所述采样文本的长度，得到确认比率；

2.如权利要求1所述日文网页自动判别方法，其特征在于：步骤二中读出所述编码字符串的方法为：找出所述网页数据头中的编码特征字符串，所述编码特征字符串为“encoding”或“charset”；抽取出所述编码特征字符串之后的“＝”之后、“>”之前的字符串作为所述编码字符串。

3.如权利要求1所述日文网页自动判别方法，其特征在于：当所述编码字符串为类型一时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为：

一、判断所述字符的字符编码的第一个字节是否为0x1B，若是，则所述字符共含有三个字节，则判断所述字符的字符编码是否满足条件：所述字符的字符编码的第二个字节为‘(’、第三个字节为‘B’、‘J’、‘I’之一，或者所述字符的字符编码的第二个字节为‘$’、第三个字节为‘’、‘B’之一，若满足上述条件，则所述字符的字符编码属于日文编码表且长度为三个字节；

4.如权利要求1所述日文网页自动判别方法，其特征在于：当所述编码字符串为类型二时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为：

一、判断所述字符的字符编码是否满足条件：所述字符的字符编码的第一个字节为0xA4～0xA5，且第二个字节为0xA1～0xF6；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节；

二、判断所述字符的字符编码是否满足条件：所述第一个字节为0xC6且所述第二个字节为0xDB～0xFE，或所述第一个字节为0xC7且所述第二个字节为0x40～0x7E、0xA1～0xFE；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节；

三、判断所述字符的字符编码是否满足条件：所述第一个字节为0x81～0xFE，且所述第二个字节为0x40～0xFE但不为0x7F，且所述字符的字符编码属于JAP_DICT1；若满足，则所述字符的字符编码属于日文编码表且长度为二个字节；

5.如权利要求1、或3、或4所述日文网页自动判别方法，其特征在于：当所述编码字符串为类型三时，步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表并计算所述确认比率的方法为：

一、根据所述编码字符串为类型一时的判断方法判断各所述字符的字符编码属于是否日文编码表，并计算出确认比率一；

二、根据所述编码字符串为类型二时的判断方法判断各所述字符的字符编码属于是否日文编码表，并计算出确认比率二；