CN102375818A - 日文网页自动判别方法 - Google Patents
日文网页自动判别方法 Download PDFInfo
- Publication number
- CN102375818A CN102375818A CN2010102515752A CN201010251575A CN102375818A CN 102375818 A CN102375818 A CN 102375818A CN 2010102515752 A CN2010102515752 A CN 2010102515752A CN 201010251575 A CN201010251575 A CN 201010251575A CN 102375818 A CN102375818 A CN 102375818A
- Authority
- CN
- China
- Prior art keywords
- character
- byte
- japanese
- bytes
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005070 sampling Methods 0.000 claims abstract description 46
- 238000010606 normalization Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 210000003128 head Anatomy 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 230000006378 damage Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000035939 shock Effects 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000000366 juvenile effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000208140 Acer Species 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241000255789 Bombyx mori Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 244000209117 Castanea crenata Species 0.000 description 1
- 235000003801 Castanea crenata Nutrition 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- 244000205754 Colocasia esculenta Species 0.000 description 1
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 206010011416 Croup infectious Diseases 0.000 description 1
- 241000195493 Cryptophyta Species 0.000 description 1
- 206010011703 Cyanosis Diseases 0.000 description 1
- 241000255925 Diptera Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 240000003473 Grevillea banksii Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 240000000249 Morus alba Species 0.000 description 1
- 235000008708 Morus alba Nutrition 0.000 description 1
- 229910002651 NO3 Inorganic materials 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- NHNBFGGVMKEFGY-UHFFFAOYSA-N Nitrate Chemical compound [O-][N+]([O-])=O NHNBFGGVMKEFGY-UHFFFAOYSA-N 0.000 description 1
- 206010033664 Panic attack Diseases 0.000 description 1
- 241000287107 Passer Species 0.000 description 1
- 244000100170 Phaseolus lunatus Species 0.000 description 1
- 235000010617 Phaseolus lunatus Nutrition 0.000 description 1
- 244000082204 Phyllostachys viridis Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 241001486234 Sciota Species 0.000 description 1
- 102100037505 Secretin Human genes 0.000 description 1
- 108010086019 Secretin Proteins 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 238000003723 Smelting Methods 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- 241000700647 Variola virus Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 239000005018 casein Substances 0.000 description 1
- BECPQYXYKAMYBN-UHFFFAOYSA-N casein, tech. Chemical compound NCCCCC(C(O)=O)N=C(O)C(CC(O)=O)N=C(O)C(CCC(O)=N)N=C(O)C(CC(C)C)N=C(O)C(CCC(O)=O)N=C(O)C(CC(O)=O)N=C(O)C(CCC(O)=O)N=C(O)C(C(C)O)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=N)N=C(O)C(CCC(O)=O)N=C(O)C(CCC(O)=O)N=C(O)C(COP(O)(O)=O)N=C(O)C(CCC(O)=N)N=C(O)C(N)CC1=CC=CC=C1 BECPQYXYKAMYBN-UHFFFAOYSA-N 0.000 description 1
- 235000021240 caseins Nutrition 0.000 description 1
- 208000010717 cat disease Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- RZEKVGVHFLEQIL-UHFFFAOYSA-N celecoxib Chemical compound C1=CC(C)=CC=C1C1=CC(C(F)(F)F)=NN1C1=CC=C(S(N)(=O)=O)C=C1 RZEKVGVHFLEQIL-UHFFFAOYSA-N 0.000 description 1
- 229960000590 celecoxib Drugs 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 239000003610 charcoal Substances 0.000 description 1
- 239000000571 coke Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 208000001848 dysentery Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229940011871 estrogen Drugs 0.000 description 1
- 239000000262 estrogen Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000003132 food thickener Nutrition 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- PQTCMBYFWMFIGM-UHFFFAOYSA-N gold silver Chemical compound [Ag].[Au] PQTCMBYFWMFIGM-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000008268 mayonnaise Substances 0.000 description 1
- 235000010746 mayonnaise Nutrition 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 208000019906 panic disease Diseases 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 229940098458 powder spray Drugs 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 210000001848 seam cell Anatomy 0.000 description 1
- 229960002101 secretin Drugs 0.000 description 1
- OWMZNFCDEHGFEP-NFBCVYDUSA-N secretin human Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)NCC(=O)N[C@@H](C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C(C)C)C(N)=O)[C@@H](C)O)NC(=O)[C@@H](NC(=O)CNC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC=1NC=NC=1)[C@@H](C)O)C1=CC=CC=C1 OWMZNFCDEHGFEP-NFBCVYDUSA-N 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 210000002435 tendon Anatomy 0.000 description 1
- 210000001550 testis Anatomy 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种日文网页自动判别方法,包括步骤:获取网页数据头和网页数据体;读出网页数据头中的编码字符串,对编码字符串进行数据归一化;确定编码字符串的类型;根据编码字符串的类型从网页数据体中抽取一采样文本;根据编码字符串的类型设置初始置信值;判断采样文本的各字符的字符编码是否属于日文编码表并计算连续属于日文编码表的字符段的长度,将字符段的长度除以采样文本的长度,得到确认比率;用初始置信值加上确认比率得到一网页编码置信值,当网页编码置信值大于1时,确定当前网页的语言类型为日文。本发明能对采用不同网页编码的日文网页进行自动识别,能较好的区分中文网页和日文网页,能提高日文网页识别的准确度。
Description
技术领域
本发明涉及网页处理,特别是涉及一种日文网页自动判别方法。
背景技术
互联网正在以爆炸式的速度在全球发展,在互联网上,用户可以访问的网页数量也越来越多。其中,互联网访问的一个特点是用户可以在接入网络的任意一个终端上,访问到全世界各地的网页信息。而这些网页中,所使用的语言是多种多样的。包括中文、英文、日文等等各个民族所使用的语言。
对特定的用户来说,其访问网页是存在语言偏好的。例如,可能某些用户只需要访问用特定语言撰写的网页。以搜索引擎google为例,google给出了特定的语言选项,可以搜索特定语言的网页,对来自中国大陆地区的用户,一般是将语言选项选择为“简体中文网页”。而中文网页和日文网页存在很大的相似性,因为日文语言中也存在大量汉字,因此,如何对日文网页进行识别和区分,是必须解决的问题。
因此,对互联网上的网页来说,非常需要一种良好的系统,能够自动的对网页的语言类型进行识别。现有技术中网页是一个HTML(HyperTextMark-up Language)即超文本标记语言或超文本链接标示语言文件,HTML的结构包括头部(Head)即网页数据头、主体(Body)即网页数据体两大部分,网页数据头是指HTML标签中<Head>和</Head>之间的部分,网页数据体是指<Body>和</Body>之间的部分。
利用现有技术在进行日文网页识别时,还具有以下主要技术难点:一、网页本身编码方式复杂,由于历史原因,当今互联网上网页编码的方式极为复杂。对于日文网页来说,既可能采用国际通行的unicode编码方式,也可能会使用日文专用的编码方式。W3C(World Wide Web Consortium)组织制订了网页编码识别标准,在网页数据头的charset或encoding后,放置网页编码类型的标识字符串;涉及到中日文网页区分的字符串包括:日文专用编码方式:sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap;中文专用编码方式:gb2312、gbk、gb18030、big、autocht;以及W3C制定的,统一内码(unicode)的编码方式UTF-8。二、日语存在汉字,易与中文网页混淆。
发明内容
本发明所要解决的技术问题是提供一种日文网页自动判别方法,能对采用不同网页编码的日文网页进行自动识别,能较好的区分中文网页和日文网页,还能提高日文网页识别的准确度。
为解决上述技术问题,本发明提供的日文网页自动判别方法,包括如下步骤:
步骤一、获取网页数据头和网页数据体。
步骤二、读出所述网页数据头中的编码字符串,对所述编码字符串进行数据归一化,数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号。读出所述编码字符串的方法为:找出所述网页数据头中的编码特征字符串,所述编码特征字符串为“encoding”或“charset”;抽取出所述编码特征字符串之后的“=”之后、“>”之前的字符串作为所述编码字符串。
步骤三、确定所述编码字符串的类型:当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一;当所述编码字符串数据归一化后为gb、big、autocht时为类型二;当所述编码字符串数据归一化后为空即没有字符时为类型三。其中类型一的字符串属于日文专用编码方式的标识字符串的归一化后的字符串;类型二的字符串属于中文专用编码方式的标识字符串的归一化后的字符串。
步骤四、从所述网页数据体中抽取一采样文本。抽取方法为:当所述编码字符串为类型一时,抽取的采样文本长度为128字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本;当所述编码字符串为类型二时,抽取的采样文本长度为256字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本;当所述编码字符串为类型三时,抽取的采样文本长度为512字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本。
步骤五、设置初始置信值,设置方法为:当所述编码字符串为类型一时,所述初始置信值设置为0.98;当所述编码字符串为类型二时,所述初始置信值设置为0.5;当所述编码字符串为类型三时,所述初始置信值设置为0.3。
步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断,并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计,并计算所述连续属于日文编码表的字符段的长度;将所述字符段的长度除以所述采样文本的长度,得到确认比率。
步骤七、用所述初始置信值加上所述确认比率得到一网页编码置信值,当所述网页编码置信值大于1时,确定当前网页的语言类型为日文;当所述网页编码置信值小于等于1时,确定当前网页的语言类型不为日文。
进一步的改进是,当所述编码字符串为类型一时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为:
一、判断所述字符的字符编码的第一个字节是否为0x1B,若是,则所述字符共含有三个字节,则判断所述字符的字符编码是否满足条件:所述字符的字符编码的第二个字节为‘(’、第三个字节为‘B’、‘J’、‘I’之一,或者所述字符的字符编码的第二个字节为‘$’、第三个字节为‘’、‘B’之一,若满足上述条件,则所述字符的字符编码属于日文编码表且长度为三个字节。
二、判断所述字符的字符编码的第一个字节是否大于0x7F,若是,则所述字符共含有二个字节,则判断所述字符的字符编码是否满足条件:条件一、所述第一个字节为0x81~0x9F、0xE0~0xEF、0xFA、0xFB,且所述第二个字节为0x40~0x7E、0x80~0xFC;条件二、所述第一个字节为0x8E且所述第二个字节为0xA1~0xDF,或者所述第一个字节为0xA1~0xFE且所述第二个字节为0xA1~0xFE;若满足所述条件一、或所述条件二,则所述字符的字符编码属于日文编码表且长度为二个字节。
进一步的改进是,当所述编码字符串为类型二时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为:
一、判断所述字符的字符编码是否满足条件:所述字符的字符编码的第一个字节为0xA4~0xA5,且第二个字节为0xA1~0xF6;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。
二、判断所述字符的字符编码是否满足条件:所述第一个字节为0xC6且所述第二个字节为0xDB~0xFE,或所述第一个字节为0xC7且所述第二个字节为0x40~0x7E、0xA1~0xFE;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。
三、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT1;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。
四、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT2;若满足,则所述字符的字符编码属于日文编码表,所述字符的实际长度为2各字节,但是在计算所述字符段的长度时将所字符的长度计算为4个字节。
进一步的改进是,当所述编码字符串为类型三时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表并计算所述确认比率的方法为:
一、根据所述编码字符串为类型一时的判断方法判断各所述字符的字符编码是否属于日文编码表,并计算出确认比率一。
二、根据所述编码字符串为类型二时的判断方法判断各所述字符的字符编码是否属于日文编码表,并计算出确认比率二。
三、比较所述确认比率一和所述确认比率二,将其中较大的值作为所述确认比率。
本发明能对采用不同网页编码的日文网页进行识别,能较好的对包含汉字的网页进行判别、从而区分中文网页和日文网页,还能提高日文网页识别的准确度。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是本发明方法的流程示意图;
图2是本发明实施例的流程框图。
具体实施方式
如图1所述为本发明方法的的流程示意图;如图2所示为本发明实施例的流程框图。本发明实施例日文网页自动判别方法,包括如下步骤:
步骤一、获取网页数据头和网页数据体。
步骤二、读出所述网页数据头中的编码字符串,对所述编码字符串进行数据归一化,数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号。读出所述编码字符串的方法为:找出所述网页数据头中的编码特征字符串(code_string),所述编码特征字符串为“encoding”或“charset”;抽取出所述编码特征字符串之后的“=”之后、“>”之前的字符串作为所述编码字符串。判断所述编码特征字符串是“encoding”、还是“charset”的方法是,根据网页数据头中是否出现特征字符串“<rss”或“<?xml”,若出现,则为“encoding”;若没出现,则为“charset”;在C语言中是根据is_xml的返回值进行判断,is_xml的表达式为:
bool is_xml=(html_start!=NULL&&(strncmp(html_start,“<rss”,4)==0||strncmp(html_start,“<?xml”,5)==0)。
当is_xml为1时,所述编码特征字符串为“encoding”;当is_xml为0时,所述编码特征字符串为“charset”。
步骤三、确定所述编码字符串的类型:当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap中的任意一种时为类型一(Type-I);当所述编码字符串数据归一化后为gb、big、autocht中的任意一种时为类型二(Type-II);当所述编码字符串数据归一化后为空即没有字符时为类型三(Type-III)。
步骤四、从所述网页数据体中抽取一采样文本。抽取方法为:当所述编码字符串为类型一时,抽取的采样文本长度(verify_length)为128字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本;当所述编码字符串为类型二时,抽取的采样文本长度为256字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本;当所述编码字符串为类型三时,抽取的采样文本长度为512字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本。
步骤五、设置初始置信值(Confidence_value),设置方法为:当所述编码字符串为类型一时,所述初始置信值设置为0.98;当所述编码字符串为类型二时,所述初始置信值设置为0.5;当所述编码字符串为类型三时,所述初始置信值设置为0.3。
步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断,并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计,并计算所述连续属于日文编码表的字符段的长度;将所述字符段的长度除以所述采样文本的长度,得到确认比率(verify_ratio)。
步骤七、用所述初始置信值加上所述确认比率得到一网页编码置信值,当所述网页编码置信值大于1时,确定当前网页的语言类型为日文;当所述网页编码置信值小于等于1时,确定当前网页的语言类型不为日文。
在上述步骤六中,是根据所述编码字符串的不同类型,来分别判断所述采样文本各字符是否属于日文编码表并计算所述确认比率(verify_ratio)。当所述编码字符串为类型一时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为,即如图2所示的Type-I对应verify函数系列为:
一、判断所述字符的字符编码的第一个字节是否为0x1B,若是,则所述字符共含有三个字节,则判断所述字符的字符编码是否满足条件:所述字符的字符编码的第二个字节为‘(’、第三个字节为‘B’、‘J’、‘I’之一,或者所述字符的字符编码的第二个字节为‘$’、第三个字节为‘’、‘B’之一,若满足上述条件,则所述字符的字符编码属于日文编码表且长度为三个字节。
用Java语言表示为:如果p[0]==0x1B,则判断如下函数是否成立:
verify_jp_jis()
p[1]==&&(p[2]==‘B’||p[2]==‘J’||p[2]==‘I’)
或
p[1]==‘$’&&(p[2]==‘’||p[2]==‘B’)
其中所述p[0]为所述字符的字符编码的第一个字节、p[1]为第二个字节、p[2]为第三个字节,即此时一个字符的字符编码的长度为三个字节。
二、判断所述字符的字符编码的第一个字节是否大于0x7F,若是,则所述字符共含有二个字节,则判断所述字符的字符编码是否满足条件:条件一、所述第一个字节为0x81~0x9F、0xE0~0xEF、0xFA、0xFB,且所述第二个字节为0x40~0x7E、0x80~0xFC;条件二、所述第一个字节为0x8E且所述第二个字节为0xA1~0xDF,或者所述第一个字节为0xA1~0xFE且所述第二个字节为0xA1~0xFE;若满足所述条件一、或所述条件二,则所述字符的字符编码属于日文编码表且长度为二个字节。
用Java语言表示为:
如果p[0]>0x7F,则判断如下函数之一是否成立:
条件一的函数verify_jp_sjis()的判断条件为:
((p[0]>=0x81&&p[0]<=0x9F)||(p[0]>=0xE0&&p[0]<=0xEF)||p[0]==0xFA||p[0]==0xFB)&&((p[1]>=0x40&&p[1]<=0x7E)||(p[1]>=0x80&&p[1]<=0xFC))。
条件二的函数verify_jp_euc()判断条件为:
(p[0]==0x8E)&&(p[1]>=0xA1)&&(p[1]<=0xDF)||((p[0]>=0xA1)&&(p[0]<=0xFE)&&(p[1]>=0xA1)&&(p[1]<=0xFE))。
当所述编码字符串为类型二时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为,即如图2所示的Type-II对应verify函数系列为,即判断以下任一条件是否满足:
一、判断所述字符的字符编码是否满足条件:所述字符的字符编码的第一个字节为0xA4~0xA5,且第二个字节为0xA1~0xF6;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为,判断如下函数verify_jp_fn()是否成立:
((p[0]==0xA4)||(p[0]==0xA5))&&(p[1]>=0xA1)&&(p[1]<=0xF6)。
二、判断所述字符的字符编码是否满足条件:所述第一个字节为0xC6且所述第二个字节为0xDB~0xFE,或所述第一个字节为0xC7且所述第二个字节为0x40~0x7E、0xA1~0xFE;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为,判断如下函数verify_jp_big()是否成立:p[0]==0xC6&&p[1]>=0xDB&&p[1]<=0xFE))||(p[0]==0xC7&&p[1]>=0x40&&p[1]<=0x7E)||(p[0]==0xC7&&p[1]>=0xA1&&p[1]<=0xFE)。
三、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT1;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节。用Java语言表示为,判断如下函数verify_jp_gb()是否成立:
p[0]>=0x81&&p[0]<=0xfe&&p[1]>=0x40&&p[1]<=0xfe&&p[1]!=0x7f&&p[0]p[1]∈JAP_DICT1。
四、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT2;若满足,则所述字符的字符编码属于日文编码表,所述字符的实际长度为2各字节,但是在计算所述字符段的长度时将所字符的长度计算为4个字节。用Java语言表示为,判断如下函数verify_jp_special()是否成立:
p[0]>=0x81&&p[0]<=0xfe&&p[1]>=0x40&&p[1]<=0xfe&&p[1]!=0x7f&&p[0]p[1]∈JAP_DICT2
当所述编码字符串为类型三时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为,即如图2所示的Type-III对应verify函数系列为:
一、根据所述编码字符串为类型一时的判断方法判断各所述字符的字符编码是否属于日文编码表,并计算出确认比率一。
二、根据所述编码字符串为类型二时的判断方法判断各所述字符的字符编码是否属于日文编码表,并计算出确认比率二。
三、比较所述确认比率一和所述确认比率二,将其中较大的值作为所述确认比率。
上述JAP_DICT1和JAP_DICT2分别为两个日文字典表,其中JAP_DICT1为日文中使用、中文中可能使用的汉字字符,JAP_DICT2为仅日文使用、中文并不使用的汉字字符,JAP_DICT1和JAP_DICT2所包含的汉字字符分别列举如下:
一、JAP_DICT1包括如下1947个字:
亜哀爱悪握圧扱安暗案衣以位依伟囲医委威尉意慰易为异移维纬胃违遗域育一壱逸芋印员因姻引饮院阴隠韵右宇羽雨运云営影映栄永泳英卫咏锐液疫益駅悦谒越阅円园宴延援沿演炎烟猿縁远铅塩汚王凹央往応押横欧殴奥桜翁黄亿屋忆乙卸恩温穏音下化仮何価佳加可夏嫁家寡科暇果架歌河火祸稼个花荷华菓课货涡过蚊我画芽贺雅饿介会解回块壊快怪悔懐戒拐改械海灰界皆絵开阶贝劾外害慨概涯街该垣吓各拡格核壳获确获覚角较郭阁隔革学岳楽额挂潟割喝括活渇滑褐辖且株刈乾冠寒刊勘勧巻唤堪完官寛干干患感惯憾换敢棺款歓汗汉环甘监看管简缓缶肝舰観贯还鉴间闲関陥馆丸含岸眼岩顽颜愿企危喜器基奇寄岐希几忌挥机旗既期棋弃机帰気汽祈季纪规记贵起轨辉饥骑鬼伪仪宜戯技拟欺犠疑义议菊吉吃诘却客脚虐逆丘久休及吸宫弓急救朽求泣球究穷级纠给旧牛去居巨拒拠挙虚许距渔鱼享京供竞共凶协叫境峡强恐恭挟教桥况狂狭矫胸胁兴郷镜响惊仰凝暁业局曲极玉勤均斤琴禁筋紧菌襟谨近金吟银九句区苦駆具愚虞空偶遇隅屈掘靴缲桑勲君薫训群军郡系倾刑兄启型契形径恵庆憩掲携敬景渓系経継茎蛍计警軽鶏芸迎鲸剧撃激杰欠决洁穴结血月件倹健兼券剣圏坚嫌建宪悬検権犬献研绢県肩见谦贤轩遣険顕験元原厳幻弦减源玄现言限个古呼固孤己库弧戸故枯湖夸雇顾鼓五互午呉娛后御悟碁语误护交侯候光公功効厚口向后坑好孔孝工巧幸広康恒慌抗拘控攻更校构江洪港沟甲皇硬稿红绞纲耕考肯航荒行衡讲贡购郊酵鉱钢降项香高刚号合拷豪克刻告国谷酷黒狱腰骨込今困垦婚恨恳昆根混绀魂佐唆左差查砂诈锁座债催再最妻宰彩才采栽歳済灾砕祭斎细菜裁载际剤在材罪财坂咲崎作削榨昨策索错册刷察撮擦札杀雑皿三伞参山惨散桟产算蚕賛酸暂残士子支止氏仕史司矢使刺嗣四始姉姿市糸伺师志思指施旨枝死祉私纸紫肢脂至视词诗试志谘资赐雌饲歯事似侍児字寺慈持时次滋治玺磁示耳自辞式识轴七执失室湿漆疾质実芝舎写射舍赦斜煮社者谢车遮蛇邪借勺尺爵酌釈若寂弱主取守手朱殊狩珠种趣酒首儒受寿授树需囚収周宗就州修愁拾秀秋终习臭舟众袭周酬集丑住充十従柔汁渋獣縦重铳叔宿淑祝缩粛塾熟出术述俊春瞬准循旬殉准润盾纯巡遵顺処初所暑庶绪署书诸助叙女如序徐除伤偿胜匠升召商唱奨宵将小少尚床彰承抄招掌升昭晶松沼消渉焼焦照症省硝礁祥称章笑妆绍肖冲讼证诏详象赏钟障上丈乗冗剰城场常情条浄状畳蒸縄壌嬢譲醸锭嘱饰植殖织职色触食辱伸信侵唇娠寝审心慎振新森浸深申真津神绅臣薪亲诊身辛进针震人仁刃寻甚尽迅阵酢図吹垂帅推水炊睡粋衰遂酔锤随髄崇数枢据杉澄寸瀬亩是井世正生成西声制势姓征性政整星婿晴清牲盛精圣制诚誓请逝青静斉税夕斥石赤昔只席惜析积籍绩责迹切拙接摂折设窃节说雪绝舌仙先千占宣専川戦扇栓泉浅洗染潜旋线繊船荐践选迁銭铣鲜前善渐然全禅缮塑措疎础祖租粗素组诉阻僧创双仓丧壮奏层想搜扫挿操早曹巣槽燥争相窓総草荘葬藻装走送遭霜騒像增憎臓蔵赠造促侧则即息束测足速俗属贼族続卒存孙尊损村他多太堕妥惰打駄体対耐帯待怠态替泰滞胎袋贷退逮队代台大第题滝卓宅択拓沢濯托浊诺但达夺脱棚谷丹単叹担探淡炭短端胆诞锻団坛弾断暖段男谈値知地耻池痴稚置致遟筑畜竹蓄逐秩窒茶嫡着中仲冲宙忠抽昼柱注虫衷鋳驻著贮丁兆帐庁吊张雕徵惩挑朝潮町眺聴胀肠调超跳长钓顶鸟勅直朕沈珍赁镇陈坠追痛通冢渍坪亭低停侦贞呈堤定帝底庭廷弟抵提程缔艇订逓邸泥摘敌滴的笛适哲彻撤迭鉄典天展店添転点伝殿田电吐涂徒斗渡登途都努度土奴怒倒党冬冻刀唐塔岛悼投搭东桃栋盗汤灯当痘等答筒糖统稲到讨誊豆踏逃透陶头腾闘働动同堂导洞童胴道铜峠匿得德特督笃毒独読凸突届屯豚昙钝内南软难二尼弐肉日乳入尿任妊忍认宁热年念燃粘悩纳能脳农浓把覇波派破婆马俳廃拝排败杯背肺辈配倍培媒梅买壳赔陪伯博拍泊白舶薄迫漠爆缚麦箱肌畑八钵発髪伐罚抜阀伴判半反帆搬板版犯班畔繁般藩贩范烦颁饭晚番盘蛮卑否妃彼悲扉批披比泌疲皮碑秘罢肥被费避非飞备尾微美鼻匹必笔姬百表标氷漂票表评描猫病秒苗品浜贫宾频敏瓶不付夫妇富布府怖扶敷普浮父符腐肤谱负赋赴附侮武舞部封风伏副复幅服福腹复覆払沸仏物分喷坟愤奋粉纷雰文闻丙并兵塀币平弊柄并闭陛米壁癖别偏変片编辺返遍便勉弁歩保舗捕浦补穂募墓慕暮母簿仿俸包报奉宝峰崩抱放方法泡炮缝胞芳褒访豊邦饱乏亡傍剖坊妨帽忘忙房暴望某棒冒纺肪膨谋贸防北仆墨扑朴牧没堀奔本翻凡盆摩磨魔麻埋妹枚每幕膜又抹末茧万慢満漫未味魅岬密脉妙民眠务梦无矛雾娘名命明盟迷铭鸣灭免绵面模茂妄毛猛盲网耗木黙目戻问纹门匁夜野厄役约薬訳跃柳由油愉谕输愈唯友有勇幽悠忧犹裕诱游邮雄融优与予余誉预幼容庸扬摇拥曜様洋溶用窑羊叶要谣踊阳养抑欲浴翌翼罗裸来頼雷络落酪乱卵栏滥覧利吏里履理痢裏离陆律率立略流留硫粒隆竜虑旅虏了僚両寮料凉猟疗粮良量陵领力绿伦厘林临轮隣塁涙累类令例冷励礼铃隷零霊齢丽暦歴列劣烈裂廉恋练连錬炉路露労廊朗楼浪漏老郎六录论和话贿惑枠湾腕鹸堺。
二、DICT2包括如下196个字:
亜悪圧扱囲壱隠営栄駅円縁塩汚応桜穏仮価菓壊懐絵拡覚楽潟渇刈勧巻寛歓観関陥帰気戯犠拠挙郷暁駆勲恵掲渓経継蛍軽鶏撃倹剣検権県険顕験厳戸呉娛碁効広鉱黒込歳済砕斎剤咲雑桟賛谘歯児実舎釈収従渋獣縦粛処奨渉焼乗剰畳縄壌壌譲醸図粋酔瀨斉摂専戦繊銭疎搜挿巣窓総荘騒蔵続馱対帯滝択沢単団弾値遟鋳庁徵町聴逓鉄転伝电稲誊闘働峠德読弐悩脳廃拝壳発抜氷払仏雰変辺弁歩舗穂豊満黙戻薬訳樣頼覧裏竜両猟塁隷霊齢暦歴錬労枠鹸堺。
以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。
Claims (5)
1.一种日文网页自动判别方法,其特征在于,包括如下步骤:
步骤一、获取网页数据头和网页数据体;
步骤二、读出所述网页数据头中的编码字符串,对所述编码字符串进行数据归一化,数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号;
步骤三、确定所述编码字符串的类型:当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一;当所述编码字符串数据归一化后为gb、big、autocht时为类型二;当所述编码字符串数据归一化后没有字符时为类型三;
步骤四、从所述网页数据体中抽取一采样文本;抽取方法为:当所述编码字符串为类型一时,抽取的采样文本长度为128字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本;
当所述编码字符串为类型二时,抽取的采样文本长度为256字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本;
当所述编码字符串为类型三时,抽取的采样文本长度为512字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本;
步骤五、设置初始置信值,设置方法为:当所述编码字符串为类型一时,所述初始置信值设置为0.98;当所述编码字符串为类型二时,所述初始置信值设置为0.5;当所述编码字符串为类型三时,所述初始置信值设置为0.3;
步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断,并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计,并计算所述连续属于日文编码表的字符段的长度,将所述字符段的长度除以所述采样文本的长度,得到确认比率;
步骤七、用所述初始置信值加上所述确认比率得到一网页编码置信值,当所述网页编码置信值大于1时,确定当前网页的语言类型为日文;当所述网页编码置信值小于等于1时,确定当前网页的语言类型不为日文。
2.如权利要求1所述日文网页自动判别方法,其特征在于:步骤二中读出所述编码字符串的方法为:找出所述网页数据头中的编码特征字符串,所述编码特征字符串为“encoding”或“charset”;抽取出所述编码特征字符串之后的“=”之后、“>”之前的字符串作为所述编码字符串。
3.如权利要求1所述日文网页自动判别方法,其特征在于:当所述编码字符串为类型一时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为:
一、判断所述字符的字符编码的第一个字节是否为0x1B,若是,则所述字符共含有三个字节,则判断所述字符的字符编码是否满足条件:所述字符的字符编码的第二个字节为‘(’、第三个字节为‘B’、‘J’、‘I’之一,或者所述字符的字符编码的第二个字节为‘$’、第三个字节为‘’、‘B’之一,若满足上述条件,则所述字符的字符编码属于日文编码表且长度为三个字节;
二、判断所述字符的字符编码的第一个字节是否大于0x7F,若是,则所述字符共含有二个字节,则判断所述字符的字符编码是否满足条件:条件一、所述第一个字节为0x81~0x9F、0xE0~0xEF、0xFA、0xFB,且所述第二个字节为0x40~0x7E、0x80~0xFC;条件二、所述第一个字节为0x8E且所述第二个字节为0xA1~0xDF,或者所述第一个字节为0xA1~0xFE且所述第二个字节为0xA1~0xFE;若满足所述条件一、或所述条件二,则所述字符的字符编码属于日文编码表且长度为二个字节。
4.如权利要求1所述日文网页自动判别方法,其特征在于:当所述编码字符串为类型二时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表的方法为:
一、判断所述字符的字符编码是否满足条件:所述字符的字符编码的第一个字节为0xA4~0xA5,且第二个字节为0xA1~0xF6;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节;
二、判断所述字符的字符编码是否满足条件:所述第一个字节为0xC6且所述第二个字节为0xDB~0xFE,或所述第一个字节为0xC7且所述第二个字节为0x40~0x7E、0xA1~0xFE;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节;
三、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT1;若满足,则所述字符的字符编码属于日文编码表且长度为二个字节;
四、判断所述字符的字符编码是否满足条件:所述第一个字节为0x81~0xFE,且所述第二个字节为0x40~0xFE但不为0x7F,且所述字符的字符编码属于JAP_DICT2;若满足,则所述字符的字符编码属于日文编码表,所述字符的实际长度为2各字节,但是在计算所述字符段的长度时将所字符的长度计算为4个字节。
5.如权利要求1、或3、或4所述日文网页自动判别方法,其特征在于:当所述编码字符串为类型三时,步骤六中判断所述采样文本的各字符的字符编码是否属于日文编码表并计算所述确认比率的方法为:
一、根据所述编码字符串为类型一时的判断方法判断各所述字符的字符编码属于是否日文编码表,并计算出确认比率一;
二、根据所述编码字符串为类型二时的判断方法判断各所述字符的字符编码属于是否日文编码表,并计算出确认比率二;
三、比较所述确认比率一和所述确认比率二,将其中较大的值作为所述确认比率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102515752A CN102375818A (zh) | 2010-08-12 | 2010-08-12 | 日文网页自动判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102515752A CN102375818A (zh) | 2010-08-12 | 2010-08-12 | 日文网页自动判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102375818A true CN102375818A (zh) | 2012-03-14 |
Family
ID=45794442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102515752A Pending CN102375818A (zh) | 2010-08-12 | 2010-08-12 | 日文网页自动判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102375818A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598443A (zh) * | 2013-10-31 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 语言服务提供方法、装置及系统 |
CN106339453A (zh) * | 2016-08-25 | 2017-01-18 | 达而观信息科技(上海)有限公司 | 自动判别日文类型网页的方法 |
CN113065164A (zh) * | 2021-04-30 | 2021-07-02 | 中国工商银行股份有限公司 | 脱敏方法、装置和电子设备 |
-
2010
- 2010-08-12 CN CN2010102515752A patent/CN102375818A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598443A (zh) * | 2013-10-31 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 语言服务提供方法、装置及系统 |
CN106339453A (zh) * | 2016-08-25 | 2017-01-18 | 达而观信息科技(上海)有限公司 | 自动判别日文类型网页的方法 |
CN113065164A (zh) * | 2021-04-30 | 2021-07-02 | 中国工商银行股份有限公司 | 脱敏方法、装置和电子设备 |
CN113065164B (zh) * | 2021-04-30 | 2024-07-05 | 中国工商银行股份有限公司 | 脱敏方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seligman et al. | Pagan tribes of the Nilotic Sudan | |
Schoppa | Revolution and its past: Identities and change in modern Chinese history | |
Lovell | The opium war: Drugs, dreams, and the making of modern China | |
Fowden | The Egyptian Hermes: a historical approach to the late pagan mind | |
Harris | Rebellion on the Amazon: the Cabanagem, race, and popular culture in the north of Brazil, 1798-1840 | |
Kothiyal | Nomadic Narratives: A History of Mobility and Identity in the Great Indian Desert | |
Yao et al. | Phylogeny of the infraorder Pentatomomorpha based on fossil and extant morphology, with description of a new fossil family from China | |
Cachia | Arabic literature: An overview | |
Atwood | Imperial itinerance and mobile pastoralism: the state and mobility in medieval Inner Asia | |
Hoogervorst | Southeast Asia in the ancient Indian Ocean world | |
CN102375818A (zh) | 日文网页自动判别方法 | |
Millar | Lexical variation and attrition in the Scottish fishing communities | |
Bury et al. | The Cambridge Ancient History: The Egyptian and Hittite Empires to C. 1000 BC | |
Smith | Studies in the medieval history of the Yemen and South Arabia | |
Hu | An overview of the history and culture of the Xianbei (‘Monguor’/‘Tu’) | |
Selvakumar | Archaeology of Marginalization in Indian History | |
Marango et al. | Insights into the potential of indigenous rain making practices in combating the negative effects of climate change in Chimanimani District of Zimbabwe | |
Abubakar | Kanuri Complete | |
Adams | The elements of the English language | |
Mateo | A history of Ilocos: A story of the regionalization of Spanish colonialism | |
Ramm et al. | Novelty and processing demands in conceptual combination | |
Wafer | 4. Placenames as a guide to language distribution in the Upper Hunter, and the landnám problem in Australian toponomastics1 | |
Penny | A Young Englishman in Victorian Hong Kong: The Diaries of Chaloner Alabaster, 1855–1856 | |
Jones et al. | David Jones's The Grail Mass and Other Works | |
Valenti | A RECONSTRUCTION OF THE PROTO-ARAWAKAN CONSONANTAL SYSTEM (AMUESHA, GUAJIRO, LOCONO, SOUTH AMERICA, CARIBBEAN) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120314 |