CN1212405A

CN1212405A - 上下文相关的多国语言自动辨识方法

Info

Publication number: CN1212405A
Application number: CN 97119685
Authority: CN
Inventors: 张景嵩; 邱全成; 杨光文
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 1997-09-25
Filing date: 1997-09-25
Publication date: 1999-03-31
Anticipated expiration: 2017-09-25
Also published as: CN1113309C

Abstract

上下文相关的多国语自动辨识方法,利用上下文相关信息,自动辨识输入多语文字的内码的多个内码类型。首先根据各类型内码的编码范围,对输入多语文字作内码合法性分析。如果输入多语文字不只一个为合法,则作常用词分析。如果经分析后输入多语文字的内码类型不是唯一,则作常用字分析。如果经分析后输入多语文字的内码类型不是唯一,则依次作当前位置的内码合法性分析、当前位置的常用词分析,或当前位置的常用字分析,以判定内码。

Description

上下文相关的多国语言自动辨识方法

本发明涉及一种语言自动辨识方法，特别是涉及一种上下文相关的多国语言自动辨识方法，用以在不同的内码系统中区别多种语言的字符。

诸如微软视窗等的视窗软件广泛应用于诸如IBM个人计算机或IBM兼容机的现代计算机中。传统的各种非英语视窗软件(下文称为视窗)使用各自不同的内码，在屏幕上显示对应的字符。例如，在台湾中文视窗中主要使用Big5码，至中国大陆则使用GB2312码，日文视窗主要使用Shift-Jis码，而韩文视窗主要使用KSC-5601码。由于这些非英语视窗的不兼容性，因而采用了通常在视窗操作系统下构成的多种语言浏览器，以方便多种语言环境下的读者。使用者在阅读多语文字之前，必须预先选定一种内码型态。接着，多语浏览器便依照所选定的内码正确显示。例如，在台湾版的微软Win95视窗环境下，藉由传统的多种国语言浏览器阅读一篇含有内码为GB2312的文章时，使用者必须选定且设定多语浏览器为GB2312码才能阅读这篇文章。然而，将内码转换成GB2312码之后，Win95视窗内其它以Big5码构成的文字，例如视窗的标题、提示信息或功能选单(menu)全部变成不可阅读的乱码。

上述传统多语浏览器具有使用上不方便的缺点，亦即，使用者必须预先选定一种内码型态，才能转换并阅读文字。然而，对于现今互联网络的发展，使用者常常会接触到各种不同的语言文字，因此，造成使用者必须不断的转换于各种不同内码之间所造成的不便。另外，当阅读的文字本身具有多国语言时，例如一段或一行文字内含有多国语言，则传统多语浏览器势必无法提供使用者顺利的阅读。

另外，于使用传统多语浏览器时，当选定一种内码之后，原来视窗内其它以原内码显示的文字，例如视窗的标题、提示信息或功能选单便会因而全部变成不可阅读，严重影响使用者的阅读及操作。

鉴于上述发明背景中，传统的语言浏览器所产生的诸多缺点，本发明的主要目的在于提供一种利用上下文信息区分不同内码的多国语言的文字的多国语言自动辨识方法，使得多种内码的文字能够同时相应地为显示出来。

本发明的另一目的在于提供依据使用者浏览的文字内容通过分析上下文信息，自动辨识内码种类的方法。本发明使得多种内码的文字同时显示出来，以解决传统多语浏览器一次只能正确显示一种内码文字，甚至可能使其它种类内码的文字全为乱码的问题。

本发明提供了一种自动辨识多国语言的文字的内码，正确显示多国语言的文字的方法。在一个实施例中，首先，通过将文字的内码块与各内码系统的预定编码范围相比较，确定全文的文字的内码合法性。接着如果输入多语文字的内码不只一个为合法，则作全文的文字的分析，通过将文字与常用词库作比较，而判定这些文字是否为常用词。如果经分析后输入多语文字的内码类型不是唯一，则作上下文相关的常用字分析，通过将文字与常用字库相比较，而判定文字是否为常用字。

其后如果经分析后，仍然不能唯一地辨识全文，则通过将当前位置文字的内码块与内码系统的预定内码范围相比较，于是确定当前位置文字的内码合法性。如果当前位置文字的内码不只一个为合法，则作其后至少一个文字的分析，通过将当前位置文字和后面的文字与常用词库相比较而确定这些文字是否为常有词。最后如果仍然不能唯一地辨识当前位置的文字的常用词的分析，则作当前位置文字的分析，通过将当前位置的文字与常用字库相比确而确定当前位置的文字是否为常用字。

图1显示本发明一个实施例中的功能方块图。

图2显示本发明实施例的系统层次(hierarchical)图。

图3显示上述图2中多语浏览、多语辨识及多语显示之间的流程图。

图4显示多语辨识、全文多语辨识及当前位置文字多语辨识之间的流程图。

图5A及图5B显示全文多语辨识的流程图。

图6A及图6B显示当前位置文字多语辨识的详细流程图。

图7显示辨识的含有韩文、中文(Big5)、日文及中文(GB2312)的多种语言文章的实例。

为了解决传统多语浏览器的缺点，本发明主要利用上下文相关的分析方法，自动辨识与所显示的文字相关的内码。在本发明实施例中，采用了Big5码(台湾)，GB2312码(中国大陆)，Shift-Jis码(日文)，及KSC-5601码(韩文)。然而，对于其它的语言内码，也同样可以由本领域技术人员轻易达到等效的变化，而未脱离本发明所揭示的精神。

由于各种内码之间的编码范围互相有些重叠，如果根据下表列出上述四种内码的编码范围，其中各种内码限定的文字由具有两个字节的码块组成，即第一字节和第二字节。

表一

内码类别	第一字节	第二字节
内码类别	第一字节	第二字节	Big5GB2312Shift-jisKSC-5601	0×A1-0×F90×A1-0×F70×81-0×840×88-0×9F0×E0-0×EA0×A1-0×FE	0×40-0×7E0×A1-0×FE0×A1-0×FE0×40-0×7E0×A1-0×FE0×A1-0×FE

本发明利用表一中显示各种内码范围之间具有互不重叠部，以分析一组文字(两或两个以上文字)，以提高正确辨识文字的可能性。例如，“成”的Big5码为(0×A6,0×A8)，此内码在G2312码及KSC-5601码中也为合法性的双字节码。因此，如果以单个字的内码判定，是无法辨识出“成”字究竟是属于何种内码。然而，整段整篇文字中，其上下文字之间的信息是具有相关性的。本发明即利用此上下文相关性，可以分离(辨识)出两个以上字所组成的字组。例如“成”与“功”所组成的词组，其组合内码为(0×A6,0×A8),(0×A5,0×5C)。从表一发现(0×A5,0×5C)为Big5码所特有，表示“功”字，因而可以判定此词组为Big5码，本实施例此种上下文相关的分析方法称为上下文相关内码合法性分析方法。

Big5码和GB2312码之间单个字的编码重叠概率大约为59.8％，然而一组由十个Big5码的文字，则其重叠概率为约0.5％(亦即0.59810)，用Big5码正确辨识文字的概率大增。另外，Big5码和KSC-5601码之间的区别颇大，因为它们较小重叠。此外，Shift-Jis码和其它三种内码(即Big5、GB2312和KSC-500)的编码重叠概率较小，因此使用Shift-Jis码的判定效果更好。一般来说，当两种内码的编码重叠概率愈小，则使用上下文相关内码合法性分析正确辨识文字的效果愈好。

由于GB2312码和KSC560码的编码范围几乎相同(即它们几乎重叠)，如从表一中所见到的，难以对它们进行辨识。本发明利用另外一种称为上下文相关的常用词分析方法，以克服上述问题。例如，“成功”的GB2312码的组合码块为(0×B3,0×C9),(0×B9,0×A6)，此组内码对于Big5及KSC5601码都是合法的编码。然而，如果考虑到同一组合码在每一种内码(即GB2312、Big5或KSC-5601)所表示的词的意思，“成功”在GB2312是一个常用词，而在Big5及KSC560中并不是属于常用词，因此，根据上下文相关的常用词分析方法，可以判定该组内码为GB2312码。在本发明实施例中，在执行上下文相关的常用词分析法时，分别按照四种内码统计常用词出现的次数及出现的次序，其分析时所根据的常用词库事先建立储存起来。表二显示本发明实施例中所用到的台湾常用词库的部分内容。这个词库中每个项目具有表示其发生频率的计数值。要理解的是用类似的方式也可以适当地构成其它语言，诸如韩文、日文或中文的其它常用词库。

表二

记录号	词
记录号	词	记录0记录1记录2记录3记录4记录5记录6记录7记录8记录9	一一一下一口一千一切一心一手一万一月一旦

利用上述上下文相关内码合法性分析法及上下文相关的常用词分析法，输入文字经过分析后，大部分的文字都可以得到辨识。然而，由于少数多语文字其上下文信息不足(例如输入的文字篇幅很短)，或由于常用词库不足时，而无法辨识其内码型态。此时，本发明使用称为上下文相关常用字分析方法来克服这个问题，在采用上下文相关常用字分析法时，根据对应存储的常用字库，统计分析各种内码的常用字出现的频率及首次出现的位置。在这个常用字库中每个项目具有表示其出现频率的计数值。例如，一个具有大约三千个GB2312码字的常用字库，可以对一般文章达到99.5％以上的覆盖率。因此，对于少数无法辨识的文字，使用上下文相关常用字分析方法可以达到很好的效果。表三列出根据对应的常用字库的四种内码的常用字编码范围。

表三

内码类别	第一字节	第二字节
内码类别	第一字节	第二字节	Big5GB2312Shift-jisKSC-5601	0×A4-0×C50×B0-0×D70×82-0×830×B0-0×FE	0×40-0×7E0×A1-0×FE0×A1-0×FE0×40-0×7E0×A1-0×FE0×A1-0×FE

图1显示本发明一个实施例的功能方块图，其包含视窗操作系统1，及多语浏览器2。在本实施例中为MS Windows操作系统(下面的讨论可互换地称为视窗)。在视窗环境下，视窗操作系统1的系统程序101和应用程序102查询显示文字时，则呼叫视窗内核(kernel)的应用程序接口(application program interface,API)103。在本说明书中所用的词“呼叫”具有软件技术中的传统含义，涉及把控制从系统程序传送到位于系统程序内或外的子程序或函数。应用程序接口103将需要显示的多种语言文字(包括英文字)传送至多语浏览104。此多语浏览104呼叫多种语言辨识106，由多语辨识106分析这些文字后，由多语浏览104将英文字交由应用程序接口103来显示，非英文字则交由多语显示105依据多语辨识106所辨识出来的内码类型分别显示。

图2显示本发明实施例的系统层次(hierarchical)图。多语浏览10接收多种语言文字后，将此输入送至多语辨识20，后者再将其辨识的多语文字通过多语显示30以显示出来。多语辨识20根据前述上下文相关内码合法性分析60、上下文相关的常用词分析62及上下文相关常用字分析64或它们的组合，以呼叫全文多语辨识40或当前位置文字多语辨识50，而辨识文字。

图3显示上述图2中多语浏览10、多语辨识20及多语显示30之间的流程图。多语浏览10接收待浏览的多国语言文字后，呼叫多语辨识20以辨识此多国语言文字，最后，经过多语显示30根据识别的相关内码适当地显示文字。

图4显示图2中多语辨识20、全文多语辨识40及当前位置文字多语辨识50之间的流程图。首先，由多语辨识20判断(步骤200)是否仍有未辨识完的文字，如果所有文字均已辨识完，则流程返回多语辨识20。反之，如果仍有待辨识的文字，则于步骤202中由全文多语辨识40接收这些文字，并作辨识(此全文多语辨识40的详细流程及说明将于下面配合图5A和5B说明)。接着在步骤204中进一步分析从步骤202中所获得的结果。如果辨识之后确定内码为唯一的，即只有一种内码被辨识，则于步骤206产生并输出与文字相关的内码类型，再返回多语辨识20。如果辨识的内码非唯一，则于步骤208使用当前位置文字多语辨识50(此当前位置文字多语辨识50的详细过程将于下面配合图6A和6B说明)，以作进一步辨识。经由当前位置文字多语辨识50辨识后，产生和输出与当前位置文字相关的内码类型(步骤210)，并返回步骤200继续辨识其它文字。

图5A及图5B显示全文多语辨识40的详细流程图。全文多语辨识40对输入的文字的全文作上下文相关内码合法性分析(步骤400)，其中全文可以是整段或整篇文章。在本实施例中，此内码合法性分析是依次用Big5、GB2312、Shift-Jis及KSC-5601的编码范围与输入的多国语言文字作比较，以确定内码合法性。此种范围分析的比较使用传统的方法。如果辨识的结果是只有一种内码是合法的(步骤402)，则于步骤404产生并输出此唯一的内码，再返回至多语辨识20。如果不只一个内码类型为合法，则于步骤406中进一步判定是否与不同文字相关的所有内码均为非法，如果是的话，则产生无合法内码的结果(步骤408)。如果至少一部分内码为合法，则于步骤410中对输入文字作前述的上下文相关的常用词分析。在本实施例中，此常用词分析是依次使用事先建立及储存起来的台湾常用词库、中国大陆常用词库、日本常用词库及韩国常用词库，对输入的多国语言文字作常用词的统计及分析。此种常用词统计、分析的比较使用传统方法。如果其结果为唯一(步骤412)，则输出此唯一的常用词分析结果(步骤414)，再返回至多语辨识20。如果结果非唯一，则于步骤416中进一步作前述的上下文相关常用字分析。在本实施例中，此常用字分析是依次使用事先建立及储存起来的台湾常用字库、中国大陆常用字库、日本常用字库及韩国常用字库，对输入的多语文字作常用字的统计及分析。此种词统计、分析的比较也是使用传统的方法。在常用字的上下文分析(步骤416)之后，在步骤418判断被处理的字是否唯一地被识别。如果于步骤418的判断中确定分析结果为唯一，则输出此唯一的常用字分析结果(步骤420)，然后返回多语辨识20。如果结果非唯一，则于步骤422中输出多种合法的内码型态，再返回至多语辨识20。

综合图5A和5B的全文多语辨识40的执行流程，其主要先后使用上下文相关内码合法性分析、上下文相关的常用词分析及上下文相关的常用字分析，并且此分析的结果有三种可能情况，亦即，产生唯一的一种内码类型、没有合法的内码类型，或产生多种可能的内码类型。后二者情形表示全文多语辨识40无法确定唯一的一种内码型态，因此需要更进一步的使用当前位置文字多语辨识50作进一步的处理，对此下文配合图6A和6B详细说明。

图6A及图6B显示当前位置文字多语辨识50的流程图。首先，于步骤500中，当前位置文字多语辨识50承接前面的全文多语辨识40，输入当前位置的多国语言文字、全文多语辨识40的分析结果及前一位置的分析结果。当前位置文字多语辨识50对输入的文字作前述的上下文相关内码合法性分析(步骤501)。在本实施例中，此内码合法性分析依次用Big5、GB2312、Shift-Jis及KSC-5601码的编码范围与输入文字的码块进行比较，分析输入的多语文字是否为合法。此种范围分析的比较使用传统的方法。如果辨识的结果确定只有一种内码为合法(步骤502)，则于步骤504产生并输出此唯一的合法内码，再返回至多语辨识20。如果不只一种内码为合法(步骤502)，则于步骤510中对输入文字作前述的上下文相关的常用词分析，以确定与当前位置文字和后面文字相关的内码。在本实施例中，此常用词的上下文分析依次使用事先建立及储存起来的台湾常用词库、中国大陆常用词库、日本常用词库及韩国常用词库，对输入的多语文字作常用词的统计及分析。此种常用词统计、分析的比较使用传统的方法。在对常用词作了上下文分析(步骤510)之后，在步骤512判定是否唯一地识别了所处理的词。如果其结果为唯一(步骤512)，则输出此唯一的常用词分析结果(步骤514)，再返回至多语辨识20。如果步骤512的结果非唯一，则于步骤516中进一步作前述的上下文相关常用字分析。在本实施例中，此常用字分析是依次使用事先建立及储存起来的台湾常用字库、中国大陆常用字库、日本常用字库及韩国常用字库，对输入的多语文字作常用字的统计及分析。此种词统计、分析的比较使用传统的方法。在对常用字作了上下文分析(步骤516)之后，在步骤518判定是否唯一地识别所处理的词。如果于步骤518的判断中确定分析结果为唯一，则输出此唯一的常用字分析结果(步骤520)，然后返回多语识别20。如果结果非唯一，则于步骤522中根据常用字、常用词上下文分析结果与全文多语辨识40的分析结果及前面字的分析结果以选择最合理、相近的结果，为了获得这种相近的结果，也可以采用其它传统的统计或数学方法。在步骤524输出此最相近的结果，再返回至多语辨识20。图7显示了根据本发明的多语浏览器所作的自动多语辨识所产生的输出结果。

以上所述仅为本发明的最佳实施例而已，并非用以限定本发明的申请的专利保护范围；凡其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在下述的权利要求内。

Claims

1．一种上下文相关的多国语言自动辨识方法，利用上下文的相关信息，自动辨识多语文字的内码，正确显示该多语文字，其中该输入的多语文字包含至少一个以上的内码类型，该方法至少包含下列步骤：

根据各类型内码系统的预定编码范围，对该输入多语文字作内码合法性分析；

如果该输入多语文字不只一个该内码类型为合法，则作上下文相关的常用词分析，根据该各类型内码的常用词库以统计常用词的出现次数，而判定其内码类型；

如果经分析后该输入多语文字的该内码类型不是唯一，则作上下文相关的常用字分析，根据该各类型内码的常用字库以统计常用字的出现次数，而判定其内码类型；

如果经分析后该输入多语文字的该内码类型不是唯一，则根据各类型该内码的编码范围，对该输入多语文字作当前位置的内码合法性分析；

如果该输入多语文字不只一个该内码类型为合法，则作当前位置的上下文相关的常用词分析，根据该各类型内码的常用词库以统计常用词的出现次数，而判定其内码类型；及

如果经分析后该输入多语文字的该内码类型不是唯一，则作当前位置的上下文相关的常用字分析，根据各类型该内码的常用字库以统计常用字的出现次数，而判定其内码类型。

2．根据权利要求1的方法，其特征在于上述的内码类型至少包含Big5码，GB2312码，Shift-Jis码，其KSC-5601码。

3．根据权利要求1的方法，其特征在于上述内码合法性的分析中针对该输入多语文字的单个文字作该内码的编码范围比较。

4．根据权利要求1的方法，其特征在于上述内码合法性的分析中针对该输入多语文字的多个文字作该内码的编码范围比较。

5．根据权利要求1的方法，其特征在于上述常用词库至少包含下列之一或其组合：台湾常用词库、中国大陆常用词库、日本常用词库及韩国常用词库。

6．根据权利要求1的方法，其特征在于上述上下文相关的常用词分析针对该输入多语文字的多个文字，并根据该常用词库，以统计该常用词的出现次数，而判定其内码类型。

7．根据权利要求1的方法，其特征在于上述常用字库至少包含下列之一或其组合：台湾常用字库、中国大陆常用字库、日本常用字库及韩国常用字库。

8．根据权利要求1的方法，其特征在于上述上下文相关的常用字分析针对该输入多语文字的单个文字，并根据该常用字库，以统计该常用字的出现次数，而判定其该内码类型。

9．根据权利要求1的方法，其特征在于上述当前位置的内码合法性分析根据该输入多语文字的当前位置、该上下文相关的常用字分析的分析结果，及该当前位置的前一位置的分析结果。

10．一种上下文相关的多国语言自动辨识方法，利用上下文的相关信息，以自动辨识输入多语文字的内码，正确地显示该多语文字，其中该输入多语文字包含至少一个以上内码类型，该方法至少包含下列步骤：

根据各类型内码的编码范围，对该输入多语文字作内码合法性分析；

如果该输入多语文字不只一个内码类型为合法，则作上下文相关的常用词分析，根据该各类型内码的常用词库以统计常用词的出现次数，而判定其内码类型；及

如果经分析后该输入多语文字的该内码类型不是唯一，则作上下文相关的常用字分析，其根据该各类型内码的常用字库以统计常用字的出现次数，而判定其内码类型。

11．根据权利要求10的方法，其特征在于还包含下列步骤：

如果经发析后该输入多语文字的该内码类型不是唯一，则根据各类型内码的编码范围，对该输入多语文字作当前位置的内码合法性分析；

如果该输入多语文字不只一个内码类型为合法，则作当前位置的上下文相关的常用词分析，根据各类型内码的常用词库以统计常用词的出现次数，而判定其内码类型；及

如果经分析后该输入多语文字的该内码类型不是唯一，则作当前位置的上下文相关的常用字分析，根据该各类型内码的常用字库以统计常用字出现次数，而判定其内码类型。

12．根据权利要求10的方法，其特征在于上述的内码类型至少包含Big5码，GB2312码，Shift-Jis码，及KSC-5601码。

13．根据权利要求10的方法，其特征在于上述内码合法性的分析中针对该输入多语文字的单个文字作该内码的编码范围比较。

14．根据权利要求10的方法，其特征在于上述内码合法性的分析中针对该输入多语文字的多个文字作该内码的编码范围比较。

15．根据权利要求10的方法，其特征在于上述常用词库至少包含下列的一种或其组合：台湾常用词库、中国大陆常用词库、日本常用词库及韩国常用词库。

16．根据权利要求10的方法，其特征在于上述上下文相关的常用词分析是针对该输入多语文字的多个文字，并根据该常用词库，以统计该常用词的出现次数，而判定其内码类型。

17．根据权利要求10的方法，其特征在于上述的常用字库至少包含下列之一或其组合：台湾常用字库、中国大陆常用字库、日本常用字库及韩国常用字库。

18．根据权利要求10的方法，其特征在于上述上下文相关的常用字分析是针对该输入多语文字的单个文字，并根据该常用字库，以统计该常用字的出现次数，而判定其该内码类型。

19．根据权利要求10的方法，其特征在于上述当前位置的内码合法性分析根据该输入多语文字的当前位置、该上下文相关的常用字分析的分析结果，及该当前位置前一位置的分析结果。