CN1160613C

CN1160613C - 接收了数字数据的自动识别语言的方法

Info

Publication number: CN1160613C
Application number: CNB95109288XA
Authority: CN
Inventors: R; R·埃文; L·吉尼提尔; W��T��W��µٶ��; R·C·W·T·W·范德蒂尔阿特
Original assignee: Oce Nederland BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 1994-08-08
Filing date: 1995-08-08
Publication date: 2004-08-04
Anticipated expiration: 2015-08-08
Also published as: KR100408762B1; CN1125882A; EP0702289B1; FR2723457A1; KR960008607A; EP0702289A1; DE69523848T2; US5960113A; FR2723457B1; JP3195522B2; DE69523848D1; JPH08123636A

Abstract

自动语言识别方法包括从接收数据中选择一个数据块，并在该数据块中搜寻表示特定语言存在或不存在的单元。识别是这样进行的，即以预定次序和进程搜寻多种已知语言，对每种语言，在数据块中搜寻该语言的至少一个单元特征。可以从搜寻具有特定特征标记的语言开始，然后搜寻具有特定同步字符或关键字的语言，再搜寻采用助记码的语言。本方法用于自动选择对接收数据、特别是由绘图仪接收的数据解码的翻译模块，和检测接收数据中的错误、标题或转变。

Description

接收了数字数据的自动识别语言的方法

本发明涉及自动识别语言的方法，其中数字数据被接收，特别是通过计算机系统终端被接收。

本发明的具体应用领域是语言自动识别领域，其中代表将要执行的任务的数字数据被显示设备或打印设备如绘图仪或打印机接收。

由绘图仪或打印机重现的信息可以以从主计算机传输的数字数据的形式被翻译，各种语言或格式存在于该信息中。必须借助于每种语言特定的翻译模块对接收的数据进行翻译或解码。翻译是将数据变换成与所用语言无关的直接可用于打印的形式，具体说是位图图像(即图像全部是由点描述的)的形式。

给定的打印设备可接收以不同语言编码的数字数据。这种情况出现在单个用户根据执行的任务选择不同语言的时候，或出现在采用不同语言的多个用户访问网络上的共同打印设备的时候。为了能够处理所接收的数据，接着就需要选择对应于所用代码语言的翻译模块。

假定数字数据流由一系列绘图文件构成。每个绘图文件采用在一列表中定义的一种语言。如果绘图文件没有显式结束，那么可以通过检测同步损失或代码改变来区分不同的绘图文件。如果文件包含错误，只要错误数保持合理，该语言还是必须能够被正确检测到的。

在采用上述列表语言的文件中，可以有不采用语言的文本文件，它们在下面称为“文本”。

绘图可以被以特定格式的文本分开，该格式在下面称为“标题”格式。

这样标题被定义成所有经编码的数字数据(或字符)，其中在语言的预定义列表中没有语言已经被识别。

被识别的语言可以属于不同范畴：具有特征标记的语言；具有关键字或同步字符的语言；采用助记码的语言。

助记码可以被认为是一组具有预定大小的经编码的数字数据，例如一串两个有意义的字符。

已经提出了根据至少一部分接收的数据来自动识别语言的各种方法。此处所用的术语“自动识别”是指不仅避免了需要用户对打印设备进行选择的实际干预，而且避免了需要对通常借助于语言产生的数据增加特定控制序列或首标的任何过程。

一种已知的方法包括采用所有的翻译模块来处理接收的数字数据，然后保持产生最少错误的模块。这种类型的方法在文件EP-A-0 556 059中有说明。这种方法虽然非常可靠，但是由于所要求的时间和需要存储全部接收的数据等原因，不能适用于大多数情况。

在文件US-A-5 293 466中说明的另一种已知方法包括最初产生采用不同语言编码的数据的采样，并以统计方式对它们进行分析，以便得出形式为存储的数据组的每种语言的特定特性。然后，取出由打印设备接收的数字数据的初始部分，以便与存储的数据组进行比较，并从中导出所用的语言。这里困难之处在于确定适合的特性，以便限制识别中的错误率。

从文件EP-A-0 558 804中还了解到，为了在全部语言中选择最佳的候选语言，需要分析接收的数据块的语法，并对每种语言识别数据块中的“FOR”和“AGAINST”键，对键加权，并且将所得结果相加。同样，这是一个比较长的过程，而且为了最大限度地减小识别中的误差和不确定性，选择键和加权系数仍然是很困难的。

本发明的一个目的是仅采用接收数据的一部分，就能以可靠、迅速的方式自动进行语言识别。

为达此目的，本发明提供了一种自动识别被接收数字数据所采用的语言的方法，该方法包括在接收数据中选择数据块并在块中搜寻旨在表示一种语言存在或不存在的单元，其特征在于识别是这样进行的，即按照发生识别错误的可能性增加的次序搜寻多种已知语言，对于每种语言而言，在数据块中搜寻表征该语言存在或不存在的至少一个单元。

因此，搜寻可以按以下顺序依次进行：按减小的特征标记长度次序搜寻具有特定特征标记的语言，然后搜寻包括特定关键字或同步字符的语言，再搜寻采用助记码的语言。

取决于正在寻找的语言类型，最好采用各种长度的数据块，选择长度以便最大限度地减小识别错误的可能性。

在本发明的一个具体实施例中，该实施例适合于从采用由确定数目的有意义字符构成的助记码的一组语言中自动识别一种语言，识别方法至少包括以下步骤：

存储属于该组的语言的助记码，包括鉴别属于该组语言的一种或一部分和不属于该组其它语言的助记码；

将存储的助记码与形成被选择块的部分并具有和存储的助记码相同长度的一批字符进行比较；以及

在比较步骤期间，如果检测的一批字符对应于鉴别助记码，则取消正在鉴别的助记码不属于的语言。

本方法的特征在于采用在识别过程期间能够排除一种或多种语言的准则。

然而，识别过程也可以包括肯定的阶段。

于是，如果在比较步骤期间，检测的一批字符对应于属于语言组中正好单一一种语言的助记码，那么该单种语言被认为已经识别。

最好每个助记码属于组中的多种语言，并且一般在一批经编码的数据中后面紧跟对每种所述语言是特定的预定数的参数，与每种语言的助记码相关的预定数的参数也被存储。于是，如果在比较步骤期间，检测对应于属于组中的多种语言并且一般后面紧跟或不紧跟参数的助记码的一批字符，那么对紧跟数据块中经检测的助记码的参数数进行计数，并将该数与和为各种语言中的每一种相关的所述助记码存储的参数数进行比较，并且对某种语言来说存储的参数数等于被计数的参数数时，那么该语言被认为已经识别。

在肯定识别的以上两种情况中，通过校验数据块不包含对某种语言来说，至少在从经检测有效的第一助记码开始的其长度的一部分，是错误的参数和/或助记码，可以确认对语言的识别。

本发明的另一个目的是提供一种方法，利用该方法自动语言识别过程和对由对应于被识别语言的翻译模块接收的数据进行解码的过程不被接收的数据中存在标题或错误而禁止。

因此，根据本发明的另一方面。一种自动选择用于对接收的数字数据进行解码的翻译模块的方法，该方法包括：从接收的数据中选择一个数据块；通过在数据块中搜寻旨在表示一种语言存在或不存在的单元，从用来对数据编码的多种语言中自动识别一种语言，并选择对应于被识别语言的一种解释程序；该方法的特征在于实施自动语言识别的步骤包括按照发生识别错误的可能性增加的次序搜寻多种已知语言，对于每种语言而言，在数据块中搜寻表征该语言存在不存在的至少一个单元。

根据本发明的再一方面，提供一种自动选择用于对接收的数字数据进行解码的翻译模块的方法，该方法包括：从接收的数据中选择一个数据块；通过在数据块中搜寻旨在表示一种语言存在或不存在的单元，从用来对数据编码的多种语言中自动识别一种语言，并选择对应于被识别语言的一种解释程序；其特征在于，当翻译模块检测到语法错误时，中断解码，并重新开始以下步骤中至少一个步骤的自动语言识别过程：a)检测接收数据中存在的错误，并对该错误进行处理；b)检测接收数据中存在的标题，并对该标题进行处理；以及c)检测语言中的一个转变，并选择对应于新识别的语言的翻译模块。

当语法错误检测之后无论何时被识别的语言与在先的语言相同，以及在语法错误的开头和再次识别的相同语言的起点之间的数字数据流中存在偏移时，便检测错误或标题并可进行处理。仅通过忽略错误或标题来对它们进行处理；可以选择对它们进行打印或显示。

当检测语法错误之后被识别的语言与在先的语言不相同，以及在语法错误的开头和已经识别的新语言的起点之间的数字数据流中存在偏移时，也检测标题并可进行处理，以及随后校验之间不存在任何其它的语言。

通过阅读以下结合附图所作的非限定性描述，将会更好地理解本发明，附图中：

图1是识别语言的自动处理过程的总流程图，其中对由绘图仪接收的数字数据进行了编码；

图2是与搜寻特征标记有关的图1过程的一个阶段的详细流程图；

图3是与搜寻关键字有关的图1过程的一个阶段的详细流程图；

图4是与自动搜寻CALCOMP语言有关的图1过程的一个阶段的详细流程图；

图5和6是与自动识别采用助记码的语言有关的图1过程的一个阶段的详细流程图；

图7和8是采用自动语言识别处理，从由绘图仪接收的数字数据中自动检测和消除错误和标题的处理过程的流程图；

图9A至9F代表表示自动检测和消除特别是在图7和8中所示的错误和标题的过程的数字数据块部分；以及

图10是从绘图的观点来看用于处理由绘图仪接收的数字数据的单元的框图。

下面对申请内容中的自动语言识别和对由绘图仪接收的数字数据进行的解码作一说明。对本领域的一般技术人员来说即刻便会明白，相同的原则可用于除绘图仪以外的其它设备，特别是打印机，也可用于从主计算机或从计算机网络接收数字数据的其它外围设备，甚至用于单台计算机中。

图10是用于接收和处理由绘图仪接收的数字数据并代表重现的图形信息的单元的框图。

进入的数据流由处理器模块10接收，它对数据进行处理，将数据放在包括基本图形图元的显示列形式中：用点表示的向量、多线和图像(称为“位图”)。

基本图形图元由模块14变换成一批表示将要打印的图像的点。

控制器16将处理器模块10与中央单元18相连，特别是使处理器模块10能够受翻译模块的控制，该翻译模块适用于其中接收数据被编码的语言。

显示屏12与中央单元相连，特别是用作显示当前被识别的语言名。

在中央单元中可用几个翻译模块，根据从自动语言识别模块20接收的数据选择适当的模块。模块20与中央单元18相连，并接收至少一部分进入的数据。

上述结构的种类本身是已知的，因此不需要更详细的描述。

提供自动语言识别模块用来从多种已知语言中鉴别其中接收了数据的语言，并用来鉴别检测的语言开始的位置。

在图形领域，已知并采用了各种语言。一些确定借助于向量画的线，另一些确定借助于点画的线。一些重现的信息，特别是字母数字字符，也可以在不属于上述范畴的任何一种的特定语言(文本)中被接收。

下面是向量语言的例子：

以本受让人名义的“BGL”(Benson图形语言)；

属于美国Hewlett Packard公司的“HP-GL”和“HP-GL/2”(Hewlett Packard图形语言)；

以本受让人名义的“VDF”(可变数据格式)；

以美国公司Calcomp名义的“CALCOMP 906/907”；以及

以Adobe系统名义的“PostScript”。

借助于点确定线的语言(“光栅”语言)的例子包括：

以美国Hewlett Packard公司名义的“HP RTL”(HewlettPackard光栅传输语言)；

“CALS”(计算机辅助获取和逻辑支持)；

以Aldus名义的“TIFF”(标记图像文件格式)；以及

以美国公司Calcomp名义的“CCRF”(Calcom光栅格式)。

除文本以外的其它语言包括：

以本受让人名义的“OGRCF”(Océ图形遥控格式)，可用作控制语言，特别是配制绘图仪。

自动语言识别包括检查接收的数字数据的一部分，并在数据中搜寻表示一种语言存在或不存在的单元特性。被检查的数据部分是位于接收的数据流的开始处的长度可变的块。

表示一种语言存在或不存在的单元特性可以是不同的种类，这取决于语言。

一些语言采用特征标记，即一批预定的和不变的字符，它们可在首标即由该种语言编码的数据组的开始处找到。检测被检查的数据块中的特征标记使得直接识别相应的语言成为可能。

表1表示在上述语言之中，哪一种具有这样的特征标记，以及它们的特征标记。

表1

语言特征标记
语言特征标记	“CALS” srcdocid：“CCRF” &&&& CALCOMP DEVICE CONTROL，CCRF()“OGRCF” BEGMF“PostScript” ％！PS⁽¹⁾TFFF II^<NUL>orMM<NUL>^“VDF” ＝

(1)不是必须的；<NUL>＝空ASCII字符

其它语言采用关键字或具有特定的字符。对“CALCOMP”而言，有用的数据流开始于一个或多个同步字符，这取决于绘图仪的配置。PostScript采用大量的关键字。然后通过搜寻被检查的数据块中的关键字或同步字符进行识别。

在其它既不用特征标记又不用关键字的语言中，“BGL”、“HP-GL”和“HP-GL/2”采用助记码，即编码为例如一串两个有意义的字符的预定大小的数字数据组。

在采用助记码的一组语言中，可能会遇到几种情况：

存在鉴别的助记码，它们至少在一种语言中是没有的；

存在确定的助记码，它们仅存在于一种语言中；

存在共同的助记码，它们存在于多种语言中。

在第一种情况下，检测被检查的数据块中的鉴别助记码，以便排除一种或多种语言，由此限制搜寻的范围。

作为非限定性的例子，在鉴别助记码DT的情况下，排除语言“BGL”，在鉴别助记码CR的情况下，排除语言“HP-GL”，和在鉴别助记码AP的情况下，排除语言“HP-GL/2”。

在第二种情况下，检测被检查的数据块中的确定助记码，使得有可能通过校验识别相应的语言。

非限定性例子包括对“BGL”是确定的助记码CH，对“HP-GL”是确定的助记码CV，和对“HP-GL/2”是确定的助记码CF。

在第三种情况下，为了进行识别，必须检查一些附加的特性。在数据流中，一些助记码通常后面紧跟或不跟预定数的参数。对一种语言和另一种语音来说，这一数目是不同的，由此构成这种附加的特性。因此，在这种情况下检测一个共同助记码时，足以对被检查的数据块中与此有关的紧跟的参数数进行计数，并且将所计的参数数与在考虑的各种语言中期望的参数数进行比较。

非限定性的例子包括对“BGL”和“HP-GL”是共同的助记码CA，通常具有的参数数对“BGL”而言是3，对“HP-GL”而言是1，对“BGL”和“HP-GL/2”是共同的助记码CD，通常具有的参数数对“BGL”而言是1，对“HP-GL/2”而言是2。

通过顺序搜寻各种已知的语言或语言类型，可以对被检查的数据块进行自动语言识别。

搜寻次序是按照语言识别错误增加的可能性排列的。

因此，最好首先寻找被识别的语言是否是具有特征标记的语言。如果特征标记只有一个或两个字符长，则进行校验。确实是这样，特征标记越长，产生识别错误的危险就越小。

然后，可以继续在采用关键字或同步字符的语言之间进行搜寻。

最后，例如利用上述处理过程，在适当处继续搜寻采用助记码的语言。

此外，观察窗口的长度，即被检查的数据块的长度可以根据寻找的语言的类型而改变。当搜寻是基于寻找通常在接收的数据流的开始处可以找到的特征标记时，那么选择窗口的长度较短，并且可以选择(但不是必须)小于用于搜寻采用在数据流的开始处不是必需的关键字或同步字符的语言的长度。当搜寻采用助记码的语言时，搜寻窗口的长度可以因此较长。于是，观察窗口的长度可以随着识别错误的可能性的增加而增加，即窗口长度可以随着搜寻次序而增加。

表2表示各种语言的观察窗口长度的最小优化值。

表2

语言窗口长度(字节)
语言窗口长度(字节)	“CALS”，“CCRF”，“HP RTL”，“TIFF” 32“CALCOMP”，“PostScript”，“VDF” 128“OGRCF” 256“BGL”，“HP-GL”，“HP-GL/2” 1024

现在参照图1至6，作为一个例子说明采用上述原则的本发明的自动语言识别方法的一个实施方案。

对一个数据块例如1024字节长的数据块进行识别，但是观察窗口的长度根据寻找的语言类型而改变。

在识别过程的开始(图1)，搜寻开始于选择的数据块的起点，即在位置x＝0(步骤100)，并且装入绘图仪采用的“CALCOMP”语言参数(步骤102)。

然后在步骤104，从具有最长特征标记的语言(在本例中是“CCRF”语言)开始，搜寻语言特征标记。对全部具有特征标记的语言进行搜寻，在这种情况下是N字节的数据块，即开始位置和位置N-1之间的数据块，其中N例如等于256。

图2表示位置0和N-1之间的特征标记搜寻阶段的细节。

在这一阶段的开始，从选择的数据块的起点即位置x＝0开始进行搜寻(步骤200)。在检验步骤202确定当前观察位置 x的字符是否对应特征标记的第一字符。如果检验的结果是肯定的，那么执行另一次检验步骤204，将潜在的特征标记与位置 x的块的字符进行比较。如果检验的结果是肯定的，则在步骤206中表示已经找到了一种语言，并且过程进入图1所示的总过程的检验步骤106。

如果检验步骤202或204中任何一个的结果是否定的，那么执行步骤203，对位置 x加1，然后执行检验步骤205，确定所得位置 x是否大于或等于数字N。只要不属于这种情况，该方法就返回到检验步骤202的输入。否则，如果x大于或等于N，那么特征标记搜寻阶段结束，过程返回图1流程图的检验步骤106。

如果检验步骤106表示已经找到了一个特征标记，那么它可以命令语言识别过程结束。

在一个更具体的实施例中，当在检验步骤106已经检测了包括至少三个字符的一个特征标记时，则认为已经识别了相应的语言，并使该过程结束。否则，如果已经检测了仅包括两个字符的一个特征标记时，则选择相应的语言，但是最好进行校验，因为特征标记非常短时，出现识别错误的可能性较大。

例如，校验可以包括寻找从特征标记的上游起存在属于另一种语言的命令的可能性，该语言中可能遇到结构与检测的特征标记相同的情况。对具有两个字符的特征标记的“VDF”来说，下面的表3给出可以包括相同特征标记的其它语言的命令。

表3

特征标记的语言	其中找到特征标记的其它语言的命令
特征标记的语言	其中找到特征标记的其它语言的命令	“VDF”“PostScript”“CALCOMP”	PE，LB，BL，TX，！(“BGL”说明)，％(“OGRCF”说明)LB，BL，BP，TX，！，％DT，SM

如果找不到这种命令，那么该特征标记被认为是真，并且确认对对应于被检测的特征标记的语言的识别，从而结束识别过程。

如果找到这样的一条命令，那么该特征标记被认为是假，并且数据块中的当前点 y被取作起点：x＝y，于是过程返回到特征标记搜寻步骤104。

如果找不到特征标记(检验步骤106的否定输出)，那么过程进入到关键字搜寻阶段108，如图3的流程图所示。搜寻开始于数据块的起点：x＝0(步骤300)，并且从块的位置x到第一N字节(从x到N-1)进行关键字搜寻(步骤302)，其中N例如等于256。

在步骤302的位置 x搜寻关键字以后， x的值加1(步骤302)，并且执行检验步骤304，确定 x的值是否大于N，如果是的话，则结束关键字搜寻过程，并且过程返回检验步骤110，确定是否已经识别PostScript语言。

如果检验步骤304的结果是否定的，那么执行检验步骤305，确定是否已经找到了一个关键字。如果答案是否定的，那么该方法返回步骤302。否则，如果已经找到了一个关键字，则该方法在步骤306进入一个新的阶段，从位置x搜寻关键字，并且在执行检验步骤308之前在步骤307将x的值加1，以便确定x的值是否大于数字N。

如果答案是肯定的，那么结束关键字搜寻过程，返回检验步骤110。否则，如果检验步骤308的结果是否定的，那么执行检验步骤309，确定是否已经找到了一个关键字。如果答案是否定的，那么该方法继续到步骤306。否则，如果已经找到了一个关键字，则在步骤310表示在位置x-1已经找到了PostScript语言，通过返回到图1的流程图的检验步骤110，结束关键字搜寻和PostScript语言识别过程。

可以看到，当在检验步骤305找到了一个关键字时，在数据块的其余部分搜寻另一个关键字或相同的关键字(步骤306至309)，这使得如果在检验步骤309检测到某种其它的关键字或相同的关键字时，能够校验和确认对语言的识别。

如果确定诸如PostScript语言的关键字是否已经检测到的图1的检验步骤110的结果是肯定的，那么语言识别过程结束。

否则，如果检验步骤110给出否定的答案，那么过程进入同步字符搜寻阶段112，在本例中是指搜寻“CALCOMP”语言。

搜寻具有同步字符的语言如“CALCOMP”语言的过程示于图4的流程图。

在过程的开始，索引 y初始化为零(步骤400)，并且“新参数”标志初始化为假(步骤401)。

然后在步骤402作出请求“CALCOMP”参数No. y，并进行检验，确定在0至N的范围是否已经找到了一个同步字符。如果这一检验的结果是否定的，那么 y的值加1(步骤404)，并且执行检验，确定是否存在No.y的“CALCOMP”参数。如果存在的话，该方法返回步骤402。否则结束过程，返回图1的检验步骤114，这意味着对系统已知的各组“CALCOMP”参数都没有找到同步字符。

如果在位置 p检验步骤403的结果是肯定的，那么检验步骤406确定所用的配置是否是一个新的配置。如果不是，那么参数B被指定为是通常偏置(步骤408)，在这种情况下偏置是同步字符与有用信息的开始处之间的偏移。否则，配置是新的，于是参数B定为这一配置的偏置(步骤407)。

步骤407和408之后，执行检验步骤409，确定字符p+1是否等于B。如果是的话，则执行检验步骤410，确定字符P+1是否小于127。

如果不是的话，则过程结束，返回检验步骤114。如果检验步骤410的结果是肯定的，那么在步骤411，指定B等于字符p+1，当检验步骤409的结果是肯定的，由检验步骤412构成以下检验，其中确定字符p+2是否大于或等于B。如果不是的话，则结束过程，并且以下的步骤是检验步骤114。如果检验步骤412的结果是肯定的，那么该方法继续进行，在检验步骤413确定同步字符数是否等于1和 p是否大于3。

如果检验步骤413的结果是否定的，那么该方法继续，在步骤415更新当前配置，并更新偏置，然后在步骤416确定已经找到了“CALCOMP”语言，并且通过进入检验步骤114结束过程。

如果检验步骤413的结果是肯定的，那么从同步字符的上游进行校验，看看是否可以找到一条命令，它属于也采用同步字符某种其它的语言。对“CALCOMP”而言，这种属于另一种语言的命令可以是DT或SM。因此，执行检验步骤414，确定字符p-2是否等于’D’和字符p-1是否等于’T’，或字符p-2是否等于’S’和字符p-1是否等于’M’。如果检验步骤414的结果是肯定的，那么该方法直接进入检验步骤114。否则，如果检验步骤414的结果是否定的，那么该方法进入上述步骤415。

图1的检验步骤114确定是否已经识别了一种同步字符语言(“CALCOMP”)。如果这一检验的结果是肯定的，那么结束识别过程。否则，即如果没有检测到同步字符，那么该方法进入助记码语言搜寻步骤116，该步骤在0至N-1的范围的位置上执行。

在图5和6中详细地描述了这一过程116。

在初始步骤500，确定对应于被识别的语言号的值n，并将位置x初始化为零。

在步骤501搜寻助记码M，对和各种语言有关的参数的值初始化为零。然后在步骤502搜寻语言L的助记码M，它的详细流程图在图6中给出。

在关于搜寻一种给定语言L的助记码M的步骤502中，该方法开始于检验步骤601，确定M是否是说明或标号的开始。如果是的话，则在步骤602指定M是标号或说明，并且该方法直接进入图5的检验步骤505。

如果检验步骤601的结果是否定的，那么该方法进入检验步骤603，确定助记码M是否属于被考虑的语言L。如果不是这种情况(鉴别助记码)，则在步骤604确定被考虑的助记码M不属于被考虑的语言，该语言被取消，并且该方法直接进入图5的检验步骤505。

如果检验步骤603的结果是肯定的，那么该方法进入检验步骤605，检查助记码M是否确定为语言L。如果是的话，则步骤610表示，助记码M确定语言L，并且该方法进入图5的检验步骤505。

如果检验步骤605的结果是否定的，那么检验步骤606确定是否必需对参数数进行计数。如果检验步骤606的结果是否定的，那么检验步骤607指出从助记码M未确定什么，并且该方法进入图5的检验步骤505。

如果检验步骤606的结果是肯定的，那么该方法进入参数计数步骤608，然后进入检验步骤609，确定被计数的参数是否是被考虑的语言L的特征。如果是的话，则该方法进入步骤610，指出助记码确定语言L。否则，该方法进入步骤607，指出从助记码M未确定什么。

再次参照图5，检验步骤505包括确定是否在步骤502中已经取消了语言L(图6的流程图)。如果答案是肯定的，则在步骤506将n的值减1，并指出已经取消了语言L。然后该方法进入步骤503，加1，然后在步骤504确定是否大于 n。如果不是，则该方法返回步骤502。否则，进入步骤515，位置 x加1，然后执行检验步骤516，确定 x是否大于N。如果不是，则进入检验步骤517，确定 n是否为零。如果不是，则返回步骤501，否则进入步骤518，指出语言并未找到，然后该方法进入图1的检验步骤118。

如果检验步骤516的结果是肯定的，那么该方法进入检验步骤519，确定n是否等于1。如果答案是肯定的，则该方法进入步骤520，指出已经找到一种语言，然后进入检验步骤118。

如果检验步骤519的结果是否定的，那么该方法进入检验步骤521，确定是否仍留有一种语言如“HP-GL”或“HP-GL/2”。如果答案是肯定的，那么该方法进入步骤522，指出语言是“HP-GL”(另外极大可能是已经识别了“HP-GL/2”)，然后进入步骤520，指出已经找到一种语言。否则，该方法进入步骤518，指出还未找到语言。

如果在检验步骤505确定还未取消语言L，那么该方法进入检验步骤507，检查语言L是否确定。如果答案是肯定的，那么执行校验(步骤508)，接下来在步骤509确定校验是否确实。如果回答是否定的，那么该方法进入步骤503。否则，如果回答是肯定的，那么该方法进入步骤510，指出已经在x检测到语言L，然后进入图1的步骤118。步骤508的校验包括检查紧跟被检测的助记码的预定数的字符和检验它们是否对应语言L的助记码或命令。

如果检验步骤507的结果是否定的，那么该方法进入检验步骤511，确定助记码M是否属于语言L。如果答案是否定的，则该方法进入步骤503。如果答案是肯定的，则该方法进入检验步骤512，确定是否语言找到标号或说明。如果答案是肯定的，则该方法进入步骤513，将位置x作为标号或说明的结尾，然后进入步骤503。

如果检验步骤512的结果是否定的，那么该方法进入步骤514，指出存在助记码M，但是用该助记码不能确定什么，这之后，该方法继续上述步骤515。

由绘图仪接收的数据流包括错误和标题，它们对执行的打印来说是无意义的。错误可能是采用命令发生器的结果，该命令发生器不符合为特定语言制定的标准，并且产生错误或不完全的命令。这些命令必须被忽略。标题可以是由计算机系统特别是在网络中发送的数据，但是与绘图无关。必须检测这种标题，以便予以消除，否则解码器将在其长度的或多或少一部分产生语法错误，或者将从中错误地识别语言。

本自动语言识别方法可以用来检测和消除标题或错误。图7和8中示出了一个例子。

当采用对应于先前识别的语言L1的翻译模块对数据进行解码的同时，检测语法错误，这时可以开始执行图7给出的流程图所示的过程。

假定检测到语法错误时数据流已经到达位置p1，并且在由解码电路确定的位置p0找到了错误的起点(初始步骤700)。

这些位置之间的偏移是d1＝p1-p0。

根据检测的语法错误，中断翻译语言L1的过程(步骤702)，开始自动语言识别过程(步骤704)，这将参照例如图8的流程图予以说明。

图8的流程图涉及在N字符块中(位置p0和N-1之间)自动识别一种语言的过程800。

在初始步骤803，以值N对参数p2赋值，并且在先的语言被认为是未知的。

然后，该方法进入步骤804，在位置p0和p2-1之间搜寻语言。这一搜寻可以利用在图1和图2至6中确定的自动处理过程完成。

然后在检验步骤806可以确定在位置 p是否已经识别了语言L。

如果答案是肯定的，那么步骤808指出老语言是否与语言L相同，并且参数p2的值是否等于位置 p。

然后，执行检验步骤809，确定值p2是否是零。如果不是，则该方法返回步骤804，在p0和p2-1之间找寻语言。否则，如果p2的值是零，那么该方法进入步骤810，指出被检测的语言是在位置p2的老语言。

然后该方法进入图7的检验步骤710。

如果检验步骤806的回答是否定的，那么该方法执行检验步骤807，确定老语言是否是未知的。如果不是，则该方法进入步骤810，指出被检测的语言是在位置p2的老语言，并且假定p2不是零，在位置p0和p2-1之间存在一个标题。否则，如果检验步骤807的回答是肯定的，那么方法进入步骤813，仅指出在p2和p2-1之间存在一个标题，然后该方法进入步骤815，请求另一块，然后返回步骤804，搜寻p0和p2-1之间的一种语言。

参照图7，检验步骤710包括确定在先处理的语言L1是否等于在对应于图8的流程图的步骤704中找到的语言L2。

如果检验步骤710的结果是否定的，那么该方法进入步骤711，它包括不考虑从位置p0和 p的数据，并从位置 p开始对语言L2进行处理。

如果检验步骤710的结果是肯定的，那么该方法进入步骤712，它包括忽略p0和 p之间的数据，并采用从对应于 p和p1的较小的位置的语言L1继续进行处理。

参照图9A至9F对实施图1至8的至少一部分流程的自动识别过程的一个例子进行描述。

对从位置p0开始的数据块例如1024字节的块进行自动识别处理。

如果处理失败，无语言被识别，则取消至少数据块的开头部分，并且该块用从数据流中的后续字节中取出的适当数目的字节补偿。例如，可以保持小于128字节长的初始块的结束部分。随着从初始块取消的字节数的增加，采用一个新的起点位置p0重复进行自动语言识别。这是由于存在长的标题B，特别是标题比数据块长，如图9A所示。然后再对块b2进行开始对块b1进行的识别处理。

如果识别语言L2，则检查识别了语言L2的位置p2与位置p0之间的偏移d2是否是零。

如果d2是零，则检查语言L2是否和语言L1相同。如果是的话，并且如果偏移d1也是零，那么返回处理过程中断的步骤，从头开始识别处理。这对应于这样一种情况，即在位置p0的语言中存在转变，无任何标题(图9B)，以及p0以后未识别语言L1。

另一方面，如果偏移d1不为零，那么确认识别新的语言L1，并从位置p1，即从位置p0算起经过偏移d1字节之后，采用语言L1重新开始处理过程。这种情况是，在位置p0和p1之间出现错误F(图9C)，并且在重新开始处理过程之前跳过该错误。

当检验步骤710指出新识别的语言L2不同于先前的语言L1时，从位置p0用语言L2重新开始处理。这种情况是，在L1和L2之间的语言中已经有一个转变，无标题(图9D)。

当偏移d2不为零时，校验出现在位置p0和p2之间的字符是否是语言L1的特征。如果不是，则从位置p2用语言L2重新开始处理，即跳过位置p0和p2之间的d2字节。这种情况是，错误F或标题B之后，在语言中已经有一个转变(图9E)。

然而，如果从位置p2的上游找到语言L1的字符，那么在找到这些字符之后，即处理偏移d3，跳过p0至p3范围中的字符之后，从位置p3继续用语言L1进行处理。这种情况是，在数据块的长度的全部范围的语言中已经存在错误F、标题B和转变(图9F)。错误已经消除以后，直到语法错误表示存在标题B之前，应继续用语言L1进行处理。

Claims

1.一种自动识别被接收数字数据所采用的语言的方法，该方法包括在接收数据中选择数据块并在块中搜寻旨在表示一种语言存在或不存在的单元，

其特征在于识别是这样进行的，即按照发生识别错误的可能性增加的次序搜寻多种已知语言，对于每种语言而言，在数据块中搜寻表征该语言存在或不存在的至少一个单元。

2.根据权利要求1的一种方法，其特征在于搜寻开始于搜寻具有特定特征标记的语言。

3.根据权利要求2的一种方法，其特征在于按照特征标记长度减小的次序搜寻具有特定特征标记的语言。

4.根据权利要求2或3的一种方法，其特征在于然后搜寻具有特定关键字或同步字符的语言。

5.根据权利要求2的一种方法，其特征在于接着搜寻采用由预定个有意义字符构成的助记码的语言。

6.根据权利要求5的一种方法，其特征在于从采用由预定个有意义字符构成的助记码的一组几种语言中自动识别一种语言，该方法至少包括以下步骤：

存储属于该组的语言的助记码，该步骤中包括鉴别属于该组语言的一种或多种且不属于该组其它语言的助记码；

将存储的助记码与被选择数据块中的具有和存储的助记码相同长度的一批字符进行比较；以及

在比较步骤期间，如果检测的一批字符对应于鉴别助记码，则排除不具备该助记码的语言。

7.根据权利要求6的一种方法，其特征在于如果在比较步骤期间，检测的一批字符对应于属于语言组中单一一种语言的助记码，那么只有所述单种语言被认为已经识别。

8.根据权利要求6或7的一种方法，其特征在于：

存储与每种语言的助记码相关的预定数的参数，其中所述参数用来表征该种语言，且紧跟在所述助记码之后；以及

如果在比较步骤期间，检测对应于属于语言组中的多种语言并且后面紧跟或不紧跟参数的助记码的一批字符，那么对紧跟数据块中经检测的助记码的参数数进行计数，并将该数与所存储的与各种语言中的每一种的所述助记码相关的所述参数数进行比较，并且当所存储的参数数等于被计数的参数数时，由所存储的所述参数表征的语言被认为已经识别。

9.根据权利要求6的一种方法，其特征在于在校验数据块不包含参数和/或助记码，所述参数和/或助记码对某语言来说，至少在从已经进行有效检测的第一助记码开始的其长度的一部分，是错误的情况下，确认被视为已经识别的所述语言。

10.根据权利要求1的一种方法，其特征在于数据块或搜寻存在语言的观察窗口的长度是可变的。

11.根据权利要求10的一种方法，其特征在于观察窗口的长度随着进行搜寻的语言的类型而改变。

12.一种自动选择用于对接收的数字数据进行解码的翻译模块的方法，该方法包括：从接收的数据中选择一个数据块；通过在数据块中搜寻旨在表示一种语言存在或不存在的单元，从用来对数据编码的多种语言中自动识别一种语言，并选择对应于被识别语言的一种解释程序；

该方法的特征在于实施自动语言识别的步骤包括按照发生识别错误的可能性增加的次序搜寻多种已知语言，对于每种语言而言，在数据块中搜寻表征该语言存在不存在的至少一个单元。

13.一种自动选择用于对接收的数字数据进行解码的翻译模块的方法，该方法包括：从接收的数据中选择一个数据块；通过在数据块中搜寻旨在表示一种语言存在或不存在的单元，从用来对数据编码的多种语言中自动识别一种语言，并选择对应于被识别语言的一种解释程序；

其特征在于，当翻译模块检测到语法错误时，中断解码，并重新开始以下步骤中至少一个步骤的自动语言识别过程：

a)检测接收数据中存在的错误，并对该错误进行处理；

b)检测接收数据中存在的标题，并对该标题进行处理；以及

c)检测语言中的一个转变，并选择对应于新识别的语言的翻译模块。

14.根据权利要求13的一种方法，其特征在于自动语言识别是这样进行的，即以发生识别错误的可能性增加的次序搜寻多种已知语言，对每种语言而言，在数据块中搜寻表征该语言存在不存在的至少一个单元。

15.根据权利要求14的一种方法，其特征在于当已经检测语法错误之后被识别的语言与在先的语言相同，以及在语法错误的开头和新识别的相同语言的起点之间的数字数据流中存在偏移时，检测错误或标题并进行处理。

16.根据权利要求14的一种方法，其特征在于当检测语法错误之后被识别的语言与在先的语言不相同，以及在语法错误的开头和已经识别的新语言的起点之间的数字数据流中存在偏移时，检测标题并进行处理，以及随后校验在间隙中是否存在任何其它的语言。

17.采用根据权利要求13至16的任何一项的方法，对由显示或打印设备接收的数字数据进行解码。