CN1095137C

CN1095137C - 字典检索装置

Info

Publication number: CN1095137C
Application number: CN94104998A
Authority: CN
Inventors: 西野文人; 杉本尚美
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-07-19
Filing date: 1994-04-29
Publication date: 2002-11-27
Anticipated expiration: 2014-04-29
Also published as: CN1097883A; KR950004036A; JPH0736882A; KR970008023B1; US5615378A

Abstract

本发明为一个字典检索装置，包括：对字符子集提供组ID的转换字符定义表，以组ID替代字符的字符一组ID转换部分、把来自输入部分的输入字符串转换成输入组ID的输入字符串转换部分、将词字典转换成由表示组ID串定义的转换词字典的字典转换部分、以及由输入组ID串检索转换词字典的字典检索部分。该字典检索装置把转换字符定义表所定义的字符集各元素看作为同一元素。

Description

字典检索装置

本发明是关于一种字典检索装置，它用于以日文、中文、朝鲜文、英文等书写的报告的各种处理。进一步说，本发明是关于这样一种装置，它使用该字典进行装置进行形式元素(form element)分析、不正确字符校正、字符标性化或后字行识别处理。

近些年，如字处理机、个人计算机、工作站之类计算机已广泛推广。人们希望使用计算机来进行各种处理，如报告的翻译、检索或分发。为进行翻译之类处理，必须将报告存贮于计算机中，并参照字典对报告中的句子进行形式元素分析。

通常的形式元素分析是在假定输入字符串被正确输入计算机的前提下进行的。为了进行形式元素分析，报告中的句子必须是正确输入的。

然而，在实际上，都经常输入一个系统研制者所不希望的另一个字符串作为输入字符串。

用日文写的不正确输入字符串和相应的正确输入字符串的表示实例示于图1。在图1中每个字符串的发音表示在中。图1的例1中，正确字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是“计算机”。在不正确的字符串中，使用了不正确的字符“减号”代夫了长元音符号“-”。在例2中，正确的字符串“(pa)(-)(Za)(-)”丢掉了第三个字符的发声符号“Za”。在例3中正确的字符串“(doku)(sen)(jou)”的意思是“无与伦比的”。而在不正确的字符串“(doku)(dan)(jou)”中第二个汉字(汉字是一个中文字符)在外形上与正确的字符相似，但意思上不同。在上述实例中的三个错误都是由于使用了类似的字符。

在例4中正确的字符串和不正确的字符串有相同的发音“toma to”和相同的含义“土豆”。不正确的字符串是用平假名(一种日文字母)输入的而不是用片假名(另一种日文字母)正确输入的。在这种情况下，不正确的字符串作为拼写变体是一种允许的表示，然而计算机系统把它作为不正确字符串处理。

对于人而言，上述正确字符串和不正确字符串的差别是小差别。然而，如果在翻译系统或其他类似系统中使用的词典中只存贮了正确的词，则会发生不能正确进行分析的问题。

在例5中，正确字符串和不正确字符串都表示一个日本姓氏，称作“takizawa”。它们的发音和它们的含义都相同，只是新体字和旧体字之差。这些不同的字体用于报告的不同书写环境，例如由不同的人写的或由于使用了不同的假名—汉字转换字典(即日文字—中文字转换字典)。正确字符串是用新体字写的，而不正确字符串是用旧体字写的。如果旧体字(它们不符合标准)没有登录在一个系统字典中，这种不正确字符串便作为未登录字输出，于是在通常的形式元素分析中便不出现它的正确选择物。

再有，通常的字符识别处理装置，例如印刷字符阅读器(reader)、手写输入字符阅读器之类，对于每个阅读字符输出多个候选字符。当用字符识别处理装置得到输入字符时，一个字符识别后处理装置“对于每个输入字符接收多个候选字符，再利用候选字符的组合来检索字典。如果一个长度为n的字符串中每个字符有m个候选字符，则字符识别后处理装置要对mⁿ个字符串组合检索字典。于是，每个候选字符的数量增加，候选字符组合的数目增加，从而使字符识别后处理的速度变得缓慢。

为了提高字符识别后处理的速度，按通常的方式是试图把每个字符位置的候选字符数目减少为m’个候选字符(m’＜m))。然而，在试图减少数目时，如果正确的字符被排除在这m’个候选字符之外，则不能检索到正确的词。

所以，本发明的一个目标是提供一个字典检索装置，它把由转换字符定义表所规定的字符集的各元素看作为同一元素，从而对一个由于输入错误迄今仍不能用以检索字典的字能够用以检索字典。

本发明的另一目标是提供一个形式元素分布装置，它使用上述能对一个迄今仍不能被用以检索字典的字进行字典检索的一个字典检索装置，从而允许有错误的输入。

本发明的又一目标是提供一种字符串校正装置，它使用上述能对一个迄今仍不能被用以检索字典的字进行字典检索的一个字典检索装置，从而能使字符标准化和改正错误。

本发明的又一目标是提供一种字符识别后处理装置，通过减少在每个字符位置候选组的数目和减少候选字符组合数目，并通过对字符识别处理装置输出的在每个字符位置的候选字符进行分组，使该字符识别后处理装置能提高其处理速度。

为达到上述目标，本发明构成了一个字典检索装置，包括：

一个转换字符定义表，它是把字符集C＝{C₁，C₂，…，C_n}分类成一些子集(GiCC)构成的，并向每个子集提供组ID；

一个字符一组ID转换部分使用转换字符定义表把字符串的每个字符由组ID代替；

一个输入字符串转换部分调用字符一组ID转换部分，把从输入部分输入的输入字符串转换成输入组ID串；

一个词字典用于存贮在输入部分出现的有效部分字符串构成的词；

一个字典转换部分调用字符一组ID转换部分把在词字典中定义的每个词的表示字符串转换成表示组ID串；

一个转换词字典用于存贮由字典转换部分转换而成的词；以及

一个字典检索部分用于对在输入字符串转换部分转换的输入组ID串检索由表示组ID表示的转换词字典。

语法G由非终止符N集合、词尾符集合、产生符(Production)P集合以及起始符S表示成G＝(N， ∑，P，S)。在语法G上的语言L表示为L(G)＝{t|s*t∧t∈ ∑^*}，这里∑是由∑符构成的长度大于零的串集合。

现在，假定W、W’是词，Ci是字符串，W＝C₁、C₂、…、C_i…、C_n是属于∑的词尾符，W’＝C₁、C₂、…、Ci’、…Cn是不属于∑的词尾符。如果有一个方向S*μwv但没有S≠*μwv，则仅由于Ci变为Ci’便造成语法G不再接受语言LCG)。就是说，仅由于一个不正确字符便不能执行正确的分析。

在本发明中，有可能引入一个变换F，使(F(w)＝F(w’))，它利用变换字符定义表使Ci和Ci’属于同一组。在这时，定义了语法G_F＝(N，F(∑)，P，S)，由于使用了语法G_F而接受的语言LCGF)变为L(G_F)＝{t|s*F(t)∧F(t)∈∑^*}。现在，如果在语法G_F下有派生S*F(μ)F(w)F(v)，则由F(w)＝F(w’)也有派生S*F(μ)F(w’)F(v)。就是说，尽管在字符中存在错误，由于借助变换字符定义表使这些错误映射到(正确字符的)同一组从而能正确地进行分析。

例如，在上文中提到的图1中例1的情况中，如果长元音符号“(-)”和减号“(减号)”定为同一组，即使在字典(属于∑)中只定义了正确字符串，也能查出使用正确的长元音符“(-)”的正确词代替所输入的使用减号“(减号)”的不正确字符串，所以，该字符串能被改正。

在图1中的例5，如果每个不同的字体被定义为同一组，而只有使用新体字的正确字符串被登录，使用正确字体代替输入的不下确字体便能检索正确的词，所以能进行字符串的标准化。

本发明的另一方面是在一个机器翻译或自然语言接口之类的句子分析装置中构成了一个允许错误输入的形式元素分析装置，它由输入部分、扩展字典检索部分、语法规则以及语法检验部分构成。输入部分把句子输入到扩展字典检索部分。扩展字典检索部分有上述字典检索装置并对来自输入部分的输出句子检索字典。语法部分参照语法规则对字典检索结果进行形式元素分析并输出形式分析结果和字典信息。

本发明的又一方面是在形式元素分析装置中构成字符串校正装置，作法是设置构成形式元素部分，它借助语法检验部分构成形式元素分析结果并输出句子。

本发明的又一方面是在形式元素分析装置中构成字符串识别后处理装置，作法是将字符识别处理装置输出的候选字符串输入到输入部分并在语法检验部分和输出部分之间设置形式元素判决部分。候选字符串对于由字符识别处理装置得到的输入字符串的每个字符有多个候选字符。形式元素判决部分使用适当的评价函数确定由语法检验部分从形式元素分析结果得到的多个形式元素分析候选者的候选类别。

在字符识别后处理装置中，从字符识别处理装置输入的候选字符被转换成对应于每个候选字符的组号。所以，事先规定的转换字符定义表中把易于被字符识别处理装置错读的类似字符分到同一小组。于是减少了候选字符组的数量，也减少了用于查阅字典的候选字符组合的数目。而且，尽管从字符识别处理装置输出的候选字符中包括不正确字符，但如果在同一组中存在与该不正确字符类似的正确字符，便能够查询出正确的词。

图1给出从输入部分输入到一个字典检索装置中的不正确输入字符串和相应的正确字符串的实例。

图2是根据本发明的第一个实例的方框图。

图3的框图显示出图1的处理过程。

图4给出从图2的输入部分输入的不正确输入字符串和相应的正确字符串的一个实例。

图5是解释图2中字符组ID转换部分的流程图。

图6是根据本发明的第二个实例的方框图。

图7A显示出图6的输入部分输入的一个输入串，图7B显示出由图7A的输入串得到的部分字符串。

图8是根据本发明的第三个实例的方框图。

图9是根据本发明的第四个实例的方框图。

图10给出图9的读字行和候选字符串的一个实例。

图11给出根据本发明的第五个实例的转换字符定义表的一个实例。

图12给出根据本发明的第六个实例的转换字符定义表的一个实例。

图13给出根据本发明的第七个实例的转换字符定义表的一个实例。

图14给出根据本发明的第七个实例当中使用的自动装置。

图15给出根据本发明的第八个实例的转换字符定义表的一个实例。

图16给出根据本发明的第九个实例的转换字符定义表的一个实例。

下面将描述根据本发明的应用于日文书写的报告处理的字典检索、形式元素分析装置、字符串校正装置、以及字符识别后处理装置的实例。然而，本发明也能应用于日文以外的其他语言，如英文、中文、朝鲜文等。再有，本发明不仅能应用于自然语言，而且能应用于人工语言，例如由词汇和语法规则定义的程序语言。

在下面的实例描述中，同样的参考数码在每个图件中固定代表有同样功能的部分，对于多余的描述将不予重复。例1

下面将描述根据本发明的字典检索装置一例。

图2是本例的方框图。输入部分1从一个文件或输入装置之类读入字符串并输出该输入字符串的编码字符串。输入字符串转换部分2调用字符一组ID转换部分3，把来自输入部分1的输入字符串转换成输入组ID串。字符一组ID转换部分3用转换字符定义表4把字符串的每个字符替换成“组ID”。

转换字符定义表4是通过对字符集C＝C₁，C₂…，C_n分类成若干了集(GiCC)并对每个子集给一个组ID构成的。字典转换部分5调用字符一组ID转换部分3，把词字典(word dictionary)6中定义的每个词的“表示字符串”转换成“表示组ID串”，并构成一个转换词字典7，该字典7是由表示组ID预先定义的。

词字典6存贮输入部分1处出现的有效部分字符串构成的词。转换词字典7利用字典转换部分5根据转换字符定义表4的定义将词字典6的表示部分的字符替换为组ID。字典检索部分8对于在转入字符转换部分2转换成的输入组ID串来检索由表示组ID写成的转换词字典，并向输出部分9输出其结果。

下面将参考图3描述上述字典检索装置的处理过程。

在输入部分1从一个文件、键盘或其他输入装置输入一个字符串并输出到输入字符串转换部分2。图4给出用日文写的不正确输入字符串和相应的正确字符串的实例。在图4中，每个字符串给出其表示符，并在括号()内给出其发音。图4中的正确字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是计算机，发音“-”是长元音符号，使前面紧挨着它的元音发长音。在不正确字符串中丢失了第三个字符“(pi)”的浊音，于是第三个正确字符“(pi)”变成了“(hi)”。

在图3中，输入字符串转换部分2借助字符一组ID转换部分3将来自部分1的字符串中每个字符转换为“组ID”。

将参考图5的流程图描述字符一组ID转换部分3的处理过程。

在步骤1，转入一个要被转换的字符串S。

在步骤2，给指针P赋值以指示字符串S的头。

在步骤3，判断指针是否指示该字符串尾(在最后一个字符之后)。如果指针P指示字符串S的末尾，则处理结束，被替换成组ID的字符串被回送到字典检索部分8。如果指针P没有指向字符串末尾，则过程转向步骤4。

在步骤4，由指针P指示的字符Ci被转换成由图3所示转换字符定义表4规定的组IDgi。

在步骤5，指针推进一个字符，处理过程返回步骤3。

通过上述图3的处理过程，由输入部分1输入到字符串转换部分2的输入字符串“(ko)(n)(hi)(yu)(-1)(ta)”被转成输入组ID串“123145”，并被输出到字典检索部分8。

现在将描述由字典检索部分8进行检索的转换词字典7。

词字典6存贮在输入部分1出现的有效部分字符串。图3中显示出该词字典6的一部分。在图3中只给出表示、发音和词类，但也能增加关于该词的其他信息，如含义状态(meaning attitude)等。

字典转换部分5调用字符组ID串转换部分3，把词字典6中定义的每个词的表示字符串转换为组ID串，于是转换词字典7存贮这些组ID串。图3中给出转换词字典7的这些词及相应字符组串的一部分。

字典检索部分8对于一个字典元素(它的组ID串作为相应于输入组ID串的关键字)来检索转换词字典7。作为对输入ID串“123145”的字典检索结果，检索出了“(ko)(n)(pi)(yu)(-)(ta)123145”。如前所述，通过这一例子，对于不正确词“(ko)(n)(hi)(-)(ta)”能检索到迄今不能被检索到的正确词“(ko)(n)(pi)(yu)(-)(ta)”。

在上述实例中，由相似字符集构成了转换字符定义表4。然而，转换字符定义表4不能由片假名和平假名配对集、新体字和旧体字集等构成。

如上所述，通过把转换字符定义表4中的字符串各元素看作是相同的，使迄今不能被检索的不正确输入词能够被检索。

再有，词字典6和转换词字典7的结构可以有类似于通常自然语言处理中使用的词字典结构，如右截断压缩结构、二进制树结构、TRIE结构等。例2

通过使用上述例1中的字典检索装置作为扩展字典检索部分，一个分析机器语言的形状元素分析装置或自然语言接口等能够分析允许错误输入的形式元素。下面将描述一个执行上述分析的形式元素分析装置的实例。

图6是本例框图。扩展字典检索部分10的结构与上述例1中描述的字典检索装置结构相同。这个扩展字典检索部分10与语法检查部分13共同工作，处理来自下文描述的输入部分11的文本(text)，由文本中所希望的部分检索字典，并控制其他候选者的检索和输出。在扩展字典检索部分10中的每一块2-8等同于图2中相同数字代表的各块。

输入部分11从一文件或输入装置之类读入字符串并输出该输入字符串的编码字符串。

语法规则12提供输入文本的语法。通常的语法规则能用于这个语法规则12。

语法检验部分13判断由扩展字典检索部分10输出的形式元素串是否符合语法规则12。如果不符合，则语法检验部分13要求扩展字典检索部分10输出另一个候选者。语法检验部分13能使用通常的形式元素分析中使用的方法，如相邻矩阵法(method byadjecency matrix)，或者能使用与文本内容无关的语法规则。

输出部分14输出在语法检验部分13判定符合规则的形式元素分析结果。

在本例中，从输入部分11输入的输入串不仅是一个词，而是一个句子。这里，输入串“(ta)(n)(go)(wo)(odo)(ru)”(见图7A)是来自输入部分11的输入，意思是“跳探戈舞”。

扩展字典检索部分10把输入字符串分成部分字符串，并调用字典检索部分8。在这种情况下，扩展字典检索部分10针对图7B中第1号至第6号所示每个字符串调用字典检索部分8。

字典检索部分8对每个字符串的字符串一部分检索转换词字典。当完成检索时，其检索结果被转送到语法检验部分13。

语法检验部分13与通常的形式元素分析类似，用语法规则12来核对送回来的词，并通过推进字符指针来继续形式元素分析。如果该形式元素串与语法规则12不符合，语法检验部分13要求字典检索部分8输出另一个候选者。结果，形式分析结果加上字典信息被输出到输出部分14。

如前所述，以具有例1所述字典检索装置的扩展字典部分来构成形式元素分析装置，便能够得到允许错误输入的形式元素分析装置。

在上述情况中，当输入字符串S被输入到字典检索部分8时，字典检索部分8便对输入字符串S检索字典中的词。然而，它能对字符串S＝C₁，C₂，…，C_n的前部组成的部分字符串S_i＝C₁，C₂，…，C_n(i≤n)在字典中检索各个词。例3

利用上述例2中的形式元素分析装置能得到一个字符串校正装置，它改正句子中的错误字符或把不同的字体标准化。下面将描述这个字符串校正装置。

在图8中，形式元素组合部分15被置于语法检验闻分13和输出部分14之间。形式元素组合部分把语法检验部分13得到的形式元素分析结果组合起来，并把组合结果作为文本输出。例如，依次输出由语法检验部分得到的形式元素串的表示部分，便得到了一个文本。例4

利用上述例1中的字典检索部分作为一个字符识别后处理装置的扩展字典检索部分，能够减少该字符识别后处理装置中每个字符位置的候选字符数量，从而能提高其处理速度。

下面将参考图9描述字符识别后处理装置的一个实例。

一个识别字符的输入装置(如印刷字符阅读器、手写字符阅读器等)对被读字符串的每个字符指定一个候选字符集。输入部分11读取被输入装置指定了候选字符集的字符串并把它们输出到字典检索部分10。

一个形式元素判定部分16连接于语法检验部分13和输出部分14之间，它利用适当的评价函数确定多个形式元素分析候选者的候选级别(rank)并输出形式元素分析结果。

下面将描述本例的字符识别后处理的过程。

在这情况下，一个OCR(光学字符阅读器)读出图10所示字符“(ko)(n)(pi)(yu)(-)(ta)”。OCR识别字符串从而给出每个字符的候选字符级。结果，对每个读出字符指定了图10所示候选字符，并把这些候选字符输出到扩展字典检索装置10中。

输入字符串转换部分2使用字符一组ID转换部分3中的转换字符定义表把每个候选字符转换成组号。转换字符定义表4的内容示于图3。结果得到3组号

(1)、(2，7)、(3)、(1)、(4)、(5)

字典检索部分8由这些组号得到二个组号串“123145”和“173145”，并对这些组号串检索转换词字典。作为这一过程的结果，得到了包括词“(ko)(n)(pi)(yu)(-)(ta)”的候选者。这些候选者被输出到语法检验部分13。

当得到多个候选者时，语法检验部分13根据语法规则12进行形式元素分析。形式元素判定部分16使用适当的评价标准确定来自形式元素分析结果的多个形式元素分析候选者的候选级别，并向输出部分14输出形式元素分析候选者。

在上述例4中，由于把多个类似字符看作一组，因而在每个字符位置的候选字符是作为“组”来处理的。因而减少了在每个字符位置候选者的数目，因为候选字符组的数目要相对少于候选字符的数目。所以，所得到的字符识别后处理装置提高了它的处理速度。

在本例中，当候选字符数量减少至m’个组号串减少为k(≤m)组。然而，由于每组由Ni个字符元素组成，事实上存在

(≥m)个候选字符。所以，对于一个迄今不能检索出的正确词，当候选字符减少时便能够被本例以极大可能性检索出来。例5

在上述例1中的字典检索装置使用组号作为组ID。然而，能够使用适当的字符或名字来代替组号。

在本例中，例1的转换字符定义表(见图2的组分类由例如图2)所示内容代替。

在图11中，组号由代表字符所代替。这些代表字符是图2所示转换字符定义表中各组的每个成员字符的首字符。同样，在图2中的转换词字典7的组号也由这些代表字符代替。对于词“(ko)(n)(pi)(yu)(-)(ta)”给出组ID串“(ko)(so)(hi)(ko)(-)(ta)”。

本例的其他部分与例1的部分相似。而且这个字典检索装置能用于例2至例4的扩展字典检索部分10。例6

在例1和例5中的字典检索装置处，根据转换字符定义表4中相似字符的组分类，一个字符属于一个组。然而，允许一个字符Ci属于多个组也是可能的。

在本例中，例1的转换字符定义表4(见图2)的组分类由例如图12中所示内容代替。

在图12中，附上“*”号的字符“(ku)”是与字符“(gu)”、“(ta)”、“(da)”。组成的5号组的元素，同时也是与“(u)”、“(fu)”、“(7)”、“(1)”组成的6号组的元素。由于一个字符变成为多个组的元素，字符一组ID转换部分3便对一个字符串输出多个解。然而，通过把词“(gu)(ta)(da)”和“(u)(fu)(7)(1)”分类为彼此不相似的其他组，能够减少在转换词字典处相应于相似字符组号串的候选词数目。

本例的其他部他与例1中的相似。而且，这一字典检索装置能应用于例2至例4的扩展字典检索部分10。例7

在例1、例5和例6中的字典检索装置处，对每个字符给出一组或多组。在本例中，允许对字符串S＝Ci、C₁₊₁、…，C_i+l给出组IDg。

在本例中，使用字符串一组ID部分3’代替字符一组ID转换部分3。而且在例1的图3所示转换字符定义表4的组分类由例如图13所示内容代替。

在图13中，一个汉字“(ka)”、一对片假名“(ka)(ro)”和一对汉字“(ka)(kuchi)”被分类成组1。类似地，一个汉字“(jin)”、一对片假名“(i)(ni)”和一对片假名“i”和汉字“(ni)”被分类成组2，而一个汉字“(ketsuo)”、和一对汉字“(ito)(kichi)”被分类成组3。

Aho-Corasick方法能用作为进行字符串一组ID转换的一种方法(Aho，A.and Corasick，M：有效的串匹配：双语查询的一种辅助手段，CACM 18卷6期(1975))。

就是说，如图14所示造成一个图象核对自动装置，它依据字符串一组ID转换定义表4所定义的全部转换字符串来记忆核对过程半路上的各个步骤。当在自动装置的某一状态发生不符合时，便决定从半路上重新开始核对。通过在最后状态时对最后状态的转换定义其组ID，它被转换成了组ID。

通过定义如上述的转换字符定义表4，即使OCR之类字符识别处理装置读取图13中组1的一个汉字“(ka)”(加)时拆开成同一组中的二个片假名字符“(ka)”(力)和“(ko)”(口)，或者在读同一组中的两个汉字“(riki)(力)”和“(kuchi)(口)”时合并成了同一组中的一个汉字字符“(ka)(加)”，字典检索也能正确地执行。

本例中的其他部分与例1中的相似。该字典检索装置能用于例2至例4的扩展字典检索部分10，而且更适用于例4中的字符识别后处理装置的扩展字典检索部分10。例8

在本例中，通过改进例7，使它允许对字符串S＝Ci，C_i+1，…，G_i+l给出组ID串g_j，g_j+1，…，g_j+k。

在本例中，例1的图3所示转换字符定义表4的组发类由例如图15所示内容代替。

在图15中，组ID1被给予一个片假名“(ka)(力)”和一个汉字“(riki)(力)”，组ID 2被给予一个片假名“(ro)(口)”和一个汉字“(kuchi)(口)”，组ID 1和组ID 2都给予一个汉字“(ka)(加)”，组ID 3被给予一个片假名“(i)()”，组ID 4被给予一个片假名“(ni)(二)”和一个汉字“(ni)(二)”，组ID 3和4都给予一个汉字“(jin)(仁)”，组ID 5被给予一个片假名“(hi)(匕)”，而组ID 3和5被给予一个汉字“(ka)(化)”。

在本例中，与例7一样使用Aho-Corasick方法，然而，当处理过程达到最后状态时，转换成组ID串代替转换成组ID是可能的。

本例的其他部分与例1的相似。这个字典检索装置能应用于例2至例4的扩展字典检索部分10，而且最适于例4中字符识别后处理装置的扩展字典检索部分10。例9

在上述例1和例5至例8中，一个组ID或组ID串被给予一个字符或一个字符串。然然在本例中允许把一个组ID串g_i，g_j+1，…，g_j+k给于一个任选的图象表达式(pattern expression)。

在本例中，使用字符串一组ID转换部分3′代替字符一组ID转换部分3。一个正规表达式转换用作为该字符串一组ID转换部分3′的一个实例。例1的图2所示转换字符定义表的组分类例如图16所示的内容代替。

在图15中，在“(e)(-)()(to)”中的“*”是一个后(meta)续符，它表示恰在其前面的字符继续0次，图象串“(e)(-)(to)”由正规表达式转换转换成组ID“4,101,20”。

在本例中，把图象串“(e)(-)(to)”，“(e)(-)(-)(to)”作为同一组处理是可能的。

在例的其他部分与例1有类似。本字典检索装置能应用于例2至例4的扩展字典检索部分10。

1.通过把一个词看作是由转换字符定义表定义的同一组字符集中的元素，使得迄今不能检索字典的词能够检索字典了。

2.所以，能对一个包括输入错误的报告正确地进行形式元素分析。

3.再有，能得到一个字符号校正装置，它能使这符串标准化和校正错误词。

4.通过处理字符识别处理装置输出的每个字符位置处的候选字符，在每个字符位置的候选组个数减少了，而且候选字符组合的个数减少了。所以，能得到一个字符识别后处理地装置，它的处理速度提高了。

Claims

1.一种字典检索装置，用于转换从输入部分输入的字符串并向输出部分输出转换后的字符串，包括：

一个转换字符定义表，它是把字符集C＝{C₁，C₂，...，C_n}分类成一些子集(GiCC)构成的，并向每个子集提供组ID；

2.根据权利要求1的字典检索装置，其中的转换字符定义表提供一个组中字符的代表字符作为组ID；以及

转换词字典存贮该代表字符用以代替输入字符串的每个字符。

3.根据权利要求1的字典检索装置，其中的转换字符定义表允许一个字符Ci是多组中的元素，而字符一组ID转换部分则输出多个结果。

4.根据权利要求1的字典检索装置，其中的转换字符定义表允许对一个字符串S＝C_i，C_i+1，...，C_i+l给出一个组IDg。

5.根据权利要求1的字典检索装置，其中的转换字符定义表允许对一个字符串S＝C_i，C_i+1，...，C_i+l给出一个组ID串g_j，g_j+1，...，g_j+l。

6.根据权利要求1的字典检索装置，其中的转换字符定义表允许对所希望的图象表达式e_i给出一个组ID串g_j，g_j+1，...，g_j+l。

7.一种用于使用权利要求1的字典检索装置作为扩展字典检索部分分析句子的形式元素分析装置，包括：

一个语法规则；以及

一个语法检验部分用于参照语法规则对字典检索结果进行形式元素分析，并将形式元素分析结果连同字典信息输出给输出部分。

8.一种使用权利要求7的形式元素分析装置的字符串校正装置，包括：

设置在语法检验部分和输出部分之间的形式元素组合部分，它通过把语法检验部分所作的形式元素分析结果进行组合来输出句子。

9.一种使用权利要求7的形式元素分析装置的字符识别用的后处理装置，包括：

设置在语法检验部分和输出部分之间的形式元素判定部分，这一部分使用适当的评估函数对于从语法检验部分得到的形式元素分析要所得到的多个形式元素分析候选者判定其候选级别，进而形式元素分析候选者送到输出部分。