CN1041356C

CN1041356C - 数据检索装置

Info

Publication number: CN1041356C
Application number: CN92102016A
Authority: CN
Inventors: 罗进财; 林启轩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-03-24
Filing date: 1992-03-24
Publication date: 1998-12-23
Anticipated expiration: 2007-03-24
Also published as: CN1076797A

Abstract

根据对应标记的设定，首先校对是否有对应于检索码的数据，通过与该标志有关的地址以最小的检索范围从辞典进行检索。

通过检索单元14把从输入单元11输入的检索码的前部分作为检索关键字从对应单元16检出对应于检索码的对应块。再利用上述检索码前部分的后续部分对检出的对应块的对应标记进行校对，如果为1意味着存在对应数据，通过该标记的对应地址和该地址的后续地址，从辞典18读出该范围的数据。通过检出装置17检出与检索码相符的对应数据。

Description

数据检索装置

本发明涉及一种能够高速检出对应于语言翻译装置、文字处理机、台式排版系统等的输入、变换系统的信息的数据检索装置。

数据检索装置的实用性与数据的存储空间和检索速度有关。已往，作为对于大容量辞典的存储方式和检索方式，如日本特开昭62-197822号中所记载的方法。该实施例的系统框图示于图4(a)。主索引、分索引、辞典本体存储在如图4(b)的文件中，辞典本体312分成固定长度的块中，只有各块的起始关键字存储在分索引311中。分索引也分成固定长度的块中，只有各块的起始关键字存储在主索引310中。因为图4(b)的a11、a21、a31……全是辞典本体内的起始关键字串，故存储在分索引中。分索引的起始关键字a11、b11、…x11同样也存储在主索引中。

把主索引文件310读入主索引区域307中，应该检索的字符串、与主索引文件的关键字串的n序号相一致，或者(第一次顺次检索位于n序号和(n+1)序号之间的内容。接着，分索引文件的n序号的区段读入缓冲区域308。应该检索的文字列与读出的分索引的关键字串的m序号相一致，或者(第2次)顺次检索m序号和(m+1)序号间的内容。接着，用对应于设定在分索引的每个区段中的辞典数据文件的偏移值K读出辞典数据文件的(K+m)序号的区段。把读出的辞典数据文件的关键字与应检索的字符串进行比较，检索出(第3次)相一致的关键字。

在上述已有技术例子中，如果在不预先处理输入的话音符号串的状态下将其用于检索，则确定不了存储在辞典本体中的校对用话音符号串的长度，因此要三次依次对不同长度的话音符号串进行检索从而不能逐次缩小检索的空间。必然不能提高检索效率。

又，直接用原有的话音符号串进行检索时，由于辞典本体内的记话音符号串的长度不固定，且存储在固定长度的块中，因此使各块的最后留下不定长度的空间，形成辞典的无用空间。

为了解决上述问题，本发明提供一种数据检索装置，其特征在于：具有存储索引码和对应的数据的辞典；由用多个块构成、每个块由多个位构成，各个位根据0或1值表示是否有对应于检索码的数据的对应标记组及由上述标记值为1时存储于上述辞典中的索引码和对应的数据存储位置的对应的地址组构成的对应单元；按照输入的检索码的前部分检出对应单元的相应块的检索单元；通过与输入的检索码的一部分相比较，取出上述检出的对应单元的对应标记和对应地址并从辞典中检出检索码的对应数据的检出装置。

如上构成的本发明，把输入的检索码的前部分作为检索关键字，检出对应单元的相应块，接着，通过在检出装置中使用检索码前部分的后接着的一部分，取出对应单元的对应地址，对于辞典确定最小检索范围。最后，通过与上述后接着的一部分检索码的比较从辞典中检出对应的数据，由输出单元输出检索结果。这样就能够高速检索大容量辞典。

下面，将汉语辞典数据的检索作为实施例，结合附图说明本发明的数据检索装置的操作过程。

图1为本发明的实施例的数据检索装置的构成图；

图2为上述实施例的处理过程的流程图；

图3为上述实施例的处理过程的流程图；

图4(a)为已有技术例的数据检索装置的构成图；

图4(b)为已有技术例的辞典构造说明图；

图5表示本发明的汉语的一种话音符号的编码的说明图；

图6为汉语话音符号的码顺序说明图；

图7表示本发明的检索码处理单元的动作流程图；

图8用于说明本发明的索引存储单元的构成说明图；

图9为上述实施例的对应单元与辞典构成说明图；

图10为对用于检出上述实施例的对应单元的对应块的索引存储单元的检索方式的说明图。

在本实施例中，把汉语读音符号进行编码，把检索比较用码、单词及单词使用频度作为对应数据。

汉语的有效读音有一千三百多，全部读音必须用两字节表示。这种方式能够节约辞典的存储空间，数据检索也方便。于是，将各汉语的读音的声母和介音一起配置在一个字节中，而将韵母和声调配置在另一个字节中，配置在如图4所示的各自的ASCII字符表中。各读音能够用唯一的二字节代表码表示。这里，把这种二字节代表码称为检索码。把转换后的检索码的第一、第二、第三字节称为第一、第二、第三检索码。

对于图6所示的汉语话音符号每一个给一个顺序值，通过图7的简单判断及计算，就能把输入的话音符号串转换为对应的检索码。读音

[ㄏㄨㄢ]

作为例子说明。参照图5(a)的顺序值，声母

[ㄏ]

为声母顺序的第10目，介母

[ㄨ]

因为是介母顺序的第2目，则如下所述转换为第一检索码。

21H+10^*4+2＝4bH，

4bH相当于ASCII码的“K”。

韵母

[ㄢ]

为韵母顺序的第8目，因为声调“…”为声调顺序的第0目，则如下所述转换为第二检索码。

26H+8^*5+0＝4eH

4eH相当于ASCII码的“N”。

如上所述，读音[ㄏㄨㄢ]的检索码就成为“KN”。

图1为本发明的实施例的数据检索装置的构成图。图1中，11为能够输入任意长度的话音符号串的输入单元。12为具有存储用的寄存器和缓冲器的存储单元。其中，R寄存器121为存储检索时要比较的检索码(searching code)的寄存器。H寄存器122用于存储对分检索时的上位限定值。P寄存器123存储对分检索时的下位限定值。寄存器存储检出对分检索和对应单词时的限定范围的大小。Q寄存器125为存储对分检索时的比较对象的码值的寄存器。13为检索码处理单元，它对输入的话音符号串根据汉语发声构成特征将其转换为用于检索的检索码。15为存储检索用的主索引表及副索引表的索引存储单元。索引存储单元的构造如图8所示，在主索引表中存储有可能变成第一检索码的码。主索引表的各项目指定副索引表的特定块。在相应的副索引表块中存储与第一检索码相关的全部有效的第二检索码。副索引表的各块的大小(尺寸)由相邻的二主索引的指示字差决定，通过利用第二检索码对主索引表及副索引表进行检索，就能够获得对应单元16的对应块。

对应单元16由对应于索引存储单元15的层索引表的块构成。对应单元16的构造如图9所示，各块分为对应标记组161和对应地址组162。在对应标记组161中，存储是否有对应于索引存储单元15利用的检索码的后接码(本实施例中为第三检索码)的单语的表示信息。第三检索码如图5所示，有88个，如果各检索码用一位表示，则要有11个字节，故本实施例将对应标记组161作成11个字节的大小。各检索码如图5(a)所示按ASCII码顺序对应于对应标记组161的相应位中。若，相应位设定为“1”时则表示存在相应检索码的对应单词。相应位为“0”时，意味着不存在对应于该检索码的对应单词。在对应地址组162中，如图9所示，存储在上述对应标记组161的“1”中设定的位索引值，即对应于辞典18中的该检索码的单词

的存储开始地址。本实施例中用2个字节存储该对应地址。

辞典18中，存储如图9的索引码(index code)、对应单词及关连信息。因为第一字符的检索码已经存储在索引存储单元15中，所以在辞典18中存储着从第二字符起的检索码。本实施例中，把对应单词的使用频度作为关连信息以一个字节进行存储。

检索单元14，根据用检索码处理单元13得到的前二检索码、参照索引存储单元15的索引表、用对分检索方法从对应单元16取出对应于前二检索码的对应块。17为检出装置，它通过用检索单元14得到的对应块的对应标记和对应地址的检索值、能够以最小的检索空间从辞典18中检出对应单词。输出单元19输出由检出装置17检出的单词和对应信息。

对于如上构成的本发明的实施例，边参照图2、图3的处理流程、边对本发明实施例中的数据检索装置的检索动作进行说明。首先，通过S1、S2，把由输入单元11输入的话音符号串存入缓存器127，然后，通过S3，对存入缓存器127的话音符号串按图6处理转换为检索码之后存入A缓存器126。

接着，进入检索单元14的处理。通过S4，下位限定值设定为“0”、上位限定值设定为主索引表的项目数(本实施例为55)、各自存入P寄存器123和H寄存器122中。再者，把存入A缓存器126中的第一检索码读入R寄存器121中。在S5至S12的动作中。在P寄存器123的下位限定值和H寄存器122的上位限定值的范围内，根据存入R寄存器121中的第一检索码对主索引表进行对分检索、把对应于所得副索引的检索开始位置设定于P寄存器123中，把副索引中的检索开始位置的块的下面块的前位置设定于H寄存器122中的同时，从A缓存器126读出第二检索码，存入R寄存器121中。然后，进行S13至S19的动作，按照存入R寄存器121中的第二检索码，在P寄存器123和H寄存器122的限定值范围内，对副索引表进行对分检索，把得到的对应单元16中指定的对应块的位置存入Q寄存器125中。

接着，从S20至S25进行检出装置的处理。首先，从A缓存器126读出第三检索码，存入R寄存器121。再，按照存入Q寄存器125中的位置把对应单元16中指示的对应块读入缓存器127中。在S22中，用存入R寄存器121中的第三检索码与对应块的对应标记组161的设定进行比较，对是否存在对应单词进行校对。当不存在对应单词时，由输出单元表示没有见到相应单词的这一信息。如果有对应单词，则在S23中按照S22的比较把对应地址组162的相应地址值存入P寄存器123中，将接着的地址值存入H寄存器122中，同时将P寄存器123与H寄存器122的差(即最小的检索空间)存入寄存器124中。在S24中，把从存人P寄存器123中的检索开始地址值至存人寄存器124中的值的存入辞典18中的数据读入寄存器。并清除A缓存器126的前二检索码。S25，用A缓存器126中残存的检索码，根据存入寄存器124中的最小检索空间的限定，与存入缓存器127中的内容逐次进行比较，相符的对应语单词和对应信息由输出单元19输出。

参照下述图2、图3，以汉语话音符号串

[ㄉㄚㄥㄆㄛㄟㄕ…ㄍㄨㄛ…ㄨㄣㄟㄉㄠㄟㄉ-ㄥ]

为例，详细说明本发明的动作。为了更好说明，设R寄存器121、H寄存器122、P寄存器123、寄存器124、Q寄存器125的值分别为r、h、p、b、q。

一旦相应的话音符号串输入，则把输入单元11输入的话音符号串存入缓存器127之后，由检索码处理单元13将其转换为如图6、图7所示的检索用的检索码。转换的结果为“1(％.a&c+V1G2#”。该检索码存入A缓存器126中。接着，P设定为零，h设定为主索引表的总项目数(在本实施例中，主索引表中收集的汉语的全部有效声母与介母的组合的集合总共为55个。)又，将存人A缓存器126

中的第一检索码“1”写入R寄存器121中，为了进行对分检索，将h、p的中间值(本实施例为27)存入寄存器124中。再，如图8所示将存入寄存器124中的中间值的代表值“E”记入Q寄存器125中。接着，按照ASCII字码顺序将q与γ进行比较。γ比q大时，将h换为b-1，γ比q小时，将h变为b+l。如上所述，进行从图2的S5至S10的对分检索并反复进行寄存器值的修正动作，直至q与γ相同为止。如上述动作，q与s的比较结果和各寄存器的值的变化按下述(表1)进行。

[表1]

r p h b q r，q之比较

‘1’ 0 55 27 ‘E’ r大

‘1’ 0 26 13 ‘3’ r大

‘1’ 0 12 6 ‘)’ q大

‘1’ 17 12 9 ‘-’ q大

‘1’ 10 12 11 ‘1’ 相等

于是，能够获得图10所示在副索引表中指定的检索开始位置214和后续块的检索位置242。按照上述，将P设定为214，将h设定为242-1＝241。

再，将存入A缓存器126中的第二检索码“(”写入R寄存器121中，为了进行对分检索，把存入寄存器124中的中间值的代表值“E”记入Q寄存器125中。接着进行图2的从S13至S17的对分检索并重复对寄存器的值进行修正的动作，直至q与γ相等为止。根据上述处理q与γ的比较结果和各寄存器值的变化如下述(表2)所述

[表2]

r p h b q r，q之比较

‘(’ 214 241 227 ‘E’ q大

‘(’ 214 226 220 ‘4’ q大

‘(’ 214 219 216 ‘￥’ r大

‘1’ 217 219 218 ‘(’ 相等

于是，能够获得图10所示“1(”的对应单元16中指示的对应块位置53128、和后续块位置54044。

接着，进入检出装置17的处理。首先，将存入A缓存器126中的第三检索码“％”写入R寄存器121中，把上述取出的对应块的内容记入缓存器127中。第三检索码“％”如图5(a)所示，因为是本实施例的配置位置的第5位，一旦对对应标记组161的第5位检索，因其设定为1，因此前三检索码中表示有对应单词。将对应标记组161的第5位的对应地址72存入P寄存器123中，将后续的对应地址138存入H寄存器122中，将P与h的差66存入寄存器124中。即53128为对应单词的辞典的存储开始位置，而66为检出范围。

另外，从辞典18的P(53128)计数，b(66)范围内的数据读入缓存器127中。接着，消除存入A缓存器126中的前二检索码，在b的检出范围限定内，将残留的“％.a&c+V162#”与读入缓存器127中的对应单词的索引码进行比较，检出相符的索引码的单词“打破沙锅问到底”和对应信息，由输出单元19输出。

本实施例，根据第三检索码，用转移限定(branchandbound)的原则进行三层的检索，随着检索范围的逐次缩小而能提高检索的速度。并且，由于检索范围缩小，不仅减少了检索时间，而且能直接反应出在各层的检索中不以发音规则组合的输入或误输入的错误。又，将有效的第一检索码的集合存入主索引表、将有效的第二检索码的集合存入副索引表、第三检索码存入对应标记中的这种检索文件编译构造能有效地进行检索。如果，将极小的前二检索码存入主存储器，则能节省存储区间。这对汉语等的数据检索实用性非常大。

如上所述，按照本发明的数据检索装置，通过前三检索码、根据转移限定(branchandbound)原则进行三层检索，随着逐次缩小检索范围能够提高检索的速度。又，能够直接反应出各层检索中的误输入的读音。再，将有效的第一检索码的集合存入主索引表、有效的第二检索码的集合存入副索引表、第三检索码存人辞典的块起始中的这种检索文件编译构造能有效地进行检索。且，通过将前二检索码存入主存储器，仅用极小的且固定的存储区间就能有效地进行转移检索。由于同时考虑到数据的存储空间及检索速度，所以对汉语等的数据检索实用性极大。

本发明不局限于上述实施例，在不变更要旨的范围内可适当变化实施。例如，输入符号不局限于话音符号，即使作为简易仓符号，如果以简易仓首尾码构成索引存储部的主、副索引表及辞典，也

能实施。再，本发明对日语辞典数据的检索能够容易实施。

如上所述，按照本发明的数据检索装置，因为设置了对应单元的对应标记和对应地址，所以节约了存储区间，检索范围最小，从而能提高检索速度。具有非常大的实用性。

图中符号说明：

1l-输入单元，12-存储单元，13-检索码处理单元，14-检索单元，15-索引存储单元，16-对应单元，17-检出装置，18-辞典，19-输出单元，121R、122H、123P、124、125Q-寄存器，126A、127-缓(冲寄)存器，161-对应标记组，162-对应地址组。

Claims

1.一种汉语辞典数据检索装置，其特征在于包含：

能够输入任意长度话音符号串的输入单元；

具有存储用的寄存器和缓存器的存储单元；

对输入的话音符号串根据汉语发声构成将其转换为用于检索的检索码的检索码处理单元；

存储有索引码及其对应单词和对应信息的辞典；

由多个块构成的对应单元，每个块再由对应标记组和对应地址组所构成，而对应标记组由多个位组成，按照各个位的0或1值表示一索引码有无对应数据，对应地址组包含数目和前述标记值为1的数目相同的地址，每一地址表示一索引码及其对应单词在上述辞典的起始位置；

将检索码前部分的第一检索码及第二检索码存储为检索用的主索引表及副索引表的索引存储单元；

根据上述检索码处理单元所获得的检索码前部分的第一检索码及第二检索码，参照索引存储单元内的主索引表及副索引表，取出其对应块的检索单元；

用上述检索码的一部分，再经由上述对应块的对应标记和对应地址的指引，从上述辞典中检出检索码的对应单词和信息的检出装置；

及输出上述由检出装置检出的单词和对应信息的输出单元。