CN101246478B

CN101246478B - 信息存储及检索方法

Info

Publication number: CN101246478B
Application number: CN2007100798327A
Authority: CN
Inventors: 姜德荣; 董振宁; 吴跃进
Original assignee: Autonavi Software Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2007-02-14
Filing date: 2007-02-14
Publication date: 2010-08-25
Anticipated expiration: 2027-02-14
Also published as: CN101246478A

Abstract

本发明公开一种信息存储及检索方法包括将中文数据及将其经过分词处理后获得的单词的拼音首字母序列存入中文数据基本信息索引文件内；将标识及位置信息存入中文数据基本信息二级索引文件内；将所述单词所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内；将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。本发明还公开一种信息检索方法包括接收检索字母；中文数据基本信息索引文件、中文数据基本信息二级索引文件、单词拼音索引文件以及单词拼音二级索引文件之间的对应关系获得结果。采用本发明信息存储及检索方法能够快速、准确地定位查询目标而且能够实现跨词检索的功能。

Description

信息存储及检索方法

技术领域

本发明涉及中文信息的存储及检索领域，尤指一种信息存储及检索方法。

背景技术

随着信息化时代的到来和发展步伐的不断加快，中文信息检索技术也已逐步渗透到人们的日常生活、工作和学习中，对中文信息检索技术的检索性能和质量也提出了更高的要求。所述中文信息检索指在由中文数据构成的文档集内查询或者检索符合查询条件的文档对象。

20世纪80年代中期以后，由于计算机处理能力的大大提高和使用的逐步普及，中文信息检索技术的研究进入一个快速发展的黄金期，各种中文信息索引方法、检索算法以及实用化系统不断涌现，各种基于中文信息检索技术的商用产品也纷纷出现。如，文本检索技术，改进和应用了当前较为流行的三种信息信息检索模型：布尔模型、概率模型和向量空间模型。TRS(拓尔思)，从1994年开始就推出文本检索系统TRS 1.0，经过多年的研究与改进，如今已经发展到第四代产品(基于自然语言处理的知识检索)。

在上世纪80年代中叶，少数研究人员开始研究中文信息检索技术的另一分支--拼音检索；同时，随着PDA、手机、触摸屏等移动终端的广泛应用，且这些设备也不便于用户快速输入信息，为此“汉字拼音首字母检索法”也就应运而生。2001年，拼音首字母检索法首先出现于期刊上]，经过几年的研究与发展，不断提出了各种拼音检索法：形序排检法、音序排检法、主题或分类排检法、时序或地序排检法等。

上述各种拼音检索法，都可保证“输入尽可能少的信息即可查询到中文信息”的能力，但在中文数据信息数据量比较庞大的情况下，就会出现“返回符合检索条件的中文数据信息过多，而往往不是用户真实需要的，无法保证快速、准确的给用户返回目标结果”。

发明内容

本发明要解决的问题是提供一种能够快速准确地返回目标结果的基于中文语义的信息存储及检索方法。

为了解决上述问题，本发明基于中文语义的信息存储方法的技术方案包括：

对中文数据进行分词处理以获得若干单词；

获取每个单词内所有汉字的汉字码；

在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音字符串；

从汉语拼音字符串中抽析出每个拼音的首字母；

将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件作为一条中文数据记录；

在中文数据基本信息二级索引文件中，通过中文数据标识与该中文数据标识所代表的中文数据在中文数据基本信息索引文件中的位置的一一对应关系，在中文数据基本信息二级索引文件中存放中文数据在中文数据基本信息索引文件中的偏移量；

将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内，所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内；

将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。

相应地，本发明基于中文语义的信息检索方法的技术方案包括：

A1)接收检索字母；

A2)判断所述检索字母是否是第一个字母，执行步骤A3)，否则执行A7)；

A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的起始偏移位置和终止偏移位置；

A4)在所述单词拼音索引内从所述起始偏移位置处开始获取所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置，直到获取到所述终止偏移位置在所述单词拼音索引内对应的位置，进入步骤A5)；

A5)根据所述中文数据标识从中文数据二级索引文件内获得其对应的中文数据记录在中文数据索引文件内的位置；

A6)根据中文数据记录在中文数据索引内的位置取出所述中文数据记录，并与所述中文数据标识以及单词在中文数据内的位置共同构成记录结果集，执行步骤A1)；

A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较，将不包含所述检索字母的记录从所述记录结果集中删除，执行步骤A1)。

步骤A4)具体包括步骤：

A41)判断起始偏移位置是否小于终止偏移位置，若是执行步骤A42)；否则执行步骤A5)；

A42)从所述起始偏移位置在单词拼音索引内对应的位置处取出中文数据标识以及所述单词在所属的中文数据内的位置；

A43)修改所述起始偏移位置使其指向所述单词拼音索引内的下一条记录，执行步骤A41)。

与现有技术相比，本发明信息存储及检索方法的有益效果为：

由于是以中文数据及其所分得的若干单词的拼音首字母为基础的，通过中文数据及其所分得的若干单词的拼音首字母的对应关系，使得用户输入拼音首字母这样的检索字，就能够在海量的中文数据集内快速、准确定位和查询中文数据的功能。

由于是利用中文分词技术对中文数据进行分词处理以获取若干单词，且每个单词都具有自身含义，则对中文数据进行分词处理，就是解析中文数据的基本语义，因此，就能够基于中文数据的基本语义查询中文数据。

由于是利用中文分词技术对中文数据进行分词处理以获取若干单词，并以每个单词信息为基础构建单词拼音索引，则遵照本发明信息检索方法，就能够实现跨词检索的功能。

附图说明

图1是本发明信息存储方法的流程图；

图2是图1中步骤1)进一步细分的流程图；

图3是图2中步骤12)进一步细分的流程图；

图4是中文数据基本信息索引的示意图；

图5是中文数据基本信息二级索引的示意图；

图6是单词拼音索引的示意图；

图7是单词拼音二级索引的示意图；

图8是本发明信息检索方法的流程图；

图9是图8中步骤A4)进一步细分的流程图。

具体实施方式

如图1所示，本发明信息存储方法包括下述步骤：

1)将中文数据及将其经过分词处理后获得的单词的精首字母序列存入中文数据基本信息索引文件内，所述拼音首字母指每个汉字所对应的汉语拼音的第一个字母；

2)将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基本信息二级索引文件内；

3)将所述单词在所述中文数据基本信息索引文件内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内，所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内；

4)将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件。

其中，如图2所示，所述步骤1)进一步包括步骤：

11)对中文数据进行分词处理以获得若干单词；

12)获取每个单词的拼音首字母；

13)将所述中文数据及其对应的若干单词的拼音首字母序列存入中文数据基本信息索引文件内。

进一步地，如图3所示，所述12)还可包括步骤：

121)获取每个单词内所有汉字的汉字码；

122)在简体中文字符码表内根据所述汉字码获取其对应的汉语拼音；

123)从汉语拼音字符串中抽析出每个拼音的首字母。

由上述可知，本发明基于中文语义的信息存储方法是以中文数据为基础的，所述中文数据不是简单的由多个单字构成，而是由若干单字所组成一个个具有特定含义的单词共同构成的，也就是说，整条中文数据的语义是由其内部所包含的单词的含义来共同表达的。

对中文数据进行分词处理以获得若干单词，中文分词技术目前已相当成熟，可采用正向/逆向最大匹配词典分词法，即在所构建的含有丰富且全面单词的词典的基础上，按照一定的字符串匹配与词频统计策略，将待分词的中文数据与词典内词条进行逐一、快速的匹配并进行词频统计，由此可从中文数据内分析出若干相对独立且具有自身含义的单词。

例如，中文数据：北京市海淀区人民法院，采用正向最大匹配分词法对其进行分词处理，即将中文汉字串“北京市海淀区人民法院”与词典内的单词进行快速匹配，并对匹配成功的单词出现次数进行统计，以选出词频相对较高的单词，本例得到了四个独立的单词：“北京市”、“海淀区”、“人民”和“法院”。这四个单词本身就具有含义，并且也能够表达和代表中文数据“北京市海淀区人民法院”的部分含义。

取得了若干单词后，下面就是获取单词的拼音首字母。可运用汉字-拼音自动转换技术，所述汉字-拼音自动转换技术是一种将汉字自动转换为与之相对应的拼音的技术。首先获取单词内每个汉字的汉字码，例如单词“北京市”，“北”的汉字码为“B1B1”、“京”的汉字码为“BEA9”和“市”的汉字码为“CAD0”。接着根据简体中文字符码表(GB2312)内汉字编码与汉语拼音之间的映射关系，例如汉字码“B1B1”在简体中文字符码内对应的汉语拼音为“bei”，汉字码“BEA9”对应的汉语拼音为“jing”，汉字码为“CAD0”对应的汉语拼音为“shi”。因此，汉字“北”的拼音为“bei”，汉字“京”的拼音为“jing”，汉字“市”的拼音为“shi”。根据每个汉字的拼音，抽析出每个拼音的首字母，分别为“B”和“J”和“S”，所以单词“北京市”的拼音首字母序列为“BJS”。同理，可获得其他三个单词的拼音首字母序列分别为“HDQ”、“RM”和“FY”。

获得了单词的拼音首字母后，将该中文数据及其相应的单词的拼音首字母序列存入中文数据基本信息索引文件内作为一条中文数据记录，如图4所示，为(北京市海淀区人民法院\rBJS，HDQ，RM，FY\r)。

对于中文数据基本信息索引可用下述表示：

BasicInfoIndex<CHARS object，‘\r’，CHARS spell，‘\r’>

其中：

object--字符串型，即中文数据记录对象的主题内容；

spell--字符串型，即中文数据对象object所对应汉语拼音首字母序列。

接下来，步骤2)将每条中文数据的标识及其在所述中文数据基本信息索引文件中的位置信息存入中文数据基体信息二级索引文件内。每个中文数据都具有一个唯一标识，例如本例“北京市海淀区人民法院”的标识是1384。在中文数据基本信息二级索引文件中，通过中文数据标识与该中文数据标识所代表的中文数据在中文数据基本信息索引文件中的位置的一一对应关系，在中文数据基本信息二级索引文件中存放中文数据在中文数据基本信息索引文件中的偏移量，如图5所示，其中，5447是(北京市海淀区人民法院\rBJS，HDQ，RM.FY\r)在中文数据基本信息索引文件中的偏移量。

对于中文数据基本信息二级索引可用下述表示：

SuperIndexForBasicInfo<INT data_id，INT offset>

其中：

data_id--整数型，即某一中文数据记录的标识；

offset--整数型，即某一中文数据记录对象object的基本信息在索引

BasicInfoIndex中的起始位置偏移量。

步骤3)将所述单词在所述中文数据基本信息索引内的所属的中文数据标识及在所述中文数据记录内的位置存入单词拼音索引文件内，所述单词拼音索引将首字母相同的单词的相关信息连续存放在同一数据簇内。该步骤是对中文数据进行分词处理后得到的单词的进一步处理。例如单词“北京市”、“海淀区”、“人民”和“法院”的拼音首字母分别为BJS，HDQ，RM和FY，由于它们所属的中文数据的标识是1384，它们在该中文数据记录内的起始偏移位置分别为：0、3、6和8。因此BJS，HDQ，RM和FY分别对应四个拼音索引信息，<1384，0>，<1384，3>，<1384，6>和<1384，8>，将这四个拼音索引信息分别存入以字母“B”，“H”，“R”和“F”开头的数据簇内。

对于单词拼音索引可用下述表示：

SpellIndexForWord<INT data_id，BYTE pos>

其中：

data_id--整数型，即单词所属中文数据记录的标识；

pos--字节型，即单词在所属中文数据记录内的起始位置。

由于在单词拼音索引文件中是以26个字母(A，B，C，...，X，Y，Z)来分成26个数据簇，那么步骤4)将以每个字母为开头的数据簇在所述单词拼音索引文件内的位置存入单词拼音二级索引文件，也就是在单词拼音二级索引文件中存放以每个字母开头的数据簇在单词拼音索引文件中的位置。如图6所示，其中，以A开头的数据簇的起始偏移位置为0，以B开头的数据簇的起始偏移位置为7657，以C开头的数据簇的起始偏移位置为59334，......，以Z开头的数据簇的起始偏移位置为784509。

对于单词拼音二级索引可用下述表示：

SuperIndexForSpell<INT offset>

其中：

offset--整数型，即索引SpellIndexForWord内以某一字母开头的数据簇在“单词拼音索引”文件内的起始位置偏移量。

由于上面建立了拼音首字母与中文数据及其分词所得的若干单词的对应关系，因此，通过输入拼音首字母序列能够快速查找到其所对应的中文数据。

相应地，如图8所示，本发明基于中文语义的信息检索方法包括步骤：

A1)接收检索字母；

A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的位置；

A4)根据所述位置从所述单词拼音索引文件内获得所有以所述检索字母为开头的单词所属的中文数据标识以及所述单词在所属的中文数据内的位置；

A6)根据中文数据记录在中文数据索引文件内的位置处取出所述中文数据记录，并与所述中文数据唯一标识以及单词在中文数据内的位置共同构成记录结果集，执行步骤A1)；

其中，如图9所示，步骤A4)进一步包括步骤：

A41)判断起始位置是否小于终止位置，若是执行步骤A42)；否则执行步骤A5)；

A42)从单词拼音索引中取出所述起始位置处的中文数据标识以及所述单词在所属的中文数据内的位置；

A43)移动起始位置使其指向下一个中文数据标识，执行步骤A41)。

例如，对于检索词为“BJ”，即输入字母序列“BJ”来查找“北京市海淀区人民法院”。

首先，先接收到字母“B”，并且判断是第一个字母，那么执行步骤A3)从单词拼音二级索引文件中获得以所述检索字母为开头的单词拼音索引的数据簇在单词拼音索引文件内的位置；对于本例，从单词拼音二级索引文件可知字母B在单词拼音索引内的起始偏移位置为7657，终止位置为59334。设

且

比较数值

和的大小，若

则查找过程结束，进入步骤A5)，在单词拼音索引文件的偏移量位置处读取一条拼音索引信息spellindex<data_id，pos>(data_id为该条拼音索引所属的中文数据标识，pos为该拼音串在所属的中文数据内的起始位置)，同时

pos＝pos+1。将所有的以字母B开头的拼音索引记录读出，从中可知所有以字母B开头的单词所属的中文数据标识，其中有一条拼音索引记录为spellindex<1348，0>，1384是中文数据“北京市海淀区人民法院”的标识。

下面执行步骤A5)，根据上述步骤获得的中文数据标识data_id，从索引文件“中文数据基本信息二级索引”内获取标识为data_id的中文数据在中文数据基本信息索引文件内的偏移位置

其中，标识为1348的中文数据记录在中文数据基本信息索引文件内的偏移位置的值为5447--是中文数据“北京市海淀区人民法院”在中文数据基本信息索引文件内的偏移位置；

获得了所有的偏移位置后，根据偏移位置，取出这些偏移位置所对应的所有中文数据记录，并与所述中文数据唯一标识以及单词在中文数据内的位置共同构成记录结果集。设，在索引文件“中文数据基本信息索引”中的偏移位置

处读取一条中文数据记录为：basicInfo_{data_id}<object，spell>，并与拼音索引spellindex一起构成记录结果集：data<data_id，object，spell，pos>。在本例中，记录结果集中有一条记录为：data<1348；北京市海淀区人民法院；BJS，HDQ，RM，FY；0>。

得到记录结果集后，执行步骤A1)接收检索字母，本例中接收的是第二个检索字母“J”，然后执行步骤A7)将所述检索字母依次与记录结果集中的单词拼音首字母比较，将不包含所述检索字母的记录从所述记录结果集中删除。也就是，依次读取记录结果集data<data_id，object，spell，pos>中的记录，将字母“J”依次与该记录内的拼音首字母进行比较，若不存在，删除该data<data_id，object，spell，pos>记录。

随着检索字母的输入，在记录结果集中的记录的数量会越来越少，也就是说，用户输入的检索字母越多，越能精确返回获取结果记录。

另外，本发明基于中文语义的信息存储及检索方法还能实现跨词检索的功能，所述跨词检索，就是在信息检索过程中，不要求输入的检索字母(即拼音首字母序列)的具体内容和相邻关系与目标数据完全相符，即输入的检索字母序列在某条目标数据中不强制连续且跨越若干个具有自身语义的单词，也可检索到该条目标数据。例如，用户输入“HDQRMFY”，遵照本发明信息检索方法，可检索到中文数据“北京市海淀区人民法院”；输入“HDQFY”，也可检索到中文数据“北京市海淀区人民法院”；同样，输入“SLGHYJYSLYJS”可检索到中文数据“北京市水利规划设计研究院水利科学研究所”。

综上所述，本发明信息存储及检索方法，是以中文数据及其所分得的若干单词的拼音首字母为基础的，通过中文数据及其所分得的若干单词的拼音首字母的对应关系，使得用户输入拼音首字母这样的检索字，就能够在海量的中文数据集内快速、准确定位和查询中文数据的功能。

Claims

1.一种信息存储方法，其特征在于，包括下述步骤：

对中文数据进行分词处理以获得若干单词；

获取每个单词内所有汉字的汉字码；

从汉语拼音字符串中抽析出每个拼音的首字母；

2.基于权利要求1所述的信息存储方法的信息检索方法，其特征在于，包括步骤：

A1)接收检索字母；

3.如权利要求2所述的信息检索方法，其特征在于，步骤A4)具体包括步骤：