CN101699438A

CN101699438A - 数据存取方法及系统

Info

Publication number: CN101699438A
Application number: CN 200910211403
Authority: CN
Inventors: 李彦男
Original assignee: BEIJING FENGLI INFOSEC TECHNOLOGY Ltd
Current assignee: Shanghai equity investment partnership (limited partnership)
Priority date: 2009-11-04
Filing date: 2009-11-04
Publication date: 2010-04-28
Anticipated expiration: 2029-11-04
Also published as: CN101699438B

Abstract

本发明提供一种数据存取方法及系统，所述数据存取方法包括：为源数据分别设定第一序列号及第二序列号，所述源数据包括至少一个数据单元，其中，所述第一序列号分别表示所述源数据在数据库中的位置，所述第二序列号分别表示所述数据单元在所述源数据中的位置；根据所述第一序列号及所述第二序列号，确定所述源数据在所述数据库中的位置；对所述源数据中的每个数据单元提取特征，以该特征创建至少一个列表，所述列表用于调取所述源数据。本发明在很大程度上提高了用户的输入速度。

Description

数据存取方法及系统

技术领域

本发明涉及一种数据存取方法及系统，特别涉及一种字符串的存储及调取方法，具体包括一种用于移动电话或计算机的字符存取方法及系统。

背景技术

当前移动电话或计算机上的输入法，主要基于以下几种基本输入方法：

1、全拼输入：需要完整输入每个汉字的所有拼音后，才能对相应的汉字进行选择；

2、声母首字母输入：针对已有词组，可以在输入该词组所有汉字的声母首字母后，选择相应的汉字；

3、词组联想：在输入某一序列汉字(词组)后，输入法对已有词组进行搜索及匹配，并联想包含已输入序列部分的词组，以提供该词组的剩余部分给用户进行选择；

4、造词：用户在一个输入序列中如果无法匹配某个已有词组，将提供给用户逐字或逐词输入的方法，待完整输入序列的匹配完成后，该输入序列产生的所有汉字成为一个已有词组，称为造词；

5、词组导入：可以导入某些给定的字符串集合作为已有词组，如导入所有通讯录的人名作为词组，相当于批量造词。

以上输入方法最大的不足之处在于，需要用户将需要输入的字符集合明确地分割成词组，用户在输入的时候面对的是单字、已有词组或者可能需要创造的词组，词组作为输入单位单独存在，因而造成用户的输入速度较慢。

在数据存储方面，现有输入法中存储的词组数与词组之间存在直接的关系。众所周知，当一句话包含n个字，且不考虑用户对分词准确性的把握时，若采用造词方式来存储该句话涉及到的所有词组，则需要存储的词组将如表1所示：

表1

词组长度(字)	最多词组数(个)
词组长度(字)	最多词组数(个)	2	n-1
3	n-2	2	n-1
3	n-2	…	…
n-2	3	…	…
n-2	3	n-1	2

词组长度(字)	最多词组数(个)
词组长度(字)	最多词组数(个)	合计	(n+1)×(n-2)/2

以长度为8个字的句子“今天我去学校读书”为例，若不考虑用户对分词准确性的把握，当所存储的词组长度为2时，该句具有“今天”、“天我”、“我去”、“去学”、“学校”、“校读”及“读书”共7个词组，类似地，当所存储的词组长度为3时，则具有“今天我”、“天我去”、“我去学”、“去学校”、“学校读”、“校读书”共6个词组。

可以看到，如果采用词组的方式进行存储，需要完整存储该句话所包含的词组，在极端情况下，需要存储的词组数将和句子的长度成平方比，因而在很大程度上增加了需要存储的词组量，从而导致所需存储空间的增大，这是很不划算的。

另外，通过现有的A4输入法、搜狗拼音输入法等可以发现，输入法产品所采用的基本输入方法均大致相同，因此，需要一种能够切实提高用户输入速度的输入方法。

发明内容

本发明的目的是提供一种数据存取方法及系统。

于一实施例中，本发明的数据存取方法及系统可用于移动电话或计算机的输入法中，用户可以利用已收到的信息或者本地设备中存储的信息中的任意一部分作为输入，输入法将获知用户可能的输入进行字符串的排列及查找，从而快速获得所需信息。

本发明提供一种数据存取方法，包括：为源数据分别设定第一序列号及第二序列号，所述源数据包括至少一个数据单元，其中，所述第一序列号分别表示所述源数据在数据库中的位置，所述第二序列号分别表示所述数据单元在所述源数据中的位置；根据所述第一序列号及所述第二序列号，确定所述源数据在所述数据库中的位置；以及对所述源数据中的每个数据单元提取特征，以该特征创建至少一个列表，所述列表用于调取所述源数据。

本发明所述的数据存取方法，确定所述源数据在所述数据库中的位置的步骤包括：根据所述第一序列号及所述第二序列号创建索引，所述索引显示所述源数据在所述数据库中的位置。

本发明所述的数据存取方法，通过B树或哈希算法创建所述索引。

本发明所述的数据存取方法，所述列表为二维表或链表。

本发明所述的数据存取方法，还包括：搜索未包括于所述数据库中的数据，并将搜索到的数据作为所述源数据存储于所述数据库中。

本发明所述的数据存取方法，还包括：设定搜索未包括于所述数据库中的数据的时间。

本发明所述的数据存取方法，还包括：输入信息；通过所述列表，将输入的所述信息与所述源数据进行匹配，以在所述数据库中查找目标数据；以及判断匹配结果中是否有所述目标数据，如果有，则输出所述目标数据。

本发明所述的数据存取方法，还包括：如果所述数据库中没有与所述目标数据匹配的源数据，则不响应所述信息的输入。

本发明所述的数据存取方法，还包括：将输出的所述目标数据作为所述源数据存储于所述数据库中。

本发明所述的数据存取方法，所述源数据为由字符组成的句子或词组，所述字符为所述数据单元。

本发明所述的数据存取方法，所述字符包括汉字、英文字母及数字；其中，当所述字符为汉字时，所述特征为汉字本身、汉字的拼音首字母、至少两个相邻汉字的依序的拼音首字母或汉字的拼音；当所述字符为英文字母或数字时，所述特征为所述英文字母或所述数字。

本发明所述的数据存取方法，根据特定标记确定所述源数据。

本发明所述的数据存取方法，所述特定标记为标点符号、阿拉伯数字或控制符。

本发明所述的数据存取方法，当所述源数据由汉字组成时，所述列表包括所述汉字的列表、所述汉字的拼音首字母的列表、所述汉字的拼音的列表、两两相邻的字符的拼音首字母的列表。

本发明所述的数据存取方法，所述目标数据为汉字词组，所述信息为拼音字母。

本发明所述的数据存取方法，所述匹配结果包括至少一个汉字词组，且在所述匹配结果中，每个汉字词组中的汉字的依序的拼音首字母与所述目标数据所依序包含的汉字的拼音首字母相同。

本发明所述的数据存取方法，将输入的所述信息与所述源数据进行匹配的步骤包括：根据所述汉字的列表及所述汉字的拼音首字母的列表，查找拼音首字母与所述信息中首个拼音字母相同的汉字；以及根据所述两两相邻的汉字的拼音首字母的列表，查找依序的拼音首字母与所述信息中两两相邻的拼音字母分别相同的两两相邻的汉字，以确定所述汉字词组中每个汉字的位置，直至确定所述汉字词组的位置。

本发明还提供一种数据存取系统，包括：数据搜集模块，用于搜集数据；数据集合，用于以列表存储搜集到的所述数据；搜索匹配模块，用于通过所述列表，在所存储的数据中查找需调取的数据；其中，所述数据列表显示所述数据的位置信息。

本发明所述的数据存取系统，所述数据为汉字序列，所述列表包括所述汉字的列表、所述汉字的拼音首字母的列表、所述汉字的拼音的列表、两两相邻的汉字的拼音首字母的列表。

本发明所述的数据存取系统，还包括：输入模块，用于输入与所述需调取的数据相关的信息；以及输出模块，用于输出所述搜索匹配模块的搜索结果；其中，所述搜索匹配模块还将所述搜索结果存储至所述数据集合中。

本发明所述数据存取方法及系统，在很大程度上提高了用户的数据调取速度。

附图说明

图1显示本发明的数据存取方法的数据存储过程。

图2显示本发明的数据存取方法的数据调取过程。

图3至图5显示本发明的数据存取方法的一具体实施例。

图6显示执行本发明的数据存取系统的逻辑结构框图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

本发明的数据存取方法包括数据的存储及数据的调取。在一实施例中，本发明所述的数据可为由汉字组成的字符串，也可为包括汉字、英文字母及数字的字符串，但并不以此为限。下述实施例中的数据为仅包括汉字的句子，然而，本领域技术人员皆可了解，当数据中包括英文字母、数字或其他类型的字符时，可采用类似的方法进行数据的存储及调取。

图1显示本发明数据存取方法的数据存储过程，具体包括如下步骤：

步骤102：在首次启动或用户首次输入字符前，搜索包括但不限于本地设备(例如移动电话、计算机等)中的所有字符串，并进行存储，每个字符串有一个唯一的字符串ID。

其中，存储字符串的时机可根据需要任意设定，如：当本地设备为移动电话时，存储字符串的时机可为开机时或开机后的预定时间内、收到新消息时或收到新消息后的预定时间内，也可采取定时的方式，即，在某个特定的时间进行上述存储操作，具体设定的方法为现有技术，在此不再赘述；同时，在存储字符串时，可仅存储上一次存储后所接收到的新的字符串，而对于已存储的字符串不再进行搜索及存储操作，以节省资源，这是本领域技术人员可根据现有技术加以实现的。另外，字符串之间的界限可以根据预设的策略使用各种不同字符来框定，如可根据空格、逗号等标点符号作为分隔符以确定字符串之间的界限。于一实施例中，在本地设备中存储现有的所有汉字，并可将现有的一部分非中文字符作为分隔符，该分隔符可包括标点符号、空格、计算机中的回车等控制符。

步骤104：对于所有字符，指定一个字符ID，并创建一个索引来确定该字符涉及到的字符串列表的位置，即确定字符ID和所在的字符串ID，该索引的建立可以通过B树或哈希算法来实现。

步骤106：为每个字符创建多个列表，上述多个列表可以采用普通的二维表或链表来实现，其所包括的具体内容将详述于后。

图2显示本发明的数据存取方法的数据调取过程，具体包括如下步骤：

步骤202：用户输入所需调取字符的字符序列信息，如：当用户需调取一个汉语词组时，可依序输入该词组的每个汉字的拼音首字母；其中，若词库中不具备符合输入序列的内容，则用户将无法输入上述字符序列信息，例如：当词库中存有词组“我出去”但未存有“我出去了”等与“WCQL”对应的汉字时，可通过依序输入“WCQ”以调取词组“我出去”，而无法显示进一步输入的“WCQL”，即，限制了用户进一步输入“L”，此处限制进一步输入字母“L”的方法为现有技术，在此不再赘述。

步骤204：对输入的字符序列进行模糊匹配，具体地，在步骤106所建立的多个列表中查找与输入序列相匹配的内容。

步骤206：判断是否具备符合输入序列的内容，如果有，则执行步骤208，将符合的内容取出并放置在备选队列中，以供用户选择；否则，结束流程。

步骤210：将用户在步骤208中确定的内容存成词组，以便提高用户在不同设备之间输入同一个词组的命中率。该步骤中词组的存储方式可与图1的步骤104及步骤106所显示的相同，在此不再赘述。

需要说明的是，上述数据调取方法中搜索的信息可包括本地设备中存储的所有信息。于一实施例中，移动电话用户曾经发出或收到的短信中的全部或部分内容均可作为词组使用。利用上述数据调取方法，用户不需要显式造词，“词”可以来自词库，也可以来自于本地设备上已有的或者用户曾经输入的句子的某部分，用户仅需输入曾经输入过的汉字内容的拼音简拼或声母首字母组成的输入序列，系统即可对该输入序列进行预测和匹配，获得相应的内容，从而解决了显式造词的存储难点，提高了输入速度。

图3至图5显示本发明的数据调取方法的一具体实施例。在一实施例中，本地设备所包括的信息为“在首次启动或用户首次输入字符前，搜索本地设备中的所有字符串，并进行存储，每个字符串有一个唯一的序列号。”，则获得其中的汉字序列“首次启动”的步骤如下：

如图3所示，执行步骤102，搜索本地设备所包括的所有字符串，并对其进行存储，其中，使用逗号、句号等标点符号作为划分字符串的界限，每个字符串对应一个唯一的ID(0，1，...，n)，例如：将出现在首个标点符号之前的内容“在首次启动或用户首次输入字符前”作为字符串0，将“搜索本地设备中的所有字符串”作为字符串1，后续字符串的存储方式依此类推。

执行步骤104，给在所有字符串中的字符分配一个ID，并创建一个索引来确定该字符涉及到的字符串ID及该字符所在位置，例如：字符“在”位于字符串0中的位置0，字符“首”分别位于字符串0的位置1及位置8，字符“次”分别位于字符串0位置2及位置9上。

执行步骤106，创建如图4A至4D所示的多个列表，以存储该字符所涉及的字符串ID和该字符在该字符串中出现的位置，如于字符“在”所对应的列表中存储类似于“字符串0，位置0”的信息。图4A显示的是以每个汉字创建的列表；图4B显示的是以每个汉字的拼音首字母创建的列表，如：其中“S”对应于图3的字符串0中的两个“首”字及一个“输”字、字符串1中的汉字“搜”、“索”、“设”及“所”；图4C显示的是以每两个相邻的汉字的拼音首字母创建的列表，如：其中“SC”对应于图3的字符串0中的两个“首次”，“CQ”则对应于图3的字符串0中的“次启”，另外，也可采用其他方式创建如图4C所示的列表，如：以每三个或三个以上相邻的汉字的拼音首字母创建相应的列表；图4D显示的是以每个汉字的拼音创建的列表。

如图5所示，当用户需要输入“首次启动”时，仅需输入字符序列“SCQD”，本发明所述的数据调取方法将检查该字符序列所涉及的所有字符串ID及其位置，并在涉及字符串的对应位置上对“SCQD”进行模糊匹配。

具体地，首先，搜索图4A及4B中的列表，即可确定字符“S”所对应的汉字“首”、“输”、“搜”、“索”、“设”及“所”所涉及的字符串及其位置，即位于字符串0的位置1、位置8及位置10、位于字符串1的位置0、1、4及8；其次，搜索图4C中的列表，即，通过在该列表中查找第一个及第二个字符序列“SC”，可进一步确定字符串0的位置1及位置8与该“SC”相匹配；接下来，继续搜索图4C中的列表，即，查找第二个及第三个字符序列“CQ”，可进一步确定字符串0的位置2与该“CQ”相匹配；然后继续查找“QD”，可确定字符串0的位置3与该“QD”相匹配。

因此，在以上四次搜索中，在第一次搜索中找出与首字母相对应的汉字，在后续的搜索中逐步缩小查找范围，即，在第二次搜索中将位置锁定于字符串0的位置1及8，在第三次搜索中可将位置锁定于字符串0的位置2，最后一次搜索中将位置锁定于字符串0的位置3，因此，综合上述查找的结果，可找到连续排列且对应于首字母“SCQD”的汉字序列“首次启动”，即，可在字符串的位置1上找到“首次启动”，并将“首次启动”放入输出的备选队列中，用户此时即可进行选择。其中，若已有的信息中还包括“首次起动”，则备选队列中将包括“首次启动”及“首次起动”两个词组，以供用户选择；同时，若用户需要的词组并非以上两个词组，而是拼音首字母与这两个词组相同的“首次汽动”，则用户可不进行任何选择或选用这两个词组其中之一后再做略微改动，并结束流程。

最后，本发明的数据调取方法自动将“首次启动”存储为固定词组，以提高该词组的命中率，便于后续使用。

另外，涉及图4D，其为字符串中的每个汉字的全拼创建列表，该列表可用于用户输入所需查找的词组的全拼时。

上述图4A至4D显示的是为由汉字所组成的字符串创建的列表，通过以上描述，本领域技术人员可推知其他类型字符的存储方式，例如：当字符串中包括英文句子时，可以单词之间的空格或符号作为界限，以句子中的每个字母为数据单位建立列表，也可采取类似于图4A至图4D的方式，以句子中的英文单词建立与图4A类似的列表，以每个单词的首字母建立与图4B类似的列表，以两两相邻的单词的首字母组合建立与图4C类似的列表，以每个单词的全拼建立与图4D类似的列表；当字符串中包括阿拉伯数字时，存储方法可依此类推。

图6显示本发明的数据存取系统的逻辑结构图，于一实施例中，数据存取系统包括用户输入模块602、未生成词组的字符串集合604、字符串搜集模块606、搜索匹配模块608、词库610、更新模块612及输出模块614。

在图6所示的数据存取系统中，词库610为一标准词库，用于存储常规性的字或词组，该词库属于通用意义上的词库，与现有的输入法都具备的词库相似，构建该词库610的技术是本领域技术人员所熟知的；更新模块612可用于更新词库610的信息，更新词库610的操作也可采用现有的方法实现。

未生成词组的字符串集合604用于存储字符串信息，如：存储类似于图4A至4D所述的列表信息，当该数据存取系统为移动电话时，未生成词组的字符串集合604可用于存储用户编辑或接收到的短消息；字符串搜集模块606可用于搜集信息，如：在移动电话开机时或在预定的时间点，搜集尚未存入未生成词组的字符串集合604中的信息并对其进行存储。

用户输入模块602可用于手动将数据(如：短消息)存储至未生成词组的字符串集合604中，也可用于在查找数据时输入类似于“SCQD”的字符串信息，并通过搜索匹配模块608搜索所需信息；搜索匹配模块608根据用户输入的字符串信息，搜索词库610及未生成词组的字符串集合604中的内容，并将搜索结果发送至输出模块614，同时，搜索匹配模块608还将搜索结果发送至未生成词组的字符串集合604，以更新未生成词组的字符串集合604的内容，从而提高命中率。其中，搜索匹配模块608可设置为同时搜索词库610及未生成词组的字符串集合604，也可设置为优先搜索未生成词组的字符串集合604中的内容。

于一实施例中，本地设备可为一移动电话，用户曾经发出的短信中的任何部分均可以作为词组使用，且使用时仅需输入词组中每个字的拼音首字母，即可获得该短信。以句子“据说他们昨晚来了一次”为例，若用户发出或收到的信息中包括该句话，当用户第二次输入时，只需要输入“JSTMZWLLYC”即可，同时，若需使用其中的部分文字“他们昨晚来了一次”，则仅需输入“TMZWLLYC”。用户收到的短信(最近几条短信或全部短信)中的内容，亦可作为词组使用。比如若用户收到一条“今天晚上他回来了，你别来了”，则需要回复短信“今天晚上他回来了？那我不去了。”，即可通过输入“JTWSTHLL”以快速打出“今天晚上他回来了”这几个字，从而提高编辑短信的速度。

于其他实施例中，该本地设备可为计算机、PSP等，也就是说，本发明所述的输入方法可用于所有可编辑文字的电子终端。

本发明所述的输入方法，具有如下优点：

(1)无需全拼录入，采用首字母的输入方法，令所有词的输入都近似首字输入的方式，节省大量的键盘敲击数。

(2)来信词组抓取，方便回复短信。

(3)超强记录造词功能，打过一次的句子，其中的任何部分都可以当词来打。

此外，与现有的输入方法相比较，本发明所述的输入方法具备如下优势：

1、支持更简化的拼写

现有的输入法，例如A4、搜狗拼音等输入法，采用词组全拼模式时，仅支持常用的实词词组，对于口语中绝大多数的含有虚词、助词的短句，用户只能分多次录入。以“我走了”为例，A4输入法的输入顺序为“Wo”，确定“我”字后再输入“ZouLe”。

本发明所述的输入方法不仅支持词组的全拼，并依托全面的词频分析，只需要输入每个字的拼音首字母，即可获得满意的结果，如：仅需输入“WZL”即可轻松打出“我走了”。

2、支持较长语句的自造词功能

现有的输入法，例如A4输入法，也具有自造词的功能，用户也可以将较短的、曾经放在一起打过的词组一次性打出。如“他们昨晚”，当用户曾经连续输入过“他们”“昨晚”后，即可通过敲击“TaMenZuoWan”一次性敲出。

但是A4对于较长的语句却不能一次性打出。如“据说他们昨晚来了一次”，即使用户敲入过这样的一句话，下次打的时候也需要再次按不同的词分别敲出。

本发明所述输入方法具有超强的记录造词功能，打过一次的句子，其中的任何部分都可以当词来打。对于较长的语句，只要系统曾经收到或发出过，即可一次读出，以“据说他们昨晚来了一次”为例，用户只需要输入“JSTMZWLLYC”既可，从而节省大量的键盘敲击数。

3、智能的首字母输入

A4输入法为了简化输入步骤，可以输入各字拼音首字母。但词频及词库不全，只能快速打出二字词或成语。如“我没有”，用户敲击“WMY”，首先需要选择“我”，再选择“我没”，然后再选择“有”。搜狗拼音输入法略好一些，再以“我没有”为例，用户敲击WMYou”，首先需要选择“我”，然后会出来“我没有”。

本发明所述的输入方法打字的快速度就是建立在仅输入各字拼音首字母的基础上，所以用户输入“WMY”即可快速查找出“我没有”。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

Claims

1.一种数据存取方法，其特征在于，包括：

为源数据分别设定第一序列号及第二序列号，所述源数据包括至少一个数据单元，其中，所述第一序列号分别表示所述源数据在数据库中的位置，所述第二序列号分别表示所述数据单元在所述源数据中的位置；

根据所述第一序列号及所述第二序列号，确定所述源数据在所述数据库中的位置；以及

对所述源数据中的每个数据单元提取特征，以该特征创建至少一个列表，所述列表用于调取所述源数据。

2.根据权利要求1所述的数据存取方法，其特征在于，确定所述源数据在所述数据库中的位置的步骤包括：根据所述第一序列号及所述第二序列号创建索引，所述索引显示所述源数据在所述数据库中的位置。

3.根据权利要求2所述的数据存取方法，其特征在于，通过B树或哈希算法创建所述索引。

4.根据权利要求1所述的数据存取方法，其特征在于，所述列表为二维表或链表。

5.根据权利要求1所述的数据存取方法，其特征在于，还包括：搜索未包括于所述数据库中的数据，并将搜索到的数据作为所述源数据存储于所述数据库中。

6.根据权利要求5所述的数据存取方法，其特征在于，还包括：设定搜索未包括于所述数据库中的数据的时间。

7.根据权利要求1或2所述的数据存取方法，其特征在于，还包括：

输入信息；

通过所述列表，将输入的所述信息与所述源数据进行匹配，以在所述数据库中查找目标数据；以及

判断匹配结果中是否有所述目标数据，如果有，则输出所述目标数据。

8.根据权利要求7所述的数据存取方法，其特征在于，还包括：如果所述数据库中没有与所述目标数据匹配的源数据，则不响应所述信息的输入。

9.根据权利要求7所述的数据存取方法，其特征在于，还包括：将输出的所述目标数据作为所述源数据存储于所述数据库中。

10.根据权利要求7所述的数据存取方法，其特征在于，所述源数据为由字符组成的句子或词组，所述字符为所述数据单元。

11.根据权利要求10所述的数据存取方法，其特征在于，所述字符包括汉字、英文字母及数字；

其中，当所述字符为汉字时，所述特征为汉字本身、汉字的拼音首字母、至少两个相邻汉字的依序的拼音首字母或汉字的拼音；当所述字符为英文字母或数字时，所述特征为所述英文字母或所述数字。

12.根据权利要求10所述的数据存取方法，其特征在于，根据特定标记确定所述源数据。

13.根据权利要求12所述的数据存取方法，其特征在于，所述特定标记为标点符号、阿拉伯数字或控制符。

14.根据权利要求11所述的数据存取方法，其特征在于，当所述源数据由汉字组成时，所述列表包括所述汉字的列表、所述汉字的拼音首字母的列表、所述汉字的拼音的列表、两两相邻的汉字的拼音首字母的列表。

15.根据权利要求14所述的数据存取方法，其特征在于，所述目标数据为汉字词组，所述信息为拼音字母。

16.根据权利要求15所述的数据存取方法，其特征在于，所述匹配结果包括至少一个汉字词组，且在所述匹配结果中，每个汉字词组中的汉字的依序的拼音首字母与所述目标数据所依序包含的汉字的拼音首字母相同。

17.根据权利要求15所述的数据存取方法，其特征在于，将输入的所述信息与所述源数据进行匹配的步骤包括：

根据所述汉字的列表及所述汉字的拼音首字母的列表，查找拼音首字母与所述信息中首个拼音字母相同的汉字；以及

根据所述两两相邻的汉字的拼音首字母的列表，查找依序的拼音首字母与所述信息中两两相邻的拼音字母分别相同的两两相邻的汉字，以确定所述汉字词组中每个汉字的位置，直至确定所述汉字词组的位置。

18.一种数据存取系统，其特征在于，包括：

数据搜集模块，用于搜集数据；

数据集合，用于以列表存储搜集到的所述数据；

搜索匹配模块，用于通过所述列表，在所存储的数据中查找需调取的数据；

其中，所述数据列表显示所述数据的位置信息。

19.根据权利要求18所述的数据存取系统，其特征在于，所述数据为汉字序列，所述列表包括所述汉字的列表、所述汉字的拼音首字母的列表、所述汉字的拼音的列表、两两相邻的汉字的拼音首字母的列表。

20.根据权利要求18所述的数据存取系统，其特征在于，还包括：

输入模块，用于输入与所述需调取的数据相关的信息；以及

输出模块，用于输出所述搜索匹配模块的搜索结果；

其中，所述搜索匹配模块还将所述搜索结果存储至所述数据集合中。