CN106959970B - 词库、词库的处理方法、装置和用于处理词库的装置 - Google Patents

词库、词库的处理方法、装置和用于处理词库的装置 Download PDF

Info

Publication number
CN106959970B
CN106959970B CN201610018523.8A CN201610018523A CN106959970B CN 106959970 B CN106959970 B CN 106959970B CN 201610018523 A CN201610018523 A CN 201610018523A CN 106959970 B CN106959970 B CN 106959970B
Authority
CN
China
Prior art keywords
word stock
target
processing
format parameters
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610018523.8A
Other languages
English (en)
Other versions
CN106959970A (zh
Inventor
费腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610018523.8A priority Critical patent/CN106959970B/zh
Publication of CN106959970A publication Critical patent/CN106959970A/zh
Application granted granted Critical
Publication of CN106959970B publication Critical patent/CN106959970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种词库、词库的处理方法、装置和用于处理词库的装置,其中的处理方法具体包括:接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。本发明实施例的词库具有通用性、便捷性和扩展性,且维护成本极低,因此适用于两种或两种以上词库格式的词库。

Description

词库、词库的处理方法、装置和用于处理词库的装置
技术领域
本发明涉及输入法技术领域,特别是涉及一种词库、一种词库的处理方法、一种词库的处理装置、及一种用于处理词库的装置。
背景技术
输入法是指为了将各种文字输入计算机或其他设备(如手机、平板电脑)而采用的编码方法。对于中文、日文、韩文等语言的用户而言,一般都需要通过输入法程序与计算机或其他设备进行交互。
输入法程序通常涉及多个词库,这些词库中通常存储有丰富的词条,因此能够提高输入效率和输入的便利性。例如,中文词库中通常存储有拼音串、词频和属性信息的映射关系,又如,英文词库中通常存储有英文串、词频和翻译信息的映射关系等。
传统技术通常将词库的相关数据序列化成key-value(键值对)的形式,并在用户的输入过程中采用HASH(哈希)+二分查询或者HASH+trie(字典)树查询方式进行词库的查询。
参照图1,示出了现有一种传统词库的结构示意图,其具体可以包括如下存储区:头部区、HASH区、索引区、定长数据区和变长数据区;
其中,头部区主要含有词库的基本信息,其有一个指针指向HASH区;
HASH区可被划分为N+1个Block(块),该Block块的编号为0-N,每个Block都有两个指针,分别指向索引区连续的若干个Block的起始和结尾;
索引区可被划分为多个Block,每个Block存有一个key的数据,如果key的数据是可变长度的,则将存放一个指向变长数据区中存放该数据的指针;其还存放一个指向定长数据区中某个Block的指针,该Block可用于存放value数据;
定长数据区同样被分成多个Block,每个Block存放定长数据;并且,每个Block还存放一个指向变长数据区的指针,真正的数据存在变长数据区中,在Block的最后存一个指针链接下一个Block,形成一个链表结构;
变长数据区可用于以字节为单位的存放变长数据,可通过索引区和定长数据区中的指针查询得到上述变长数据。
图1所示传统词库仅仅针对某一种特定的需求而设计,因而具有如下缺陷:
第一,不具通用性,往往只适用于一种特定的需求;
第二,不具便捷性,对于每种需求,都需要重新设计相应的词库格式,时间和开发成本较高;
第三,维护成本高,对于每种需求都对应一个词库格式,都需要维护,维护成本是累加的;
第四,不具扩展性,增加或是删除一个或多个属性,就需要重新设计词库格式。
输入法程序通常涉及多个词库,这些词库通常具备不同的词库格式,如中文词库和英文词库的不同体现在:
1、key和value的具体内容不同:中文词库的key是拼音串,value是词、词频、词属性;英文词库的key是英文串,value是词频和翻译信息;
2、key和value的关系不同:中文词库是一对多的关系,因为一个拼音串下有多个词条;而英文词库是一对一的关系,因为一个英文串只有一个词条;
3、HASH不同,中文词库是以首个音节(比如a、ba、bo等)作为HASH值,英文词库是以首个英文字母作为HASH值。
可见,由于图1所示词库是针对一个特定的词库设计的,其词库格式是固定不变的,因此无法适用于两种或两种以上词库格式的词库。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的词库、词库的处理方法、词库的处理装置及用于处理词库的装置,能够适用于具有任意格式参数的词库的设计需求,因此可以适用于两种或两种以上词库格式的词库。
为了解决上述问题,本发明公开了一种词库的处理方法,包括:
接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;
在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;
依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
可选地,所述请求信息包括:查询类型和关键字信息,所述格式参数包括查询方式参数,则所述处理所述目标词库的步骤,包括:
依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
可选地,所述请求信息包括:添加类型、关键字信息和第一词条,则所述处理所述目标词库的步骤,包括:
依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
可选地,所述请求信息包括:删除类型和第二词条,则所述处理所述目标词库的步骤,包括:
依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
可选地,所述格式参数包括:关键字类型参数,第一预置类库、第二预置类库或者第三预置类库中包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
可选地,所述词库,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理所述目标词库的步骤,包括:
针对所述处理请求,在所述存储区进行所述目标词库的处理。
可选地,所述方法还包括:加载词库;
所述加载词库的步骤,包括:
从所述词库对应词库文件的预设位置读取词库中配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系。
可选地,所述格式参数包括:关键字类型参数、字段类型参数和查询方式参数中的至少一种。
另一方面,本发明公开了一种词库的处理方法,包括:
接收词库生成请求;其中,所述词库生成请求中包括:目标词库信息、及其对应的格式参数;
将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;
依据所述格式参数生成所述目标词库。
可选地,所述依据所述格式参数生成所述目标词库的步骤,包括:
依据用于生成词库的预置类库,生成契合所述格式参数的目标词库。
可选地,所述格式参数包括:字段类型参数,则所述依据所述格式参数生成所述目标词库的步骤,包括:
依据所述字段类型参数对所述目标词库的源文件进行解析。
可选地,所述词库,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
再一方面,本发明公开了一种词库,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
又一方面,本发明公开了一种词库的处理装置,包括:
接收模块,用于接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;
查找模块,用于在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;以及
处理模块,用于依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
另一方面,本发明公开了一种词库的处理装置,包括:
接收模块,用于接收词库生成请求;其中,所述词库生成请求中包括:目标词库信息、及其对应的格式参数;
保存模块,用于将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;以及
生成模块,用于依据所述格式参数生成所述目标词库。
再一方面,本发明公开了一种用于处理词库的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;
在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;
依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
本发明实施例包括以下优点:
本发明实施例的词库中,存储区依据配置区记录的词库对应的格式参数,存储所述词库的内容,该词库具有如下优点:
第一,具有通用性;适用于各种不同的词库设计需求;具体地,可以适用于具有任意格式参数的词库的设计需求,因此可以适用于两种或两种以上词库格式的词库;
第二,具有便捷性;对于新的词库设计需求,只需要更新配置区即可;例如,在需要增加多元关系词库时,只需要在配置区中添加多元关系词库对应的格式参数;
第三,维护成本极低;由于N种词库设计需求都可以对应一种预置存储格式,所以维护成本为传统词库的1/N;
第四,具有扩展性;例如,在需要增加中文系统词库的某个字段属性时,只需要通过配置区更新该中文系统词库的字段类型参数。
附图说明
图1是现有一种传统词库的结构示意图;
图2是本发明的一种词库实施例一的结构示意图;
图3是本发明的一种词库实施例二的结构示意图;
图4是本发明的一种词库的处理方法实施例一的步骤流程图;
图5是本发明的一种词库的处理方法实施例二的步骤流程图;
图6是本发明的一种词库的处理方法实施例三的步骤流程图;
图7是本发明的一种词库的处理方法实施例四的步骤流程图;
图8是本发明的一种词库的处理装置实施例一的结构框图;
图9是本发明的一种词库的处理装置实施例二的结构框图;
图10是本发明的一种用于处理词库的装置1000的框图;及
图11是本发明的一种服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
词库实施例一
参照图2,示出了本发明的一种词库实施例一的结构示意图,其具体可以包括:
配置区201,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区202,用于依据所述词库对应的格式参数,存储所述词库的内容。
本发明实施例在传统词库的结构的基础上增加了配置区201,以使本领域技术人员(如词库的设计人员)可以根据实际应用需求,通过该配置区201配置至少一种词库与格式参数之间的映射关系。例如,设计人员可以分别通过该配置区201配置中文系统词库、英文系统词库、中文用户词库、英文用户词库、网址邮箱词库、细胞词库等多种词库与格式参数之间的映射关系。
在本发明的一种可选实施例中,所述格式参数具体可以包括:关键字类型参数、字段类型参数和查询方式参数中的至少一种。
其中,通常任意种类的词库都可以包含至少一个字段,字段类型参数可用于标识词库所包含的所有字段的类型,其中,字段的类型具体可以包括字符串类型、整数类型、整数数组类型等等。
在存储区202将词库的相关数据序列化成key-value(键值对)的形式进行存储时,关键字(key)类型参数可用于表示词库中作为key的key字段以及该key字段的类型。在实际应用中,key字段的类型具体可以包括汉字、英文、切分的拼音、整数等,其中的每一种类型都可以对应一个默认的HASH函数;其中,该HASH函数可用于在生成词库、查询词库等词库的处理过程中进行哈希运算。
查询方式参数可用于标识词库采用的查询方式。在本发明的一种可选实施例中,上述查询方式具体可以包括:HASH+二分的查询方式和HASH+trie树的查询方式。
而对于存储区202而言,其只需依据配置区201中记录的词库对应的格式参数存储所述词库的内容即可。这样,可以按照一种预置存储格式的代码,依据两种或两种以上词库对应的格式参数,在存储区202中存储两种或两种以上词库的内容。其中,上述预置存储格式可以为已有的词库格式(如图1所示词库格式),也可以为新开发的词库格式,本发明实施例的一个目的在于,基于一种预置存储格式提供适用于多种词库设计需求的通用词库,而对该通用词库的预置存储格式不加以限制。
需要说明的是,图2所示词库的数据可以位于词库文件中,而在该词库文件被输入法程序加载后,图2所示词库的数据可被加载至内存中,以供输入法程序在内存中执行词库的查询、词条的添加、词条的删除等处理过程。
另外,需要说明的是,上述配置区201可以位于词库文件的预设位置,如开头位置,以使输入法程序从所述词库对应词库文件的预设位置读取所述配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系。可以理解,本发明实施例对于上述配置区201在词库文件中的具体位置、及其具体存在形式不加以限制。
综上,本发明实施例的词库中,存储区依据配置区记录的词库对应的格式参数,存储所述词库的内容,该词库具有如下优点:
第一,具有通用性;适用于各种不同的词库设计需求;具体地,可以适用于具有任意格式参数的词库的设计需求,因此可以适用于两种或两种以上词库格式的词库;例如,本发明实施例的词库可以将中文系统词库、英文系统词库、中文用户词库、英文用户词库、网址邮箱词库、细胞词库等多种词库统一起来;
第二,具有便捷性;对于新的词库设计需求,只需要更新配置区即可;例如,在需要增加多元关系词库时,只需要在配置区中添加多元关系词库对应的格式参数;
第三,维护成本极低;由于N种词库设计需求都可以对应一种预置存储格式,所以维护成本为传统词库的1/N;
第四,具有扩展性;例如,在需要增加中文系统词库的某个字段属性时,只需要通过配置区更新该中文系统词库的字段类型参数。
词库实施例二
参照图3,示出了本发明的一种词库实施例二的结构示意图,其具体可以包括:
配置区301,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区302,用于依据所述词库对应的格式参数,存储所述词库的内容;
其中,所述存储区302具体可以包括:头部区321、HASH区322、索引区323和数据区324;
其中,所述头部区321具体可以包括:
用于存储所述词库的基本信息的存储模块3211;以及
指向所述HASH区的第一指针;
所述HASH区322具体可以包括至少一个第一块3221,其中的每个第一块3221具体可以包括:
分别指向所述索引区中连续的若干个第二块的起始和结尾的第二指针和第三指针;
所述索引区323具体可以包括至少一个第二块3231,其中的每个第二块3231具体可以包括:
关键字;以及
用于指向所述键对应数据区的第四指针;
所述数据区324用于存储所述关键字对应的值。
在本发明的一种可选实施例中,上述数据区324具体可以包括定长数据区和变长数据区。其中,定长数据区同样被分成多个Block,每个Block存放定长数据;并且,每个Block还存放一个指向变长数据区的指针,真正的数据存在变长数据区中,在Block的最后存一个指针链接下一个Block,形成一个链表结构;变长数据区可用于以字节为单位的存放变长数据,可通过索引区和定长数据区中的指针查询得到上述变长数据。
可以理解,本发明图3所示存储区的结构只是作为本发明实施例中存储区的一种示例,实际上,本发明实施例对于存储区的具体结构不加以限制。
方法实施例一
参照图4,示出了本发明的一种词库的处理方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤401、接收词库生成请求;其中,所述词库生成请求中具体可以包括:目标词库信息、及其对应的格式参数;
步骤402、将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;
步骤403、依据所述格式参数生成所述目标词库。
本发明实施例可以用于图2所示词库的生成。其中,上述目标词库可用于表示契合词库设计需求的各种词库,目标词库的信息可以为目标词库的ID(标识,Identity)、名称等信息,本发明实施例对于具体的目标词库信息不加以限制。
基于图2所示词库的结构,本发明实施例可以实现一套用于处理词库的类库,并依据上述类库实现词库的处理,由此可以实现通过一种代码完成不同词库的处理,从而能够提高处理的便利性。其中,词库的处理具体可以包括:词库的生成、词库的更新、词库中词条的查询、词库中词条的添加、词库中词条的删除等,每种处理都可以具有对应的类库,并且,每种类库都可以支持不同的格式参数,以根据不同的格式参数进行有区别的处理。
其中,类库(Class Library)是一个综合性的面向对象的可重用类型集合,这些类型具体可以包括:接口、抽象类和具体类。本发明实施例主要通过类库实现词库的处理功能,而对于具体的类库不加以限制。
在本发明的一种可选实施例中,所述依据所述格式参数生成所述目标词库的步骤,具体可以包括:依据用于生成词库的第四预置类库,生成契合所述格式参数的目标词库。
在本发明的另一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,其中,不同类型的词库的关键字类型参数往往是不同的,例如,中文系统词库的关键字类型参数为拼音串,而英文系统词库的关键字类型参数为英文串,故可以将所述关键字类型参数输入至第四预置类库中,以使第四预置类库根据不同的关键字类型参数进行有区别的处理,从而得到关键字类型参数不同的中文系统词库和英文系统词库。
在本发明的再一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,第四预置类库中具体可以包括:用于哈希运算的哈希函数,所述哈希函数可以与所述关键字类型参数相适配。如中文系统词库是以首个音节(比如a、ba、bo等)作为HASH值,英文系统词库是以首个英文字母作为HASH值的,故第四预置类库根据不同的关键字类型参数进行有区别的处理,从而得到关键字类型参数不同的中文系统词库和英文系统词库。
在本发明的又一种可选实施例中,所述格式参数可以包括:字段类型参数,则所述依据所述格式参数生成所述目标词库具体可以包括:依据所述字段类型参数对所述目标词库的源文件进行解析。其中,上述源文件可用于存储目标词库中的词表数据,以在生成目标词库的过程中,将上述词表数据的解析结果存储至上述存储区中的数据区。例如,英文系统词库的词表数据具体可以包括:english、英语和10等3个字段,其中,第一列为英文词条,第二列为所述英文词条对应的翻译信息,第三列是词频信息,则可以按照英文系统词库对应的字段类型参数进行上述词表数据的解析。
需要说明的是,可以在上述词库生成请求中携带上述源文件的地址信息(如存储位置、或者网络地址)以供加载。
综上,本发明实施例可以依据不同目标词库对应的不同格式参数生成不同的目标词库,也即可以得到契合格式参数的目标词库。
方法实施例二
参照图5,示出了本发明的一种词库的处理方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤501、接收词库生成请求;其中,所述词库生成请求中具体可以包括:目标词库信息、及其对应的格式参数;
步骤502、将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;
步骤503、依据所述格式参数生成所述目标词库;
相对于方法实施例一,本实施例的方法还可以包括:
步骤504、接收词库更新请求;其中,所述词库更新请求中可以包括:目标词库信息、及其对应的待更新格式参数;
步骤505、依据所述待更新格式参数,对所述映射关系中记录的格式参数进行更新;
步骤506、依据更新后格式参数对所述目标词库进行更新。
本实施例可以支持已有词库的更新,具体地,可以依据词库更新请求中携带的待更新格式参数,对所述映射关系中记录的格式参数进行更新,并依据更新后格式参数对所述目标词库进行更新。其中,上述待更新格式参数具体可以包括:关键字类型参数的更新,如对已有关键字的类型进行更新,或者,将已有关键字更新为其他关键字;上述待更新格式参数还可以包括:字段类型参数,如对已有字段的类型进行更新,或者,增加新的字段,或者删除已有字段等;上述待更新格式参数还可以包括:查询方式参数,如将已有查询方式更新为其他查询方式等。
在本发明的一种可选实施例中,可以依据用于更新词库的第五预置类库,依据更新后格式参数对所述目标词库进行更新。可以理解,本发明实施例对于词库的具体更新过程不加以限制。
方法实施例三
参照图6,示出了本发明的一种词库的处理方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤601、接收处理请求;其中,所述处理请求中可以包括:目标词库信息和请求信息;
步骤602、在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;
步骤603、依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
相对于方法实施例一和方法实施例二依据开发人员的请求生成或更新词库,本实施例可以在使用词库的过程中依据词库用户的需求进行已生成的目标词库的处理。也即,本实施例的处理请求可以为输入法程序依据用户的指令生成的请求,本发明实施例对于处理请求的具体来源不加以限制。
在本发明的一种可选实施例中,所述词库,具体可以包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理所述目标词库的步骤,具体可以包括:针对所述处理请求,在所述存储区进行所述目标词库的处理。
本发明实施例中,上述处理具体可以包括:词库中词条的查询、词库中词条的添加、词库中词条的删除等。本发明实施例可以提供目标词库的如下处理方案:
处理方案1
处理方案1可以适用于词库中词条的查询。在本发明的一种应用场景1中,输入法程序的用户在输入拼音串后,输入法程序需要向用户提供该拼音串对应的候选项,则需要在中文系统词库、中文用户词库等各种词库中进行查询,以得到对应的目标词条。
处理方案1中,所述请求信息具体可以包括:查询类型和关键字信息,所述格式参数具体可以包括查询方式参数,则所述处理所述目标词库的步骤,具体可以包括:依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
例如,上述查询方式参数对应的查询方式具体可以包括:HASH+二分的查询方式和HASH+trie树的查询方式,则若中文系统词库对应的查询方式参数为HASH+二分的查询方式,则可以调用第一预置类库中HASH+二分的查询方式对应的查询方法进行相应的查询;而若中文用户词库对应的查询方式参数为HASH+trie树的查询方式,则可以调用第一预置类库中HASH+trie树的查询方式对应的查询方法进行相应的查询。
需要说明的是,由于词库的查询需要涉及到拼音串的哈希运算,在本发明的一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,第一预置类库中可以包括:用于哈希运算的哈希函数,所述哈希函数可以与所述关键字类型参数相适配。如中文系统词库是以首个音节(比如a、ba、bo等)作为HASH值,英文系统词库是以首个英文字母作为HASH值的,故第一预置类库可以根据不同的关键字类型参数进行有区别的查询处理,从而得到契合关键字类型参数的目标词条。
在本发明的一种应用示例1中,假设上述关键字信息包括:拼音串“zhong‘guo”,目标词库为中文系统词库,中文系统词库的关键字类型参数为拼音串,中文系统词库对应的查询方式参数为HASH+二分的查询方式;
则可以通过拼音串对应的HASH函数,按照将“zhong”这个音节计算得到数值n,然后在词库的HASH区中找到第n个第一块,通过该第一块下的指针定位到相应的以“zhong”这个音节打头的拼音串所在索引区的起始块和结束块,每一块对应一个拼音串,由于这些块是连续的、且是按照字母序排列的,所以可以按照HASH+二分的查询方式快速定位到“zhong‘guo”这个拼音串所在的第二块,并利用该第二块的指针,能够定位到定长数据区中“zhong‘guo”所对应的第一个词条的块,通过指针指向下一个词条的块,这样就形成了链表,该链表表示了所有以“zhong‘guo”作为拼音串的词条,遍历这个链表即可得到对应的目标词条。
处理方案2
处理方案2可以适用于词库中词条的添加。在本发明的一种应用场景2中,输入法程序的用户在上屏某词条后,输入法程序将该词条添加至中文用户词库。
处理方案2中,所述请求信息具体可以包括:添加类型、关键字信息和第一词条,则所述处理所述目标词库的具体可以步骤,包括:依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
需要说明的是,由于词库的添加也需要涉及到拼音串的哈希运算,在本发明的一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,第二预置类库中可以包括:用于哈希运算的哈希函数,所述哈希函数可以与所述关键字类型参数相适配。如中文系统词库是以首个音节(比如a、ba、bo等)作为HASH值,英文系统词库是以首个英文字母作为HASH值的,故第二预置类库可以根据不同的关键字类型参数进行有区别的添加处理。
在本发明的一种应用示例2中,假设上述关键字信息包括:拼音串“zhong‘guo”,第一词条为“中国”,目标词库为中文用户词库,中文系统词库的关键字类型参数为拼音串,中文系统词库对应的查询方式参数为HASH+二分的查询方式;
则可以通过上述应用示例1的查询过程,得到包括有以“zhong‘guo”作为拼音串的词条的链表,并通过遍历这个链表判断是否存在“中国”这个词,如果不存在,就可以在数据区添加一个“中国”对应的块;如果“zhong‘guo”拼音串不存在,则可以首先在索引区添加“zhong‘guo”这个拼音串的块,然后在数据区添加“中国”对应的块。
处理方案3
处理方案3可以适用于词库中词条的删除。在本发明的一种应用场景3中,输入法程序的用户认为中文用户词库中的某词条被用到的概率较小,故可以从中文用户词库中删除该词条。
处理方案3中,所述请求信息具体可以包括:删除类型和第二词条,则所述处理所述目标词库的步骤,具体可以包括:依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
需要说明的是,由于词库的删除也需要涉及到拼音串的哈希运算,在本发明的一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,第三预置类库中可以包括:用于哈希运算的哈希函数,所述哈希函数可以与所述关键字类型参数相适配。如中文系统词库是以首个音节(比如a、ba、bo等)作为HASH值,英文系统词库是以首个英文字母作为HASH值的,故第二预置类库可以根据不同的关键字类型参数进行有区别的添加处理。
以上对目标词库的几种处理方案进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用上述处理方案中的一种或者多种,或者,还可以采用目标词库的其他处理方案,本发明实施例对于具体的处理方案不加以限制。
综上,本发明实施例可以依据不同目标词库对应的不同目标格式参数和所述请求信息,针对处理请求进行不同目标词库的处理,故可以实现输入法程序中多种目标词库的处理。例如,在输入法程序包括中文系统词库、英文系统词库、中文用户词库、英文用户词库、网址邮箱词库、细胞词库等多种词库时,本发明实施例可以依据不同目标词库对应的不同目标格式参数对这些目标词库进行有区别的处理,从而可以在简化词库开发成本和维护成本的情况下,实现多种词库的服务。
方法实施例四
参照图7,示出了本发明的一种词库的处理方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤701、从词库对应词库文件的预设位置读取词库中配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系;
步骤702、接收处理请求;其中,所述处理请求中可以包括:目标词库信息和请求信息;
步骤703、在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;
步骤704、依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
相对于图6所示方法实施例三,本实施例的方法还可以包括:加载词库的过程,该加载词库的过程具体可以包括:从词库对应词库文件的预设位置读取所述配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系。
通常情况下,本发明实施例中词库的数据可以位于词库文件中,而在该词库文件被输入法程序加载后,该词库的数据可被加载至内存中,以供输入法程序在内存中执行词库的查询、词条的添加、词条的删除等处理过程。
需要说明的是,本发明实施例主要描述了从词库对应词库文件的预设位置读取词库中配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系;可以理解,本发明实施例在加载词库的过程中,还可以从词库文件的其他位置读取词库中存储区的内容,以供目标词库的处理,可以理解,本发明实施例对于加载词库的具体过程不加以限制。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例一
参照图8,示出了本发明的一种词库的处理装置实施例一的结构框图,具体可以包括如下模块:
接收模块801,用于接收处理请求;其中,所述处理请求中可以包括:目标词库信息和请求信息;
查找模块802,用于在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;以及
处理模块803,用于依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
在本发明的一种可选实施例中,所述请求信息具体可以包括:查询类型和关键字信息,所述格式参数具体可以包括查询方式参数,则所述处理模块803,具体可以包括:
查询子模块,用于依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
在本发明的另一种可选实施例中,所述请求信息具体可以包括:添加类型、关键字信息和第一词条,则所述处理模块803,具体可以包括:
添加子模块,用于依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
在本发明的再一种可选实施例中,所述请求信息具体可以包括:删除类型和第二词条,则所述处理模块803,具体可以包括:
删除子模块,用于依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
在本发明的又一种可选实施例中,所述格式参数具体可以包括:关键字类型参数,第一预置类库、第二预置类库或者第三预置类库中具体可以包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
在本发明的一种可选实施例中,所述词库具体可以包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理模块803,具体可以包括:
处理子模块,用于针对所述处理请求,在所述存储区进行所述目标词库的处理。
在本发明的另一种可选实施例中,所述装置还可以包括:用于加载词库的加载模块;
所述加载模块,具体可以包括:
读取子模块,用于从所述词库对应词库文件的预设位置读取词库中配置区的内容,以得到所述至少一种词库与格式参数之间的映射关系。
在本发明的又一种可选实施例中,所述格式参数具体可以包括:关键字类型参数、字段类型参数和查询方式参数中的至少一种。
装置实施例二
参照图9,示出了本发明的一种词库的处理装置实施例一的结构框图,具体可以包括如下模块:
接收模块901,用于接收词库生成请求;其中,所述词库生成请求中可以包括:目标词库信息、及其对应的格式参数;
保存模块902,用于将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;以及
生成模块903,用于依据所述格式参数生成所述目标词库。
在本发明的一种可选实施例中,所述生成模块903,具体可以包括:
第一生成子模块,用于依据用于生成词库的预置类库,生成契合所述格式参数的目标词库。
在本发明的另一种可选实施例中,所述格式参数具体可以包括:字段类型参数,则所述生成模块903,具体可以包括:
第二生成子模块,用于依据所述字段类型参数对所述目标词库的源文件进行解析。
在本发明的再一种可选实施例中,所述装置还可以包括:
第二接收模块,用于接收词库更新请求;其中,所述词库更新请求中可以包括:目标词库信息、及其对应的待更新格式参数;
第一更新模块,用于依据所述待更新格式参数,对所述映射关系中记录的格式参数进行更新;
第二更新模块,用于依据更新后格式参数对所述目标词库进行更新。
在本发明的又一种可选实施例中,所述词库具体可以包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种处理装置1000的框图。例如,装置1000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,音频组件1010,输入/输出(I/O)的接口1012,传感器组件1014,以及通信组件1016。
处理组件1002通常控制装置1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1002可以包括一个或多个处理器1020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理部件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在设备1000的操作。这些数据的示例包括用于在装置1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1006为装置1000的各种组件提供电力。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为装置1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在所述装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当设备1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当装置1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。
I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为装置1000提供各个方面的状态评估。例如,传感器组件1014可以检测到设备1000的打开/关闭状态,组件的相对定位,例如所述组件为装置1000的显示器和小键盘,传感器组件1014还可以检测装置1000或装置1000一个组件的位置改变,用户与装置1000接触的存在或不存在,装置1000方位或加速/减速和装置1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由装置1000的处理器1020执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种词库的处理方法,所述方法包括:接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
图11是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种词库、一种词库的处理方法、一种词库的处理装置和一种用于处理词库的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (38)

1.一种词库的处理方法,其特征在于,包括:
接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;
在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;所述目标词库采用键值对的形式进行存储;所述格式参数包括:关键字类型参数;其中,在所述关键字类型参数对应拼音串的情况下,对应的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,对应的目标词库以首个英文字母为哈希值;
依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
2.根据权利要求1所述的方法,其特征在于,所述请求信息包括:查询类型和关键字信息,所述格式参数包括查询方式参数,则所述处理所述目标词库的步骤,包括:
依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
3.根据权利要求1所述的方法,其特征在于,所述请求信息包括:添加类型、关键字信息和第一词条,则所述处理所述目标词库的步骤,包括:
依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
4.根据权利要求1所述的方法,其特征在于,所述请求信息包括:删除类型和第二词条,则所述处理所述目标词库的步骤,包括:
依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
5.根据权利要求2至4中任一所述的方法,其特征在于,所述格式参数包括:关键字类型参数,第一预置类库、第二预置类库或者第三预置类库中包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
6.根据权利要求1至4中任一所述的方法,其特征在于,所述词库,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理所述目标词库的步骤,包括:
针对所述处理请求,在所述存储区进行所述目标词库的处理。
7.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:加载词库;
所述加载词库的步骤,包括:
从所述词库对应词库文件的预设位置读取词库中配置区的内容,以得到至少一种词库与格式参数之间的映射关系。
8.根据权利要求1至4中任一所述的方法,其特征在于,所述格式参数还包括:字段类型参数和查询方式参数中的至少一种。
9.一种词库的处理方法,其特征在于,包括:
接收词库生成请求;其中,所述词库生成请求中包括:目标词库信息、及其对应的格式参数;所述目标词库采用键值对的形式进行存储;所述格式参数包括:关键字类型参数;
将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;
依据所述格式参数生成所述目标词库;
所述依据所述格式参数生成所述目标词库的步骤,包括:
依据用于生成词库的预置类库,生成契合所述格式参数的目标词库;其中,在所述关键字类型参数对应拼音串的情况下,生成的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,生成的目标词库以首个英文字母为哈希值。
10.根据权利要求9所述的方法,其特征在于,所述格式参数包括:字段类型参数,则所述依据所述格式参数生成所述目标词库的步骤,还包括:
依据所述字段类型参数对所述目标词库的源文件进行解析。
11.根据权利要求9至10中任一所述的方法,其特征在于,所述词库包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
12.一种词库,其特征在于,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;所述词库采用键值对的形式进行存储;所述格式参数包括:关键字类型参数;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;其中,在所述关键字类型参数对应拼音串的情况下,对应的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,对应的目标词库以首个英文字母为哈希值。
13.根据权利要求12所述的词库,其特征在于,所述格式参数还包括:字段类型参数和查询方式参数中的至少一种。
14.根据权利要求12或13所述的词库,其特征在于,所述格式参数包括:关键字类型参数,用于处理词条的第一预置类库、第二预置类库或者第三预置类库中包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
15.一种词库的处理装置,其特征在于,包括:
接收模块,用于接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;所述目标词库采用键值对的形式进行存储;
查找模块,用于在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;所述格式参数包括:关键字类型参数;其中,在所述关键字类型参数对应拼音串的情况下,对应的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,对应的目标词库以首个英文字母为哈希值;以及
处理模块,用于依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
16.根据权利要求15所述的装置,其特征在于,所述请求信息包括:查询类型和关键字信息,所述格式参数包括查询方式参数,则所述处理模块,包括:
查询子模块,用于依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
17.根据权利要求15所述的装置,其特征在于,所述请求信息包括:添加类型、关键字信息和第一词条,则所述处理模块,包括:
添加子模块,用于依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
18.根据权利要求15所述的装置,其特征在于,所述请求信息包括:删除类型和第二词条,则所述处理模块,包括:
删除子模块,用于依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
19.根据权利要求15至18中任一所述的装置,其特征在于,所述格式参数包括:关键字类型参数,第一预置类库、第二预置类库或者第三预置类库中包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
20.根据权利要求15至18中任一所述的装置,其特征在于,所述词库包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理模块,包括:
处理子模块,用于针对所述处理请求,在所述存储区进行所述目标词库的处理。
21.根据权利要求15至18任一所述的装置,其特征在于,所述装置还包括:用于加载词库的加载模块;
所述加载模块,包括:
读取子模块,用于从所述词库对应词库文件的预设位置读取词库中配置区的内容,以得到至少一种词库与格式参数之间的映射关系。
22.根据权利要求15至18中任一所述的装置,其特征在于,所述格式参数还包括:字段类型参数和查询方式参数中的至少一种。
23.一种词库的处理装置,其特征在于,包括:
接收模块,用于接收词库生成请求;其中,所述词库生成请求中包括:目标词库信息、及其对应的格式参数;所述目标词库采用键值对的形式进行存储;所述格式参数包括:关键字类型参数;
保存模块,用于将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;以及
生成模块,用于依据所述格式参数生成所述目标词库;
所述生成模块,包括:
第一生成子模块,用于依据用于生成词库的预置类库,生成契合所述格式参数的目标词库;其中,在所述关键字类型参数对应拼音串的情况下,生成的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,生成的目标词库以首个英文字母为哈希值。
24.根据权利要求23所述的装置,其特征在于,所述格式参数包括:字段类型参数,则所述生成模块还包括:
第二生成子模块,用于依据所述字段类型参数对所述目标词库的源文件进行解析。
25.根据权利要求23至24中任一所述的装置,其特征在于,所述词库包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
26.一种用于处理词库的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收处理请求;其中,所述处理请求中包括:目标词库信息和请求信息;所述目标词库采用键值对的形式进行存储;
在词库与格式参数之间的映射关系中进行查找,以得到所述目标词库信息对应的目标格式参数;所述格式参数包括:关键字类型参数;其中,在所述关键字类型参数对应拼音串的情况下,对应的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,对应的目标词库以首个英文字母为哈希值;
依据所述目标词库对应的目标格式参数和所述请求信息,处理所述目标词库。
27.根据权利要求26所述的装置,其特征在于,所述请求信息包括:查询类型和关键字信息,所述格式参数包括查询方式参数,则所述处理所述目标词库,包括:
依据用于查询词条的第一预置类库,按照所述查询方式参数对应的查询方式进行所述目标词库的查询,以得到所述关键字信息对应的查询结果。
28.根据权利要求26所述的装置,其特征在于,所述请求信息包括:添加类型、关键字信息和第一词条,则所述处理所述目标词库,包括:
依据用于添加词条的第二预置类库,向所述目标词库中添加所述第一词条。
29.根据权利要求26所述的装置,其特征在于,所述请求信息包括:删除类型和第二词条,则所述处理所述目标词库,包括:
依据用于删除词条的第三预置类库,从所述目标词库中删除所述第二词条。
30.根据权利要求26至29中任一所述的装置,其特征在于,所述格式参数包括:关键字类型参数,第一预置类库、第二预置类库或者第三预置类库中包括:用于哈希运算的哈希函数,所述哈希函数与所述关键字类型参数相适配。
31.根据权利要求26至29中任一所述的装置,其特征在于,所述词库,包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容;
则所述处理所述目标词库,包括:
针对所述处理请求,在所述存储区进行所述目标词库的处理。
32.根据权利要求26至29中任一所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
加载词库;
所述加载词库,包括:
从所述词库对应词库文件的预设位置读取词库中配置区的内容,以得到至少一种词库与格式参数之间的映射关系。
33.根据权利要求26至29中任一所述的装置,其特征在于,所述格式参数还包括:字段类型参数和查询方式参数中的至少一种。
34.一种用于处理词库的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收词库生成请求;其中,所述词库生成请求中包括:目标词库信息、及其对应的格式参数;所述目标词库采用键值对的形式进行存储;所述格式参数包括:关键字类型参数;
将所述目标词库信息及其对应的格式参数保存至词库与格式参数之间的映射关系中;
依据所述格式参数生成所述目标词库;
所述依据所述格式参数生成所述目标词库,包括:
依据用于生成词库的预置类库,生成契合所述格式参数的目标词库;其中,在所述关键字类型参数对应拼音串的情况下,生成的目标词库以首个音节为哈希值;或者,在所述关键字类型参数对应英文串的情况下,生成的目标词库以首个英文字母为哈希值。
35.根据权利要求34所述的装置,其特征在于,所述格式参数包括:字段类型参数,则所述依据所述格式参数生成所述目标词库,还包括:
依据所述字段类型参数对所述目标词库的源文件进行解析。
36.根据权利要求34至35中任一所述的装置,其特征在于,所述词库包括:
配置区,用于记录至少一种词库与格式参数之间的映射关系;以及
存储区,用于依据所述词库对应的格式参数,存储所述词库的内容。
37.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至8中一个或多个所述的词库的处理方法。
38.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求9至11中一个或多个所述的词库的处理方法。
CN201610018523.8A 2016-01-12 2016-01-12 词库、词库的处理方法、装置和用于处理词库的装置 Active CN106959970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610018523.8A CN106959970B (zh) 2016-01-12 2016-01-12 词库、词库的处理方法、装置和用于处理词库的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610018523.8A CN106959970B (zh) 2016-01-12 2016-01-12 词库、词库的处理方法、装置和用于处理词库的装置

Publications (2)

Publication Number Publication Date
CN106959970A CN106959970A (zh) 2017-07-18
CN106959970B true CN106959970B (zh) 2022-04-19

Family

ID=59481407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610018523.8A Active CN106959970B (zh) 2016-01-12 2016-01-12 词库、词库的处理方法、装置和用于处理词库的装置

Country Status (1)

Country Link
CN (1) CN106959970B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684096A (zh) * 2018-12-29 2019-04-26 北京超图软件股份有限公司 一种软件程序资源化处理方法及装置
CN111488727B (zh) * 2020-03-24 2023-09-19 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533395A (zh) * 2008-03-11 2009-09-16 英业达股份有限公司 一种网络词库查询系统及其方法
CN101650605A (zh) * 2009-09-25 2010-02-17 中国电信股份有限公司 一种智能汉字输入方法和系统
CN104598652A (zh) * 2015-02-14 2015-05-06 广州华多网络科技有限公司 一种数据库查询方法及装置
CN105183735A (zh) * 2014-06-18 2015-12-23 阿里巴巴集团控股有限公司 数据的查询方法及查询装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1504864A (zh) * 2002-11-28 2004-06-16 深圳麦士威科技有限公司 一种智能的拼音输入方法
US20040167875A1 (en) * 2003-02-20 2004-08-26 Eriks Sneiders Information processing method and system
CN101158955A (zh) * 2007-11-15 2008-04-09 电子科技大学 一种中文词库的构造方法
US8527523B1 (en) * 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
CN101645093A (zh) * 2009-09-02 2010-02-10 腾讯科技(深圳)有限公司 一种分类词库实现的方法和输入法客户端
CN101963957B (zh) * 2010-09-28 2012-08-22 北京握奇数据系统有限公司 一种智能卡上实现电子词典的方法及智能卡
US10572473B2 (en) * 2013-10-09 2020-02-25 International Business Machines Corporation Optimized data visualization according to natural language query

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533395A (zh) * 2008-03-11 2009-09-16 英业达股份有限公司 一种网络词库查询系统及其方法
CN101650605A (zh) * 2009-09-25 2010-02-17 中国电信股份有限公司 一种智能汉字输入方法和系统
CN105183735A (zh) * 2014-06-18 2015-12-23 阿里巴巴集团控股有限公司 数据的查询方法及查询装置
CN104598652A (zh) * 2015-02-14 2015-05-06 广州华多网络科技有限公司 一种数据库查询方法及装置

Also Published As

Publication number Publication date
CN106959970A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
US8965909B2 (en) Type-ahead search optimization
CN109144285B (zh) 一种输入方法和装置
CN114090575A (zh) 基于键值数据库的数据存储方法、检索方法及相应的装置
WO2021082463A1 (zh) 数据处理方法及装置、电子设备和存储介质
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
WO2023078414A1 (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN109783244B (zh) 处理方法和装置、用于处理的装置
CN114168798B (zh) 文本存储管理与检索方法及装置
CN114168808B (zh) 基于正则表达式的文档字符串编码识别方法及装置
CN107977089B (zh) 一种输入方法和装置、一种用于输入的装置
CN111414766B (zh) 一种翻译方法及装置
CN106959970B (zh) 词库、词库的处理方法、装置和用于处理词库的装置
CN108628461B (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN108241438B (zh) 一种输入方法、装置和用于输入的装置
CN111324214B (zh) 一种语句纠错方法和装置
CN110858100B (zh) 联想候选词生成方法及装置
CN109992790B (zh) 数据处理方法和装置、用于数据处理的装置
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置
CN111597325B (zh) 一种文本查询方法及装置
CN111400563B (zh) 一种模式匹配方法、装置和用于模式匹配的装置
CN112987941B (zh) 生成候选词的方法及装置
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN109388251B (zh) 一种输入方法及装置
CN112905023A (zh) 一种输入纠错方法、装置和用于输入纠错的装置
CN113010768A (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant