CN103678385A - 一种适用于移动搜索的个性化词典构造方法 - Google Patents

一种适用于移动搜索的个性化词典构造方法 Download PDF

Info

Publication number
CN103678385A
CN103678385A CN201210346775.5A CN201210346775A CN103678385A CN 103678385 A CN103678385 A CN 103678385A CN 201210346775 A CN201210346775 A CN 201210346775A CN 103678385 A CN103678385 A CN 103678385A
Authority
CN
China
Prior art keywords
word
secondary word
dictionary
mobile search
applicable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210346775.5A
Other languages
English (en)
Other versions
CN103678385B (zh
Inventor
王忠民
齐静娜
贺炎
邓万宇
梁琛
王文浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN201210346775.5A priority Critical patent/CN103678385B/zh
Publication of CN103678385A publication Critical patent/CN103678385A/zh
Application granted granted Critical
Publication of CN103678385B publication Critical patent/CN103678385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种适用于移动搜索的个性化词典构造方法,词典结构中所引入的次字区位码分段哈希机制,将首字相同的词条根据次字区位码划分至多个子区间内,可实现在小范围内利用二分法快速查找次字,有效地提高了词典查询效率。同时,由于本发明提出的个性化词典在每个词条结构中引入了分类及使用频率等相关信息,在分词后即可直接获取用户查询内容所属的分类信息,满足了移动搜索个性化需求,便于系统进行查询扩展和查询推荐等相关处理。

Description

一种适用于移动搜索的个性化词典构造方法
技术领域
本发明涉及移动搜索中有关中文信息处理技术领域,具体来讲,涉及有关移动搜索中个性化词典构造方法。
背景技术
词是具有一定语义的最小单位,要想实现机器对中文语句的理解,首先需要进行分词处理以确定语句中的各个词。所谓分词,就是把一个句子按照其中词的含义进行切分。自动分词是中文信息处理的基本环节,分词所参照的词典机制及处理效率直接影响到系统处理效率和分词后所能提供的信息。
目前常用的词典机制主要基于整词二分法、TRIE索引树法和逐字二分法这三种方法,由于这些方法通过二分法实现对次字的查找,随着分词词典中词条数目的增长,会造成次字的查询范围过大,效率提高程度非常有限。也有在此基础上衍生出来的双字或多字哈希机制,但这些方法会使次字哈希表的长度过长或造成次字哈希表难于构建,导致词典的存储结构复杂难于管理。同时,鉴于目前基于常规的分词词典在分词结束后无法获取用户查询内容中的兴趣所在,因此无法满足移动搜索中高精确度及个性化的查询需求。
发明内容
本发明要解决的技术问题是提出一种适用于移动搜索的个性化词典构造方法,主要目的在于满足移动搜索中用户的个性化查询需求和高效的查询处理,提高用户的查询体验。
为解决上述问题,本发明提出了一种适用于移动搜索的个性化词典构造方法,其特征在于由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成。
进一步地,上述词典的创建包括以下步骤:
(1)从已分类的原始线性词库中按序循环读出所有词条,每次读取一条,提取首字相关信息存储至首字哈希索引表中;
(2)提取词条次字及相关信息,根据相应的次字区位码分段哈希索引表哈希定位次字的存储位置;
(3)将次字存储于次字索引表中相应的存储区域内;
(4)提取词条中除去前两个字的词条后缀,保存至词典正文中相应的区域内。
本发明提出的词典结构同时包含了词条所属的分类信息,可在分词后直接获取到用户查询内容所属的类别信息,为用户兴趣获取提供了依据。其中,词条的分类编码规则是将日常生活中常见的12个主类及包含的子类信息按照主从关系进行分类编码,共分为三级,每级顺序进行编码,这种编码方式可由编码信息快速确定目标词的类别信息。
本发明提出的个性化词典构造方法,有效地克服了现有技术的不足。词典结构中所引入的次字区位码分段哈希机制,将首字相同的词条划分至20个子区间内,从而实现在小范围内利用二分法快速查找次字,有效地提高了词典查询效率;同时,分词结束后可直接获取到词典中所包含的词条分类信息,这些分类信息为用户兴趣的挖掘提供了依据。
附图说明
图1是本发明提出的个性化词典逻辑结构示意图;
图2是本发明提出的个性化词典的首字哈希索引表在内存中的数据结构图;
图3是本发明提出的个性化词典的次字区位码分段哈希索引表在内存中的数据结构图;
图4是本发明提出的个性化词典的次字索引表在内存中的数据结构图;
图5是本发明提出的个性化词典的词典正文在内存中的数据结构图;
图6是本发明提出的个性化词典中词条的分类信息结构图;
图7是本发明提出的个性化词典的构造过程流程图;
具体实施方式
下面结合附图,对本发明作进一步的详细说明。
图1为本发明提出的个性化词典逻辑结构示意图,共分为4级,分别为首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文。
首字哈希索引表是由词的首字和相关属性信息及指向下级单元的指针组成,它在内存中的数据结构如图2所示。其中,isWord、frequency和coding为首字的相关属性信息,分别表示是否为词、出现频率及分类编码信息;s_hash存储以当前字为首字所对应的下级单元的首地址;wordFirst为首字,由GB2312编码表中的汉字组成,由于GB2312共收录了6763个汉字,因此首字哈希索引表长度为6763,同时可由汉字的机内码根据公式计算出首字在首字哈希索引表中的位置,该公式为:
offset=(c1-0xB0)×94+(c2-0xA1)
其中,c1、c2分别为汉字机内码的高低字节。
由于在汉语中双字词语最多,并且词典中首字相同的词数量比较大,使用二分法查找次字时需要多次查询,影响到词典的查询效率。因此,如果能缩小次字的查询范围,就可以大大提高系统的查询性能。
本发明提出的个性化词典便是从缩小次字查询范围入手实现词典查询效率的提高,其功能主要由词典的次字区位码分段哈希索引表实现,在内存中的数据结构如图3所示。其中,regionIndex表示次字区位码对应的分段号,分别用1-20进行标记;s_index为存储次字分布在当前区内间内的次字索引表首地址。具体实现是通过对原始线性词库中所有词条的次字出现频率进行统计,按照统计结果将次字划分至不同的区间范围内。其中,出现频率高的次字进行小间隔划分,出现频率低的次字进行大间隔划分,这样可将首字相同的词条按照次字区位码非均匀划分至20个不同的分段内,且每个分段对应的词条个数可基本实现均匀分布。通过这种方式可有效缩小次字的查询范围,同时避免了当次字区位码集中分布于个别区域时所造成的词条数量过大,导致次字查询效率提升受限的弊端。
在进行次字查找时,可根据次字区位码对应的分段号哈希定位满足当前条件的次字索引表的首地址,进而在小范围内利用二分法快速查找次字,实现整体查询效率的提高。图4为次字索引表在内存中的数据结构图,其中,wordSec存储符合前两级约束的所有词的次字;isWord表示满足当前条件的前两个字是否为词;frequency和coding表示出现频率及分类编码信息;last_table存储剩余字串表的首地址,该剩余字串表存储了所有满足当前约束的除去前两个字的词条后缀及相关属性信息,如图5所示。
图6是本发明提出的个性化词典中词条的分类信息结构图,词条的分类信息包括娱乐、运动、城市、自然、工程等日常生活中常见的12种主类,各个主类下又包含对应分支的子类,共分为三级,每级顺序进行编码,其中,词库级数=编码的长度/2,通过这种编码方式可快速确定目标词的类别信息。
图7是本发明提出的个性化词典的构造过程流程图。具体实现时首先需要根据常用分类信息对原始线性词典进行划分,得到基于词分类信息的独立线性词典,然后按照本发明提出的次字区位码分段哈希机制将已分类的线性词典构建为新的词典,并在此过程中将分类信息添加至每个词条中。具体包括如下步骤:
步骤1,对于已分类的原始线性词库,按序每次读取一个词条,进行后续的处理;
步骤2,提取词条中的第一个字,将首字包含的相关属性信息保存至首字哈希表中;
步骤3,若当前词条长度大于1,则提取词条中的次字,由该次字的区位码值对应的分段号哈希定位次字所在范围的首地址s_hash;
步骤4,将次字及相关信息保存或更新至s_hash指向的次字索引表中;
步骤5,若当前词条长度大于2,则将除去前两个字的词条后缀及其分类信息保存或更新至相应的词典正文中;
步骤6,若原始词库中所有词条已处理完毕,结束流程。
通过以上步骤,可将原始的线性词库文件转化本发明所提出的个性化分词词典,词典构造过程中为每个词条添加了对应的词条分类信息,为分词过程中的高效及个性化的查询处理提供支持。

Claims (10)

1.一种适用于移动搜索的个性化词典构造方法,其特征在于由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成;
所述的首字哈希表由词的首字和属性信息及指向次字区位码分段哈希索引表的指针组成;
所述的次字区位码分段哈希索引表由次字区位码所属的区间范围编号及指向次字索引表的指针组成;
所述的次字索引表由词的次字和属性信息及指向词典正文的指针组成;
所述的词典正文由除去前两个字的剩余字串构成的剩余字串表及词的属性信息组成。
2.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的首字由GB2312编码表中的汉字组成,根据汉字的机内码可由公式实现首字在首字哈希索引表中的快速定位。
3.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的属性信息包括词条是否成词的标记、使用频率和所属分类编码,以及后续使用过程中可能出现的相关扩展信息。
4.根据权利要求3所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的词条分类编码是将日常生活中常见的12个主类及包含的子类类别按照主从关系进行分类编码,共分为三级,每级顺序进行编码,这种编码方式可由编码信息快速确定目标词的类别信息。
5.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的次字区位码所属的区间范围划分依据是:通过对原始线性词库中所有词条的次字出现频率进行统计,按照统计结果将次字非均匀划分至不同的区间范围内。
6.根据权利要求5所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的对次字非均匀划分是指通过对原始线性词库中出现频率高的次字进行小间隔划分,出现频率低的次字进行大间隔划分,以实现将首字相同的词条按照次字区位码非均匀划分至20个不同的分段内,从而缩小首字相同的词的次字查询范围。
7.根据权利要求6所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的对次字区位码进行非均匀划分,目的在于基本实现每个子区间对应的词条个数的均匀分布,避免了当次字区位码集中分布于个别区域时所造成的词条数量过大,导致次字查询效率提升受限的弊端。
8.根据权利要求6所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,在进行次字查找时,可根据次字区位码对应的分段号哈希定位次字所在范围的首地址,进而实现在小范围内利用二分法快速查找次字,实现整体效率的提高。
9.根据权利要求1所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述的词典正文是由动态数组构成,剩余字串在动态数组中按照词条频率的大小及词条长度由长到短的顺序进行存储。
10.根据权利要求9所述的一种适用于移动搜索的个性化词典构造方法,其特征在于,所述规则可在分词过程中优先选取频率高及词长最大的词条,提高了分词的效率及准确度。
CN201210346775.5A 2012-09-18 2012-09-18 一种适用于移动搜索的个性化词典构造方法 Active CN103678385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210346775.5A CN103678385B (zh) 2012-09-18 2012-09-18 一种适用于移动搜索的个性化词典构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210346775.5A CN103678385B (zh) 2012-09-18 2012-09-18 一种适用于移动搜索的个性化词典构造方法

Publications (2)

Publication Number Publication Date
CN103678385A true CN103678385A (zh) 2014-03-26
CN103678385B CN103678385B (zh) 2019-01-11

Family

ID=50315966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210346775.5A Active CN103678385B (zh) 2012-09-18 2012-09-18 一种适用于移动搜索的个性化词典构造方法

Country Status (1)

Country Link
CN (1) CN103678385B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765831A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种词典表的生成及其应用方法及装置
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
CN111354342A (zh) * 2020-02-28 2020-06-30 科大讯飞股份有限公司 一种个性化词库的更新方法、装置、设备及存储介质
CN111898779A (zh) * 2020-06-09 2020-11-06 东南大学 一种用于个性化服务需求的组织管理方法及系统
CN116361421A (zh) * 2023-05-30 2023-06-30 互联时刻(北京)信息科技有限公司 文本检索方法、装置及存储介质
CN117349295A (zh) * 2023-12-04 2024-01-05 江苏瑞宁信创科技有限公司 字词频度统计方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334118A (ja) * 1997-05-30 1998-12-18 Matsushita Electric Ind Co Ltd 辞書索引作成装置と文書検索装置
CN101944086A (zh) * 2009-07-10 2011-01-12 华中科技大学 全字索引词典

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334118A (ja) * 1997-05-30 1998-12-18 Matsushita Electric Ind Co Ltd 辞書索引作成装置と文書検索装置
CN101944086A (zh) * 2009-07-10 2011-01-12 华中科技大学 全字索引词典

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIN JUN等: "Study of the World Segmentation Algorithm based on Hash Dictionary Mechanism", 《CONSUMER ELECTRONICS, COMMUNICATIONS AND NETWORKS (CECNET)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765831A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种词典表的生成及其应用方法及装置
CN104765831B (zh) * 2015-04-13 2018-06-19 天脉聚源(北京)传媒科技有限公司 一种词典表的生成及其应用方法及装置
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
CN111354342A (zh) * 2020-02-28 2020-06-30 科大讯飞股份有限公司 一种个性化词库的更新方法、装置、设备及存储介质
CN111898779A (zh) * 2020-06-09 2020-11-06 东南大学 一种用于个性化服务需求的组织管理方法及系统
CN111898779B (zh) * 2020-06-09 2024-04-30 东南大学 一种用于个性化服务需求的组织管理方法及系统
CN116361421A (zh) * 2023-05-30 2023-06-30 互联时刻(北京)信息科技有限公司 文本检索方法、装置及存储介质
CN116361421B (zh) * 2023-05-30 2023-08-15 互联时刻(北京)信息科技有限公司 文本检索方法、装置及存储介质
CN117349295A (zh) * 2023-12-04 2024-01-05 江苏瑞宁信创科技有限公司 字词频度统计方法及装置
CN117349295B (zh) * 2023-12-04 2024-02-13 江苏瑞宁信创科技有限公司 字词频度统计方法及装置

Also Published As

Publication number Publication date
CN103678385B (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN103678385A (zh) 一种适用于移动搜索的个性化词典构造方法
US8838551B2 (en) Multi-level database compression
CN101719128B (zh) 一种基于模糊匹配的中文地理编码确定方法
CN110019647B (zh) 一种关键词搜索方法、装置和搜索引擎
CN104199860B (zh) 一种基于二维地理位置信息的数据集分片方法
CN102890722B (zh) 应用于时序历史数据库的索引方法
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN102147795A (zh) 兴趣点检索方法、兴趣点检索装置和导航系统
CN102270048B (zh) 一种名词输入的方法及系统
CN105159949A (zh) 一种中文地址分词方法及系统
CN103914483B (zh) 文件存储方法、装置及文件读取方法、装置
CN101840400A (zh) 一种多级分类检索方法及系统
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
CN106649286B (zh) 一种基于双数组字典树进行术语匹配的方法
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
CN106874287A (zh) 一种兴趣点poi地址编码的处理方法及装置
CN105335456B (zh) 一种用于环境保护法规检索的关联优先排序方法
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN102469134A (zh) 一种ip地址检索方法及装置
JP2014527660A (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN1790335A (zh) Xml文件数据存取的方法
CN104408067A (zh) 一种多树结构的数据库设计方法及装置
CN105515997A (zh) 基于bf_tcam实现零范围扩张的高效范围匹配方法
CN113901280A (zh) 一种集成电路展平式设计的字符串存储与查询系统及方法
CN102799590A (zh) 嵌入式电子产品字库、字库生成方法及字库查找方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140326

Assignee: Xi'an Tianyu Xinghua Information Technology Co.,Ltd.

Assignor: XI'AN University OF POSTS & TELECOMMUNICATIONS

Contract record no.: X2022980018057

Denomination of invention: A personalized dictionary construction method for mobile search

Granted publication date: 20190111

License type: Common License

Record date: 20221012