CN1924854A - 智能移动终端的桌面搜索方法 - Google Patents

智能移动终端的桌面搜索方法 Download PDF

Info

Publication number
CN1924854A
CN1924854A CN 200610053448 CN200610053448A CN1924854A CN 1924854 A CN1924854 A CN 1924854A CN 200610053448 CN200610053448 CN 200610053448 CN 200610053448 A CN200610053448 A CN 200610053448A CN 1924854 A CN1924854 A CN 1924854A
Authority
CN
China
Prior art keywords
file
text
mobile terminal
intelligent mobile
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610053448
Other languages
English (en)
Other versions
CN1924854B (zh
Inventor
陈纯
卜佳俊
陈伟
刘康苗
仇光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN200610053448A priority Critical patent/CN1924854B/zh
Publication of CN1924854A publication Critical patent/CN1924854A/zh
Application granted granted Critical
Publication of CN1924854B publication Critical patent/CN1924854B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种智能移动终端的桌面搜索方法。本发明的方法是通过分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引。智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户,帮助用户快速而准确地定位需要的信息。

Description

智能移动终端的桌面搜索方法
技术领域
本发明涉及基于智能移动终端的信息检索领域,特别是涉及一种智能移动终端的桌面搜索方法。
背景技术
伴随着通信产业的不断发展,智能移动终端如个人数字助手(PDA)、智能手机等以其强大的功能和便捷的操作等特点得到人们的青睐。随着价格的不断下降,智能移动终端正逐步进入千家万户,成为人们必备的工具。
智能移动终端处理能力稳步提升,主流产品的中央处理器的主频已经达到了百兆级别,内存也达到了十兆级别,同时还支持千兆级别的大容量存储卡。这使得用户可以将更多的文本、多媒体数据保存在智能移动终端上,同时也不再需要为短信、彩信、联系人等的容量而担心,用户可以将上千上万条的短信保存在智能移动终端上而不需要删除。
智能移动终端数据存储量提升的同时也使得用户要查找相关的信息变得相对困难。因此,在智能移动终端进行桌面搜索将极大地提高信息查找的速度,方便人们的生活。
目前,基于互联网的搜索引擎技术得到了迅猛发展,可以帮助用户在几乎无限的互联网资源中找到所需的信息。特别是基于个人电脑PC机的桌面搜索工具除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑海量无序的资料中轻松快速地查找到想要看到的信息,已经成为主要搜索服务提供商的新发展方向。
智能移动终端的处理能力虽然不断提升,但是它固有的一些特点使得现有的搜索引擎技术很难直接得到应用。如智能移动终端通常使用电池供电,这就要求其运行的应用程序需要节能方面的考虑;智能移动终端的中央处理器能力及存储器的容量比起个人电脑来要落后很多,很难运行如中文分词等对系统资源需求较高的程序。因此,需要综合考虑智能移动终端的计算能力弱、电池寿命短等特点,设计一种能耗低,适于在智能移动终端运行的桌面搜索方法。
发明内容
本发明的主要目的在于提供一种智能移动终端的桌面搜索方法,根据用户的查询请求,快速准确地定位到用户需要的信息。
本发明解决其技术问题采用的技术方案如下:
一种智能移动终端的桌面搜索方法,主要包括以下步骤:
1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;
2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
1.步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。
2.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
3.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。
4.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。
5.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。
6.步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。
7.步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种针对智能移动终端的特性提出的桌面搜索方法,该方法充分考虑了智能移动终端处理能力较弱,存储能力相对有限以及能耗方面的特点,对智能移动终端中的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件建立全文索引,方便用户查找智能移动终端上的各种信息,同时采用了以字为单位的分词方法及压缩技术等,不仅节约空间,而且具有更好的性能。
附图说明
图1为根据本发明优选实施例的智能移动终端的桌面搜索系统的示意图。
图2为根据本发明优选实施例的全文索引生成过程图。
具体实施方式
如附图中的图1所示,其中示出了根据本发明优选实施例的智能移动终端的桌面搜索方法。所述智能移动终端的桌面搜索方法包括以下步骤:
(1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;
(2)智能移动终端的桌面搜索引擎接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
上述步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息。文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。优选地,为了压缩方面的考虑,文件标识符采用整型表示,并且文件标识符从小到大顺序分配给每个文件。初始时每个文件元信息中的时间戳赋为空值,当该文件被分析时被赋为当时的时间。另外,元信息中保存文件的类型信息,以支持用户查询特定的文件,如用户可以指定查找短信或音频文件等等。为提升元信息的查询、更新效率,可使用嵌入式数据库维护元信息,也可以专门定制一个元信息管理模块。
为了防止重复分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,在分析之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,还分析文件内的文本内容。特别地,对于图片、音视频等二进制文件,分析文件中的文本注释。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件生成全文索引,全文索引生成的过程图见图2。首先,读取相应文件的文本部分,对文本采取以字为单元的切分处理,并将切分出的字保存到字库表中。优选地,采用B+树等结构保存字库表。特别的,中文的常用字不超过5000个,采用B+树保存,每个节点保存100个值,这样仅需2层就可以保存10100个字,即只需2层B+树可以保存所有的常用字。智能移动终端桌面搜索引擎运行时,以每个节点保存100个值计,将B+树的根节点保存在内存中,所需内存不超过1KB,要访问叶子节点中的字时,只需读一次I/O速度较慢的外存储设备即可,可以保证较好的性能。
对文本切分出的每个字,相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数(即字频)、出现位置等信息,即获得每个字对应的全文索引信息。优选地,采用倒排索引保存每个字的全文索引。字库表中的每个字对应一个倒排索引链表,该链表包含了该字所在文件的文件标识符,字频、出现位置等信息。字库表中同时保存出现该字的文件个数。
对于倒排索引链表采用压缩方法保存。倒排索引链表首先根据文件标识符排序,然后将文件标识符转换为相邻文件标识符的差值,即采用小整数保存文件标识符,然后对倒排索引进行压缩。优选地,可以采用Elias-γ编码、Elias-δ编码、或Golomb等编码对文件标识符差值及字频进行压缩,采用字节对齐的变长编码对字出现的位置进行压缩。倒排索引的生成过程中,采用增量的索引生成策略,即有新文件出现时,仅需要分析新出现的文件并建立倒排索引,将新生成的索引以归并等方式合并到已经生成的老索引中,即避免重建索引。
上述步骤(2)在接受用户的查询请求,优选地,将所述查询具体实现为通过在智能移动终端处设置的控制面板输入的搜索请求形式。搜索请求允许用户输入关键词序列、问句等请求形式,还允许用户指定要搜索的文件类型。如用户仅需搜索短信,用户指定要搜索的文件类型是短信即可。
步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位切分处理,读取该字对应的索引信息,获得查询请求包含字的索引信息后,计算查询请求与文件之间的相似度,计算公式如下:
S q , d = Σ t w d , t · w q , t W d · W q . . . ( 1 )
其中Sq,d表示用户查询请求与文件的相似度,下标q代表查询,下标d代表文件。其中,分子
w q , t = ln ( 1 + N f t ) . . . ( 2 )
wd,t=1+lnfd,t                 (3)
公式中的下标t代表查询请求中的单个字,N代表存储介质中包含的文件的总数,ft代表出现该字的文件的个数,fd,t表示字t在文件d中出现的次数,这些信息都可以在全文索引中获得。即分子表示对每个字t的wd,t、wq,t相乘,并将相乘的结果加权。分母
W d = Σ t W d , t 2 . . . ( 4 )
W q = Σ t w q , t 2 . . . ( 5 )
公式4表示对文件中的每个字wd,t值平方加权后再开根号,公式5同理。每个文件的Wd值在步骤(1)时即计算好,即每个文件对应一个Wd值。
由于某些常用字的全文索引很大,这里采用一定的限制措施,当读取的索引大于一定值后,仅取部分索引进行计算,以获得较快的响应时间。根据公式(1)获得相似度最高的若干个文件,在返回这些文件的信息之前,对这些文件重新计算查询字在文件中的位置关系,对位置相邻文件提高其相似度,再将结果重新排序,并将重新排序后的文件的信息以列表的方式返回给用户。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (8)

1.一种智能移动终端的桌面搜索方法,其特征在于:
1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;
2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
2.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。
3.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
4.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。
5.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。
6.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。
7.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。
8.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于:步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。
CN200610053448A 2006-09-18 2006-09-18 智能移动终端的桌面搜索方法 Expired - Fee Related CN1924854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610053448A CN1924854B (zh) 2006-09-18 2006-09-18 智能移动终端的桌面搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610053448A CN1924854B (zh) 2006-09-18 2006-09-18 智能移动终端的桌面搜索方法

Publications (2)

Publication Number Publication Date
CN1924854A true CN1924854A (zh) 2007-03-07
CN1924854B CN1924854B (zh) 2010-05-12

Family

ID=37817495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610053448A Expired - Fee Related CN1924854B (zh) 2006-09-18 2006-09-18 智能移动终端的桌面搜索方法

Country Status (1)

Country Link
CN (1) CN1924854B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010145575A1 (zh) * 2009-09-21 2010-12-23 中兴通讯股份有限公司 在终端上更新索引并基于其对搜索结果排序的方法及装置
CN101350977B (zh) * 2007-07-20 2011-10-26 宁波萨基姆波导研发有限公司 一种移动通信终端应用快速搜索方法
CN102609502A (zh) * 2012-02-02 2012-07-25 深圳市中兴移动通信有限公司 基于日志方式的移动终端桌面搜索方法及系统
CN102654879A (zh) * 2011-03-04 2012-09-05 中兴通讯股份有限公司 搜索方法及装置
CN102819592A (zh) * 2012-08-08 2012-12-12 河海大学 一种基于Lucene的桌面搜索系统及方法
WO2015024249A1 (en) * 2013-08-23 2015-02-26 Telefonaktiebolaget L M Ericsson(Publ) On demand information for video
CN105187795A (zh) * 2015-09-14 2015-12-23 博康云信科技有限公司 一种基于视图库的视频标签定位方法及装置
CN106407450A (zh) * 2016-09-30 2017-02-15 网易(杭州)网络有限公司 文件搜索方法及装置
CN107633051A (zh) * 2017-09-15 2018-01-26 努比亚技术有限公司 桌面搜索方法、移动终端及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002361224A1 (en) * 2002-12-27 2004-07-22 Nokia Corporation Predictive text entry and data compression method for a mobile communication terminal
CN100382079C (zh) * 2004-09-08 2008-04-16 华为技术有限公司 一种移动终端设备的功能选择方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350977B (zh) * 2007-07-20 2011-10-26 宁波萨基姆波导研发有限公司 一种移动通信终端应用快速搜索方法
WO2010145575A1 (zh) * 2009-09-21 2010-12-23 中兴通讯股份有限公司 在终端上更新索引并基于其对搜索结果排序的方法及装置
CN102654879A (zh) * 2011-03-04 2012-09-05 中兴通讯股份有限公司 搜索方法及装置
CN102654879B (zh) * 2011-03-04 2015-01-28 中兴通讯股份有限公司 搜索方法及装置
CN102609502A (zh) * 2012-02-02 2012-07-25 深圳市中兴移动通信有限公司 基于日志方式的移动终端桌面搜索方法及系统
CN102819592A (zh) * 2012-08-08 2012-12-12 河海大学 一种基于Lucene的桌面搜索系统及方法
CN102819592B (zh) * 2012-08-08 2015-06-03 河海大学 一种基于Lucene的桌面搜索系统及方法
WO2015024249A1 (en) * 2013-08-23 2015-02-26 Telefonaktiebolaget L M Ericsson(Publ) On demand information for video
CN105187795A (zh) * 2015-09-14 2015-12-23 博康云信科技有限公司 一种基于视图库的视频标签定位方法及装置
CN105187795B (zh) * 2015-09-14 2018-11-09 博康云信科技有限公司 一种基于视图库的视频标签定位方法及装置
CN106407450A (zh) * 2016-09-30 2017-02-15 网易(杭州)网络有限公司 文件搜索方法及装置
CN107633051A (zh) * 2017-09-15 2018-01-26 努比亚技术有限公司 桌面搜索方法、移动终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN1924854B (zh) 2010-05-12

Similar Documents

Publication Publication Date Title
CN1924854B (zh) 智能移动终端的桌面搜索方法
Brin et al. Reprint of: The anatomy of a large-scale hypertextual web search engine
US8554561B2 (en) Efficient indexing of documents with similar content
US20150142760A1 (en) Method and device for deduplicating web page
CN102024047B (zh) 数据检索方法及装置
CN110532347B (zh) 一种日志数据处理方法、装置、设备和存储介质
CN107844493B (zh) 一种文件关联方法及系统
CN101271478B (zh) 基于聚类分块的只读兴趣点数据库压缩存储方法
Culpepper et al. Efficient in-memory top-k document retrieval
CN101751416A (zh) 一种对字符串排序和查找的方法
CN103036697B (zh) 一种多维度数据去重方法及系统
Gog et al. Large-scale pattern search using reduced-space on-disk suffix arrays
CN102201007A (zh) 一种大规模数据搜索系统
CN1790321A (zh) 一种用于海量文本快速相似搜索的方法
Peng et al. Parallelization of massive textstream compression based on compressed sensing
Zhang et al. Exploring large-scale small file storage for search engines
Chen et al. Using difficulty of prediction to decrease computation: Fast sort, priority queue and convex hull on entropy bounded inputs
CN111859079A (zh) 信息搜索方法、装置、计算机设备及存储介质
CN1191540C (zh) 为文本文档语料库建立索引的方法和装置
Wu et al. A feature-based intelligent deduplication compression system with extreme resemblance detection
Arseneau et al. STILT: Unifying spatial, temporal and textual search using a generalized multi-dimensional index
CN112699676B (zh) 一种地址相似关系生成方法及装置
CN115994205B (zh) 自组装属性提取方法及装置
Zhang Transform based and search aware text compression schemes and compressed domain text retrieval
Xiao-Shu et al. Cloud computing oriented retrieval technology based on big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

Termination date: 20150918

EXPY Termination of patent right or utility model