CN1924854B - 智能移动终端的桌面搜索方法 - Google Patents
智能移动终端的桌面搜索方法 Download PDFInfo
- Publication number
- CN1924854B CN1924854B CN200610053448A CN200610053448A CN1924854B CN 1924854 B CN1924854 B CN 1924854B CN 200610053448 A CN200610053448 A CN 200610053448A CN 200610053448 A CN200610053448 A CN 200610053448A CN 1924854 B CN1924854 B CN 1924854B
- Authority
- CN
- China
- Prior art keywords
- file
- text
- word
- mobile terminal
- intelligent mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能移动终端的桌面搜索方法。本发明的方法是通过分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引。智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户,帮助用户快速而准确地定位需要的信息。
Description
技术领域
本发明涉及基于智能移动终端的信息检索领域,特别是涉及一种智能移动终端的桌面搜索方法。
背景技术
伴随着通信产业的不断发展,智能移动终端如个人数字助手(PDA)、智能手机等以其强大的功能和便捷的操作等特点得到人们的青睐。随着价格的不断下降,智能移动终端正逐步进入千家万户,成为人们必备的工具。
智能移动终端处理能力稳步提升,主流产品的中央处理器的主频已经达到了百兆级别,内存也达到了十兆级别,同时还支持千兆级别的大容量存储卡。这使得用户可以将更多的文本、多媒体数据保存在智能移动终端上,同时也不再需要为短信、彩信、联系人等的容量而担心,用户可以将上千上万条的短信保存在智能移动终端上而不需要删除。
智能移动终端数据存储量提升的同时也使得用户要查找相关的信息变得相对困难。因此,在智能移动终端进行桌面搜索将极大地提高信息查找的速度,方便人们的生活。
目前,基于互联网的搜索引擎技术得到了迅猛发展,可以帮助用户在几乎无限的互联网资源中找到所需的信息。特别是基于个人电脑PC机的桌面搜索工具除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑海量无序的资料中轻松快速地查找到想要看到的信息,已经成为主要搜索服务提供商的新发展方向。
智能移动终端的处理能力虽然不断提升,但是它固有的一些特点使得现有的搜索引擎技术很难直接得到应用。如智能移动终端通常使用电池供电,这就要求其运行的应用程序需要节能方面的考虑;智能移动终端的中央处理器能力及存储器的容量比起个人电脑来要落后很多,很难运行如中文分词等对系统资源需求较高的程序。因此,需要综合考虑智能移动终端的计算能力弱、电池寿命短等特点,设计一种能耗低,适于在智能移动终端运行的桌面搜索方法。
发明内容
本发明的主要目的在于提供一种智能移动终端的桌面搜索方法,根据用户的查询请求,快速准确地定位到用户需要的信息。
本发明解决其技术问题采用的技术方案如下:
一种智能移动终端的桌面搜索方法,主要包括以下步骤:
1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;
2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
1.步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息.
2.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
3.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。
4.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。
5.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。
6.步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。
7.步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种针对智能移动终端的特性提出的桌面搜索方法,该方法充分考虑了智能移动终端处理能力较弱,存储能力相对有限以及能耗方面的特点,对智能移动终端中的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件建立全文索引,方便用户查找智能移动终端上的各种信息,同时采用了以字为单位的分词方法及压缩技术等,不仅节约空间,而且具有更好的性能。
附图说明
图1为根据本发明优选实施例的智能移动终端的桌面搜索系统的示意图。
图2为根据本发明优选实施例的全文索引生成过程图。
具体实施方式
如附图中的图1所示,其中示出了根据本发明优选实施例的智能移动终端的桌面搜索方法。所述智能移动终端的桌面搜索方法包括以下步骤:
(1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;
(2)智能移动终端的桌面搜索引擎接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
上述步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息.文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息.优选地,为了压缩方面的考虑,文件标识符采用整型表示,并且文件标识符从小到大顺序分配给每个文件.初始时每个文件元信息中的时间戳赋为空值,当该文件被分析时被赋为当时的时间.另外,元信息中保存文件的类型信息,以支持用户查询特定的文件,如用户可以指定查找短信或音频文件等等.为提升元信息的查询、更新效率,可使用嵌入式数据库维护元信息,也可以专门定制一个元信息管理模块.
为了防止重复分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,在分析之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,还分析文件内的文本内容。特别地,对于图片、音视频等二进制文件,分析文件中的文本注释。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件生成全文索引,全文索引生成的过程图见图2。首先,读取相应文件的文本部分,对文本采取以字为单元的切分处理,并将切分出的字保存到字库表中。优选地,采用B+树等结构保存字库表。特别的,中文的常用字不超过5000个,采用B+树保存,每个节点保存100个值,这样仅需2层就可以保存10100个字,即只需2层B+树可以保存所有的常用字。智能移动终端桌面搜索引擎运行时,以每个节点保存100个值计,将B+树的根节点保存在内存中,所需内存不超过1KB,要访问叶子节点中的字时,只需读一次I/O速度较慢的外存储设备即可,可以保证较好的性能。
对文本切分出的每个字,相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数(即字频)、出现位置等信息,即获得每个字对应的全文索引信息。优选地,采用倒排索引保存每个字的全文索引。字库表中的每个字对应一个倒排索引链表,该链表包含了该字所在文件的文件标识符,字频、出现位置等信息。字库表中同时保存出现该字的文件个数。
对于倒排索引链表采用压缩方法保存。倒排索引链表首先根据文件标识符排序,然后将文件标识符转换为相邻文件标识符的差值,即采用小整数保存文件标识符,然后对倒排索引进行压缩。优选地,可以采用Elias-γ编码、Elias-δ编码、或Golomb等编码对文件标识符差值及字频进行压缩,采用字节对齐的变长编码对字出现的位置进行压缩。倒排索引的生成过程中,采用增量的索引生成策略,即有新文件出现时,仅需要分析新出现的文件并建立倒排索引,将新生成的索引以归并等方式合并到已经生成的老索引中,即避免重建索引。
上述步骤(2)在接受用户的查询请求,优选地,将所述查询具体实现为通过在智能移动终端处设置的控制面板输入的搜索请求形式。搜索请求允许用户输入关键词序列、问句等请求形式,还允许用户指定要搜索的文件类型。如用户仅需搜索短信,用户指定要搜索的文件类型是短信即可。
步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位切分处理,读取该字对应的索引信息,获得查询请求包含字的索引信息后,计算查询请求与文件之间的相似度,计算公式如下:
其中Sq,d表示用户查询请求与文件的相似度,下标q代表查询,下标d代表文件。其中,分子
wd,t=1+lnfd,t (3)
公式中的下标t代表查询请求中的单个字,N代表存储介质中包含的文件的总数,ft代表出现该字的文件的个数,fd,t表示字t在文件d中出现的次数,这些信息都可以在全文索引中获得。即分子表示对每个字t的wd,t、wq,t相乘,并将相乘的结果加权。分母
公式4表示对文件中的每个字wd,t值平方加权后再开根号,公式5同理。每个文件的Wd值在步骤(1)时即计算好,即每个文件对应一个Wd值。
由于某些常用字的全文索引很大,这里采用一定的限制措施,当读取的索引大于一定值后,仅取部分索引进行计算,以获得较快的响应时间。根据公式(1)获得相似度最高的若干个文件,在返回这些文件的信息之前,对这些文件重新计算查询字在文件中的位置关系,对位置相邻文件提高其相似度,再将结果重新排序,并将重新排序后的文件的信息以列表的方式返回给用户。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种智能移动终端的桌面搜索方法,
(1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频含文本信息的文件,并对其建立全文索引;
(2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户;其特征在于:
所述的步骤(1)在分析文本、短信、邮件、图片、音视频含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型信息;
所述的步骤(1)分析文本、短信、邮件、图片、音视频含文本信息的文件之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析;
所述的步骤(1)分析文本、短信、邮件、图片、音视频含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频二进制文件,读取这些文件中的文本注释部分进行分析;
所述的步骤(1)分析文本、短信、邮件、图片、音视频含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在文件中出现的次数、出现位置信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数;
所述的步骤(1)分析文本、短信、邮件、图片、音视频含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中;
所述的步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型;
所述的步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610053448A CN1924854B (zh) | 2006-09-18 | 2006-09-18 | 智能移动终端的桌面搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610053448A CN1924854B (zh) | 2006-09-18 | 2006-09-18 | 智能移动终端的桌面搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1924854A CN1924854A (zh) | 2007-03-07 |
CN1924854B true CN1924854B (zh) | 2010-05-12 |
Family
ID=37817495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200610053448A Expired - Fee Related CN1924854B (zh) | 2006-09-18 | 2006-09-18 | 智能移动终端的桌面搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1924854B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350977B (zh) * | 2007-07-20 | 2011-10-26 | 宁波萨基姆波导研发有限公司 | 一种移动通信终端应用快速搜索方法 |
CN102023991A (zh) * | 2009-09-21 | 2011-04-20 | 中兴通讯股份有限公司 | 在终端上更新索引并基于其对搜索结果排序的方法及装置 |
CN102654879B (zh) * | 2011-03-04 | 2015-01-28 | 中兴通讯股份有限公司 | 搜索方法及装置 |
CN102609502A (zh) * | 2012-02-02 | 2012-07-25 | 深圳市中兴移动通信有限公司 | 基于日志方式的移动终端桌面搜索方法及系统 |
CN102819592B (zh) * | 2012-08-08 | 2015-06-03 | 河海大学 | 一种基于Lucene的桌面搜索系统及方法 |
US20160212485A1 (en) * | 2013-08-23 | 2016-07-21 | Telefonaktiebolaget L M Ericsson (Publ) | On demand information for video |
CN105187795B (zh) * | 2015-09-14 | 2018-11-09 | 博康云信科技有限公司 | 一种基于视图库的视频标签定位方法及装置 |
CN106407450A (zh) * | 2016-09-30 | 2017-02-15 | 网易(杭州)网络有限公司 | 文件搜索方法及装置 |
CN107633051A (zh) * | 2017-09-15 | 2018-01-26 | 努比亚技术有限公司 | 桌面搜索方法、移动终端及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1732426A (zh) * | 2002-12-27 | 2006-02-08 | 诺基亚公司 | 用于移动通信终端的预测性文本条目和数据压缩方法 |
CN1746886A (zh) * | 2004-09-08 | 2006-03-15 | 华为技术有限公司 | 一种移动终端设备的功能选择方法 |
-
2006
- 2006-09-18 CN CN200610053448A patent/CN1924854B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1732426A (zh) * | 2002-12-27 | 2006-02-08 | 诺基亚公司 | 用于移动通信终端的预测性文本条目和数据压缩方法 |
CN1746886A (zh) * | 2004-09-08 | 2006-03-15 | 华为技术有限公司 | 一种移动终端设备的功能选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1924854A (zh) | 2007-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1924854B (zh) | 智能移动终端的桌面搜索方法 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
Brin et al. | Reprint of: The anatomy of a large-scale hypertextual web search engine | |
CN102024047B (zh) | 数据检索方法及装置 | |
US20150142760A1 (en) | Method and device for deduplicating web page | |
CN101620596A (zh) | 一种面向查询的多文档自动摘要方法 | |
CN111611225A (zh) | 数据存储管理方法、查询方法、装置、电子设备及介质 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
CN103036697B (zh) | 一种多维度数据去重方法及系统 | |
Caro et al. | Data structures for temporal graphs based on compact sequence representations | |
CN113407785B (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
Gog et al. | Large-scale pattern search using reduced-space on-disk suffix arrays | |
CN101847998A (zh) | 一种高性能gml流压缩方法 | |
CN114139040A (zh) | 一种数据存储及查询方法、装置、设备及可读存储介质 | |
CN102201007A (zh) | 一种大规模数据搜索系统 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
KR100818742B1 (ko) | 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법 | |
CN114398883B (zh) | 演示文稿生成方法、装置、计算机可读存储介质及服务器 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
Arseneau et al. | STILT: Unifying spatial, temporal and textual search using a generalized multi-dimensional index | |
CN115098029A (zh) | 数据处理方法及装置 | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム | |
Liu et al. | An efficient random access inverted index for information retrieval | |
Xiao-Shu et al. | Cloud computing oriented retrieval technology based on big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100512 Termination date: 20150918 |
|
EXPY | Termination of patent right or utility model |