CN103838876B - 使用拼音检索文件的文件检索方法及系统 - Google Patents

使用拼音检索文件的文件检索方法及系统 Download PDF

Info

Publication number
CN103838876B
CN103838876B CN201410116225.3A CN201410116225A CN103838876B CN 103838876 B CN103838876 B CN 103838876B CN 201410116225 A CN201410116225 A CN 201410116225A CN 103838876 B CN103838876 B CN 103838876B
Authority
CN
China
Prior art keywords
file
index
filename
retrieval
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410116225.3A
Other languages
English (en)
Other versions
CN103838876A (zh
Inventor
刘焱青
贺旺喜
张熠转
陈凌轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201410116225.3A priority Critical patent/CN103838876B/zh
Publication of CN103838876A publication Critical patent/CN103838876A/zh
Application granted granted Critical
Publication of CN103838876B publication Critical patent/CN103838876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件检索系统及使用拼音检索文件的方法,该方法包括以下步骤:逐个扫描文件系统中的文件,将文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并与文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;根据检索关键词和用户检索意愿从文件索引中检索到与之匹配的文件索引记录,执行相应的操作,用户检索意愿方式为基于拼音首字母、拼音全拼或文件名全名检索;本发明,将文件系统中的文件通过拼音首字母,拼音全拼和文件全名形式生成文件索引,用户检索时直接将输入的关键词在生成的文件索引中进行检索,可以避免对输入关键词进行翻译的过程,并且有效减少一些不必要的检索过程,提高检索效率。

Description

使用拼音检索文件的文件检索方法及系统
技术领域
本发明涉及文件检索,具体涉及使用拼音检索文件的文件检索方法及系统。
背景技术
在文件检索系统中,如果本地文件系统中包含有多种语言的文件,通常的作法是除了通过输入关键词检索文件系统中匹配的文件外,还需要通过将输入关键词中的拼音字母翻译成中文汉字形成一个或多个与之相匹配的新关键词,再次检索文件系统中匹配的文件,累积检索出来的结果为用户最终检索结果,从而实现在全名检索文件的基础上实现拼音检索文件的功能。
然而,由于许多汉字都存在多音字,并且汉字拼音有四个声调,因此同一个汉字拼音可能有4种不同的多音字,这样,把用字母输入的关键词当作拼音翻译成中文汉字后,用户输入的一个关键词就有可能被翻译成一个或多个汉字关键词,特别是翻译拼音首字母形式的关键词,在通过这些关键词对文件系统中的文件进行检索。这样翻译生成的关键词,其中翻译生成的关键词会存在很多冗余搜索(因为文件系统中根本不存在这样的文件),而且这样将耗费很长的检索时间完成检索,从而使检索效率低下。
发明内容
本发明所要解决的技术问题是的问题。
为了解决上述技术问题,本发明所采用的技术方案是提供一种使用拼音检索文件的方法,包括以下步骤:
步骤A10:逐个扫描文件系统中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,然后将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;一条文件索引记录的格式如图4、图5中右部分所示。
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;
步骤A30、根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作。
在上述方法中,根据用户检索意愿对所有与关键词匹配的文件索引记录进行优先排序。
在上述方法中,根据检索关键词,只检索与检索意愿相关的文件索引记录。
在上述方法中,还包括文件索进行引实时更新,具体步骤如下:
实时或定时扫描与检测文件系统的文件和文件变更;
根据文件系统的文件和文件变更情况,实时更新文件索引,对于新增的文件系统,对该文件系统中的文件进行逐个扫描,对扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名、文件全路径以及所属文件系统名生成文件索引记录,更新到文件索引中;对于移除的文件系统,直接删除文件索引中对应该文件系统名的所有文件索引记录;对于新增文件或更改文件名的文件,将该文件的文件名翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索中;对于删除的文件,根据删除文件的文件名删除对应的文件索引记录。
本发明还提供了一种文件检索系统,包括索引生成装置和检索装置;
所述索引生成装置包括扫描单元、翻译服务单元和索引生成单元,所述扫描单元逐个扫描文件系统中的文件;所述翻译服务单元将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串;所述索引生成单元将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;
所述检索装置包括输入单元、文件检索单元和检索结果输出单元,用户通过所述输入单元输入待检索的文件名以及检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;所述文件检索单元根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;所述检索结果输出单元显示检索到的文件索引记录。
在上述文件检索系统,所述索引生成装置上还设有还包括文件系统监测单元和索引管理单元,所述文件系统监测单元实时或定时监测文件系统的变更以及文件系统中的文件变更,并发出相应的变更请求,所述索引管理单元根据所述变更请求实时更新文件索引中的相关文件索引记录。
本发明,将文件系统中的文件通过拼音首字母,拼音全拼和文件全名形式生成文件索引,用户检索时直接将输入的关键词在生成的文件索引中进行检索,可以避免对输入关键词进行翻译的过程,并且有效减少一些不必要的检索过程,提高检索效率。
附图说明
图1为本发明中文件检索系统的示意图;
图2为本发明中汉字拼音库的示意图;
图3为用户输入的待检索文件名关键词示例图;
图4为对图3所示的示例按照拼音全拼形式检索出的结果示例图;
图5为对图3所示的示例按照拼音首字母形式检索出的结果示例图;
图6为本发明提供的使用拼音检索文件的方法流程图;
图7为本发明文件索引存储格式示意图。
具体实施方式
下面结合附图对本发明做出详细的说明。
如图1所示,本发明提供的文件检索系统包括索引生成装置10和检索装置20,其中,索引生成装置10用于扫描文件系统中的文件并生成索引文件,检索装置20用于使用关键词进行文件检索。
索引生成装置10包括扫描单元11、翻译服务单元12和索引生成单元13,同时该索引生成装置10上还保存有与每个汉字对应的拼音全拼、拼音首字母和使用频率的汉字拼音库16。如图2所示,汉字拼音库16中以每个汉字为一条记录,记录包含汉字的中文字、拼音全拼、拼音首字母和使用频率。其中使用频率分为三种,0代表一般字,1代表常用字,2代表最常用的百家姓。
扫描单元11用于逐个扫描文件系统中的文件,获得文件名全名、文件全路径和所属文件系统名。
翻译服务单元12用于将扫描单元11扫描得到的文件名,依据汉字拼音库16逐一翻译生成拼音首字母形式和拼音全拼形式的字符串。将汉字翻译成拼音时,如果该汉字为多音字,则生成的结果是与该汉字对应的每个多音字拼音的组合汉字拼音库。
如图3~图5所示,文件名字符串“abc丁么-2013.txt”中丁字和么字都是多音字,按照拼音全拼翻译,则会翻译出如图4所示的8种文件名字符串结果;按照拼音首字母翻译,则会翻译出如图5所示的4中文件名字符串结果。
索引生成单元13用于将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引30。
检索装置20包括输入单元21、文件检索单元22和检索结果输出单元23。
输入单元21用于使用者输入关键词和设置用户意愿,例如鼠标或键盘等,用户通过输入单元21输入待检索的文件名以及检索意愿方式,用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索。
文件检索单元22根据用户输入的一个或一个以上的关键词和用户检索意愿从文件索引中检索到与之匹配的文件索引记录。
检索结果输出单元23用于显示检索到的文件索引记录,向使用者显示检索处理的结果,可以是显示器或打印机等设备。
此外,图中虽没有表示,但检索装置20包括用于存储信息的存储单元,用于存储文件检索程序和相关文件数据。
本发明中,索引生成装置10上还设有文件系统监测单元14和索引管理单元14,文件系统监测单元14采用实时或定时的模式监测文件系统的变更以及文件系统中的文件变更(包括新增和删除文件,以及修改文件名),文件索引管理单元15用于对文件系统监测单元14发出的文件系统及文件变更请求进行处理,根据处理结果更新文件索引中相关文件索引记录。例如:
文件系统监测单元14发现文件检索系统所在的终端系统或者电脑pc系统接入新的文件系统(包括外置USB存储器、内置或外置硬盘或内置ROM存储器等)时,通过文件索引管理单元15通知扫描单元11,对该文件系统中的文件进行逐个扫描,并对扫描到的文件名逐一通过翻译服务单元12进行翻译生成拼音首字母形式和拼音全拼形式的字符串,通过索引生成单元13将其结合文件名全名、文件全路径以及所属文件系统名生成文件索引记录,更新到文件索引中,实现文件索引的更新;
文件系统监测单元14发现文件检索系统所在的终端系统或者电脑pc系统移除部分文件系统时,通知文件索引管理单元15直接删除文件索引中对应该文件系统名(即文件索引中所属文件系统名字段)的所有文件索引记录,实现文件索引的更新;
文件系统监测单元14获取到用户对文件系统某个文件进行删除时,通知文件索引管理单元15需要更新文件索引,直接删除文件索引中该文件所对应的文件索引记录;
文件系统监测单元14获取到用户在文件系统新增文件,通知文件索引管理单元15需要更新文件索引,将该文件的文件名通过翻译服务单元12将其翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索中。
文件系统监测单元14获取到用户修改文件名时,则将新修改的文件名通过翻译服务单元12翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名更新到文件索引中该文件名原名所对应的文件索引记录。
在此基础上,本发明还提供了一种使用拼音检索文件的方法,如图6所示,该方法包括以下步骤:
步骤A10:逐个扫描文件系统中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索。以机顶盒为例,用户通过访问机顶盒的本地文件检索界面,在检索内容栏输入待检索的文件名,在用户检索意愿设置项中勾选检索方式,并点击检索按钮进行文件检索。
步骤A30、根据用户输入的检索关键词和检索意愿从文件索引中检索到与之匹配的文件索引记录。
可以根据检索关键词将所有与之匹配的文件索引全部提取出来,再将检索出来的文件索引结果根据用户检索意愿进行优先排序(即用户检索意愿优先显示在结果前面),也可以根据检索关键词只检索用户检索意愿相关的文件索引并提取出来。检索方式支持基于文件名、基于拼音首字母或基于拼音全拼的全词或全词部分内容的模糊查询。
文件索引如图7所示,例如:文件名为“abc丁么-2013.mp3”的索引内容包括文件全名、文件所属文件系统名、文件全路径、编码类型以及对应编码类型的文件名。其中编码类型包括文件名全名、拼音全拼形式文件名和拼音首字母形式文件名。
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作,如点选文件进行播放、修改文件名、删除文件等。该步骤中,检索结果以汉字拼音库的形式通过显示装置展示给用户,显示装置是指用于显示机顶盒内容的电视机或显示器等设备。
上述方法中,还包括文件索引的实时更新,鉴于该部分内容之前已经详细介绍,在此不再赘述。
本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (5)

1.使用拼音检索文件的方法,其特征在于,包括以下步骤:
步骤A10:逐个扫描文件系统中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;
步骤A30、根据所述待检索的文件名和用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录,根据所述待检索的文件名,只检索与用户检索意愿相关的文件索引记录;
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作。
2.如权利要求1所述的方法,其特征在于,根据用户检索意愿对所有与关键词匹配的文件索引记录进行优先排序。
3.如权利要求1所述的方法,其特征在于,还包括文件索引进行实时更新,具体步骤如下:
实时或定时扫描与检测文件系统的文件和文件变更;
根据文件系统的文件和文件变更情况,实时更新文件索引,对于新增的文件系统,对该文件系统中的文件进行逐个扫描,对扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名、文件全路径以及所属文件系统名生成文件索引记录,更新到文件索引中;对于移除的文件系统,直接删除文件索引中对应该文件系统名的所有文件索引记录;对于新增文件或更改文件名的文件,将该文件的文件名翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索引中;对于删除的文件,根据删除文件的文件名删除对应的文件索引记录。
4.文件检索系统,其特征在于,包括索引生成装置和检索装置;
所述索引生成装置包括扫描单元、翻译服务单元和索引生成单元,所述扫描单元逐个扫描文件系统中的文件;所述翻译服务单元将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串;所述索引生成单元将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件系统名生成一条文件索引记录,形成文件索引;
所述检索装置包括输入单元、文件检索单元和检索结果输出单元,用户通过所述输入单元输入待检索的文件名以及检索意愿方式,所述检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;所述文件检索单元根据所述待检索的文件名和用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录,根据所述待检索的文件名,只检索与用户检索意愿相关的文件索引记录;所述检索结果输出单元显示检索到的文件索引记录。
5.如权利要求4所述的文件检索系统,其特征在于,所述索引生成装置上还设有还包括文件系统监测单元和索引管理单元,所述文件系统监测单元实时或定时监测文件系统的变更以及文件系统中的文件变更,并发出相应的变更请求,所述索引管理单元根据所述变更请求实时更新文件索引中的相关文件索引记录。
CN201410116225.3A 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及系统 Active CN103838876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410116225.3A CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410116225.3A CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及系统

Publications (2)

Publication Number Publication Date
CN103838876A CN103838876A (zh) 2014-06-04
CN103838876B true CN103838876B (zh) 2017-06-20

Family

ID=50802372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410116225.3A Active CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及系统

Country Status (1)

Country Link
CN (1) CN103838876B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281144A (zh) * 2018-01-23 2018-07-13 浙江国视科技有限公司 一种语音识别方法和系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915458B (zh) * 2015-07-02 2019-04-05 Oppo广东移动通信有限公司 一种在用户搜索应用时自动联想的方法、系统及移动终端
CN106055121A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 输入法、信息搜索方法及系统
CN106708977A (zh) * 2016-12-07 2017-05-24 潘岩 一种对网页信息条文排序的方法及装置
CN107220390A (zh) * 2017-07-26 2017-09-29 山东浪潮商用系统有限公司 一种创建中文名称索引的方法及装置
CN112000620A (zh) * 2020-08-14 2020-11-27 深圳市绿联科技有限公司 文件搜索方法、装置及设备
CN112445830B (zh) * 2020-11-26 2024-05-14 湖南智慧政务区块链科技有限公司 一种基于区块链技术的数据分析系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169999B1 (en) * 1997-05-30 2001-01-02 Matsushita Electric Industrial Co., Ltd. Dictionary and index creating system and document retrieval system
CN101344394A (zh) * 2008-09-02 2009-01-14 凯立德欣技术(深圳)有限公司 导航系统及导航系统的信息点检索方法
CN101593191A (zh) * 2008-05-29 2009-12-02 国络多媒体有限公司 数据库的索引建立方法、数据库搜寻方法与系统
CN102236706A (zh) * 2011-06-17 2011-11-09 浙江大学 一种海量中文文件名快速模糊拼音查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169999B1 (en) * 1997-05-30 2001-01-02 Matsushita Electric Industrial Co., Ltd. Dictionary and index creating system and document retrieval system
CN101593191A (zh) * 2008-05-29 2009-12-02 国络多媒体有限公司 数据库的索引建立方法、数据库搜寻方法与系统
CN101344394A (zh) * 2008-09-02 2009-01-14 凯立德欣技术(深圳)有限公司 导航系统及导航系统的信息点检索方法
CN102236706A (zh) * 2011-06-17 2011-11-09 浙江大学 一种海量中文文件名快速模糊拼音查询方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281144A (zh) * 2018-01-23 2018-07-13 浙江国视科技有限公司 一种语音识别方法和系统

Also Published As

Publication number Publication date
CN103838876A (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN103838876B (zh) 使用拼音检索文件的文件检索方法及系统
KR101554293B1 (ko) 교차 언어 정보 검색
US8171029B2 (en) Automatic generation of ontologies using word affinities
US20020176628A1 (en) Document imaging and indexing system
JP2005115931A (ja) コンピュータの支援によるクエリ−タスクマッピング
GB2528687A (en) Text auto-completion
JP2010251860A (ja) コンテンツ処理装置および方法、プログラム、並びに記録媒体
JP5592747B2 (ja) ファイル検索装置およびファイル検索プログラム
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2008234078A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
JPWO2012053509A1 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
JP6787755B2 (ja) 文書検索装置
US20170116180A1 (en) Document analysis system
KR20080082985A (ko) 데이터 파일 조작 방법 및 장치
JP2009098829A (ja) 漫画のコマ検索装置
KR20090049433A (ko) 색상 키워드를 이용한 검색 방법 및 시스템
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP6970867B1 (ja) 検索装置、検索方法、およびプログラム
JP2013077084A (ja) 文例辞書生成プログラム及び文例辞書生成装置
JP4344207B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP4489828B1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2000315210A (ja) 文書管理システムおよび文書管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant