CN102467544B - 基于空间模糊编码的信息智能搜索方法及系统 - Google Patents

基于空间模糊编码的信息智能搜索方法及系统 Download PDF

Info

Publication number
CN102467544B
CN102467544B CN201010545648.9A CN201010545648A CN102467544B CN 102467544 B CN102467544 B CN 102467544B CN 201010545648 A CN201010545648 A CN 201010545648A CN 102467544 B CN102467544 B CN 102467544B
Authority
CN
China
Prior art keywords
information
index table
hash index
chinese
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010545648.9A
Other languages
English (en)
Other versions
CN102467544A (zh
Inventor
徐锐
冯克威
何聪
张达来
赵江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201010545648.9A priority Critical patent/CN102467544B/zh
Publication of CN102467544A publication Critical patent/CN102467544A/zh
Application granted granted Critical
Publication of CN102467544B publication Critical patent/CN102467544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于空间模糊编码的信息智能搜索方法及系统,该方法包括:对输入的编码串进行分解,获取编码串的拆分组合序列;根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表;从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集;根据预先定制的优先级顺序对信息记录集进行排序。本发明突破以往企业信息搜索技术的传统模式,将拼音编码分词算法引入,大大提高了信息搜索的效率,能自动、高效地实现企业海量级信息搜索。进一步的,利用本地的GIS地理信息库,把GIS地理信息库中的各图层地理信息的POI点和面加载到搜索引擎中,解决了在现有查询平台无法查询周边企业信息的问题。

Description

基于空间模糊编码的信息智能搜索方法及系统
技术领域
本发明涉及计算机信息搜索技术领域,尤其涉及一种基于空间模糊编码的信息智能搜索方法及系统。
背景技术
在信息搜索领域,目前主要还是基于精确匹配输入字符的原理进行搜索。对于单个字段的搜索,查询条件可以带星号或百分号等通配符,但是除通配符外的字符要全部匹配才能被搜索到,输入的字符串匹配长度越长,则在查询结果中,其排序的位置就越靠前。对于基于全文的搜索,需要对录入的商户/企业信息所包含的全部字段都进行搜索。整个查询原理及其过程没有任何人工智能因素存在。
当前,商用的搜索需求对搜索引擎的要求越来越高,如114话务员基础查号的搜索,其要求搜索引擎具有能自动识别自然语义词条的人工智能的识别功能,而对于非自然语义词条的字符串查询结果,则不需要被搜索到。举例来说,输入“%FY%”进行搜索,虽然词条“股份有限公司”是匹配的,但是不符合自然语义,所以不需要把“股份有限公司”放在搜索结果集的前面。旧的搜索引擎原理不符合人工智能的查询需求,亟待进一步完善。
此外,目前的商用搜索引擎都基于全文搜素的,无法提供基于GIS地理信息库(Geographic Information System)的空间和周边搜索的功能。
综上所述,如何基于模糊编码的信息,提供更加智能搜索的方法及系统成为本领域亟待解决的技术问题。
发明内容
本发明要解决的一个技术问题是提供一种基于空间模糊编码的信息智能搜索方法及系统,查询者在输入框中输入搜索词条后即可快速查询到目标信息。
进一步的,本发明提供的基于空间模糊编码的信息智能查询方法及系统结合了地理信息的空间搜索引擎和智能编码搜索引擎,解决了在现有查询平台无法查询周边企业信息的问题。
本发明的一个方面提供了一种基于空间模糊编码的信息智能搜索方法,该方法包括:对输入的编码串进行分解,获取编码串的拆分组合序列;根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表;从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集;根据预先定制的优先级顺序对信息记录集进行排序。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:预先建立哈希索引表,哈希索引表包括分词哈希索引表和条目信息哈希索引表。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:对输入的中文信息执行中文预处理。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,中文预处理包括:过滤重复和/或无实际含义的中文部分;根据现有分词词库或普通词库,对中文信息进行人工分词或自动分词;以及对分词后的中文部分进行拼音编码。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:预先设置拼音编码的权重;以及对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:将GIS地理信息库中的各图层地理信息的POI点和面加载到搜索引擎中;在执行周边搜索时,计算出区域内符合条件的商户/企业的直线距离;将搜索的商户/企业信息组装,并输出组装后的结果信息。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,条目信息哈希索引表选自商家信息哈希索引表或货品信息哈希索引表;其中,商家信息哈希索引表包括:商户代码、名称、业务类型、拍出次数中的至少任意一个字段。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,信息记录集包括:商户代码、匹配中文、匹配度、权重之和、业务权重、拍出次数、名称长度中的至少任意一种属性。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新信息记录集。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:按照预先设置的优先级,对信息记录集进行筛选。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,该方法还包括:根据对信息记录集的排序结果,查询条目信息哈希索引表,获取并输出完整的商家信息结果。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,优先级中,匹配度和权重之和具有较高的优先级,名称长度、业务权重、拍出次数的权重依次次之。
本发明的另一个方面提供了一种基于空间模糊编码的信息智能搜索系统,该系统包括:搜索服务器,具有搜索引擎,用于对输入的编码串进行分解,获取编码串的拆分组合序列;根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表;从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集;根据预先定制的优先级顺序对信息记录集进行排序;索引服务器,用于存储预先建立的分词哈希索引表、条目信息哈希索引表,以及临时哈希索引表;数据库服务器,用于存储与条目信息哈希索引表关联的完整条目信息。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,搜索引擎还用于对输入的中文信息执行中文预处理,包括:过滤重复和/或无实际含义的中文部分;根据现有分词词库或普通词库,对中文信息进行人工分词或自动分词;以及对分词后的中文部分进行拼音编码。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,搜索引擎还用于预先设置拼音编码的权重;以及对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,该系统还包括:空间搜索引擎,用于加载GIS地理信息库中的各图层地理信息的POI点和面;在执行周边搜索时,计算出区域内符合条件的商户/企业的直线距离;将搜索的商户/企业信息组装,并输出组装后的结果信息。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,条目信息哈希索引表选自商家信息哈希索引表或货品信息哈希索引表;其中,商家信息哈希索引表包括:商户代码、名称、业务类型、拍出次数中的至少任意一个字段。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,信息记录集包括:商户代码、匹配中文、匹配度、权重之和、业务权重、拍出次数、名称长度中的至少任意一种属性。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,搜索服务器还用于检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新信息记录集。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,优先级中,匹配度和权重之和具有较高的优先级,名称长度、业务权重、拍出次数的权重依次次之。
本发明供的基于空间模糊编码的信息智能搜索方法及系统,本发明提供的基于空间模糊编码的信息智能搜索方法及系统,针对人工智能在信息搜索领域的实际应用,提出了一种基于拼音编码分词算法的过滤技术;该技术突破以往企业信息搜索技术的传统模式,将拼音编码分词算法引入,大大提高了信息搜索的效率,能自动、高效地实现企业海量级信息搜索。
附图说明
图1示出本发明实施例提供的一种基于空间模糊编码的信息智能搜索方法的流程图;
图2示出本发明提供的基于空间模糊编码的信息智能搜索方法的另一个实施例的流程图;
图3示出本发明提供的中文预处理流程的流程图;
图4示出本发明提供的创建哈希索引表的流程图;
图5示出本发明提供的基于空间模糊编码的信息智能搜索方法的一个具体实施方式的流程图;
图6示出本发明实施例提供的一种基于空间模糊编码的信息智能搜索系统的结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1示出本发明实施例提供的一种基于空间模糊编码的信息智能搜索方法的流程图。
如图1所示,基于空间模糊编码的信息智能搜索方法流程100包括:
步骤102,对输入的编码串进行分解,获取编码串的拆分组合序列。例如,对输入的编码串nbyhhw进行分解,得到可能的拆分组合序列如下:
1.NBYHHW;南北药行海文
2.NB YHHW;南北药行海文
3.NB YH HW;南北药行海文
4.NB YHH;(丢弃W,容错,需数据支持)南北药行海
5.NBY HH;(丢弃W,容错,需数据支持)南北药行海
6.NBY HHW;南北药行海文
7.NB HH;(丢弃Y和W,容错,需数据支持)南北海文
8.NB HHW(丢弃Y,容错,需数据支持)南北行海文
9.NBYH HW;南北药行海文
10.NBY HW;(丢弃H,容错,需数据支持)南北药行海
11.NBYHH;(丢弃W,容错,需数据支持),南北药行海
执行以上拆分组合需要提供相应的数据支持,其耗时在0~3ms以内。
步骤104,根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表。例如,获取前述所有拆分的“单词”,并建立临时哈希索引表,如表1所示。
表1录入“nbyhhw”分解后的临时哈希索引表
该步骤可以避免重复在哈希索引表中的重复检索,以便进一步加快检索的效率。此步骤耗时在0~40ms以内。
步骤106,从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集。例如,“nbyhhw”的第二个拆分组合:“NB YHHW”,它的拆分结果集直接从前述临时哈希索引表中取出“NB”和“YHHW”分别对应的分词数据,组成一个分词结果集南北药行海文。优选的,在该步骤中可以包括剔除重复数据的步骤:例如,如果“NB”对应的分词中有两个中文都是同一代码,则应该判断保留哪一个;南北泥巴“南北”在RUIO中的U集存在,则权重为1,泥巴不在U集中存在,权重为0,所以应保留“南北”。
随后将这个分词结果集组装成信息记录集,例如某商家记录集,其每条数据的属性如表2所示。
表2某商家记录集所包含的数据属性
优选的,方法还包括:检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新信息记录集。例如,如果“nbyhhw”的第一个拆分组合“NBYHHW”找到一个商家XX,匹配度为4;第二个拆分组合“NB YHHW”又找出这个商家XX,匹配度为5,则只保留匹配度为5这条记录。
举例来说:NBYHHW;如:南北药行海王店,匹配度是6,匹配中nbyhhw(这个词条刚好完全匹配,所以匹配度即为字符长度)。
以“NB YHHW”为例:
南北小吃店(假设有这个商家名)=》匹配度是2,只匹配中nb;
一号海湾酒楼(假设有这个商家名)=》匹配度是4,只匹配中yhhw;
南北一号海湾酒楼(假设有这个商家名)=》匹配度是6,匹配中nb,yhhw)。
步骤108,根据预先定制的优先级顺序对信息记录集进行排序。例如,设定“匹配度+权重之和”(最高优先级-两者相加具有最高的优先级);商家名称长度(次高优先级,即在前一条件都相同的情况下,商家名称越短排序越靠前);业务权重(优先级一般)(影响,暂时去掉,业务权重由号百商家协议定价决定,主观性很强);拍出次数(优先等级最低),按照预先设置的优先级,对信息记录集进行筛选和排序。
本发明提供的一种基于空间模糊编码的信息智能搜索方法,基于自然语义词条切分的人工智能的编码搜索引擎,可以为查询者提供模糊编码搜素的功能,查询者无需记忆复杂的特殊查号编码,只根据客户提供的查询条件中的关键词,即可方便快捷地查询到经过智能信息筛选后的搜索结果。
图2示出本发明提供的基于空间模糊编码的信息智能搜索方法的另一个实施例的流程图。
如图2所示,基于空间模糊编码的信息智能搜索方法流程200包括:步骤201、202-208、210,其中步骤202-208可以分别执行与图1所示的步骤102-108相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图2所示,在步骤202之前,执行步骤201,预先建立哈希索引表,其中哈希索引表包括分词哈希索引表和条目信息哈希索引表。
例如,在内存中建立哈希索引表:根据采编库的商家信息,建立条目信息哈希索引表(包括商户代码、名称、业务类型、拍出次数等等字段),本实施例中所构建的目录数据量为33万条左右;根据分词表建立分词哈希索引表,本实施例中所构建的分词数据量为210万条左右。即总数据量在250万条左右,建完索引占用内存大约在1.5G以内。
在步骤208之后,执行步骤210,根据对信息记录集的排序结果,查询条目信息哈希索引表,获取并输出完整的商家信息结果。例如,根据步骤208对信息记录集的排序结果,查询步骤201中预先建立的条目信息哈希索引表,从而获取对应的商家的完整信息,并向用户输出该结果作为查询结果。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,对输入的编码串进行分解过程中还包括:对输入的中文信息执行中文预处理。接下来对中文预处理流程做进一步的详细介绍。
图3示出本发明提供的中文预处理流程的流程图。
如图3所示,中文预处理流程300包括:
步骤302,用户输入待检索的关键词后,加载该需要被分词的数据。
步骤304,数据显示处理,例如过滤重复和/或无实际含义的中文部分。
步骤306,判断是否需要对处理后的数据进行自动分词处理。如果手工分词,执行步骤307;否则,执行步骤308。
步骤307,根据现有分词词库或普通词库,对中文信息进行人工分词。现有分词词库即根据RUIO原则切分出的分词词库,普通词库即网上可以随意找到的中文分词词库。
步骤308,根据现有分词词库或普通词库,对中文信息进行自动分词。先把2个词库合并建立好,输入中文后系统即可自动切分。系统无法切分的词,比如说同音词,需要手动切分。
步骤310,判断是否对分词后的中文部分进行自动拼音编码。如果否,则执行步骤311;否则,执行步骤312。
步骤311,手工编码。例如,美丽音乐,天者渔具店。同音词无法系统自动编码。
步骤312,自动编码。例如,系统根据分词词库自动进行的编码
步骤314,判断是否自动保存。如果否,则执行步骤315,手动保存;否则,执行步骤316。
步骤316,同义词处理。例如,禾绿回转寿司店原名叫元绿回转寿司店。禾绿=元绿,都属于U集,hl=yl。
步骤318,保存数据。
本发明提供的对中文预处理流程的一个实施例中,预先设置拼音编码的权重(如设定:R、U、I、O等分词类型的权重;其中,R代表区域“region”,U代表未定义“undefined”,I代表工商业“industry”,O代表组织“organization”;举例来说,深圳市(R)乐安居(U)商业(I)有限公司(O)。当U的字符匹配成功,即权重为1,RIO匹配成功,权重为0);以及对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
图4示出本发明提供的创建哈希索引表的流程图。
本发明提供的基于空间模糊编码的信息智能搜索方法的一个实施例中,创建哈希索引表的流程400包括:
步骤402,加载数据。例如,记载商家数据和切分后的分词数据。
步骤404,数据冗余预处理。例如,去处冗余的分词数据。
步骤406,创建分类索引。
步骤408,判断是否执行索引的增量更新。如果是,执行步骤410;否则,执行步骤411,全量更新索引。
步骤410,增量更新索引。例如,搜索服务器检索所有拆分组合序列后,保留同一商户的信息记录中匹配度最大的一条记录,并根据该新的记录来更新信息记录集。
步骤412,索引优化。例如,去处多余的字段参加索引。
图5示出本发明提供的基于空间模糊编码的信息智能搜索方法的一个具体实施方式的流程图。
如图5所示,基于空间模糊编码的信息智能搜索方法500包括:
步骤502,输入搜索的关键字。
步骤504,判断所输入的关键字是否是中文编码混合。如果是,执行步骤506;否则,执行步骤507。
步骤506,拆分中文及编码。
步骤507,编码拆分。例如,对输入的编码串nbyhhw进行分解,得到可能的拆分组合序列如下:1.NBYHHW;2.NB YHHW;3.NBYH HW......。
步骤508,判断拆分后的是否全中文。如果是,执行步骤510;如果输入的字符如果有电话号码,则执行步骤509;否则,执行步骤507。
步骤509,输入的字符中有电话号码,则进行电话号码反查,不参与中文搜索引擎的检索。
步骤510,执行中文拆分。
步骤512,同义词处理。例如,禾绿回转寿司店原名叫元绿回转寿司店。禾绿=元绿,都属于U集,hl=yl。
步骤514,搜索引擎执行搜索。具体来说,根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表。从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集。
步骤516,判断是否进行周边搜索。如果是,执行步骤517;否则,执行步骤518。
步骤517,执行周边搜索。例如,利用某区域本地的GIS地理信息库,把该GIS地理信息库中的各图层地理信息的POI点和面加载到搜索引擎中,计算出该限定区域内各符合条件的商户/企业的直线距离。
步骤518,根据前述搜索的结果进行排序。例如,根据预先定制的优先级顺序对信息记录集进行排序,可以设定“匹配度+权重之和”的优先级>商家名称长度的优先级>业务权重的优先级>拍出次数的优先级,按照预先设置的优先级,对信息记录集进行筛选和排序。
步骤520,将排序后的结果组装成XML(可扩展标记语言,Extensible Markup Language)文件。
步骤522,向用户发送搜索结果的XML文件。
本系统在分词中做了细致的处理,在编码查询时对编码进行有效的拆分,尽可能得到拆分组合队列,并且按照业务规则(查询次数、匹配度+权重和、商家名称长度等)进行排序,快速准确的得到用户最想要的结果。与传统的搜索引擎(对于编码搜索都是精确的查找,如google和百度)比较,本系统是基于编码的模糊查找,更能准确的查找出用户想需要的信息。
图6示出本发明实施例提供的一种基于空间模糊编码的信息智能搜索系统的结构示意图。
如图6所示,基于空间模糊编码的信息智能搜索系统600包括:
搜索服务器602,具有搜索引擎6020,用于对输入的编码串进行分解,获取编码串的拆分组合序列;根据拆分组合序列,获取编码串的拆分结果,并建立临时哈希索引表;从临时哈希索引表中取出编码串拆分的分词进行检索,获取分词结果集,并将分词结果集组装成信息记录集;根据预先定制的优先级顺序对信息记录集进行排序。其中,匹配度和权重之和具有较高的优先级,名称长度、业务权重、拍出次数的权重依次次之。
索引服务器604,用于存储预先建立的分词哈希索引表、条目信息哈希索引表,以及临时哈希索引表。条目信息哈希索引表选自商家信息哈希索引表或货品信息哈希索引表;其中,商家信息哈希索引表包括:商户代码、名称、业务类型、拍出次数中的至少任意一个字段。
数据库服务器606,用于存储与条目信息哈希索引表关联的完整条目信息。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,用户通过用户设备608输入关键词,所述关键词经由接口服务器610上传给搜索服务器;搜索引擎还用于对用户输入的关键词中的中文信息执行中文预处理,包括:过滤重复和/或无实际含义的中文部分;根据现有分词词库或普通词库,对中文信息进行人工分词或自动分词;以及对分词后的中文部分进行拼音编码。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,搜索引擎还用于预先设置拼音编码的权重;以及对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
本发明提供的基于空间模糊编码的信息智能搜索系统中搜索引擎还可以进一步包括:空间搜索引擎,用于加载GIS地理信息库中的各图层地理信息的POI点和面;在执行周边搜索时,计算出区域内符合条件的商户/企业的直线距离;将搜索的商户/企业信息组装,并输出组装后的结果信息。
本发明提供的基于空间模糊编码的信息智能搜索系统的一个实施例中,搜索服务器还用于检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新信息记录集。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明具有以下优点:
1、本发明提供的基于空间模糊编码的信息智能搜索方法及系统,针对人工智能在信息搜索领域的实际应用,提出了一种基于拼音编码分词算法的过滤技术;该技术突破以往企业信息搜索技术的传统模式,将拼音编码分词算法引入,大大提高了信息搜索的效率,能自动、高效地实现企业海量级信息搜索。进一步的,通过建立中文分词及拼音编码分词词库,可以实现拼音编码与中文分词混合搜索。
2、本发明提供的基于空间模糊编码的信息智能搜索方法及系统,利用本地的GIS地理信息库,把GIS地理信息库中的各图层地理信息的POI点和面加载到搜索引擎中,计算出区域内各符合条件的商企的直线距离,巧妙的解决了在现有查询平台无法查询周边企业信息的问题。
3、本发明加载了地理信息的空间搜索引擎配合智能编码搜索引擎一起使用,方便了运营商,如深圳号百114话务员的查询,有利于提升运营商的服务,提高用户满意度。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (20)

1.一种基于空间模糊编码的信息智能搜索方法,其特征在于,所述方法包括:
对输入的拼音编码串进行分解,获取所述拼音编码串的拆分组合序列;
根据所述拆分组合序列,获取所述拼音编码串的拆分结果,并建立临时哈希索引表;
从所述临时哈希索引表中取出所述拼音编码串拆分结果对应的中文分词进行检索,获取分词结果集,并将所述分词结果集组装成信息记录集;
根据预先定制的优先级顺序对所述信息记录集进行排序。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先建立哈希索引表,所述哈希索引表包括分词哈希索引表和条目信息哈希索引表。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对输入的中文信息执行中文预处理。
4.根据权利要求3所述的方法,其特征在于,所述中文预处理包括:
过滤重复和/或无实际含义的中文部分;
根据现有分词词库或普通词库,对中文信息进行人工分词或自动分词;以及
对分词后的中文部分进行拼音编码。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
预先设置拼音编码的权重;以及
对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将GIS地理信息库中的各图层地理信息的POI点和面加载到搜索引擎中;
在执行周边搜索时,计算出区域内符合条件的商户/企业的直线距离;
将搜索的所述商户/企业信息组装,并输出组装后的结果信息。
7.根据权利要求2所述的方法,其特征在于,所述条目信息哈希索引表选自商家信息哈希索引表或货品信息哈希索引表;其中,所述商家信息哈希索引表包括:商户代码、名称、业务类型、拍出次数中的至少任意一个字段。
8.根据权利要求1所述的方法,其特征在于,所述信息记录集包括:商户代码、匹配中文、匹配度、权重之和、业务权重、拍出次数、名称长度中的至少任意一种属性。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新所述信息记录集。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:按照预先设置的优先级,对所述信息记录集进行筛选。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据对所述信息记录集的排序结果,查询条目信息哈希索引表,获取并输出完整的商家信息结果。
12.根据权利要求6所述的方法,其特征在于,所述优先级中,匹配度和权重之和具有较高的优先级,名称长度、业务权重、拍出次数的权重依次次之。
13.一种基于空间模糊编码的信息智能搜索系统,其特征在于,所述系统包括:
搜索服务器,具有搜索引擎,用于对输入的拼音编码串进行分解,获取所述拼音编码串的拆分组合序列;根据所述拆分组合序列,获取所述拼音编码串的拆分结果,并建立临时哈希索引表;从所述临时哈希索引表中取出所述拼音编码串拆分结果对应的中文分词进行检索,获取分词结果集,并将所述分词结果集组装成信息记录集;根据预先定制的优先级顺序对所述信息记录集进行排序;
索引服务器,用于存储预先建立的分词哈希索引表、条目信息哈希索引表,以及临时哈希索引表;
数据库服务器,用于存储与所述条目信息哈希索引表关联的完整条目信息。
14.根据权利要求13所述的系统,其特征在于,所述搜索引擎还用于对输入的中文信息执行中文预处理,包括:过滤重复和/或无实际含义的中文部分;根据现有分词词库或普通词库,对中文信息进行人工分词或自动分词;以及对分词后的中文部分进行拼音编码。
15.根据权利要求13所述的系统,其特征在于,所述搜索引擎还用于预先设置拼音编码的权重;以及对不同权重的拼音编码对应的中文分词在搜索结果列表进行预排序。
16.根据权利要求13所述的系统,其特征在于,所述系统还包括:空间搜索引擎,用于加载GIS地理信息库中的各图层地理信息的POI点和面;在执行周边搜索时,计算出区域内符合条件的商户/企业的直线距离;将搜索的所述商户/企业信息组装,并输出组装后的结果信息。
17.根据权利要求13所述的系统,其特征在于,所述条目信息哈希索引表选自商家信息哈希索引表或货品信息哈希索引表;其中,所述商家信息哈希索引表包括:商户代码、名称、业务类型、拍出次数中的至少任意一个字段。
18.根据权利要求13所述的系统,其特征在于,所述信息记录集包括:商户代码、匹配中文、匹配度、权重之和、业务权重、拍出次数、名称长度中的至少任意一种属性。
19.根据权利要求13所述的系统,其特征在于,所述搜索服务器还用于检索所有拆分组合序列,保留同一商户的信息记录中匹配度最大的一条记录,并更新所述信息记录集。
20.根据权利要求13所述的系统,其特征在于,所述优先级中,匹配度和权重之和具有较高的优先级,名称长度、业务权重、拍出次数的权重依次次之。
CN201010545648.9A 2010-11-16 2010-11-16 基于空间模糊编码的信息智能搜索方法及系统 Active CN102467544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010545648.9A CN102467544B (zh) 2010-11-16 2010-11-16 基于空间模糊编码的信息智能搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010545648.9A CN102467544B (zh) 2010-11-16 2010-11-16 基于空间模糊编码的信息智能搜索方法及系统

Publications (2)

Publication Number Publication Date
CN102467544A CN102467544A (zh) 2012-05-23
CN102467544B true CN102467544B (zh) 2015-01-21

Family

ID=46071187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010545648.9A Active CN102467544B (zh) 2010-11-16 2010-11-16 基于空间模糊编码的信息智能搜索方法及系统

Country Status (1)

Country Link
CN (1) CN102467544B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227618B (zh) * 2014-07-04 2018-12-04 中国移动通信集团广东有限公司 一种通信站点位置信息处理方法及系统
CN106919601B (zh) * 2015-12-25 2021-01-12 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN106126585B (zh) * 2016-06-20 2019-11-19 北京航空航天大学 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN107132931B (zh) * 2017-04-27 2020-07-17 上海梅斯医药科技有限公司 一种搜索方法及服务器
CN107220240A (zh) * 2017-06-06 2017-09-29 深圳中泓在线股份有限公司 微博微信文本中地名识别方法
WO2020133185A1 (zh) * 2018-12-28 2020-07-02 深圳市世强元件网络有限公司 电子元件配套资料查询方法、存储介质及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082936A (zh) * 2007-06-29 2007-12-05 中兴通讯股份有限公司 数据查询系统及方法
CN101320376A (zh) * 2008-07-03 2008-12-10 宇龙计算机通信科技(深圳)有限公司 一种数据库搜索方法、系统及移动通信终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300744C (zh) * 2003-12-09 2007-02-14 香港中文大学 对数字图像曝光不足的缺陷进行自动修正的方法和系统
CN101246478B (zh) * 2007-02-14 2010-08-25 高德软件有限公司 信息存储及检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082936A (zh) * 2007-06-29 2007-12-05 中兴通讯股份有限公司 数据查询系统及方法
CN101320376A (zh) * 2008-07-03 2008-12-10 宇龙计算机通信科技(深圳)有限公司 一种数据库搜索方法、系统及移动通信终端

Also Published As

Publication number Publication date
CN102467544A (zh) 2012-05-23

Similar Documents

Publication Publication Date Title
US10997678B2 (en) Systems and methods for image searching of patent-related documents
CN102467544B (zh) 基于空间模糊编码的信息智能搜索方法及系统
US8862458B2 (en) Natural language interface
CN107748803B (zh) 一种空间态势特征事件数据库设计方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN103548019A (zh) 用于根据数据仓库提供统计信息的方法和系统
CN103823799A (zh) 新一代行业知识全文检索方法
EP1342177A1 (en) Method for structuring and searching information
CN111105209A (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN106933883B (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN109684336A (zh) 基于大数据应用实现树形数据表高效检索与排序功能的系统及方法
CN108052668A (zh) 基于商品编码的智能赋码方法及系统
CN105787097A (zh) 一种基于文本聚类的分布式索引构建方法及系统
CN111506621A (zh) 一种数据统计方法及装置
WO2024065952A1 (zh) 一种遥感卫星资讯推荐方法、系统及设备
US10565188B2 (en) System and method for performing a pattern matching search
CN108228787A (zh) 按照多级类目处理信息的方法和装置
JP2004348489A (ja) 顧客データ管理システム、顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラム
CN113722460B (zh) 指标数据入库方法、装置、设备及存储介质
US8745035B1 (en) Multistage pipeline for feeding joined tables to a search system
CN112364032B (zh) 基于互联网技术的数据中台数据查询方法
US20140040302A1 (en) Method and system for developing a list of words related to a search concept
CN106372089B (zh) 确定词语位置的方法及装置
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant