CN105243086A - 一种车辆信息查询方法和装置 - Google Patents

一种车辆信息查询方法和装置 Download PDF

Info

Publication number
CN105243086A
CN105243086A CN201510568144.1A CN201510568144A CN105243086A CN 105243086 A CN105243086 A CN 105243086A CN 201510568144 A CN201510568144 A CN 201510568144A CN 105243086 A CN105243086 A CN 105243086A
Authority
CN
China
Prior art keywords
source data
data
index
information
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510568144.1A
Other languages
English (en)
Other versions
CN105243086B (zh
Inventor
陈晔
沈洪明
宋智奇
夏曙东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA TRANSINFO TECHNOLOGY CORP
Original Assignee
CHINA TRANSINFO TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA TRANSINFO TECHNOLOGY CORP filed Critical CHINA TRANSINFO TECHNOLOGY CORP
Priority to CN201510568144.1A priority Critical patent/CN105243086B/zh
Publication of CN105243086A publication Critical patent/CN105243086A/zh
Application granted granted Critical
Publication of CN105243086B publication Critical patent/CN105243086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种车辆信息查询的方法及装置。该方法包括:按照第一时间间隔增量获取源数据,根据对源数据的分词建立倒排索引信息生成内存索引;按照第二时间间隔全量获取源数据,根据对源数据的分词建立倒排索引信息生成文件索引;接收用户查询请求,从查询请求中获取关键词;按照关键词分别查询内存索引和文件索引,将从内存索引中查询到的源数据和从文件索引中查询到的源数据进行合并,生成查询结果并返回。应用本发明,可以提高查询效率,保证查询结果的一致性和完整性。

Description

一种车辆信息查询方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种车辆信息查询的方法和一种车辆信息查询的装置。
背景技术
传统的根据车牌号关键字查询车辆的方法是通过数据库表字段建立索引的方式进行过滤匹配查询。例如:在车辆信息表中查询车牌号匹配“京A123”关键字的车辆,通过SQL语句(如“SELECT车牌号FROM车辆表WHERE车牌号LIKE‘%京A123%’;”)进行查询。即按照查询语句对全表进行扫描,取出每行数据的指定字段值,与关键字进行匹对,如果包含指定的关键字则将该条数据保存到返回结果集,如果不包含关键字则不保存到返回结果集。
但是,上述这种方式查询需要扫描全表,因此查询效率低、数据量越大耗时越多。
发明内容
本发明实施例所要解决的技术问题是提供一种车辆信息查询方法,解决车辆信息查询效率低,耗时多的问题。。
相应的,本发明实施例还提供了一种车辆信息查询装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种车辆信息查询的方法,所述的方法包括:按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码;按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引;接收用户查询请求,从所述查询请求中获取关键词;按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
优选的,按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息;确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息。
优选的,对所述源数据中各字符进行拆分,基于拆分结果生成所述源数据的至少一个原始分词数据,将原始分词数据添加到分词信息中,其中,所述分词信息包括以下至少一项:拆分字符、相邻拆分字符组合得到的字符串。
优选的,对所述原始分词数据中汉字字符进行转换,将转换得到的全拼字符替换对应汉字字符生成全拼分词数据,并将转换得到的简拼字符替换对应汉字字符生成简拼分词数据,将所述全拼分词数据和简拼分词数据添加到分词信息中。
优选的,将各分词信息按预定进制进行转换,对转换的分词信息进行排序;针对排序后的的分词信息,生成所述排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括所述排序后的分词信息对应各源数据的数据地址;按照分词信息和对应的数据地址列表生成倒排索引信息。
优选的,在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;分别从各数据地址中读取相应的源数据。
优选的,将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据;对所述前N位源数据进行编码生成预置格式的查询结果,其中,预置格式包括:JSON或XML格式;返回所述查询结果。
本发明实施例还公开了一种车辆信息查询的装置,所述的装置包括:索引生成模块,用于按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码,以及按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引;关键词获取模块,用于接收用户查询请求,从所述查询请求中获取关键词;查询模块,用于按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
优选的,分词处理子模块,用于按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息;索引创建子模块,用于确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息。
优选的,原始字符拆分单元,用于对所述源数据中各字符进行拆分,基于拆分结果生成所述源数据的至少一个原始分词数据,将原始分词数据添加到分词信息中,其中,所述分词信息包括以下至少一项:拆分字符、相邻拆分字符组合得到的字符串。
优选的,全拼字符拆分单元,用于对所述原始分词数据中汉字字符进行转换,将转换得到的全拼字符替换对应汉字字符生成全拼分词数据,将所述全拼分词数据添加到分词信息中;简拼字符拆分单元,用于对所述原始分词数据中汉字字符进行转换,将转换得到的简拼字符替换对应汉字字符生成简拼分词数据,将所述简拼分词数据添加到分词信息中。
优选的,排序单元,用于将各分词信息按预定进制进行转换,对转换的分词信息进行排序;地址生成单元,用于针对排序后的的分词信息,生成所述排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括所述排序后的分词信息对应各源数据的数据地址;索引生成单元,用于按照分词信息和对应的数据地址列表生成倒排索引信息。
优选的,索引查询子模块,用于在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;以及在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;读取子模块,用于分别从各数据地址中读取相应的源数据。
优选的,排序子模块,用于将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据;编码子模块,对所述前N位源数据进行编码生成预置格式的查询结果,其中,预置格式包括:JSON或XML格式;返回结果子模块,返回所述查询结果。
与现有技术相比,本发明实施例包括以下优点:
本申请提供的车辆信息查询的方法通过对源数据进行分词,创建倒排索引信息,生成内存索引和文件索引,这样在接收用户查询请求时,根据关键词在内存索引和文件索引中进行模糊匹配查询从而快速查询到源数据。这种查询方法可以在大数据量情景下通过关键字进行模糊查询,达到毫秒响应,查询效率高,并且保证了查询结果的一致性和完整性。
附图说明
图1是本发明的一种车辆信息查询方法实施例的步骤流程图;
图2是本发明的另一种车辆信息查询方法实施例索引建立的步骤流程图;
图3是本发明实施例提供的节点树的拓扑结构示意图;
图4是本发明的另一种车辆信息查询方法实施例基于索引文件的查询的步骤流程图;
图5是本发明的一种车辆信息查询装置实施例的结构框图;
图6是本发明的另一种车辆信息查询装置实施例的结构框图;
图7是本发明另一种车辆信息查询装置实施例中索引创建子模块的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提供一种车辆信息查询的方法和装置,通过对源数据进行分词,创建倒排索引信息,生成内存索引和文件索引。这样在接收用户查询请求时,根据关键词在内存索引和文件索引中进行模糊匹配查询从而快速查询到源数据。这种查询方法可以在大数据量情景下通过关键字进行模糊查询,达到毫秒响应,查询效率高,并且保证了查询结果的一致性和完整性。
实施例一
详细介绍本发明实施例的车辆信息查询方法。
参照图1,示出了本发明的一种车辆信息查询方法实施例的步骤流程图,具体可以包括如下步骤:
S102、按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引。
数据库中存储有车辆信息相关的源数据,如车牌号码、车辆行驶证号码、驾驶证号码等各种车辆相关数据。为了便于用户准确、快速的查询数据,本实施例针对源数据设置了索引信息,该索引信息包括:内存索引和文件索引。
本实施例设定第一时间间隔用于增量获取源数据建立内存索引,第一时间间隔可以依据需求设定,如设置为10分钟、1小时等较短的时间间隔,在达到第一时间间隔后,从数据库中获取该第一时间间隔内新增的源数据,其中源数据由字符串构成,可以对所述源数据中字符串进行拆分,生成分词信息,根据分词信息创建倒排索引信息生成内存索引。
S104、按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引。
本实施例为保证数据的完整性,还设定了用于全量获取源数据建立文件索引的第二时间间隔,其中第二时间间隔大于第一时间间隔,如设置为24小时,在达到第二时间间隔时从数据库中获取所有的源数据。对源数据中字符串进行拆分,生成分词信息,根据分词信息创建倒排索引信息生成文件索引。
S106、接收用户查询请求,从所述查询请求中获取关键词。
用户在查询车辆相关数据时可以基于关键词生成查询请求,例如通过一个基于超文本传送协议(HTTP-Hypertexttransferprotocol,HTTP)的web服务生成查询请求,在接收到查询请求后,可以从该查询请求中获取至少一个关键词。
S108、按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
在采用关键词进行查询前,需要对输入的关键词进行分析处理,例如过滤其中的噪声等,然后采用各关键词分别查询内存索引和文件索引,从内存索引和文件索引中可以分别查找到与所述关键词匹配的源数据,由于内存索引是基于增量数据生成的,而文件索引是基于全量数据生成的,因此从两个索引中分别查询到的源数据可以相同或不同,因此可以将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,如删除重复的源数据即每个源数据保存一个即可。合并源数据后生成查询结果,然后将查询结果返回用户。
综上所述,通过增量和全量的方式获取源数据,保证数据的一致性和完整性,然后对源数据进行分词创建倒排索引信息,分别生成内存索引和文件索引,这样在接收用户查询请求时,根据关键词在内存索引和文件索引中进行模糊匹配查询从而快速查询到源数据,这种查询方法可以在大数据量情景下通过关键字进行模糊查询,达到毫秒响应,查询效率高。
实施例二
详细介绍本发明实施例的车辆信息查询方法,其中车辆信息查询包括查询前索引文件的建立,以及基于索引文件的查询步骤。
1)索引文件的建立
参照图2,示出了本发明的另一种车辆信息查询方法实施例索引建立的步骤流程图,具体可以包括如下步骤:
S202、按照第一时间间隔增量获取源数据。
本实施例设定第一时间间隔用于增量获取源数据建立内存索引,第一时间间隔可以依据需求设定,如设置为10分钟、1小时等较短的时间间隔,在达到第一时间间隔后,从数据库中获取该第一时间间隔内新增的源数据。
S204、按照第二时间间隔全量获取源数据。
本实施例为保证数据的完整性,还设定了用于全量获取源数据建立文件索引的第二时间间隔,其中第二时间间隔大于第一时间间隔,如设置为24小时,在达到第二时间间隔时从数据库中获取所有的源数据。
S206、对所述源数据中各字符进行拆分,基于拆分结果生成所述源数据的至少一个原始分词数据,将原始分词数据添加到分词信息中,其中,所述分词信息包括以下至少一项:拆分字符、相邻拆分字符组合得到的字符串。
源数据由字符串构成,故可以对源数据进行拆分。假设该字符串由n个字符组成,对字符串中的各字符进行拆分,拆分成单独的字符,将相邻拆分字符组成字符串,依次生成由2到n个字符组成的组合字符串,单独的字符与组合字符串构成原始分词数据。将原始分词数据添加到分词信息中。
例如:对一个车牌号“京NK3662”的源数据进行拆分,拆分成以下至少一个分词信息:京、京N、京NK、京NK3、京NK36、京NK366、京NK3662、N、NK、NK3、NK36、NK366、NK3662、K、K3、K36、K366、K3662、3、36、366、3662、6、66、662、6、62、2。
S208、对所述原始分词数据中汉字字符进行转换,将转换得到的全拼字符替换对应汉字字符生成全拼分词数据。
用户查询车辆信息时,可能输入车辆信息中汉字的拼音或者拼音的首字母进行查询,为了便于用户准确的查询数据,本实施例设置的分词信息中还添加了:全拼分词数据和简拼分词数据。
将所述原始分词数据中汉字字符用拼音字母表示,转换成由拼音字母表示的全拼字符,将字母字符替换汉字字符,生成全拼分词数据。
例如,对上述车牌号“京NK3662”的源数据进行拆分确定原始分词数据后,获取“京”的全拼字符“jing”,则对应全拼分词数据包括:jing、jingN、jingNK、jingNK3、jingNK36、jingNK366、jingNK3662、N、NK、NK3、NK36、NK366、NK3662、K、K3、K36、K366、K3662、3、36、366、3662、6、66、662、6、62、2。
S210、对所述原始分词数据中汉字字符进行转换,将转换得到的简拼字符替换对应汉字字符生成简拼分词数据。
将所述原始分词数据中汉字字符用拼音表示,只保留拼音的首字母,转换成字母字符,生成简拼分词数据。
例如,对上述车牌号“京NK3662”的源数据进行拆分确定原始分词数据后,获取“京”简拼字符“j”,则对应简拼分词数据包括:j、jN、jNK、jNK3、jNK36、jNK366、jNK3662、N、NK、NK3、NK36、NK366、NK3662、K、K3、K36、K366、K3662、3、36、366、3662、6、66、662、6、62、2。
S212、将分词信息按预定进制进行转换,对转换的分词信息进行排序。
由于分词信息的数据量很大,为了便于后续查找到与输入关键词匹配的分词信息,可以对上述步骤生成的分词信息进行排序,首先将各分词信息按预定进制进行转换,如按照二进制、十进制或十六进制进行转换。对转换后的分词信息进行排序,对多个相同的分词信息只保留一个,同时合并对应的源数据,针对合并后的分词信息列表。基于该分词信息列表创建一棵节点树,如多路搜索B-树(B-Tree),B-树的拓扑结构如图3所示。在叶子节点上保存所有分词信息,具体创建过程如下:
假设转换后的分词信息是按升序排序的,根据分词信息列表中分词信息的数值如转换为十六进制后的数值,从第一个分词信息对应数值到最后一个分词信息对应数值确定出相应的数值范围,该数值范围包含所有的分词信息数值。在B-树的根节点中存储该数值范围,将该数值范围等分为多个数值范围,如二等分,将多个数值范围分别存储在第二层节点中。依次往下类推,直到最后一层叶子节点,按数值范围存放相应的分词信息,树的层数可以依需求设定。
如图3所示,若分词信息列表中分词信息的范围是0-100,根节点中存储0-100,将该数值范围二等分为两个数值范围0-50和51-100,将这两个数值范围存储在第二层节点中,依次类推,直到在叶子节点中存放所有分词信息。
S214、针对排序后的分词信息,生成排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括排序后的分词信息对应各源数据的数据地址。
排序后的每个分词信息,对应至少一个源数据。针对排序后的分词信息,针对对应的至少一个源数据生成数据地址列表。其中,数据地址列表包括一个具体的数据地址和多个偏移地址,每一个数据地址用于存储一个源数据,数据列表中的偏移地址用于表征该实际数据地址相对于具体的数据地址的偏移量,因此基于该具体的数据地址和偏移地址即可查找到对应实际的数据地址,确定相应的源数据。
S216、按照分词信息和对应的数据地址列表生成倒排索引信息。
S218、针对给增量的源数据进行分词处理后得到的倒排索引信息,生成内存索引。
针对前述按照第一时间间隔增量获取的源数据,根据分词信息创建分词信息区,根据对应的数据地址列表创建数据地址区,分词信息区和数据地址区构成倒排索引信息。生成的倒排索引信息写入内存中,生成内存索引。
S220、针对给全量的源数据进行分词处理后得到的倒排索引信息,生成文件索引。
针对前述按照第二时间间隔全量获取的源数据,根据分词信息创建分词信息区,根据对应的数据地址列表创建数据地址区,分词信息区和数据地址区构成倒排索引信息。生成的倒排索引信息写入磁盘文件中,生成文件索引。
针对前述按照两种时间间隔获取的源数据,应生成两种倒排索引信息:内存索引和文件索引。
综上所述,将源数据拆分成原始分词信息、全拼分词信息和简拼分词信息,可以支持不连续关键字查询、汉字通过拼音全拼或简拼查询,为用户通过关键词查询车辆信息提供便利。
2)基于索引文件的查询
详细介绍本发明实施例公开的一种根据关键词查询源数据的方法。
参照图4,示出了本发明的另一种车辆信息查询方法实施例基于索引文件的查询的步骤流程图,具体可以包括如下步骤:
S402、接收用户查询请求,从所述查询请求中获取关键词。
用户输入查询请求,例如通过一个基于HTTP的web服务输入查询请求。查询请求内容包括:关键词、数据类型、返回格式等。关键词包括汉字、字母、数字字符,数据类型包括车牌号、许可证号等。
从查询请求中提取出关键词,对输入的关键词进行分析处理。由于输入的关键词可能包含汉字等各种字符,在网络传输中为了便于识别和处理,需要以统一的格式发送给服务器,故需要先进行转换编码,例如网络传输前将关键词中的汉字转换为统一资源定位符(UniformResourceLocator,URL)编码,其中URL编码指的是浏览器用来打包表单输入的格式,从而服务器接收到URL编码后进行解码还原成相应的汉字。其中,输入的关键词中可能包含一些非法字符,因此可以对关键词中非法字符进行过滤,例如将#¥%…*等特殊符号作为非法字符,对关键词含有的非法字符进行过滤。其中,用户查询请求中包括请求参数,该请求参数包括关键词、数据类型和返回格式,需要将请求参数的各部分组合,格式化为查询搜索模块可识别的查询语句,例如将关键词和数据类型组合成“+vclno:JA123+typpe:1”。
S404、在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址。
对第一时间间隔增量源数据进行分词处理后,生成内存索引。内存索引包含分词信息区和数据地址区。将上述分析处理完的可用关键词按预定进制进行转换,如按照二进制、十进制或十六进制进行转换。在内存索引分词信息区中的B-树上进行查找。假设转换后的分词信息是按升序排序的,查找B-树的第二层节点中存储的数值范围,看属于哪个节点存储的数值范围,再到该节点的子节点存储的数值范围中查找,依次类推,直到查找到叶子节点。取出叶子节点中的分词信息,获取对应的地址列表,确定源数据的数据地址。
S406、在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址。
对第二时间间隔全量源数据进行分词处理,生成文件索引。文件索引包含分词信息区和数据地址区。将上述分析处理完的可用关键词在文件索引分词信息区中的B-树上按照上述步骤进行查找,查到叶子节点取出该节点上对应的分词信息的地址列表,确定源数据的数据地址。
S408、分别从各数据地址中读取相应的源数据。
根据内存索引和文件索引中确定的数据地址,读取出对应地址上的源数据。
S410、将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并;将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据。
由于内存索引是基于增量数据生成的,而文件索引是基于全量数据生成的,因此从两个索引中分别查询到的源数据可以相同或不同,因此可以将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,如删除重复的源数据即每个源数据保存一个即可。将合并后的源数据按与关键词的匹配度由高到低排序,匹配度包括关键词在源数据中出现的频度等。随着用户输入的关键词包含的字符越多匹配度越高,返回结果越少越精确。筛选排在前N位的源数据。
S412、对所述前N位源数据进行编码生成预置格式的查询结果。
返回所述查询结果。
预置格式是让用户指定网络传输查询结果的协议格式,例如预置格式包括:轻量级的数据交换格式(JavaScriptObjectNotation,JSON)和可扩展的标识语言(eXtensibleMarkupLanguage,XML)返回格式。对所述前N位源数据进行编码转换生成预置格式得到转换结果,依据转换结果生成相应的查询结果,返回所述查询结果。
综上所述,查询请求内容包括数据类型和返回格式,通过设定数据类型,用户不仅可以查询车牌号,还可以选择查询其他车辆信息,丰富查询内容。通过设定返回格式,增加了返回格式的多样性。通过将合并后的源数据按匹配度由高到低进行排序,增加查询结果的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
参照图5,示出了本发明一种车辆信息查询装置实施例的结构框图,所述一种车辆信息查询的装置,具体可以包括如下模块:
索引生成模块502,关键词获取模块504,以及,查询模块506。
下面分别介绍各模块的功能以及各模块之间的关系。
索引生成模块502,用于按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码;用于按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引。
关键词获取模块504,用于接收用户查询请求,从所述查询请求中获取关键词。
查询模块506,用于按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
综上所述,通过增量和全量的方式获取源数据,保证数据的一致性和完整性,然后对源数据进行分词创建倒排索引信息,分别生成内存索引和文件索引,这样在接收用户查询请求时,根据关键词在内存索引和文件索引中进行模糊匹配查询从而快速查询到源数据,这种查询方法可以在大数据量情景下通过关键词进行模糊查询,达到毫秒响应,查询效率高。
参照图6,示出了本发明另一种车辆信息查询装置实施例的结构框图。
索引生成模块602,用于按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码,以及按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引。
本发明一个可选实施例中,所述索引生成模块602包括:分词处理子模块60202和索引创建子模块60204,其中:
分词处理子模块60202,用于按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息。
索引创建子模块60204,用于确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息。
如图7,所述索引创建子模块60204包括:排序单元602042、地址生成单元602044和索引生成单元602046,其中:
排序单元602042,用于将各分词信息按预定进制进行转换,对转换的分词信息进行排序。
地址生成单元602044,用于针对排序后的的分词信息,生成所述排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括所述排序后的分词信息对应各源数据的数据地址。
索引生成单元602046,用于按照分词信息和对应的数据地址列表生成倒排索引信息。
关键词获取模块604,用于接收用户查询请求,从所述查询请求中获取关键词。
查询模块606,用于按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
本发明另一个可选实施例中,查询模块606包括:索引查询子模块60602、读取并合并子模块60604、排序子模块60606、编码子模块60608和返回结果子模块60610,其中:
索引查询子模块60602,用于在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;以及在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址。
读取并合并子模块60604,用于分别从各数据地址中读取相应的源数据,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并。
排序子模块60606,用于将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据。
编码子模块60608,对所述前N位源数据进行编码生成预置格式的查询结果,其中,预置格式包括:JSON或XML格式。
返回结果子模块60610,返回所述查询结果。
综上所述,首先,将源数据拆分成原始分词信息、全拼分词信息和简拼分词信息,可以支持不连续关键字查询、汉字通过拼音全拼或简拼查询,为用户通过关键词查询车辆信息提供便利。
其次,查询请求内容包括数据类型和返回格式,通过设定数据类型,用户不仅可以查询车牌号,还可以选择查询其他车辆信息,丰富查询内容。通过设定返回格式,增加了返回格式的多样性。通过将合并后的源数据按匹配度由高到低进行排序,增加查询结果的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种车辆信息查询方法和一种车辆信息查询装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种车辆信息查询方法,其特征在于,该方法包括:
按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码;
按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引;
接收用户查询请求,从所述查询请求中获取关键词;
按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
2.根据权利要求1所述的方法,其特征在于,所述根据对所述源数据的分词建立倒排索引信息的步骤,包括:
按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息;
确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息。
3.根据权利要求2所述的方法,其特征在于,所述按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息,包括:
对所述源数据中各字符进行拆分,基于拆分结果生成所述源数据的至少一个原始分词数据,将原始分词数据添加到分词信息中,其中,所述分词信息包括以下至少一项:拆分字符、相邻拆分字符组合得到的字符串。
4.根据权利要求3所述的方法,其特征在于,还包括:
对所述原始分词数据中汉字字符进行转换,将转换得到的全拼字符替换对应汉字字符生成全拼分词数据,并将转换得到的简拼字符替换对应汉字字符生成简拼分词数据,将所述全拼分词数据和简拼分词数据添加到分词信息中。
5.根据权利要求2所述的方法,其特征在于,所述确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息,包括:
将各分词信息按预定进制进行转换,对转换的分词信息进行排序;
针对排序后的的分词信息,生成所述排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括所述排序后的分词信息对应各源数据的数据地址;
按照分词信息和对应的数据地址列表生成倒排索引信息。
6.根据权利要求5所述的方法,其特征在于,所述按照关键词分别查询所述内存索引和文件索引,包括:
在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;
在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;
分别从各数据地址中读取相应的源数据。
7.根据权利要求1所述的方法,其特征在于,所述生成查询结果并返回包括:
将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据;
对所述前N位源数据进行编码生成预置格式的查询结果,其中,预置格式包括:JSON或XML格式;
返回所述查询结果。
8.一种车辆信息查询装置,其特征在于,所述装置包括:
索引生成模块,用于按照第一时间间隔增量获取源数据,根据对所述源数据的分词建立倒排索引信息生成内存索引,其中,源数据包括车牌号码,以及按照第二时间间隔全量获取源数据,根据对所述源数据的分词建立倒排索引信息生成文件索引;
关键词获取模块,用于接收用户查询请求,从所述查询请求中获取关键词;
查询模块,用于按照关键词分别查询所述内存索引和文件索引,将从所述内存索引中查询到的源数据和从所述文件索引中查询到的源数据进行合并,生成查询结果并返回。
9.根据权利要求8所述的装置,其特征在于,所述索引生成模块包括:
分词处理子模块,用于按照预置规则对源数据进行分词处理,确定每个源数据对应的至少一个分词信息;
索引创建子模块,用于确定每个分词信息对应的至少一个源数据,基于所述分词信息和对应的源数据创建倒排索引信息。
10.根据权利要9所述的装置,其特征在于,所述分词处理子模块包括:
原始字符拆分单元,用于对所述源数据中各字符进行拆分,基于拆分结果生成所述源数据的至少一个原始分词数据,将原始分词数据添加到分词信息中,其中,所述分词信息包括以下至少一项:拆分字符、相邻拆分字符组合得到的字符串。
11.根据权利要10所述的装置,其特征在于,所述分词处理子模块,还包括:
全拼字符拆分单元,用于对所述原始分词数据中汉字字符进行转换,将转换得到的全拼字符替换对应汉字字符生成全拼分词数据,将所述全拼分词数据添加到分词信息中;
简拼字符拆分单元,用于对所述原始分词数据中汉字字符进行转换,将转换得到的简拼字符替换对应汉字字符生成简拼分词数据,将所述简拼分词数据添加到分词信息中。
12.根据权利要求9所述的装置,其特征在于,所述索引创建子模块包括:
排序单元,用于将各分词信息按预定进制进行转换,对转换的分词信息进行排序;
地址生成单元,用于针对排序后的的分词信息,生成所述排序后的分词信息对应的数据地址列表,其中,所述数据地址列表中包括所述排序后的分词信息对应各源数据的数据地址;
索引生成单元,用于按照分词信息和对应的数据地址列表生成倒排索引信息。
13.根据权利要求12所述的装置,其特征在于,所述查询模块,包括:
索引查询子模块,用于在所述内存索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;以及在所述文件索引中查询与所述关键词匹配的分词信息,依据所述分词信息对应的数据地址列表确定源数据的数据地址;
读取子模块,用于分别从各数据地址中读取相应的源数据。
14.根据权利要求8所述的装置,其特征在于,所述查询模块,包括:
排序子模块,用于将合并后的源数据按匹配度由高到低的排序顺序进行排序,筛选排在前N位源数据;
编码子模块,对所述前N位源数据进行编码生成预置格式的查询结果,其中,预置格式包括:JSON或XML格式;
返回结果子模块,返回所述查询结果。
CN201510568144.1A 2015-09-08 2015-09-08 一种车辆信息查询方法和装置 Active CN105243086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510568144.1A CN105243086B (zh) 2015-09-08 2015-09-08 一种车辆信息查询方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510568144.1A CN105243086B (zh) 2015-09-08 2015-09-08 一种车辆信息查询方法和装置

Publications (2)

Publication Number Publication Date
CN105243086A true CN105243086A (zh) 2016-01-13
CN105243086B CN105243086B (zh) 2019-04-12

Family

ID=55040735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510568144.1A Active CN105243086B (zh) 2015-09-08 2015-09-08 一种车辆信息查询方法和装置

Country Status (1)

Country Link
CN (1) CN105243086B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220341A (zh) * 2017-05-26 2017-09-29 北京中电普华信息技术有限公司 一种日志分析方法及日志分析系统
CN107808006A (zh) * 2017-11-16 2018-03-16 中国工商银行股份有限公司 基于大数据量的模糊查询方法、设备以及系统
CN107992569A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 数据访问方法、装置、电子设备及计算机可读存储介质
CN109241360A (zh) * 2018-08-21 2019-01-18 阿里巴巴集团控股有限公司 组合字符串的匹配方法及装置和电子设备
CN110019408A (zh) * 2017-12-29 2019-07-16 北京奇虎科技有限公司 一种用于追溯数据状态的方法、装置及计算机设备
CN110019260A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种用户数据的更新方法及相关设备
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111127071A (zh) * 2019-11-11 2020-05-08 深圳市元征科技股份有限公司 车辆信息管理方法、装置、服务器及存储介质
CN111400253A (zh) * 2020-03-17 2020-07-10 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111506628A (zh) * 2020-04-22 2020-08-07 中国民航信息网络股份有限公司 数据处理方法及装置
CN111612015A (zh) * 2020-05-26 2020-09-01 创新奇智(西安)科技有限公司 车辆识别方法、装置及电子设备
CN111914105A (zh) * 2019-05-08 2020-11-10 青岛海信移动通信技术股份有限公司 文件查询方法、装置及电子设备
CN112241407A (zh) * 2020-09-11 2021-01-19 重庆锐云科技有限公司 高尔夫球场会员数据处理方法、客户管理系统及存储介质
CN113641731A (zh) * 2021-08-17 2021-11-12 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质
CN114490917A (zh) * 2020-11-11 2022-05-13 北京神州泰岳软件股份有限公司 一种全文检索功能的实现方法、装置与电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049731A1 (en) * 2000-05-31 2002-04-25 Takuya Kotani Information processing method and apparatus
CN1373410A (zh) * 2001-10-16 2002-10-09 张咪 中英文资料名称的字母编码键盘及其首位拼音字母编码方法
CN101246478A (zh) * 2007-02-14 2008-08-20 高德软件有限公司 信息存储及检索方法
CN101610393A (zh) * 2009-07-17 2009-12-23 深圳创维数字技术股份有限公司 Iptv系统及其节目信息搜索系统与方法
CN104408097A (zh) * 2014-11-17 2015-03-11 深圳市比一比网络科技有限公司 一种基于字符段热更新的混合索引方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049731A1 (en) * 2000-05-31 2002-04-25 Takuya Kotani Information processing method and apparatus
CN1373410A (zh) * 2001-10-16 2002-10-09 张咪 中英文资料名称的字母编码键盘及其首位拼音字母编码方法
CN101246478A (zh) * 2007-02-14 2008-08-20 高德软件有限公司 信息存储及检索方法
CN101610393A (zh) * 2009-07-17 2009-12-23 深圳创维数字技术股份有限公司 Iptv系统及其节目信息搜索系统与方法
CN104408097A (zh) * 2014-11-17 2015-03-11 深圳市比一比网络科技有限公司 一种基于字符段热更新的混合索引方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220341A (zh) * 2017-05-26 2017-09-29 北京中电普华信息技术有限公司 一种日志分析方法及日志分析系统
CN110019260A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种用户数据的更新方法及相关设备
CN110019260B (zh) * 2017-09-27 2021-10-08 北京国双科技有限公司 一种用户数据的更新方法及相关设备
CN107808006B (zh) * 2017-11-16 2021-10-26 中国工商银行股份有限公司 基于大数据量的模糊查询方法、设备以及系统
CN107808006A (zh) * 2017-11-16 2018-03-16 中国工商银行股份有限公司 基于大数据量的模糊查询方法、设备以及系统
CN107992569A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 数据访问方法、装置、电子设备及计算机可读存储介质
CN110019408A (zh) * 2017-12-29 2019-07-16 北京奇虎科技有限公司 一种用于追溯数据状态的方法、装置及计算机设备
CN110019408B (zh) * 2017-12-29 2024-03-29 北京奇虎科技有限公司 一种用于追溯数据状态的方法、装置及计算机设备
CN109241360A (zh) * 2018-08-21 2019-01-18 阿里巴巴集团控股有限公司 组合字符串的匹配方法及装置和电子设备
CN109241360B (zh) * 2018-08-21 2021-08-20 创新先进技术有限公司 组合字符串的匹配方法及装置和电子设备
CN111914105A (zh) * 2019-05-08 2020-11-10 青岛海信移动通信技术股份有限公司 文件查询方法、装置及电子设备
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111127071A (zh) * 2019-11-11 2020-05-08 深圳市元征科技股份有限公司 车辆信息管理方法、装置、服务器及存储介质
CN111400253A (zh) * 2020-03-17 2020-07-10 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111400253B (zh) * 2020-03-17 2023-04-21 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111506628A (zh) * 2020-04-22 2020-08-07 中国民航信息网络股份有限公司 数据处理方法及装置
CN111612015A (zh) * 2020-05-26 2020-09-01 创新奇智(西安)科技有限公司 车辆识别方法、装置及电子设备
CN111612015B (zh) * 2020-05-26 2023-10-31 创新奇智(西安)科技有限公司 车辆识别方法、装置及电子设备
CN112241407A (zh) * 2020-09-11 2021-01-19 重庆锐云科技有限公司 高尔夫球场会员数据处理方法、客户管理系统及存储介质
CN112241407B (zh) * 2020-09-11 2023-06-06 重庆锐云科技有限公司 高尔夫球场会员数据处理方法、客户管理系统及存储介质
CN114490917A (zh) * 2020-11-11 2022-05-13 北京神州泰岳软件股份有限公司 一种全文检索功能的实现方法、装置与电子设备
CN113641731B (zh) * 2021-08-17 2023-05-02 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质
CN113641731A (zh) * 2021-08-17 2021-11-12 成都知道创宇信息技术有限公司 模糊搜索优化方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN105243086B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN105243086A (zh) 一种车辆信息查询方法和装置
CN111259006B (zh) 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
CN107038207B (zh) 一种数据查询方法、数据处理方法及装置
CN103226606B (zh) 查询选取方法及系统
CN112269792B (zh) 数据查询方法、装置、设备及计算机可读存储介质
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN103577394B (zh) 一种基于双数组搜索树的机器翻译方法和装置
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
CN104572645A (zh) 兴趣点数据关联方法及装置
CN109885632B (zh) 一种空间科学与应用数据检索方法、系统、介质及设备
CN111506621B (zh) 一种数据统计方法及装置
CN109657080B (zh) 高分卫星遥感数据的分布式处理方法/系统和介质
CN104239340A (zh) 搜索结果筛选方法与装置
CN105956148A (zh) 资源信息的推荐方法和装置
CN111522892B (zh) 地理要素的检索方法及装置
CN106021583A (zh) 页面流量数据的统计方法及其系统
CN111221813B (zh) 数据库索引以及数据库查询的处理方法、装置及设备
CN106991149B (zh) 一种融合编码和多版本数据的海量空间对象存储方法
CN104424302A (zh) 一种同类数据对象的匹配方法和装置
CN103914456A (zh) 一种数据存储方法和系统
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN111325022A (zh) 识别层级地址的方法和装置
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
Vo et al. Lessons learned with laser scanning point cloud management in Hadoop HBase
CN109726295A (zh) 品牌知识图谱显示方法、装置、图服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100193 2 / F, block B, qianfang building, 27 Zhongguancun Software Park, 8 Dongbeiwang West Road, Haidian District, Beijing

Patentee after: CHINA TRANSINFO TECHNOLOGY Corp.

Address before: 100191 Room 802, 8th floor, Weishi building, 39 Xueyuan Road, Haidian District, Beijing

Patentee before: CHINA TRANSINFO TECHNOLOGY Corp.

CP02 Change in the address of a patent holder