CN111190937B - 籍贯信息的查询方法、装置、电子设备及存储介质 - Google Patents
籍贯信息的查询方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111190937B CN111190937B CN201911319989.1A CN201911319989A CN111190937B CN 111190937 B CN111190937 B CN 111190937B CN 201911319989 A CN201911319989 A CN 201911319989A CN 111190937 B CN111190937 B CN 111190937B
- Authority
- CN
- China
- Prior art keywords
- word
- native
- words
- text
- queried
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 240000003433 Miscanthus floridulus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种籍贯信息的查询方法、装置、电子设备及存储介质,该方法包括:获取待查询文本;按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;获取所述档案标识对应的档案信息。本发明实施例由于籍贯词典中的启用词为籍贯对应的词且不包括行政单位,启用词不是单个字组成的词,从而减少了启用词的数量,进而减少了倒排索引的数据量,提高了籍贯信息的查询效率。
Description
技术领域
本发明实施例涉及模糊查询技术领域,特别是涉及一种籍贯信息的查询方法、装置、电子设备及存储介质。
背景技术
目前优化模糊查询检索效率常用解决方案是通过分词,并对分词之后结果建立倒排索引,进而提高查询检索效率。Luence及Elasticsearch对倒排索引都有相应的解决方案,其自带分词器能够提高绝大多数分词效果,如:Standard分词器对每个字进行分词,Whitespace分词器按照空格进行分词。
但是,现有分词器场景相对单一,面对中文分词一些复杂情况,词条拆分不合理,造成检索数据丢失或检索效率低下。如在籍贯检索中,北京市海淀区,需同时满足北京市海淀区、海淀北京、海淀区北京市、北京市海淀、北京海淀区等这些词都可以查询出相同的结果。而Standard分词器将每个字都分为一个词,造成倒排索引数量巨大,影响查询效率,而Whitespace分词器由于按照空格进行分词,难以消除中文分词中词语的歧义,难以保证分词的准确性,进而影响查询效率。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种籍贯信息的查询方法、装置、电子设备及存储介质。
依据本发明实施例的第一方面,提供了一种籍贯信息的查询方法,包括:
获取待查询文本;
按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;
根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;
获取所述档案标识对应的档案信息。
依据本发明实施例的第二方面,提供了一种籍贯信息的查询装置,包括:
文本获取模块,用于获取待查询文本;
分词模块,用于按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;
存储位置确定模块,用于根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;
档案信息获取模块,用于获取所述档案标识对应的档案信息。
依据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面中所述的籍贯信息的查询方法。
依据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的籍贯信息的查询方法。
本发明实施例提供的籍贯信息的查询方法、装置、电子设备及存储介质,通过在获取到待查询文本后,按照包括启用词和停用词的籍贯词典对待查询文本进行分词,提取待查询文本中的籍贯词,根据籍贯词查询数据库中的倒排索引,确定籍贯词对应的档案标识,获取所述档案标识对应的档案信息,由于籍贯词典中的启用词为籍贯对应的词且不包括行政单位,启用词不是单个字组成的词,从而减少了启用词的数量,进而减少了倒排索引的数据量,提高了籍贯信息的查询效率,而且由于启用词中不包括行政单位,而停用词为行政单位对应的词,从而提取到的籍贯词不包括行政单位,在待查询文本中没有行政单位时也能查询到正确结果,从而提高了查询结果的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种籍贯信息的查询方法的步骤流程图;
图2是本发明实施例提供的一种籍贯信息的查询方法的步骤流程图;
图3是本发明实施例提供的一种籍贯信息的查询装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种籍贯信息的查询方法的步骤流程图,该方法可以适用于对籍贯对应的人口档案信息进行查询,如图1所示,该方法可以包括:
步骤101,获取待查询文本。
用户在需要查询某个籍贯对应的人口档案信息时,可以输入包含籍贯词的待查询文本。例如待查询文本可以是北京市海淀区、北京海淀或北京市海淀等。
步骤102,按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词。
其中,所述籍贯词典包括启用词词库和停用词词库。启用词词库中包括籍贯信息查询中的启用词,表示要按照启用词词库中的启用词的形式进行拆分,比如西市区在启用词库中为西市,因此将其拆分为西市和区,西市则不再进行拆分。停用词词库中包括籍贯信息查询中的停用词,即停用词不用于分词拆分,比如:省、市、区在查询时不作为检索匹配的依据,可去除。启用词为籍贯对应的而且不包括行政单位,如北京、海淀、河北、石家庄等。停用词为行政单位对应的词,如省、市、区、县、旗、辖、州等。
对所述待查询文本按照从左到右的顺序进行扫描,遇到籍贯词典中的词就将该词标识出来,由于籍贯词典中包括启用词和停用词,在标记待查询文本中的启用词和停用词时可以用不同的标识进行标记,进而根据标记可以将分词后得到的在籍贯词典中的启用词作为籍贯词,进而可以进行后续的档案信息的查询。
在本发明的一个实施例中,所述按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,包括:根据所述籍贯词典中的启用词和停用词,对所述待查询文本进行分词,确定所述待查询文本中的启用词和停用词;若一个词在所述籍贯词典中不存在,则将该词作为一个独立词;将待查询文本中的启用词和所述独立词作为所述籍贯词。
对待查询文本按照从左到右的顺序进行扫描,遇到籍贯词典中的词就将该词标记出来,如果在扫描的过程中有的词在籍贯词典中没有对应的词,则扫描该词之后的一个词,直到完成对整个待查询文本的扫描。在扫描完成之后,如果一个词(即相邻的一个字或多个字组成的词)在籍贯词典中不存在,则将该词作为一个独立词,从而完成对待查询文本的分词。在分词完成之后,将待查询文本中的启用词和独立词作为籍贯词。通过将籍贯词典中不存在的词保留为一个独立词,而不是按照每个字再拆分为多个词,从而在后续按照籍贯词查询对应的档案信息时可以根据这一个词进行查询,而不是按照各个字单独分别查询,从而可以进一步提高查询效率。
例如,在待查询文本为“北京市大山区”时,因为大山是籍贯词典中没有的词,现有技术中的方式会将其拆分为大、山两个词,而通过本发明实施例的方式不再拆分籍贯词典中不存在的词,保留为“大山”一个词。
步骤103,根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识。
其中,倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。在本发明实施例中,倒排索引是籍贯词与档案标识的对应关系,用以存储籍贯词所在的档案信息对应的档案标识。档案标识例如可以是档案编号,用以标识不同的档案信息。
在确定待查询文本中的籍贯词后,从倒排索引中查询所述籍贯词,确定籍贯词对应的档案标识,从而该档案标识对应的档案信息便是要查询的档案信息。
在本发明的一个实施例中,所述根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识,包括:若所述待查询文本中包括多个籍贯词,则根据数据库中的倒排索引,分别确定每个籍贯词对应的档案标识;对每个籍贯词对应的档案标识进行与运算,得到多个籍贯词对应的档案标识。
在倒排索引中,一个籍贯词可能对应多个档案标识。根据每个籍贯词,分别查询倒排索引,确定每个籍贯词对应的一个或多个档案标识,对待查询文本中的多个籍贯词对应的档案标识进行与运算,可以得到多个籍贯词对应的档案标识。对多个籍贯词分别对应的档案标识进行与运算确定多个籍贯词对应的档案标识,再根据该档案标识去获取档案信息,而不是根据各个籍贯词,分别扫描存储的档案信息中的籍贯数据来匹配对应的档案信息,可以减少运算的数据量,进一步提高查询效率。
例如,假设数据库中存储了9个关于河北承德的档案信息,对每个档案信息中的籍贯数据进行分词,得到9个档案信息分别对应的籍贯词为:档案标识为1、2、3的档案信息对应的籍贯词均包括河北、承德、丰宁、满族;档案标识为4、5、6的档案信息对应的籍贯词均包括河北、承德、宽城、满族;档案标识为7、8、9的档案信息对应的籍贯词均包括河北、承德、围场、满族、蒙古族。
上述籍贯词对应的倒排索引如表1所示,倒排索引给出了各个籍贯词与档案标识的对应关系。
表1倒排索引
若待查询文本经过分词得到的籍贯词为满族,通过查询倒排索引,则返回“1、2、3、4、5、6、7、8、9”这九个档案标识。若待查询文本经过分词得到的籍贯词为满族和丰宁,则通过查询倒排索引,确定用满族检索到“1、2、3、4、5、6、7、8、9”九个档案标识和用丰宁检索到“1、2、3”三个档案标识,二者相“与”,得到“1、2、3”三个档案标识。
步骤104,获取所述档案标识对应的档案信息。
在确定籍贯词对应的档案标识后,可以从数据库中获取到所述档案标识对应的档案信息,并将获取到的档案信息返回给查询用户。
本实施例提供的籍贯信息的查询方法,通过在获取到待查询文本后,按照包括启用词和停用词的籍贯词典对待查询文本进行分词,提取待查询文本中的籍贯词,根据籍贯词查询数据库中的倒排索引,确定籍贯词对应的档案标识,获取所述档案标识对应的档案信息,由于籍贯词典中的启用词为籍贯对应的词且不包括行政单位,启用词不是单个字组成的词,从而减少了启用词的数量,进而减少了倒排索引的数据量,提高了籍贯信息的查询效率,而且由于启用词中不包括行政单位,而停用词为行政单位对应的词,从而提取到的籍贯词不包括行政单位,在待查询文本中没有行政单位时也能查询到正确结果,从而提高了查询结果的准确性。
图2是本发明实施例提供的一种籍贯信息的查询方法的步骤流程图,本实施例在上述实施例的基础上,还可以首先构建籍贯词典并导入原始档案信息,以作为籍贯信息查询的基础,如图2所示,该方法可以包括:
步骤201,按照行政单位对行政区划数据进行拆分,得到拆分结果。
其中,行政单位是行政区划中的行政单位,包括省、市、区、县、旗、辖、州等。行政区划是行政区域划分的简称,是国家为了进行分级管理而实行的区域划分。行政区划数据包括全国所有的行政区划数据。
可以从国家统计网站的词库中获取行政区划数据,并先将行政区划数据保存为Excel脚本形式,在构建籍贯词典时,读取Excel脚本形式的行政区划数据,拆分出行政区划数据中的省市区三级行政单位,得到拆分结果。例如,将行政区划数据里的“河北省石家庄市长安区”拆分为“河北省|石家庄市|长安区”。
在本发明的一个实施例中,所述按照行政单位对行政区划数据进行拆分,得到拆分结果,包括:根据行政单位对应的正则表达式,对行政区划数据进行拆分,得到拆分结果。
考虑到一些特殊的行政单位名称如“云南省普洱市西盟佤族自治县”、“辽宁省营口市西市区”,为避免将“云南省普洱市西盟佤族自治县”拆成“云南省|普洱市|西盟|佤族自治县”,将“辽宁省营口市西市区”拆成“辽宁省|营口市|西市|区”,可以采用行政单位对应的正则表达式来进行拆分。
所述行政单位对应的正则表达式如下:
((?<province>[^省]+省|.+自治区|.+市|.+特别行政区?))(?<city>.*?自治州|.*?地区|.*?[^西]盟|.*?市|.*?区)?(?<county>.*?自治县|.*?市|.*?县|.*?区|.*?镇|.*?局|.*?自治旗|.*?旗)?.*
根据上述行政单位对应的正则表达式对行政区划数据进行拆分,可以得到包括各级行政单位的拆分结果。而且通过正则表达式来对行政区划数据进行拆分,可以避免拆分错误,提高拆分结果的准确性。
例如,通过正则表达式进行拆分时,将“云南省普洱市西盟佤族自治县”拆成“云南省|普洱市|西盟佤族自治县”,将“辽宁省营口市西市区拆成辽宁省|营口市|西市区”,从而通过正则表达式避免了上述拆分结果的错误。
步骤202,将所述拆分结果中的行政单位去除,得到籍贯词。
对拆分行政区划数据得到的拆分结果进行进一步拆分,剔除省市区县盟等行政单位的干扰,得到籍贯词。去除拆分结果中的行政单位作为籍贯词,可以提高后续档案信息查询的正确性。
用户进行档案信息的查询时,有时输入的待查询文本是“北京市海淀区”,有时输入的待查询文本是“北京海淀”,如果籍贯词典中包含的是北京市,将导致用户输入“北京海淀”时检索不到结果,因此要把拆分结果中的省市区县盟等行政单位删除,从而用户输入“北京海淀”时也可以查询到正确的结果。
在本发明的一个实施例中,所述将所述拆分结果中的行政单位去除,得到籍贯词,可选包括:将所述拆分结果中的行政单位去除,得到初始词;若所述初始词中包括民族,则按照民族,对所述初始词进行拆分,并将拆分结果分别作为籍贯词;若所述初始词中不包括民族,则将所述初始词作为籍贯词。
去除拆分结果中的行政单位,即去除省、市、区、县、旗、辖、州等词,将得到的词作为初始词,对得到的初始词进一步与民族进行匹配,如果初始词中包括民族,则对初始词进一步进行拆分,将民族拆分出来作为一个拆分结果,将剩余的词作为一个拆分结果,将这两个拆分结果分别作为单独的籍贯词,如果初始词中不包括民族,则将初始词作为一个独立的籍贯词。通过根据民族对初始词进行进一步拆分,可以在用户输入的待查询文本不完整时,可以给用户多个选项供用户选择,而且即使用户输入的待查询文本有错误时,也可以给出正确的查询结果,从而可以提高后续构建的籍贯词典的鲁棒性。
例如,将“西盟佤族”拆分为“西盟”与“佤族”,将“丰宁满族”拆分为“丰宁”与“满族”,将“宽城满族”拆分为“宽城”和“满族”,“围场满族蒙古族”拆分为“围场”、“满族”和“蒙古族”。在没有进一步拆分初始词时,如果用户输入的待查询文本是“丰宁满族”,需要完整的输入“丰宁满族”,才可以查询到对应的结果,如果对初始词进一步进行了拆分,则用户输入的待查询文本是“满族”时,可以返回“丰宁满族”、“宽城满族”、“围场满族蒙古族”等选项供用户选择。另外,拆分后,如果用户输入的待查询文本出现错误,例如用户输入的待查询文本是“丰宁区满族”,由于进行了进一步拆分,丰宁和满族作为两个籍贯词,因此查询后也可以查询到正确结果并返回该正确结果,即拆分后提高了鲁棒性。
步骤203,将所述籍贯词作为启用词,将所述行政单位作为停用词,构建籍贯词典。
将对行政区划数据进行拆分得到的籍贯词作为启用词,同时补全各个民族,即将民族也作为启用词,将行政单位作为停用词,构建包括启用词和停用词的籍贯词典。籍贯词典可以保存为main.dic文件。
在本发明的一个实施例中,所述将所述籍贯词作为启用词,可选包括:对所述籍贯词进行去重;将去重后的籍贯词作为启用词。
在进行分词后得到的各个籍贯词可能存在重复的情况,为了避免存储过多重复的词,对籍贯词进行去重,将去重后的籍贯词作为启用词。
步骤204,获取档案信息。
其中,所述档案信息作为籍贯信息查询的目标数据。
先根据指定位置获取档案信息,进行处理后存储档案信息,作为籍贯信息查询的目标数据。
步骤205,按照所述籍贯词典,对所述档案信息中的籍贯数据进行拆分,得到所述档案信息对应的籍贯词。
对档案信息中籍贯数据按照从左到右的形式进行扫描,遇到籍贯词典中的启用词就将该启用词标记出来,遇到籍贯词典中的停用词,则用与启用词不同的标识进行标记,若两个停用词之间的词在籍贯词典中不存在,则将该词作为一个独立词,将启用词和独立词作为籍贯词,从而得到档案信息对应的籍贯词。
步骤206,将所述档案信息对应的籍贯词与所述档案信息对应保存到数据库中。
在得到每条档案信息对应的籍贯词后,将籍贯词与档案信息对应保存到数据库中。
步骤207,建立所述档案信息对应的籍贯词与档案信息的档案标识的对应关系,将所述对应关系作为籍贯词对应的倒排索引。
经过对档案信息中的籍贯数据进行分词得到了各个档案信息对应的籍贯词,每个档案信息对应一个档案标识,从而可以建立籍贯词与档案标识的对应关系,即确定每个籍贯词所在档案信息的档案标识,将籍贯词与档案标识的对应关系作为籍贯词对应的倒排索引。查询籍贯信息时可以通过倒排索引进行查询,以提高查询速度。
步骤208,获取待查询文本。
步骤209,按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词。
其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词。
步骤210,根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识。
步骤211,获取所述档案标识对应的档案信息。
表2是本发明实施例中查询方式与传统Standard分词器的分词效果与查询效率比对表,如表2所示,传统Standard分词器将每一个拆分为一个词,而本发明实施例将籍贯对应的词和行政单位分布作为一个词,从而减少了分词的数量,查询效率得到了大大提高。
表2分词效果与查询效率比对
本实施例提供的籍贯信息的查询方法,通过按照行政单位对行政区划数据进行拆分得到拆分结果,将拆分结果中的行政单位去除,得到籍贯词,将籍贯词作为启用词,将行政单位作为停用词,构建籍贯词典,从而减少了构建的籍贯词典中的词的数量,在保存档案信息时,先根据籍贯词典对档案信息中的籍贯数据进行拆分,得到档案信息对应的籍贯词,将籍贯词与档案信息对应保存到数据库中,建立档案信息对的籍贯词与档案信息的档案标识的对应关系,将该对应关系作为籍贯词对应的倒排索引,由于籍贯词典中的词的数量减少了,从而也减少了倒排索引的数量,进而可以提高后续籍贯信息的查询效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图3是本发明实施例提供的一种籍贯信息的查询装置的结构框图,如图3所示,该籍贯信息的查询装置可以包括:
文本获取模块301,用于获取待查询文本;
分词模块302,用于按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;
档案标识确定模块303,用于根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;
档案信息获取模块304,用于获取所述档案标识对应的档案信息。
可选的,所述装置还包括:
区划数据拆分模块,用于按照行政单位对行政区划数据进行拆分,得到拆分结果;
籍贯词确定模块,用于将所述拆分结果中的行政单位去除,得到籍贯词;
籍贯词典构建模块,用于将所述籍贯词作为启用词,将所述行政单位作为停用词,构建籍贯词典。
可选的,所述区划数据拆分模块具体用于:
根据行政单位对应的正则表达式,对行政区划数据进行拆分,得到拆分结果。
可选的,所述籍贯词确定模块包括:
行政单位去除单元,用于将所述拆分结果中的行政单位去除,得到初始词;
籍贯词确定单元,用于若所述初始词中包括民族,则按照民族,对所述初始词进行拆分,并将拆分结果分别作为籍贯词;若所述初始词中不包括民族,则将所述初始词作为籍贯词。
可选的,所述籍贯词典构建模块包括:
籍贯词去重单元,用于对所述籍贯词进行去重;
启用词确定单元,用于将去重后的籍贯词作为启用词。
可选的,所述装置还包括:
档案获取模块,用于获取档案信息;
籍贯数据拆分模块,用于按照所述籍贯词典,对所述档案信息中的籍贯数据进行拆分,得到所述档案信息对应的籍贯词;
档案信息保存模块,用于将所述档案信息对应的籍贯词与所述档案信息对应保存到数据库中;
倒排索引建立模块,用于建立所述档案信息对应的籍贯词与档案信息的档案标识的对应关系,将所述对应关系作为籍贯词对应的倒排索引。
可选的,所述分词模块包括:
分词单元,用于根据所述籍贯词典中的启用词和停用词,对所述待查询文本进行分词,确定所述待查询文本中的启用词和停用词;
独立词确定单元,用于若一个词在所述籍贯词典中不存在,则将该词作为一个独立词;
籍贯词确定单元,用于将待查询文本中的启用词和所述独立词作为所述籍贯词。
可选的,所述档案标识确定模块包括:
倒排索引查询单元,用于若所述待查询文本中包括多个籍贯词,则根据数据库中的倒排索引,分别确定每个籍贯词对应的档案标识;
档案标识确定单元,用于对每个籍贯词对应的档案标识进行与运算,得到多个籍贯词对应的档案标识。
本实施例提供的籍贯信息的查询装置,通过在获取到待查询文本后,按照包括启用词和停用词的籍贯词典对待查询文本进行分词,提取待查询文本中的籍贯词,根据籍贯词查询数据库中的倒排索引,确定籍贯词对应的档案标识,获取所述档案标识对应的档案信息,由于籍贯词典中的启用词为籍贯对应的词且不包括行政单位,启用词不是单个字组成的词,从而减少了启用词的数量,进而减少了倒排索引的数据量,提高了籍贯信息的查询效率,而且由于启用词中不包括行政单位,而停用词为行政单位对应的词,从而提取到的籍贯词不包括行政单位,在待查询文本中没有行政单位时也能查询到正确结果,从而提高了查询结果的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步地,根据本发明的一个实施例,提供了一种电子设备,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现前述实施例的籍贯信息的查询方法。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例的籍贯信息的查询方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种籍贯信息的查询方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种籍贯信息的查询方法,其特征在于,包括:
获取待查询文本;
按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;
根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;
获取所述档案标识对应的档案信息;
其中,所述按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词包括:
根据所述籍贯词典中的启用词和停用词,对所述待查询文本进行分词,确定所述待查询文本中的启用词和停用词;
若一个词在所述籍贯词典中不存在,则将该词作为一个独立词;
将待查询文本中的启用词和所述独立词作为所述籍贯词。
2.根据权利要求1所述的方法,其特征在于,在所述按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词之前,还包括:
按照行政单位对行政区划数据进行拆分,得到拆分结果;
将所述拆分结果中的行政单位去除,得到籍贯词;
将所述籍贯词作为启用词,将所述行政单位作为停用词,构建籍贯词典。
3.根据权利要求2所述的方法,其特征在于,所述按照行政单位对行政区划数据进行拆分,得到拆分结果,包括:
根据行政单位对应的正则表达式,对行政区划数据进行拆分,得到拆分结果。
4.根据权利要求2所述的方法,其特征在于,所述将所述拆分结果中的行政单位去除,得到籍贯词,包括:
将所述拆分结果中的行政单位去除,得到初始词;
若所述初始词中包括民族,则按照民族,对所述初始词进行拆分,并将拆分结果分别作为籍贯词;若所述初始词中不包括民族,则将所述初始词作为籍贯词。
5.根据权利要求2所述的方法,其特征在于,所述将所述籍贯词作为启用词,包括:
对所述籍贯词进行去重;
将去重后的籍贯词作为启用词。
6.根据权利要求2所述的方法,其特征在于,在构建所述籍贯词典之后,还包括:
获取档案信息;
按照所述籍贯词典,对所述档案信息中的籍贯数据进行拆分,得到所述档案信息对应的籍贯词;
将所述档案信息对应的籍贯词与所述档案信息对应保存到数据库中;
建立所述档案信息对应的籍贯词与档案信息的档案标识的对应关系,将所述对应关系作为籍贯词对应的倒排索引。
7.根据权利要求1所述的方法,其特征在于,所述根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识,包括:
若所述待查询文本中包括多个籍贯词,则根据数据库中的倒排索引,分别确定每个籍贯词对应的档案标识;
对每个籍贯词对应的档案标识进行与运算,得到多个籍贯词对应的档案标识。
8.一种籍贯信息的查询装置,其特征在于,包括:
文本获取模块,用于获取待查询文本;
分词模块,用于按照包括启用词和停用词的籍贯词典,对所述待查询文本进行分词,提取所述待查询文本中的籍贯词,其中,所述启用词为籍贯对应的词且不包括行政单位,所述停用词为行政单位对应的词;
存储位置确定模块,用于根据所述籍贯词,查询数据库中的倒排索引,确定所述籍贯词对应的档案标识;
档案信息获取模块,用于获取所述档案标识对应的档案信息;
其中,所述分词模块包括:
分词单元,用于根据所述籍贯词典中的启用词和停用词,对所述待查询文本进行分词,确定所述待查询文本中的启用词和停用词;
独立词确定单元,用于若一个词在所述籍贯词典中不存在,则将该词作为一个独立词;
籍贯词确定单元,用于将待查询文本中的启用词和所述独立词作为所述籍贯词。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的籍贯信息的查询方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的籍贯信息的查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319989.1A CN111190937B (zh) | 2019-12-19 | 2019-12-19 | 籍贯信息的查询方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319989.1A CN111190937B (zh) | 2019-12-19 | 2019-12-19 | 籍贯信息的查询方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111190937A CN111190937A (zh) | 2020-05-22 |
CN111190937B true CN111190937B (zh) | 2024-02-23 |
Family
ID=70709253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911319989.1A Active CN111190937B (zh) | 2019-12-19 | 2019-12-19 | 籍贯信息的查询方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111190937B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609249B (zh) * | 2021-09-09 | 2023-04-28 | 北京环境特性研究所 | 目标模型仿真数据存储方法及装置 |
CN116450769A (zh) * | 2023-06-09 | 2023-07-18 | 北京量子伟业信息技术股份有限公司 | 智慧档案的管理方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN107463583A (zh) * | 2016-06-06 | 2017-12-12 | 广州泰尔智信科技有限公司 | 应用开发者所在区域确定方法和装置 |
CN109271625A (zh) * | 2018-08-28 | 2019-01-25 | 江苏省基础地理信息中心 | 一种汉语地名的拼音拼写规范化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527518B2 (en) * | 2010-12-16 | 2013-09-03 | Sap Ag | Inverted indexes with multiple language support |
-
2019
- 2019-12-19 CN CN201911319989.1A patent/CN111190937B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN107463583A (zh) * | 2016-06-06 | 2017-12-12 | 广州泰尔智信科技有限公司 | 应用开发者所在区域确定方法和装置 |
CN109271625A (zh) * | 2018-08-28 | 2019-01-25 | 江苏省基础地理信息中心 | 一种汉语地名的拼音拼写规范化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111190937A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291024B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN103699585A (zh) | 文件的元数据存储以及文件恢复的方法、装置和系统 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN105426390A (zh) | 一种基于图像识别的试题搜索方法和系统 | |
CN103345496B (zh) | 多媒体信息检索方法和系统 | |
CN111190937B (zh) | 籍贯信息的查询方法、装置、电子设备及存储介质 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN102567409A (zh) | 一种提供检索关联词的方法及装置 | |
CN109145003B (zh) | 一种构建知识图谱的方法及装置 | |
JP5978393B2 (ja) | 計算機、記録媒体及びデータ検索方法 | |
CN111782595A (zh) | 海量文件管理方法、装置、计算机设备和可读存储介质 | |
CN104636401A (zh) | 一种scada系统数据回滚的方法及装置 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
CN110175219A (zh) | 一种k12阶段重复学校识别方法、装置、设备及存储介质 | |
CN117688151A (zh) | 基于知识库的问答方法、装置、计算机设备及存储介质 | |
CN112183074A (zh) | 一种数据增强方法、装置、设备及介质 | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN116521733A (zh) | 一种数据查询方法及装置 | |
CN115577269A (zh) | 一种基于字符串文本特征相似度的黑名单模糊匹配方法 | |
CN112380445B (zh) | 数据查询方法、装置、设备和存储介质 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN110505321B (zh) | 一种用于访问ip地址的方法及系统 | |
CN111831876B (zh) | 查询方法、设备和存储介质 | |
CN113535895A (zh) | 搜索文本处理方法、装置、电子设备及介质 | |
CN113434413A (zh) | 基于数据差异的数据测试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230805 Address after: No. 1268, 1f, building 12, neijian Middle Road, Xisanqi building materials City, Haidian District, Beijing 100096 Applicant after: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd. Address before: 100080 room 1018, 10th floor, 1 Zhongguancun Street, Haidian District, Beijing Applicant before: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd. Applicant before: Qingdao Guangshi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |