CN110866091A - 一种数据检索方法及装置 - Google Patents

一种数据检索方法及装置 Download PDF

Info

Publication number
CN110866091A
CN110866091A CN201911133332.6A CN201911133332A CN110866091A CN 110866091 A CN110866091 A CN 110866091A CN 201911133332 A CN201911133332 A CN 201911133332A CN 110866091 A CN110866091 A CN 110866091A
Authority
CN
China
Prior art keywords
field
information
data
type
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911133332.6A
Other languages
English (en)
Other versions
CN110866091B (zh
Inventor
牟宣理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201911133332.6A priority Critical patent/CN110866091B/zh
Publication of CN110866091A publication Critical patent/CN110866091A/zh
Application granted granted Critical
Publication of CN110866091B publication Critical patent/CN110866091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据检索方法和装置,所述方法包括:接收终端发起的搜索请求;确定搜索请求匹配的字段类型,所述字段类型是基于预设规则对搜索请求中包含的查询信息进行识别而得到的;根据字段类型与基于预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与字段类型相匹配的字段标记类型在数据表中对应的字段确定为目标字段;基于查询信息在目标字段中进行检索。通过本申请的技术方案可以提高数据检索效率。

Description

一种数据检索方法及装置
技术领域
本申请涉及网络技术领域,具体涉及一种数据检索方法及装置。
背景技术
随着网络技术的不断发展,网络资源、数据资源日益丰富,基于搜索引擎、检索系统等数据查询方式的用户群体日益庞大,用户迫切需要从庞杂的数据库系统中抽取符合应用需求的数据。
然而,相关技术中基于用户检索信息对数据库系统中地毯式的信息遍历方式在数据信息庞杂的应用场景中操作效率十分低下,不仅制约了用户的检索效率,而且耗费系统资源。
发明内容
有鉴于此,本申请提供一种数据检索方法及装置,以解决相关技术中对数据表中的数据信息进行遍历式的检索方式所造成的操作效率低下的技术问题。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种数据检索方法,所述方法包括:
接收终端发起的搜索请求;
确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的;
根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段;
基于所述查询信息在所述目标字段中进行检索。
可选的,还包括:
确定所述目标字段中与所述查询信息对应的检索字段;或者,
确定所述目标字段中与所述查询信息对应的检索字段;获取所述检索字段对应的索引信息,以确定所述索引信息对应的文档。
可选的,所述索引信息包括所述检索字段的编号、文档编号和所述检索字段的频数信息之间的对应关系,所述获取所述检索字段对应的索引信息,以确定所述索引信息对应的文档,包括:
获取检索字段对应的索引信息;
根据所述索引信息确定所述检索字段对应的文档编号和所述检索字段的频数信息;
确定基于所述频数信息排序后的文档编号对应的文档。
可选的,所述预设规则包括自然语言处理分词器和/或基于字段在所述数据表中对应的数据信息的识别特征配置的匹配规则。
可选的,在所述目标字段在所述数据表中对应的数据信息包含数值的情况下,所述目标字段还被预先添加有所述数值对应的取值范围,所述基于所述查询信息在所述目标字段中进行检索,包括:
确定数据表中所述数值范围覆盖所述查询信息中的数值的目标检索字段;
基于所述查询信息在所述目标检索字段对应的数据信息中进行检索。
可选的,所述基于所述查询信息在所述目标字段中进行检索,包括:
确定所述字段标记类型对应的目标字段;
在所述字段标记类型存在对应的多个目标字段的情况下,生成所述字段标记类型对应的与所述多个目标字段之间的或运算有关的检索语句;
确定所述字段类型对应的字段标记类型;
在所述字段类型存在对应的多个字段标记类型的情况下,生成与所述多个字段标记类型对应的检索语句之间的与运算有关的检索语句。
可选的,所述基于所述预设规则对数据表中的各个字段进行识别,包括:
周期性地基于所述预设规则对所述数据表中的各个字段进行识别;或者,
在所述数据表中的字段存在更新变动的情况下,触发基于所述预设规则对更新变动后的数据表中的字段进行识别。
根据本申请的第二方面,提出了一种数据检索装置,所述装置包括:
接收单元,接收终端发起的搜索请求;
字段类型确定单元,确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的;
目标字段确定单元,根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段;
检索单元,基于所述查询信息在所述目标字段中进行检索。
根据本申请的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为可执行指令以实现如上述第一方面中任一项所述的方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面中任一所述方法的步骤。
由以上技术方案可见,对所接收到的终端发起的搜索请求,可以确定搜索请求匹配的字段类型,并基于预设规则确定数据表中的各个字段信息对应的字段标记类型,从而将与字段类型相匹配的字段标记类型在数据表中对应的字段确定为目标字段,进而基于查询信息在所确定的目标字段对应的数据信息进行检索,而并非对数据表中的全部数据信息均进行检索,提高了数据检索效率。
附图说明
图1是根据本申请一示例性实施例提供的一种数据检索方法的流程图;
图2是根据本申请一示例性实施例提供的一种对数据表中的字段进行类型标注的方法的流程图;
图3是根据本申请一示例性实施例提供的另一种数据检索方法的流程图;
图4是根据本申请一示例性实施例中的一种电子设备的示意结构图;
图5是根据本申请一示例性实施例中的一种数据检索装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了提高数据的检索效率,本申请对数据表中的字段信息基于预设规则进行类型的标注处理,进而对于所接收到的终端发起的搜索请求,基于完成字段标记类型的标注处理后的数据表进行数据检索,使得在具体的数据检索过程中,根据字段类型与基于预设规则对数据表中的各个字段进行预先标记的字段标记类型,确定与字段类型相匹配的字段标记类型在数据表中对应的字段为目标字段,进而在目标字段对应的数据信息中检索与搜索请求中包含的查询信息对应的数据信息,而无需对数据表中的全部数据信息进行逐一遍历,通过减少数据表中的数据量实现提高数据检索效率的技术效果。
为对本申请的技术方案进行详细说明,下面结合具体实施例进行阐述:
请参考图1,图1是根据本申请一示例性实施例提供的一种数据检索方法的流程图,如图1所示,所述方法可以包括下述步骤:
步骤101,接收终端发起的搜索请求。
步骤102,确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的。
预设规则包括自然语言处理分词器、基于字段在数据表中对应的数据信息的识别特征配置的匹配规则或者自然语言处理分词器与基于字段在数据表中对应的数据信息的识别特征配置的匹配规则的结合。预设规则可以用于确定数据表中的字段信息或者终端用户发送的搜索请求对应的查询信息分别对应的字段标记类型或者字段类型。
关于基于预设规则对数据表中的各个字段进行识别的过程,在一实施例中,可以通过周期性地基于预设规则对数据表中的各个字段进行识别;在另一实施例中,可以在数据表中的字段存在更新变动的情况下,触发基于预设规则对更新变动后的数据表中的字段进行识别。
步骤103,根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段。
在一实施例中,目标字段在数据表中对应的数据信息包含数值的情况下,目标字段还被预先添加有数值对应的取值范围。具体的,在基于查询信息在目标字段中进行检索的过程,可以包括:确定数据表中的数值范围覆盖查询信息中的数值的目标检索字段,进而基于查询信息在目标检索字段对应的数据信息中进行检索,减小了进行检索的数据信息的数据量,提高了检索效率。
步骤104,基于所述查询信息在所述目标字段中进行检索。
在基于查询信息在目标字段中进行检索的过程中,可以根据字段标记类型、字段标记类型包含的目标字段自动生成并运行检索语句。
具体的,可以确定字段标记类型对应的目标字段,进而在字段标记类型存在对应的多个目标字段的情况下,生成字段标记类型对应的与多个目标字段之间的或运算有关的检索语句;可以确定字段类型对应的字段标记类型,进而在字段类型存在对应的多个字段标记类型的情况下,生成并运行多个字段标记类型对应的检索语句之间的与运算有关的检索语句。
在一实施例中,基于查询信息在目标字段在数据表对应的数据信息中检索后,可以确定目标字段中与查询信息对应的检索字段,以将所确定的检索字段作为数据检索的检索结果。
在另一实施例中,确定目标字段中与查询信息对应的检索字段后,可以获取检索字段对应的索引信息,所获取的索引信息中可以包括索引字段的编号信息与文档信息的映射关系,进而基于映射关系获取与所确定的检索字段存在映射关系的文档,以将所确定的文档作为数据检索的检索结果,在本实施例中,确定并反馈的信息不限于所确定的检索字段,还包括基于索引信息确定的与检索字段对应的文档信息,拓展了本申请的应用场景。
进一步的,索引信息中可以包括检索字段的编号、文档编号和检索字段的频数信息之间的对应关系,获取检索字段对应的索引信息进而确定索引信息对应的文档的过程,可以通过下述过程实现:
获取检索字段对应的索引信息,根据索引信息确定检索字段对应的文档编号和检索字段的频数信息,进而确定基于频数信息排序后的文档编号对应的文档。具体的,可以确定基于频数信息倒序排序后的文档编号对应的文档,进一步的,可以将倒序排序后的文档编号对应的文档返回至终端用户,以由接收到倒序排序后的文档的终端用户能够优先获取检索字段出现频率较高的文档信息,以实现对文档信息的智能排序。
通过上述实施例,对所接收到的终端发起的搜索请求,可以确定搜索请求匹配的字段类型,并基于预设规则确定数据表中的各个字段信息对应的字段标记类型,从而将与字段类型相匹配的字段标记类型在数据表中对应的字段确定为目标字段,进而基于查询信息在所确定的目标字段对应的数据信息进行检索,而并非对数据表中的全部数据信息均进行检索,提高了数据检索效率。
为对本申请进行进一步说明,本实施例从对数据表中的字段进行标注的过程和基于完成字段类型标注的数据表对用户输入的搜索词进行匹配的两个过程分别进行说明,具体的实施例如下:
一、对数据表中的字段进行类型标注处理
类似于结构化数据库,本申请中的数据表可以包含多个字段,每个字段在数据表中可以包含多条数据信息,数据表中的任一数据信息均可支持查询,为了简化查询操作,提高查询效率,在本申请中可以确定数据表中的各个字段对应的字段标记类型并在数据表中进行标注,进而在对数据表中数据信息进行查询的过程中,能够优先匹配数据表中各个字段对应的字段标记类型,进而根据字段标记类型确定字段标记类型包含的字段信息,以及各个字段信息在数据表中包含的数据信息。为了实现在对数据表中的数据信息查询过程中,能够优先匹配数据表中各个字段对应的字段标记类型,本申请提出了下述对数据表中的各个字段预标注字段标记类型的过程,具体的实施方式如下:
请参见图2,图2是根据本申请一示例性实施例提供的一种对数据表中的字段进行类型标注的方法的流程图,如图2所示,所述方法包括下述步骤:
步骤201,确定数据表中待进行标注的字段信息。
字段信息可以简化地理解为数据表中与数据信息的含义对应的名称,如下表1所示,作为一示例性实施例中,表1中可以包含两条且每条包含十项的数据信息,即“张三、张五、33010800000001023、浙江省杭州市、浙江杭州滨江区之江花园、29、浙A****、*银行、1998.4、100”与“李四、李六、33011000000001023、浙江省台州市、浙江台州黄岩区建行花园、45、浙J****、*公司、1975.4、3000”,每一项数据信息对应的名称为字段信息,以表1为例,表1中所包含的字段信息为“xm(姓名)、cym(曾用名)、sfzh(身份证号)、jg(籍贯)、jzd(居住地)、nl(年龄)、cphm(车牌号)、dw(工作单位)、Csny(出生年月)和a(字段A)”。
Figure BDA0002278928710000081
表1
数据表可以为上述图1所示的信息表的形式,进一步的,数据表中的数据信息可以与文档数据建立关联关系,与数据表中的数据信息建立关联关系的文档数据可以为互联网网页、word文件、PDF文件、XML文件、电子邮件、短信息等以各种形式进行存储的数据对象。在一实施例中,可以对所插入的文档数据进行分词,以确定文档数据中包含的数据信息,进而将所获得的数据信息加入数据表中,并在该数据信息与文档数据之间建立映射关系。
数据表中的数据信息可以与文档数据建立索引,所建立的索引可以记录于一种能够表征数据信息与文档数据之间映射关系的文件中。在具体设置索引的过程中,可以分别建立文档数据对应的文档编号、数据信息对应的数据编号,以作为文档数据和数据表中的各个数据信息的标识信息,相应的,所建立的索引中可以包含数据编号与文档编号的映射关系,进一步的,可以在索引中添加数据信息在文档数据中的出现频率,以及具有映射关系的数据信息于文档信息之间,该数据信息在文档信息中出现的位置信息。
触发对数据表中的数据信息添加或者重新添加字段标记类型的过程可以为多种方式,在一实施例中,可以在接收到管理员的配置指令或者配置信息的情况下,触发匹配数据表中的字段信息对应的字段标记类型;在另一实施例中,可以在数据表中存在更新变动的字段信息的情况下,自动触发基于预设规则对数据表中发生更新变动的字段信息进行确定,进而匹配变动的字段信息对应的字段标记类型;在又一实施例中,可以周期性地对数据表中的各个字段信息对应的字段标记类型进行确定。具体的,可以配置对数据表中的各个字段信息对应的字段标记类型进行重新确定的周期性触发时间,以在到达触发时间的情况下,自动获取数据表中的字段信息并基于预设规则对数据表中的各个字段对应的字段标记类型进行识别;在数据表中的字段信息的数量低于一定阈值的情况下,分别针对每一个字段信息设置周期性的触发时间,使得在各个周期性的触发时间到达的情况下,仅针对到达周期性触发时间的字段信息对应的字段标记类型进行重新确定。
所确定的字段标记类型是各个字段信息所属的类型,可以确定预设规则中的字段信息与字段标记类型的映射关系,所确定的预设规则可以结合实际应用场景中的实际语义而确定字段信息与字段标记类型的映射关系;所确定的预设规则可以为字段信息中包含的识别特征与该字段信息对应的字段标记类型对应的映射关系。
以表1中为例,由于姓名和曾用名的实际语义均对应为姓名,因而即便两者的字段信息不同,但也可以将两者均映射到相同的字段标记类型中,即姓名和曾用名对应的字段标记类型均为中文人名;类似的,由于籍贯和居住地对应的语义特征确定为地址,因而,对于字段信息为“籍贯”和字段信息为“居住地”而言,两者可以均对应于字段标记类型“地址”;对于含有汉字、数字、字母中的至少一种的字符串信息可以设置该字符串信息对应的字段信息为字符串信息对应的实际含义名称,诸如对于纯数字的身份证号,可以设置其对应的字段标记类型为身份证号,而对于包含有汉字、数字和字母车牌号信息,可以设置车牌号信息对应的字段标记类型为车牌号;对于含有姓氏“张”的两个汉字组成的数据信息,可以根据该数据信息中包含的识别特征“张”确定数据信息对应的字段信息为中文人名。
此外,字段标记类型可以添加字段信息的实际取值范围,即当数据表中的数据信息包含数值或者只包含数值的情况下,可以在该数据信息对应的目标字段中添加数据信息对应的数值范围,字段标记类型中添加该字段信息为对应的数据信息的取值范围,以表1中的数值为例,结合表1可知:字段信息为“年龄”和“a(字段A)”分别对应的数据内容为“29、45”和“100、3000”,可见两者的数据内容均涉及到数值,则可以将“年龄”和“a(字段A)”字段信息对应的字段标记类型设置为数值,并分别在每一字段标记类型中设置字段信息在数据表中对应的数据信息的取值范围,即数据信息的最大值与最小值,或者最小值与最大值;类似的,在数据信息为日期的情况下,可以确定字段标记类型为日期,并在字段标记类型中添加字段信息对应的数据内容的日期范围,即日期对应的最早时间和最迟时间,或者最迟时间和最早时间,当然字段标记类型还可以设置为其他形式或者涉及其他内容,诸如:中文人名、拼音人名、日文人名、英译人名、地址、日期、机构组织、身份证号、车牌号、手机号、邮箱信息、URL、复合描述类、英文信息,本申请对字段标记类型的具体内容不做限制。
字段标记类型和字段信息的映射关系可以在预设规则中进行预先配置,进而根据配置后的预设规则识别数据表中的字段信息,以匹配出字段信息对应的字段标记类型,在根据预设规则确定字段信息对应的字段标记类型的过程中,可以按照步骤202的过程进行。
步骤202,调用预设规则匹配字段信息对应的字段标记类型。
通过预设规则可以确定与数据表中的字段信息相匹配的字段标记类型,预设规则中可以包含字段信息与字段标记类型的映射关系,具体的,用于确定字段类型的预设规则可以包括自然语言处理分词器、基于字段在数据表中对应的数据信息的识别特征而配置的匹配规则或者自然语言处理分词器与基于字段在数据表中对应的数据信息的识别特征而配置的匹配规则的结合。
在一实施例中,预设规则可以为针对数据表中的数据信息的识别特征而配置的匹配规则,数据信息的识别特征可以为该数据信息中包含的内容或者数据信息对应的语义特征。以表1中的记载为例,对数据信息中包含的内容确定数据信息的识别特征的过程进行说明:对于数据表中的数据信息“张三”、“张五”而言,虽然两者的表现形式不同,但可通过确定数据信息中所包含的内容作为该数据信息的识别特征,诸如“张三”、“张五”中均包含姓氏“张”且“张三”、“张五”中涉及到的字均为汉字,因而,可以确定数据信息对应的字段标记类型为中文人名。
在另一实施例中,可以根据数据表中字段信息的识别特征确定字段信息对应的字段标记类型。以表1中的“姓名”、“曾用名”的字段信息为例,“姓名”、“曾用名”的字段信息不同,但是两者在表现上均含有相同的“名”作为识别特征,因而,根据该识别特征可以确定两者实际上均为中文人名;当然,可以根据数据信息或者字段信息对应的语义特征确定数据信息或者字段信息对应的字段标记类型,以表1中的记载为例,可以确定“籍贯”、“居住地”对应的语义特征为“地址”,即可以确定“籍贯”、“居住地”对应的字段标记类型均为“地址”。
在实际应用过程中,由于中文和英文等语言不同,在中文语言中单词之间没有明确的分隔符号,因而在确定文档数据中包含的数据信息的过程中,借助于分词系统将文档数据自动切分成单词序列,使得原本的文档数据切分为由单词构成的数据流。
进一步的,分词的过程中存在分词结果的粒度粗细的差异,以“中央人民政府”为例,粗粒度的划分方式中可以直接得到“中央人民政府”的分词结果,而在细粒度的划分方式中所得到的分词结果可以是“中央/人民/政府”,对此,在进行分词时可以针对不同分词阶段的需要设置不同的分词粒度,例如在构建索引的过程中,可以使用细粒度的分词方式;而在基于索引进行查询的过程中,可以使用粗粒度的分词方式以保证词语本身原本的含义,从而减小因歧义造成的语义解析的差异。
在具体的分词过程中,可以通过预设规则使得系统能够模拟人对句子的理解,以达到识别词的技术效果。具体的,可以在预设规则中添加对句法、语义的分析规则,基于句法规则和语义规则对文档数据中的数据内容进行切分,以提高分词处理结果的准确性;此外,也可以基于计算学习算法(诸如HMM、CRF、SVM)和领域内的技术词典相结合的方式,对文档数据中的内容进行分词处理。
为了后续处理过程的方便,可以对切分后的数据信息设置能够唯一表征该数据信息的数据编号,并记录数据编号与文档编号的对应关系,从而可以对数据信息在文档数据中的出现频率,以及数据信息在文档数据中出现的具体位置进行记录。
在基于预设规则确定字段信息对应多个字段标记类型的情况下,可以将所确定的多个字段标记类型均标注为该字段信息对应的类型;或者,可以将该字段信息标注为复合类型。
在根据预设规则确定字段信息对应的字段标记类型后,可以将所确定的字段标记类型与字段信息进行关联标注。在根据预设规则确定“姓名”、“曾用名”对应的字段标记类型为“中文人名”的情况下,可以对表中的“姓名”、“曾用名”关联标注字段标记类型“中文人名”,诸如可以在数据表中增加一行以在该列中添加字段信息对应的字段标记类型,如下表2所示,表2中示例出一种关联标注字段信息对应的字段标记类型的方式。
Figure BDA0002278928710000121
表2
二、数据信息查询过程
在接收到终端发起的搜索请求后,可以在已经完成类型标注处理的数据表中进行查询,以确定与搜索请求对应的数据信息,为了提高搜索效率与准确性,在接收到终端发起的搜索请求后,可以对搜索请求进行解析并确定与搜索请求对应的字段类型,基于搜索请求对应的字段类型匹配数据表中的字段标记类型,进而在字段类型对应的字段标记类型在数据表中的数据信息中进行检索,以确定与搜索请求匹配的数据信息。为对数据信息查询过程进行详细阐述,通过下述实施例进行说明:
请参见图3,图3是根据本申请一示例性实施例提供的另一种数据检索方法的流程图,如图3所示,所述方法涉及到下述步骤:
步骤301,接收终端发起的搜索请求。
发起搜索请求的终端可以是PC(Personal Computer,个人计算机)、移动终端等,移动终端可以是手机、平板电脑等含有不限制的操作系统的硬件设备。
需要说明的是,搜索请求可以为终端在收到用户所输入的待进行查询的内容信息的情况下,获取用户输入的待进行查询的内容信息,进而基于所获取的内容信息生成相应的搜索请求;搜索请求也可以为终端根据系统中的提示信息而自动生成,系统中的提示信息可以为基于所接收到的服务商或其他终端用户发送的通知消息而生成的提示信息,或者基于系统运行日志而生成的提示信息,本申请对终端发起搜索请求的具体方式不做限制。
步骤302,确定搜索请求匹配的字段类型。
在接收到用户发送的搜索请求后,可通过解析用户所发送的搜索请求以获取该搜索请求中包含的查询信息,进而基于所获取的查询信息匹配查询信息对应的字段类型,从而确定与搜索请求匹配的字段类型。
在确定搜索请求匹配的字段类型的过程中,可以基于预设规则对搜索请求中包含的查询信息进行识别以确定该搜索请求对应的字段类型。具体的,用于确定字段类型的预设规则可以包括自然语言处理分词器、信息的识别特征而配置的匹配规则,或者自然语言处理分词器与基于信息的识别特征而配置的匹配规则相结合的规则。
在预设规则中可以包含查询信息与字段类型的映射关系,具体的,由于中文语言中的单词之间没有明确的分隔符号,因而在确定文档数据中包含的数据信息的过程中,可以借助于分词系统将文档数据自动切分成单词序列,使得原本的文档数据切分为由单词构成的数据流。进一步的,由于分词过程中存在分词结果的粒度粗细的差异,可以在进行查询的过程中,使用粗粒度的分词方式以保证词语本身原本的含义,从而减弱因歧义造成的语义解析差异。
在一实施例中,预设规则可以为针对搜索请求中的查询信息的识别特征而配置的匹配规则,查询信息的识别特征可以为该查询信息中包含的内容或者查询信息对应的语义特征,预设规则中可以包含查询信息中的内容与字段标记类型之间的映射关系,也可以包含查询信息的语义特征与字段标记类型之间的映射关系,以根据搜索请求对应的查询信息包含的内容或者查询信息对应的语义特征确定字段标记类型。
在实际应用过程中,由于中文和英文等语言不同,在中文语言中单词之间没有明确的分隔符号,因而在确定搜索请求中包含的查询信息的过程中,可以借助于分词系统将查询信息自动切分成单词序列,使得原本的查询信息切分为由单词构成的数据流。
步骤303,确定字段类型对应的字段标记类型和字段标记类型对应的目标字段。
基于预设规则匹配搜索请求中包含的查询信息后,可以根据查询信息对应的字段类型确定数据表中的字段标记类型以及字段标记类型包含的目标字段,以表2为例,在确定用户输入的搜索请求中包含查询信息“张三”的情况下,可以基于预设规则确定“张三”对应的字段类型,即“中文人名”,同样的,数据表中也存在同为“中文人名”的字段标记类型,可以确定数据表中的字段标记类型“中文人名”,以及字段标记类型“中文人名”包含的目标字段“姓名”和“曾用名”。
在根据搜索请求确定的查询信息中包含数值的情况下,可以根据预设规则确定查询信息中包含的数值对应的包含有数值范围的字段类型,具体的,可以在含有数值范围的字段类型中确定数值范围包含查询信息中的数值的字段类型,将数据表中该字段类型对应的字段信息作为目标检索字段,从而在目标检索字段对应的数据信息中进行检索,从而缩小了检索,提高了检索效率。
例如根据搜索请求确定的查询信息中包含数值30,进而可以确定查询信息中包含的数值30位于预设规则中字段类型为“包含数值范围0~50的数值”,则可以确定包含数值30的查询信息对应的字段标记类型为“数值(包含数值范围0~50)”,即确定数据表中数值范围覆盖查询信息中的数值的目标检索字段,进而仅在目标检索字段对应的数据信息中进行检索,进一步减小检索范围,提高了检索效率。
步骤304,基于所确定的字段标记类型和字段标记类型对应的目标字段生成检索语句。
在基于预设规则确定搜索请求中的查询信息对应的字段标记类型和字段标记类型对应的目标字段的情况下,可以基于所确定的字段标记类型和字段标记类型对应的目标字段生成检索语句,具体的,可以在字段标记类型存在对应的多个目标字段的情况下,生成字段标记类型对应的多个目标字段之间的或运算有关的检索语句;而在字段类型存在对应的多个字段标记类型的情况下,生成多个字段标记类型对应的检索语句之间的与运算有关的检索语句。
以表2为例,对本申请中生成检索语句的过程进行说明,在接收到终端发起的包含用户输入的查询信息为“张三滨江”的搜索请求的情况下,可以对搜索请求中包含的查询信息进行分词,即将查询信息“张三滨江”拆分为“张三”和“滨江”,进而根据预设规则匹配分词处理后的查询信息,诸如基于预设规则确定“张三”对应的字段类型为中文人名,确定“滨江”对应的字段类型为地址,由于字段类型“中文人名”在数据表中包含两个目标字段,分别为“姓名”和“曾用名”,类似的,字段类型“地址”在数据表中包含两个目标字段,分别为“籍贯”和“居住地”,因而,在对接收到的搜索请求中的查询信息对应的多个字段类型,且字段类型化包含多个目标字段的情况下,可以生成字段类型之间的与运算,以及字段类型中的目标字段之间的或运算,因而,针对搜索请求“张三滨江”而生成的检索语句为xm=match(“张三”)or cym=match(“张三”))and(jg=match(“滨江”)or jzd=match(“滨江”))。
值得注意的是,在执行检索语句的过程中,基于任意字段类型或者目标字段所生成的检索语句对于标注有复合类型的字段信息在数据表中对应的数据信息均进行检索,即复合类型符合检索语句中所设置的任一字段标记类型的匹配;而对于存在有多个字段标记类型的字段信息而言,则仅在所执行的检索语句中包含有该字段标记类型的情况下,对数据表中该字段标记类型包含的目标字段对应的数据信息中进行检索。
例如对于字段标记类型中添加有复合类型的字段信息而言,在执行任一检索语句的过程中,均对于数据表中标注有复合类型的字段信息对应的数据信息中进行检索;而对于字段信息同时标注有“地址”、“中文人名”的字段标记类型的情况下,则在检索语句中存在字段标记类型“地址”或者字段标记类型“地址”对应的目标字段、检索语句中存在字段标记类型“中文人名”或者字段标记类型“中文人名”对应的目标字段的情况下,对同时标注有“地址”、“中文人名”的字段标记类型的字段信息在数据表中对应的数据信息进行检索。
步骤305,执行检索语句,以获得目标字段在数据表对应的数据信息中与搜索请求匹配的数据信息。
执行所生成的检索语句,被检索的数据信息为针对目标字段在数据表对应的数据信息中与搜索请求匹配的数据信息,进一步的,可以直接将检索到的数据信息进行反馈,诸如可以将数据表中所检索到的中文人名匹配“张三”,地址匹配“滨江”的数据行作为检索到的检索结果进行反馈。
在另一实施例中,在确定由检索语句获得的数据信息的情况下,可以确定检索到的数据信息对应的文档,从而将检索到的数据信息对应文档反馈至终端用户。具体的,可以确定目标字段在数据表中与查询信息对应的数据信息,确定该数据信息为检索字段,进而基于该检索字段可以获取该检索字段对应的索引信息,以确定索引信息对应的文档为响应于搜索请求的文档信息。
在根据检索字段对应的索引信息确定文档的过程中,可以根据索引信息获得检索字段的编号与文档编号的对应关系,进而在确定与查询信息对应的检索字段的情况下,可以根据检索字段的编号与文档编号的对应关系获得与查询信息对应的文档,并将所获得文档进行反馈。
进一步的,所确定的索引信息中还可以包括检索字段的编号、文档编号和检索字段的频数信息之间的对应关系,在确定与查询信息对应的检索字段后,可以根据索引信息获得检索字段对应的文档编号和检索字段在文档中的出现频率,在向终端用户反馈文档的过程中,可以优先按照频数信息进行排序,诸如将频数信息进行倒序排序,从而将频数信息倒序排序后的文档反馈至用户终端,当文档中与检索信息匹配的检索字段出现的频率愈高的情况下,则表明该文档与用户终端发起的搜索请求中包含的查询信息愈匹配,从而按照频数信息倒序排序后,排在前面的文档意味着与终端用户输入的搜索请求匹配度愈高的文档,通过优先将匹配度更高的文档反馈至用户,从而提高了用户的查阅效率,提升了用户体验。
通过上述实施例可知,通过对数据表中的字段进行类型标注处理过程和数据信息查询过程,使得在接收到用户发送的搜索请求后,对接收到的搜索请求进行解析并确定搜索请求中包含的查询信息,可以基于预设规则确定查询信息对应的字段类型,进而确定数据表中的字段标记类型以及字段标记类型包含的目标字段,从而在字段标记类型和目标字段在数据表对应的数据信息中进行检索,而无需对数据表中的全部数据信息进行遍历,从而提高了数据检索效率。
图4是根据本申请一示例性实施例中的一种电子设备的示意结构图。请参考图4,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据检索装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图5,图5是根据本申请一示例性实施例中的一种数据检索装置的框图,如图5所示,在软件实施方式中,该数据检索装置可以包括:
接收单元501,接收终端发起的搜索请求;
字段类型确定单元502,确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的;
目标字段确定单元503,根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段;
检索单元504,基于所述查询信息在所述目标字段中进行检索。
可选的,还包括:
第一确定单元505,确定所述目标字段中与所述查询信息对应的检索字段;或者,
第二确定单元506,确定所述目标字段中与所述查询信息对应的检索字段;获取所述检索字段对应的索引信息,以确定所述索引信息对应的文档。
可选的,所述索引信息包括所述检索字段的编号、文档编号和所述检索字段的频数信息之间的对应关系,所述第二确定单元具体用于:
获取检索字段对应的索引信息;
根据所述索引信息确定所述检索字段对应的文档编号和所述检索字段的频数信息;
确定基于所述频数信息排序后的文档编号对应的文档。
可选的,所述预设规则包括自然语言处理分词器和/或基于字段在所述数据表中对应的数据信息的识别特征配置的匹配规则。
可选的,在所述目标字段在所述数据表中对应的数据信息包含数值的情况下,所述目标字段还被预先添加有所述数值对应的取值范围,所述检索单元具体用于:
确定数据表中所述数值范围覆盖所述查询信息中的数值的目标检索字段;
基于所述查询信息在所述目标检索字段对应的数据信息中进行检索。
可选的,所述检索单元具体用于:
确定所述字段标记类型对应的目标字段;
在所述字段标记类型存在对应的多个目标字段的情况下,生成所述字段标记类型对应的与所述多个目标字段之间的或运算有关的检索语句;
确定所述字段类型对应的字段标记类型;
在所述字段类型存在对应的多个字段标记类型的情况下,生成与所述多个字段标记类型对应的检索语句之间的与运算有关的检索语句。
可选的,所述字段类型确定单元中基于所述预设规则对数据表中的各个字段进行识别的过程,具体包括:
周期性地基于所述预设规则对所述数据表中的各个字段进行识别;或者,
在所述数据表中的字段存在更新变动的情况下,触发基于所述预设规则对更新变动后的数据表中的字段进行识别。
所述装置与上述方法相对应,更多相同的细节不再一一赘述。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种数据检索方法,其特征在于,所述方法包括:
接收终端发起的搜索请求;
确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的;
根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段;
基于所述查询信息在所述目标字段中进行检索。
2.根据权利要求1所述方法,其特征在于,还包括:
确定所述目标字段中与所述查询信息对应的检索字段;或者,
确定所述目标字段中与所述查询信息对应的检索字段;获取所述检索字段对应的索引信息,以确定所述索引信息对应的文档。
3.根据权利要求2所述方法,其特征在于,所述索引信息包括所述检索字段的编号、文档编号和所述检索字段的频数信息之间的对应关系,所述获取所述检索字段对应的索引信息,以确定所述索引信息对应的文档,包括:
获取检索字段对应的索引信息;
根据所述索引信息确定所述检索字段对应的文档编号和所述检索字段的频数信息;
确定基于所述频数信息排序后的文档编号对应的文档。
4.根据权利要求1所述方法,其特征在于,所述预设规则包括自然语言处理分词器和/或基于字段在所述数据表中对应的数据信息的识别特征配置的匹配规则。
5.根据权利要求1所述方法,其特征在于,在所述目标字段在所述数据表中对应的数据信息包含数值的情况下,所述目标字段还被预先添加有所述数值对应的取值范围,所述基于所述查询信息在所述目标字段中进行检索,包括:
确定数据表中所述数值范围覆盖所述查询信息中的数值的目标检索字段;
基于所述查询信息在所述目标检索字段对应的数据信息中进行检索。
6.根据权利要求1所述方法,其特征在于,所述基于所述查询信息在所述目标字段中进行检索,包括:
确定所述字段标记类型对应的目标字段;
在所述字段标记类型存在对应的多个目标字段的情况下,生成所述字段标记类型对应的与所述多个目标字段之间的或运算有关的检索语句;
确定所述字段类型对应的字段标记类型;
在所述字段类型存在对应的多个字段标记类型的情况下,生成与所述多个字段标记类型对应的检索语句之间的与运算有关的检索语句。
7.根据权利要求1所述方法,其特征在于,所述基于所述预设规则对数据表中的各个字段进行识别,包括:
周期性地基于所述预设规则对所述数据表中的各个字段进行识别;或者,
在所述数据表中的字段存在更新变动的情况下,触发基于所述预设规则对更新变动后的数据表中的字段进行识别。
8.一种数据检索装置,其特征在于,所述装置包括:
接收单元,接收终端发起的搜索请求;
字段类型确定单元,确定所述搜索请求匹配的字段类型,所述字段类型是基于预设规则对所述搜索请求中包含的查询信息进行识别而得到的;
目标字段确定单元,根据所述字段类型与基于所述预设规则对数据表中的各个字段进行预先标记的字段标记类型,将与所述字段类型相匹配的字段标记类型在所述数据表中对应的字段确定为目标字段;
检索单元,基于所述查询信息在所述目标字段中进行检索。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为可执行指令以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
CN201911133332.6A 2019-11-19 2019-11-19 一种数据检索方法及装置 Active CN110866091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911133332.6A CN110866091B (zh) 2019-11-19 2019-11-19 一种数据检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911133332.6A CN110866091B (zh) 2019-11-19 2019-11-19 一种数据检索方法及装置

Publications (2)

Publication Number Publication Date
CN110866091A true CN110866091A (zh) 2020-03-06
CN110866091B CN110866091B (zh) 2023-07-11

Family

ID=69655661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911133332.6A Active CN110866091B (zh) 2019-11-19 2019-11-19 一种数据检索方法及装置

Country Status (1)

Country Link
CN (1) CN110866091B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639156A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN111949756A (zh) * 2020-07-16 2020-11-17 新疆中顺鑫和供应链管理股份有限公司 危化品检索方法、装置、电子设备和介质
CN112395389A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 基于报关单规则的全文智能检索方法及装置
CN114579573A (zh) * 2022-03-03 2022-06-03 北京百度网讯科技有限公司 信息检索方法、装置、电子设备以及存储介质
CN115374765A (zh) * 2022-10-27 2022-11-22 浪潮通信信息系统有限公司 一种基于自然语言处理的算力网络5g数据解析系统及方法
CN116186067A (zh) * 2023-04-27 2023-05-30 浪潮云洲(山东)工业互联网有限公司 一种工业数据表存储查询方法及设备
CN117033735A (zh) * 2023-10-08 2023-11-10 之江实验室 基因数据检索方法、装置、计算机设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174238A1 (en) * 2006-01-18 2007-07-26 Microsoft Corporation Indexing and searching numeric ranges
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN109739963A (zh) * 2018-12-27 2019-05-10 苏州龙信信息科技有限公司 信息检索方法、装置、设备和介质
CN109753517A (zh) * 2018-12-06 2019-05-14 北京明略软件系统有限公司 一种信息查询的方法、装置、计算机存储介质及终端
CN109918453A (zh) * 2019-02-13 2019-06-21 中国三峡建设管理有限公司 一种以自然语言搜索关系型复杂管理信息系统数据的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174238A1 (en) * 2006-01-18 2007-07-26 Microsoft Corporation Indexing and searching numeric ranges
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN109753517A (zh) * 2018-12-06 2019-05-14 北京明略软件系统有限公司 一种信息查询的方法、装置、计算机存储介质及终端
CN109739963A (zh) * 2018-12-27 2019-05-10 苏州龙信信息科技有限公司 信息检索方法、装置、设备和介质
CN109918453A (zh) * 2019-02-13 2019-06-21 中国三峡建设管理有限公司 一种以自然语言搜索关系型复杂管理信息系统数据的方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639156A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN111639156B (zh) * 2020-05-13 2024-04-12 广州国音智能科技有限公司 一种基于层级标签的查询方法、装置,设备及存储介质
CN111949756A (zh) * 2020-07-16 2020-11-17 新疆中顺鑫和供应链管理股份有限公司 危化品检索方法、装置、电子设备和介质
CN112395389A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 基于报关单规则的全文智能检索方法及装置
CN114579573A (zh) * 2022-03-03 2022-06-03 北京百度网讯科技有限公司 信息检索方法、装置、电子设备以及存储介质
CN115374765A (zh) * 2022-10-27 2022-11-22 浪潮通信信息系统有限公司 一种基于自然语言处理的算力网络5g数据解析系统及方法
CN116186067A (zh) * 2023-04-27 2023-05-30 浪潮云洲(山东)工业互联网有限公司 一种工业数据表存储查询方法及设备
CN117033735A (zh) * 2023-10-08 2023-11-10 之江实验室 基因数据检索方法、装置、计算机设备以及存储介质
CN117033735B (zh) * 2023-10-08 2024-01-16 之江实验室 基因数据检索方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN110866091B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN110866091B (zh) 一种数据检索方法及装置
CN107038207B (zh) 一种数据查询方法、数据处理方法及装置
CN106033416B (zh) 一种字符串处理方法及装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN110321408B (zh) 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US9754022B2 (en) System and method for language sensitive contextual searching
CN110969022B (zh) 语义确定方法及相关设备
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
CN112199526B (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN105843960A (zh) 基于语义树的索引方法和系统
WO2015096625A1 (zh) 一种信息碎片的翻译方法及系统
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
Schmidt et al. Extraction of address data from unstructured text using free knowledge resources
CN112687403B (zh) 药品词典的生成及药品搜索方法及装置
CN113761137B (zh) 一种提取地址信息的方法及装置
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备
CN110008407B (zh) 一种信息检索方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20200219481A1 (en) System and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
US10503773B2 (en) Tagging of documents and other resources to enhance their searchability
US10678870B2 (en) System and method for search discovery
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant