CN113254588A - 一种数据搜索方法及系统 - Google Patents

一种数据搜索方法及系统 Download PDF

Info

Publication number
CN113254588A
CN113254588A CN202110616370.8A CN202110616370A CN113254588A CN 113254588 A CN113254588 A CN 113254588A CN 202110616370 A CN202110616370 A CN 202110616370A CN 113254588 A CN113254588 A CN 113254588A
Authority
CN
China
Prior art keywords
search
data
word
association
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110616370.8A
Other languages
English (en)
Other versions
CN113254588B (zh
Inventor
简仁贤
史传勇
刘刚
李宁宁
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202110616370.8A priority Critical patent/CN113254588B/zh
Publication of CN113254588A publication Critical patent/CN113254588A/zh
Application granted granted Critical
Publication of CN113254588B publication Critical patent/CN113254588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据搜索方法及系统,方法包括:获取用户输入的搜索词;对所述搜索词进行预处理;对预处理后的所述搜索词进行识别处理,获取最终搜索词;根据所述最终搜索词在搜索引擎中进行搜索查询,获取搜索结果。通过本技术方案,搜索系统可以适配任意的数据格式,对任意数据提供搜索与联想支持,并且结合自然语言处理对搜索进行处理。本技术方案的功能可以通过页面配置调整,减少用户编码。

Description

一种数据搜索方法及系统
技术领域
本发明涉及数据搜索技术领域,具体涉及一种数据搜索方法及系统。
背景技术
当前在做数据搜索的时候,大部分是基于当前的搜索数据结构进行定制化的开发,针对当前的数据结构编写代码完成数据的管理与搜索。这种数据搜索方式对于每套数据均需要进行一次编码,缺少通用性,例如底层的召回策略、排序策略不能实现通用,且扩展性不佳。
例如,用户在日常生活中会对商品信息和新闻资讯信息等多种不同的数据进行搜索。但是,商品信息和新闻资讯信息两者的数据结构不同,并且有不同的查询和排序需求。例如查询的商品信息有商品名称、店铺信息、优惠情况、价格等,而新闻资讯信息则有新闻标题、新闻内容、发布时间、作者等;商品的排序要求优惠高的排序在前;新闻要求时间最近的靠前,之前的搜索系统应对上述场景都需要专门的定制开发。
发明内容
针对现有技术中的技术缺陷,本申请实施例的目的在于提供一种数据搜索方法及系统,以解决现有的数据搜索方式缺少通用性、扩展性不佳等问题。
为实现上述目的,第一方面,本申请提供了一种数据搜索方法,包括:
获取用户输入的搜索词;
对所述搜索词进行预处理;
对预处理后的所述搜索词进行识别处理,获取最终搜索词;
根据所述最终搜索词在搜索引擎中进行搜索查询,获取搜索结果。
可选的,所述搜索词包括:
用户输入的关键词,和/或,
根据用户输入的关键词,调用预构建的联想库中的联想数据进行联想提示获取的联想词。
可选的,所述联想库中的联想数据的获取方法包括:
定义搜索数据源,构建搜索库;
定义联想数据源,构建联想库;
将现有数据库中的数据导入所述搜索库中,根据所述搜索数据源对导入的数据进行结构转换,获取搜索数据;
调用预先构建的第一深度学习模型根据所述联想数据源对所述搜索数据进行抽取,获取联想数据,将所述联想数据存储到所述联想库中。。
可选的,所述搜索结果为包含有所述搜索词的所述搜索数据源所定义的数据结构列表。
可选的,所述方法还包括:
根据预设的排序逻辑重新对所述搜索结果进行排序,返回重新排序后的搜索结果。
可选的,对所述搜索词进行预处理,包括:
对所述搜索词进行大小写转换和繁简转换,以将所述搜索词统一转为小写和简体。
可选的,对所述搜索词进行预处理,包括:
对所述搜索词进行违禁词检查;
若不含有违禁词,去除所述搜索词中的非名词词性的分词和前后空格,获取第一搜索分词,对所述第一搜索分词进行纠错处理。
可选的,若含有违禁词,返回错误提示。
可选的,对预处理后的所述搜索词进行识别处理,获取最终搜索词,具体包括:
对预处理后的搜索词进行意图识别,获取搜索意图,根据所述搜索意图返回第二搜分词;
通过预设的归一库对所述第二搜分词进行归一识别获取第三搜索分词;
通过预设的同义词库结合预先构建的第二深度学习模型对所述第三搜索分词进行同义词识别,获取所述第三搜索分词的同义词,将所述同义词和第三搜索分词融合,一起作为最终搜索词。
第二方面,本申请还提供了一种数据搜索系统,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
实施本申请实施例,至少具有以下技术效果:
通过本技术方案,搜索系统可以适配任意的数据格式,对任意数据提供搜索与联想支持,并且结合自然语言处理对搜索进行处理。本技术方案的功能可以通过页面配置调整,减少用户编码。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的数据搜索方法的流程示意图;
图2是本申请实施例提供的数据搜索装置的结构示意图;
图3是本申请实施例提供的数据搜索系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本申请实施例提供的数据搜索方法解决的是针对不同数据的搜索元数据管理、搜索策略,排序策略具有通用性和扩展性,从而实现一套系统应对不同搜索数据的场景。
利用本申请实施例提供的数据搜索方法,开发人员可以通过在页面的数据源管理界面进行操作,添加不同的数据源以及相应的字段,即可以实现搜索不同的数据,而不需要再针对性的为这几种不同的数据开发搜索代码,并且可以实现不同的查询、排序需求。
在本申请实施例中,以搜索商品信息为例对本申请的搜索方法流程进行说明。图1为本申请实施例提供的数据搜索方法的流程图,该数据搜索方法可应用于服务器,用户可以通过智能移动终端或个人计算机与服务器建立通信连接后,通过智能移动终端或个人计算机输入搜索词,服务器接收到该搜索词后按照本申请的方法进行搜索,并返回搜索内容。
参照图1所示,本申请实施例提供的数据搜索方法可以包括:
S100:获取用户输入的搜索词。
具体的,搜索词可以是用户输入的关键词,和/或,根据用户输入的关键词,调用预构建的联想库中的联想数据进行联想提示获取的联想词。
本实施例中,用户可以通过在智能移动终端或个人计算机的搜索输入框中输入想要搜索的关键词,智能移动终端或个人计算机通过网络与服务器建立通信连接,服务器即可获取到用户输入的关键词。本实施例中,关键词可以是一个字,也可以是一个词语,或者是一个短句,用户也可以输入拼音。本申请对搜索词的具体形式不做具体限定。
本实施例中,在用户输入关键词的过程中,服务器会根据用户已输入的字或者词,使用前缀、包含、拼音前缀、拼音包含等方式,从联想库中调用相应的联想词,对用户的输入进行联想提示,用户可以选择使用联想词作为搜索词,也可以不使用联想词,使用自己输入的关键词作为搜索词。
本实施例中,例如用户输入的关键词为“平果”。当用户输入“平”字的时候,联想库会提示“平安”等提示词,用户可以选择“平安”作为搜索词,也可以继续输入“果”字。本例中,用户采用手动输入的关键词“平果”作为搜索词。
本实施例中,联想库中的联想数据通过以下方法获取:
S101:定义搜索数据源,构建搜索库。
通过添加搜索数据元数据,定义搜索数据源,以构建搜索库。本实施例中,添加搜索数据元数据主要是为该搜索库的搜索数据结构添加字段属性。搜索数据结构的字段属性可以包括:
字段名称:字段名称,一般英文符号标识。
字段描述:基本描述,一般用中文描述字段用途。
字段类型:选择对应类型,有数值、字符串等类型。
字段权重:直接影响排序,默认值是1.00,仅支持配置0-5的数值,最多支持输入小数点后两位。<1.00降权,命中该字段时item排序靠后;>1.00加权,命中该字段时item排序靠前;字段权重配置成功后立即生效。
是否检索:配置成检索字段后,Query才会匹配这个字段的值召回数据;仅字段类型是“text”“keyword”才允许设置成本检索字段,区别是text类型字段支持全文检索,keyword类型字段完全匹配才可以搜索召回;“是否检索”参数置成功后立即生效。
是否高亮:某字段设置了高亮,搜索结果展示命中词是否高亮展示。“是否高亮”参数配置成功后立即生效。
是否联想提示源:输入联想词从提示源抽取数据,字段设置成提示源之后才会抽取改字段的值作为联想词。“是否提示源”参数配置成功仅对增量数据生效,如需要对存量数据生效,需要联系管理员初始化联想词。
联想提示源处理:包含两种方式,一种是原值,即将改字段的数据直接作为联想词;另外一种抽取模式,从改字段的数据里抽取分词&短语作为提示词。
具体到本实施例中,先创建商品信息的数据源,即创建商品信息的字段,例如:商品名称字段,设置为搜索字段;店铺信息字段,设置为搜索字段;优惠信息字段,设置为搜索字段;价格字段,设置为过滤字段。
S102:定义联想数据源,构建联想库。
通过添加联想数据元数据,定义联想数据源,以构建联想库。本实施例中,添加联想数据元数据主要是为该联想库的联想数据结构添加字段属性。联想数据结构的字段属性可以包括:
字段名称:字段名称,一般英文符号标识;
字段描述:基本描述,一般用中文描述字段用途;
字段类型:选择对应类型,有数值,字符串等类型。
本实施例中,设置从商品名称中抽取联想内容。
S103:将现有数据库中的数据导入所述搜索库中,根据所述搜索数据源对导入的数据进行结构转换,获取搜索数据。
现有数据库中的数据数量庞大,且数据结构各部相同,因此需要将数据库中的数据的结构按照搜索数据源的定义的数据结构进行转换,并将转换后的数据存储在搜索库中。
S104:调用预先构建的第一深度学习模型根据所述联想数据源对所述搜索数据进行抽取,获取联想数据,将所述联想数据存储到所述联想库中。
服务器调用预先构建好的第一深度学习模型,根据所述联想数据源定义的数据结构在搜索库中对所述搜索数据进行抽取,抽取联想数据,并将抽取到的联想数据存储到联想库中。
S200:对所述搜索词进行预处理。
用户最终输入的搜索词可能在存在大小写、繁体字等形式问题,或者在搜索词中可能有错别字、前后存在空格等问题,或者搜索词存在形容词、动词或副词等非名词词性的分词。搜索词若存在上述问题会影响搜索结果,因此需要对搜索词进行预处理以去除掉搜索词中可能存证的上述问题。
本实施例中,对搜索词进行预处理具体可以包括以下步骤:
S201:对所述搜索词进行大小写转换和繁简转换,以将所述搜索词统一转为小写和简体。
S202:对进行大小写转换和繁简转换后的所述搜索词进行违禁词检查。
通过与预设的违禁词库进行比对,检查搜索词是否含有违禁词。
S203:若含有违禁词,返回错误提示。
若检查到搜索词中含有违禁词,服务器之间返回错误提示,提示用户输入的搜索词中含有违禁词,无法进行搜索。
S204:若不含有违禁词,去除所述搜索词中的非名词词性的分词和前后空格,获取第一搜索分词,对所述第一搜索分词进行纠错处理。
采用字符串匹配算法将第一搜索分词与预设的纠错词库进行匹配,从而对第一搜索分词进行纠错,更正第一搜索分词中的错别字。
本实施例中,服务器对搜索词“平果”先进行大小写转换、简繁转换处理;然后对“苹果”进行违禁词检查,通过后,对“平果”进行去除非名词词性的分词和前后空格的操作后,得到的第一搜索分词为“平果”;对第一搜索分词“平果”进行纠错处理,本实施例中,对“平果”进行纠错处理后的搜索词为“苹果”。
S300:对预处理后的所述搜索词进行识别处理,获取最终搜索词。
由于用户在搜索时仅仅只输入了一个搜索词,因此还需要对预处理后的搜索词搜索词进行识别处理,以使服务器能够进行更加准确的搜索。
具体的,本实施例中,对预处理后的所述搜索词进行识别处理,获取最终搜索词,具体包括:
S301:对预处理后的搜索词进行意图识别,获取搜索意图,根据所述搜索意图返回第二搜分词。
本实施例中,服务器调用意图识别服务,使用意图深度学习模型对预处理后的搜索词进行意图识别,获取搜索意图,根据搜索意图返回第二搜分词。
意图深度学习模型采用用户之前的历史搜索数据进行训练而成,因此不同用户对应的意图深度学习模型不同,通过对用户之前的历史搜索数据进行学习、训练,能够准确地识别用户的搜索意图。
本实施例中,预处理后的搜索词为“苹果”,调用意图深度学习模型对预处理后的搜索词进行意图识别,识别出搜索意图为苹果手机,则根据搜索意图返回的第二搜分词为“苹果手机”。
S302:通过预设的归一库对所述第二搜分词进行归一识别获取第三搜索分词。
通过预设的归一库对第二搜分词进行归一识别,将识别后获取的归一词作为第三搜索分词。
本实施例中,服务器按照上述方法对第二搜分词为“苹果手机”进行归一化处理,获取的第三搜索分词仍为“苹果手机”。
S303:通过预设的同义词库结合预先构建的第二深度学习模型对所述第三搜索分词进行同义词识别,获取所述第三搜索分词的同义词,将所述同义词和第三搜索分词融合,一起作为最终搜索词。
本实施例中,服务器通过预设的同义词库结合预先构建的第二深度学习模型对“苹果手机”进行同义词识别,获取到的同义词有iphone,所以最终搜索词为“苹果手机、iphone”。
S400:根据所述最终搜索词在搜索引擎中进行搜索查询,获取搜索结果。
具体的,所述搜索结果为包含有所述搜索词的所述搜索数据源所定义的数据结构列表。
本实施例中,服务器根据最终搜索词“苹果手机、iphone”在搜索引擎中进行搜索查询,获取包括“苹果手机”和“iphone”等信息的商品信息列表。
可选的,在步骤S400之后,所述方法还包括:
S500:根据预设的排序逻辑重新对所述搜索结果进行排序,返回重新排序后的搜索结果。
服务器在获取到搜索结果后,需要按照相似度分数、搜索数据源之间的排序等逻辑进行重新排序,将重新排序后的搜索结果发送给用户的智能移动终端或个人计算机,使用户可以查看搜索结果。
本实施例中,服务器根据相似度对商品进行排序后返回列表作为搜索结果。
综上所述,通过本实施例提供的技术方案,搜索系统可以适配任意的数据格式,对任意数据提供搜索与联想支持,并且结合自然语言处理对搜索进行处理。本技术方案的功能可以通过页面配置调整,减少用户编码。
基于相同的发明构思,本申请实施例还提供了一种数据搜索装置,适用于上述数据搜索方法实施例部分的方法。如图2所示,该装置可以包括:
输入模块601,用于获取用户输入的搜索词;
预处理模块602,用于对所述搜索词进行预处理;
识别处理模块603,用于对预处理后的所述搜索词进行识别处理,获取最终搜索词;
搜索模块604,用于根据所述最终搜索词在搜索引擎中进行搜索查询,获取搜索结果。
基于相同的发明构思,本申请实施例还提供一种数据搜索系统。如图3所示,该系统可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述数据搜索方法实施例部分的方法。
应当理解,在本申请实施例中,所称处理器101可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器101、输入设备102、输出设备103可执行本申请实施例提供的数据搜索方法实施例中所描述的实现方式,在此不再赘述。
需要说明的是,关于数据搜索系统的具体工作流程,可参考前述方法实施例部分,在此不再赘述。
进一步地,本申请实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:上述数据搜索方法。
所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据搜索方法,其特征在于,包括:
获取用户输入的搜索词;
对所述搜索词进行预处理;
对预处理后的所述搜索词进行识别处理,获取最终搜索词;
根据所述最终搜索词在搜索引擎中进行搜索查询,获取搜索结果。
2.根据权利要求1所述的一种数据搜索方法,其特征在于,所述搜索词包括:
用户输入的关键词,和/或,
根据用户输入的关键词,调用预构建的联想库中的联想数据进行联想提示获取的联想词。
3.根据权利要求2所述的一种数据搜索方法,其特征在于,所述联想库中的联想数据的获取方法包括:
定义搜索数据源,构建搜索库;
定义联想数据源,构建联想库;
将现有数据库中的数据导入所述搜索库中,根据所述搜索数据源对导入的数据进行结构转换,获取搜索数据;
调用预先构建的第一深度学习模型根据所述联想数据源对所述搜索数据进行抽取,获取联想数据,将所述联想数据存储到所述联想库中。
4.根据权利要求3所述的一种数据搜索方法,其特征在于,所述搜索结果为包含有所述搜索词的所述搜索数据源所定义的数据结构列表。
5.根据权利要求1所述的一种数据搜索方法,其特征在于,所述方法还包括:
根据预设的排序逻辑重新对所述搜索结果进行排序,返回重新排序后的搜索结果。
6.根据权利要求1所述的一种数据搜索方法,其特征在于,对所述搜索词进行预处理,包括:
对所述搜索词进行大小写转换和繁简转换,以将所述搜索词统一转为小写和简体。
7.根据权利要求1所述的一种数据搜索方法,其特征在于,对所述搜索词进行预处理,包括:
对所述搜索词进行违禁词检查;
若不含有违禁词,去除所述搜索词中的非名词词性的分词和前后空格,获取第一搜索分词,对所述第一搜索分词进行纠错处理。
8.根据权利要求7所述的一种数据搜索方法,其特征在于,若含有违禁词,返回错误提示。
9.根据权利要求1所述的一种数据搜索方法,其特征在于,对预处理后的所述搜索词进行识别处理,获取最终搜索词,具体包括:
对预处理后的搜索词进行意图识别,获取搜索意图,根据所述搜索意图返回第二搜分词;
通过预设的归一库对所述第二搜分词进行归一识别获取第三搜索分词;
通过预设的同义词库结合预先构建的第二深度学习模型对所述第三搜索分词进行同义词识别,获取所述第三搜索分词的同义词,将所述同义词和第三搜索分词融合,一起作为最终搜索词。
10.一种数据搜索系统,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9任一项所述的方法。
CN202110616370.8A 2021-06-02 2021-06-02 一种数据搜索方法及系统 Active CN113254588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110616370.8A CN113254588B (zh) 2021-06-02 2021-06-02 一种数据搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110616370.8A CN113254588B (zh) 2021-06-02 2021-06-02 一种数据搜索方法及系统

Publications (2)

Publication Number Publication Date
CN113254588A true CN113254588A (zh) 2021-08-13
CN113254588B CN113254588B (zh) 2023-08-22

Family

ID=77186103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110616370.8A Active CN113254588B (zh) 2021-06-02 2021-06-02 一种数据搜索方法及系统

Country Status (1)

Country Link
CN (1) CN113254588B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154026A (zh) * 2021-11-12 2022-03-08 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114547064A (zh) * 2021-12-31 2022-05-27 广州盖盟达工业品有限公司 一种产品搜索方法、系统、计算机设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200795A (ja) * 2012-03-26 2013-10-03 Hitachi Ltd 連想検索システム、連想検索サーバ及びプログラム
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答系统及智能检索方法
CN107885783A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 获取搜索词高相关分类的方法和装置
CN109255011A (zh) * 2018-07-20 2019-01-22 深圳点猫科技有限公司 一种基于人工智能的搜索提示方法及电子设备
CN109582155A (zh) * 2018-11-23 2019-04-05 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN112083812A (zh) * 2020-08-24 2020-12-15 珠海格力电器股份有限公司 联想词确定方法、装置、存储介质和电子设备
CN112347340A (zh) * 2020-11-17 2021-02-09 平安数字信息科技(深圳)有限公司 信息搜索方法、装置和计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200795A (ja) * 2012-03-26 2013-10-03 Hitachi Ltd 連想検索システム、連想検索サーバ及びプログラム
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答系统及智能检索方法
CN107885783A (zh) * 2017-10-17 2018-04-06 北京京东尚科信息技术有限公司 获取搜索词高相关分类的方法和装置
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN109255011A (zh) * 2018-07-20 2019-01-22 深圳点猫科技有限公司 一种基于人工智能的搜索提示方法及电子设备
CN109582155A (zh) * 2018-11-23 2019-04-05 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN112083812A (zh) * 2020-08-24 2020-12-15 珠海格力电器股份有限公司 联想词确定方法、装置、存储介质和电子设备
CN112347340A (zh) * 2020-11-17 2021-02-09 平安数字信息科技(深圳)有限公司 信息搜索方法、装置和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孔桃等: "基于语义联想的中文图像搜索引擎――构想与实验", 《现代图书情报技术》 *
孔桃等: "基于语义联想的中文图像搜索引擎――构想与实验", 《现代图书情报技术》, no. 03, 25 March 2002 (2002-03-25), pages 63 - 65 *
王金龙等: "联想词库的构建方法与应用", 《中国康复医学杂志》 *
王金龙等: "联想词库的构建方法与应用", 《中国康复医学杂志》, vol. 35, no. 06, 31 December 2020 (2020-12-31), pages 748 - 752 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154026A (zh) * 2021-11-12 2022-03-08 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114547064A (zh) * 2021-12-31 2022-05-27 广州盖盟达工业品有限公司 一种产品搜索方法、系统、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN113254588B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
WO2021174717A1 (zh) 文本意图识别方法、装置、计算机设备和存储介质
US20160275148A1 (en) Database query method and device
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN110083681B (zh) 基于数据分析的搜索方法、装置及终端
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN108427702B (zh) 目标文档获取方法及应用服务器
CN115438166A (zh) 基于关键词和语义的搜索方法、装置、设备及存储介质
CN110909122A (zh) 一种信息处理方法及相关设备
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN109947903B (zh) 一种成语查询方法及装置
CN113254588B (zh) 一种数据搜索方法及系统
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111984845A (zh) 网站错别字识别方法和系统
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN112988993B (zh) 一种问答方法和计算设备
CN111859066B (zh) 一种运维工单的查询推荐方法及装置
CN112269852B (zh) 生成舆情专题方法、系统及存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN110851560B (zh) 信息检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant