CN108460116A - 搜索方法、装置、计算机设备、存储介质及搜索系统 - Google Patents

搜索方法、装置、计算机设备、存储介质及搜索系统 Download PDF

Info

Publication number
CN108460116A
CN108460116A CN201810145564.2A CN201810145564A CN108460116A CN 108460116 A CN108460116 A CN 108460116A CN 201810145564 A CN201810145564 A CN 201810145564A CN 108460116 A CN108460116 A CN 108460116A
Authority
CN
China
Prior art keywords
search
long article
notebook data
article notebook
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810145564.2A
Other languages
English (en)
Other versions
CN108460116B (zh
Inventor
刘龙辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Suzhou Long Mobile Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Long Mobile Network Technology Co Ltd filed Critical Suzhou Long Mobile Network Technology Co Ltd
Priority to CN201810145564.2A priority Critical patent/CN108460116B/zh
Publication of CN108460116A publication Critical patent/CN108460116A/zh
Application granted granted Critical
Publication of CN108460116B publication Critical patent/CN108460116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请涉及一种搜索方法、装置、计算机设备、存储介质及搜索系统,所述搜索方法包括:获取搜索词;根据所述搜索词确定对应的搜索关键词根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;根据所述文本标识通过互联网获取对应的长文本数据,并返回所述长文本数据。通过根据预存的搜索关键词与文本标识的对应关系进行搜索避免了将长文本数据进行本地存储所带来的硬件成本较高的技术问题。

Description

搜索方法、装置、计算机设备、存储介质及搜索系统
技术领域
本申请涉及互联网技术领域,特别是涉及一种搜索方法、装置、计算机设备、存储介质及搜索系统。
背景技术
随着互联网行业的高速发展,网络上的信息数据呈现爆炸式的增长,之前的搜索引擎架构已不能满足搜索服务的需求。在这一环境下,出现了ElasticSearch(简称为ES)搜索服务器。ES搜索服务器构建在开源社区的索引库Lucence上,具有支持多用户租用、高可用、可水平扩展等特点,且具有自动容错和自动伸缩的机制。
在传统技术中,首先,通过抓取网页获取长文本数据;然后,ES架构将获取的长文本数据存储在服务器本地;最后,通过进行一系列的分析、过滤并建立对应的索引,以便后续的查询和搜索。当长文本数据更新后,对应的索引也需要及时更新以确保数据的准确性。
然而,ES架构需要按照索引对获取的长文本数据在服务器本地进行存储,则随着数据量的快速增涨,存储的数据越多,硬件成本越高。
发明内容
基于此,有必要针对上述传统技术中存在的硬件成本高的技术问题,提供一种搜索方法、装置、计算机设备、存储介质及搜索系统。
一种搜索方法,所述方法包括:获取搜索词;根据所述搜索词确定对应的搜索关键词;根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;根据所述文本标识获取对应的长文本数据;返回所述长文本数据。
在其中一个实施例中,在所述根据所述搜索词确定对应的搜索关键词之前,所述方法还包括:生成所述搜索关键词。
在其中一个实施例中,所述生成所述搜索关键词包括:获取网络信息,从所述网络信息中提取长文本数据;对所述长文本数据进行分割,得到对应的分词;从所述分词中提取所述搜索关键词。
在其中一个实施例中,所述从所述分词中提取搜索关键词,包括:从所述分词中提取符合预设类型的分词作为搜索关键词。
在其中一个实施例中,所述长文本数据设有对应的文本标识;在从所述分词中提取搜索关键词之后,还包括:建立所述搜索关键词与所述长文本数据的文本标识的对应关系。
在其中一个实施例中,在所述获取网络信息,从所述网络信息中提取长文本数据之后,还包括:对所述网络信息进行加密;所述对所述长文本数据进行分割,得到对应的分词,包括:对加密后的长文本数据进行分割,得到对应的分词。
一种搜索装置,所述装置包括:搜索词获取模块,用于获取搜索词;搜索关键词提取模块,用于从所述搜索词提取搜索关键词;搜索模块,用于根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;长文本数据获取模块,用于根据所述文本标识获取对应的长文本数据;长文本数据返回模块,用于返回所述长文本数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中的步骤。
一种搜索系统,所述系统包括:第一搜索服务器、数据处理服务器和第二搜索服务器。
所述第一搜索服务器,用于对长文本数据进行分割,得到对应的分词,并向所述数据处理服务器发送所述分词。
所述数据处理服务器,用于从所述分词中提取搜索关键词,建立所述搜索关键词与所述长文本数据的文本标识的对应关系,向所述第二搜索服务器发送所述对应关系。
所述第二搜索服务器,用于获取搜索词;从所述搜索词提取所述搜索关键词;根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;根据所述文本标识获取对应的长文本数据;返回所述长文本数据。
上述搜索方法、装置、计算机设备、存储介质及搜索系统,通过获取搜索词;根据所述搜索词确定对应的搜索关键词根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;根据所述文本标识通过互联网获取对应的长文本数据,并返回所述长文本数据。通过根据预存的搜索关键词与文本标识的对应关系进行搜索避免了将长文本数据进行本地存储所带来的硬件成本较高的技术问题。
附图说明
图1为一个实施例中搜索方法的应用环境图;
图2为一个实施例中搜索方法的流程示意图;
图3为一个实施例中搜索方法中的搜索关键词生成的流程示意图;
图4为一个实施例中搜索方法中的搜索关键词生成的流程示意图;
图5为一个实施例中搜索方法的时序图;
图6为一个实施例中新闻界面的示意图;
图7为一个实施例中设有文本标识的新闻正文的示意图;
图8为一个实施例中分词设有对应的类型的示意图;
图9为一个实施例中关键词与文本标识的对应关系的示意图;
图10为一个实施例中关键词与文本标识的对应关系的示意图;
图11为一个实施例中搜索装置的组成框图;
图12为一个实施例中计算机设备的内部结构图;
图13为一个实施例中搜索系统的组成示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的搜索方法,可以应用于如图1所示的应用环境中。终端110通过网络与第二搜索服务器120进行通信。第二搜索服务器120通过网络与服务器130进行通信。服务器130用于从互联网上获取网络信息,并从中获取长文本数据,并将长文本数据进行分词,以得到相应的分词。然后服务器130从得到的分词中提取对应的搜索关键词,建立搜索关键词与长文本数据的文本标识的对应关系。服务器130将搜索关键词与长文本数据的文本标识的对应关系发送至第二搜索服务器120。
终端110接收用户输入的搜索词并将搜索词发送至第二搜索服务器120,第二搜索服务器120从搜索词中提取搜索关键词,根据提取到的搜索关键词进行搜索。第二搜索服务器120根据预存的搜索关键词与文本标识的对应关系,得到与搜索关键词对应的文本标识。第二搜索服务器120根据文本标识获取对应的长文本数据,并将长文本数据返回至终端110。
另外,服务器130可以包括数据处理服务器131和第一搜索服务器132,且数据处理服务器131通过网络与第一搜索服务器132进行通信。第二搜索服务器120通过网络与数据处理服务器131进行通信。
具体地,数据处理服务器131通过网络从互联网上获取网络信息,并从中获取长文本数据。数据处理服务器131将长文本数据发送给第一搜索服务器132,第一搜索服务器132对长文本数据进行分割,得到对应的分词。第一搜索服务器132通过网络将对应的分词发送给数据处理服务器131。数据处理服务器131接收到长文本数据对应的分词,从分词中提取对应的搜索关键词,保存搜索关键词与长文本数据的文本标识的对应关系。数据处理服务器131将搜索关键词与长文本数据的文本标识的对应关系发送至第二搜索服务器120。
可以理解的是,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,第二搜索服务器120、服务器130、第一搜索服务器132可以用独立的服务器或者是多个服务器组成的服务器集群来实现。数据处理服务器131可以是但不限于独立服务器。本申请提供的实施例以服务器130包括数据处理服务器131和第一搜索服务器132为例进行说明。
在一个实施例中,如图2所示,提供了一种搜索方法,以该方法应用于图1中的第二搜索服务器120为例进行说明,包括以下步骤:
S210、获取搜索词。
其中,搜索词指的是在终端浏览器地址栏或搜索框中输入对应的字词以实现搜索长文本数据的目的。具体地,终端接收用户输入的搜索词,并将搜索词发送至第二搜索服务器,第二搜索服务器获取到相应的搜索词。
S220、根据搜索词确定对应的搜索关键词。
其中,搜索关键词指的是用于表达长文本数据内容的字词。第二搜索服务器可以根据相应的搜索关键词获取到对应的长文本数据。具体地,第二搜索服务器接收到终端发送的搜索词,根据接收到的搜索词确定对应的搜索关键词。
S230、根据搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与搜索关键词对应的文本标识。
文本标识指的是长文本数据的唯一标识,用于唯一地标识相应的长文本数据。其中,长文本数据指的是用于记载和存储文字信息的长文档型或长文本型的数据。长文本数据与搜索关键词之间存在对应关系,第二搜索服务器接收预先存储有搜索关键词与文本标识的对应关系。具体地,确定相应的搜索关键词后,第二搜索服务器根据搜索关键词进行搜索,并根据预存的搜索关键词与文本标识的对应关系,得到搜索关键词对应的文本标识。
S240、根据文本标识获取对应的长文本数据。
第二搜索服务器得到搜索关键词对应的文本标识。第二搜索服务器可以根据文本标识进行搜索,获取到文本标识对应的长文本数据。
S250、返回长文本数据。
根据文本标识,第二搜索服务器获取到文本标识对应的长文本数据,将长文本数据返回至终端,终端显示长文本数据相应的内容。
上述搜索方法中,通过获取搜索词,根据搜索词确定对应的搜索关键词,根据搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与搜索关键词对应的文本标识,根据文本标识通过互联网获取对应的长文本数据,并返回长文本数据。通过根据预存的搜索关键词与文本标识的对应关系进行搜索避免了将长文本数据进行本地存储所带来的硬件成本较高的技术问题。
在一个实施例中,在根据搜索词确定对应的搜索关键词之前,该方法还包括:生成搜索关键词。如图3所示,搜索关键词的生成方式包括以下步骤:
S310、获取网络信息,从网络信息中提取长文本数据。
其中,网络信息指的是通过网络爬虫程序从互联网中获取的信息。具体地,数据处理服务器通过获取网络信息,可以从获取的网络信息中提取长文本数据。比如,网络信息可以是新闻,可以是网页,也可以是专利申请文件。网络信息包括文字信息数据、文本的来源、文本的时间等内容。
S320、对长文本数据进行分割,得到对应的分词。
其中,分词指的是按照对长文本数据进行分割并按照一定规则重新组合而获取的一系列词序列。具体地,数据处理服务器从网络信息中提取长文本数据,并将长文本数据发送至第一搜索服务器,第一搜索服务器接收到长文本数据,对该长文本数据进行分割,重新组合按照一定的规范形成一系列的分词。第一搜索服务器通过网络将长文本数据对应的分词发送至数据处理服务器。即数据处理服务器得到长文本数据对应的分词。
S330、从分词中提取搜索关键词。
数据处理服务器得到长文本数据对应的分词,并从得到的分词中提取长文本数据对应的搜索关键词。
在上述实施例中,通过数据处理服务器获取网络信息,从网络信息中提取长文本数据。第一搜索服务器对长文本数据进行分割,得到对应的分词。数据处理服务器从分词中提取搜索关键词。对长文本数据进行处理获取对应的搜索关键词,提高了搜索相应数据的及时性和准确性。
在一个实施例中,从分词中提取搜索关键词,包括:从分词中提取符合预设类型的分词作为搜索关键词。
从第一搜索服务器得到的分词设有对应的类型。数据处理服务器可以根据分词设有的类型判断得到的分词的类型是否符合预设类型。当得到的分词的类型符合预设类型时,从得到的分词中提取符合预设类型的分词,并将提取到的预设类型的分词作为搜索关键词。
在一个实施例中,长文本数据设有对应的文本标识;在从分词中提取搜索关键词之后,搜索关键词的生成方式还包括:建立搜索关键词与长文本数据的文本标识的对应关系。
数据处理服务器从长文本数据对应的分词中提取搜索关键词。长文本数据设有对应的文本标识,文本标识是长文本数据的唯一标识。则搜索关键词与长文本数据之间存在对应关系,搜索关键词与长文本数据的文本标识也存在对应关系。即在从分词中提取搜索关键词之后,数据处理服务器可以根据长文本数据建立搜索关键词与文本标识之间的对应关系。
在上述实施例中,通过建立搜索关键词与文本标识之间的对应关系,并将搜索关键词与文本标识的对应关系发送至第二搜索服务器,第二搜索服务器将其进行预存。在第二搜索服务器通过搜索关键词进行搜索时,第二搜索服务器可以快速、及时准确地响应。
在一个实施例中,获取网络信息,从网络信息中提取长文本数据,包括:获取网络信息,对网络信息进行加密,从加密后的网络信息中提取长文本数据。对长文本数据进行分割,得到对应的分词,包括:对加密后的长文本数据进行分割,得到对应的分词。
加密处理可以是通过消息摘要算法对任意长度的明文输入即网络信息进行处理以产生长度固定的伪随机输入即长文本数据,通过加密处理可以确保对长文本数据进行传输的完整性及一致性。具体地,数据处理服务器通过获取网络信息,并对获取的网络信息进行加密处理,数据处理服务器可以从加密后的网络信息中提取加密后长文本数据。对加密后的长文本数据进行分割,得到长文本数据对应的分词。
在一个实施例中,如图4所示,本申请实施例提供的搜索关键词的生成方式包括以下步骤:
S410、获取网络信息,对网络信息进行加密,从加密后的网络信息中提取长文本数据。
数据处理服务器通过获取网络信息,并对获取的网络信息进行加密处理,数据处理服务器可以从加密后的网络信息中提取加密后长文本数据。比如,若网络信息是新闻,网络信息可以包括新闻标题、新闻内容、新闻发布时间、新闻的发布网站等。则长文本数据可以新闻正文的内容。若长文本数据是专利申请文件,长文本数据可以包括著录信息、申请文件名称、说明书摘要、说明书附图、摘要附图、说明书、权利要求书等。则长文本数据可以包括申请文件中的说明书摘要、权利要求书、说明书中的至少一个。
S420、对加密后的长文本数据进行分割,得到对应的分词。
数据处理服务器从加密是我网络信息中提取加密的长文本数据,并将加密的长文本数据发送至第一搜索服务器,第一搜索服务器接收到加密的长文本数据,对加密的长文本数据进行分割,第一搜索服务器通过网络将加密的长文本数据对应的分词发送至数据处理服务器。即数据处理服务器得到加密的长文本数据对应的分词。
S430、从分词中提取符合预设类型的分词作为搜索关键词。
从第一搜索服务器得到的分词设有对应的类型。数据处理服务器可以根据分词设有的类型判断得到的分词的类型是否符合预设类型。当得到的分词的类型符合预设类型时,从得到的分词中提取符合预设类型的该分词,并将提取到的预设类型的分词作为搜索关键词。
S440、建立搜索关键词与长文本数据的文本标识的对应关系。
数据处理服务器从长文本数据对应的分词中提取搜索关键词。长文本数据设有对应的文本标识,文本标识是长文本数据的唯一标识。则搜索关键词与长文本数据之间存在对应关系,搜索关键词与长文本数据的文本标识也存在对应关系。即在从分词中提取搜索关键词之后,数据处理服务器可以根据长文本数据建立搜索关键词与文本标识之间的对应关系。
上述实施例中,首先通过获取网络信息,并对其加密处理,从中提取长文本数据,确保了数据的一致性和完整性。然后获取长文本数据对应的分词,从分词中提取对应的搜索关键词,进而建立搜索关键词与长文本数据的文本标识的对应关系。不需要将长文本数据在第一搜索服务器进行本地存储,避免了将长文本数据进行本地存储所带来的硬件成本较高的技术问题,而且,避免了传统技术中索引更新不同步所带来的数据实时性较差的技术问题。
在一个实施例中,如图5所示,以ES搜索服务器为例,本实施例提供的搜索方法包括以下步骤:
步骤501,将ES搜索服务器默认的IK分词库清除,然后将对应的关键词整理为关键词字典,关键词字典为dic文件格式,用于存储有用户和开发者所关心的关键词。将关键词字典上传到IK分词库的目录,将ES搜索服务器的默认词库修改为整理的关键词字典。具体地,关键词字典包括关键词以及关键词属性参数,关键词设置有Token、Type等参数。Token用于表示关键词,Token的参数值可以是用户和开发者所关心的关键词,比如公司名称、名字、技术术语、时间、地点等。Type用于表示关键词的类型。Type的参数值可以是CN_WORD、ENGLISH等。
步骤502、将接口的请求方式封装为post请求。避免因为长文本的文字信息数据较大而出现转移符等特殊字段。
步骤503、数据处理服务器通过网络爬虫程序从互联网网站上获取网络信息。比如,请参见图6,网络爬虫程序从某个网站上获取的网络信息可以是一条新闻。
步骤504、对获取的网络信息进行加密处理,得到加密后的网络信息。比如,数据处理服务器对从某个网站上获取的新闻进行加密处理
步骤505、从网络信息中提取加密后的长文本数据,长文本数据设有对应的文本标识。比如,请参见图7,加密后的长文本数据可以是加密后的新闻正文,且设有对应的文本标识。
步骤506、数据处理服务器可以将设有文本标识的长文本数据发送至第一搜索服务器。比如,数据处理服务器将具有文本标识的新闻正文发送至第一搜索服务器。
步骤507、第一搜索服务器根据关键词字典对设有文本标识的长文本数据进行分割词处理,得到与设有文本标识的长文本数据对应的分词,且分词设有对应的类型。比如,请参见图8,根据关键词字典,将获取到的新闻正文进行分词处理,且得到的分词设有对应的类型。类型可以用Type表示,Type的参数值可以是CN_WORD,也可以是ENGLISH。
步骤508、第一搜索服务器将与长文本数据对应的分词发送至数据处理服务器,数据处理服务器获取与长文本数据对应的分词。
步骤509、第一搜索服务器发送的分词设有对应的类型。数据处理服务器可以根据分词设有的类型判断得到的分词的类型是否符合预设类型。当得到的分词的类型符合预设类型时,提取符合预设类型的分词,并将其作为搜索关键词。比如,请参见图9,当预设Type的参数值为CN_WORD时,则提取Type的参数值为CN_WORD的分词,过滤Type的参数值为ENGLISH的分词。则从分词中获取到的搜索关键词为分词2、分词3、分词4。
步骤510、在从分词中提取搜索关键词之后,数据处理服务器可以根据长文本数据建立搜索关键词与文本标识之间的对应关系。请参见图9,根据长文本数据的文本标识,建立设有文本标识的长文本数据对应的搜索关键词与长文本数据的文本标识的对应关系。
具体地,该搜索关键词的数量为至少一个,比如,请参见图10,搜索关键词的数量为三个。根据文本标识,将一一建立每个搜索关键词与长文本数据的文本标识的对应关系。
步骤511、数据处理服务器向第二搜索服务器发送搜索关键词与文本标识的对应关系。
步骤512、终端接收用户输入的搜索词,并将搜索词发送至第二搜索服务器。
步骤513、第二搜索服务器接收到终端发送的搜索词,根据接收到的搜索词,确定对应的搜索关键词。比如,终端接收到的搜索词可以是“小米”,则对应的搜索关键词可以是“小米科技有限责任公司”,也可以是“小米科技有限责任公司深圳分公司”,也可以是“小米科技有限责任公司”对应的法人代表雷军。
步骤514、第二搜索服务器确定相应的搜索关键词后,可以根据搜索关键词进行对应的长文本数据的搜索。比如,第二搜索服务器确定的搜索关键词可以是“小米科技有限责任公司”,则根据“小米科技有限责任公司”进行搜索。
步骤515、第二搜索服务器接收预先存储有搜索关键词与文本标识的对应关系,第二搜索服务器根据搜索关键词进行搜索时,根据预存的搜索关键词与文本标识的对应关系,得到搜索关键词对应的文本标识。文本标识是长文本数据的唯一标识。比如,文本标识可以用一系列字符串标识。
步骤516、第二搜索服务器根据搜索关键词进行搜索时,第二搜索服务器得到搜索关键词对应的文本标识,可以根据文本标识进行搜索,查找到对应的长文本数据。
步骤517、第二搜索服务器将长文本数据返回至终端,终端显示长文本数据相应的内容。
上述实施例中,首先通过获取网络信息,并对其加密处理,从中提取长文本数据,确保了数据的一致性和完整性。然后获取长文本数据对应的分词,从分词中提取对应的搜索关键词,进而建立搜索关键词与长文本数据的文本标识的对应关系。不需要将长文本数据在第一搜索服务器进行本地存储,降低了硬件成本较高。还避免了传统技术中索引更新不同步所带来的数据实时性较差的技术问题。在使用搜索关键词与文本标识的对应关系进行搜索时,使得第二搜索服务器可快速响应,提高了搜索相应数据的及时性及准确性。
在一个实施例中,如图11所示,提供了一种搜索装置1100,该装置包括:
搜索词获取模块1110,用于获取搜索词。
搜索关键词确定模块1120,用于根据搜索词确定对应的搜索关键词。
搜索模块1130,用于根据搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与搜索关键词对应的文本标识。
长文本数据获取模块1140,用于根据文本标识获取对应的长文本数据。
长文本数据返回模块1150,用于返回长文本数据。
关于搜索装置的具体限定可以参见上文中对于搜索方法的限定,在此不再赘述。上述搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现任一实施例中的搜索方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,请参见图13,提供一种搜索系统,该系统包括:第一搜索服务器1330、数据处理服务器1320和第二搜索服务器1310。
第一搜索服务器1330,用于对长文本数据进行分割,得到对应的分词,并向数据处理服务器发送分词。
数据处理服务器1320,用于从分词中提取搜索关键词,建立搜索关键词与长文本数据的文本标识的对应关系,向第二搜索服务器发送对应关系。
第二搜索服务器1310,用于获取搜索词;从搜索词提取搜索关键词;根据搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与搜索关键词对应的文本标识;根据文本标识获取对应的长文本数据;返回长文本数据。
关于搜索系统的具体限定可以参见上文中对于搜索方法的限定,在此不再赘述。上述搜索系统中的各个服务器可独立或者也可组合以实现相应的功能。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
可以理解的是,本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第一搜索服务器称为第二搜索服务器,且类似地,可将第二搜索服务器称为第一搜索服务器。第一搜索服务器和第二搜索服务器两者都是搜索服务器,但其不是同一搜索服务器。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种搜索方法,其特征在于,所述方法包括:
获取搜索词;
根据所述搜索词确定对应的搜索关键词;
根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;
根据所述文本标识获取对应的长文本数据;
返回所述长文本数据。
2.根据权利要求1所述的搜索方法,其特征在于,在所述根据所述搜索词确定对应的搜索关键词之前,所述方法还包括:
生成所述搜索关键词。
3.根据权利要求2所述的搜索方法,其特征在于,所述生成所述搜索关键词包括:
获取网络信息,从所述网络信息中提取长文本数据;
对所述长文本数据进行分割,得到对应的分词;
从所述分词中提取所述搜索关键词。
4.根据权利要求3所述的搜索方法,其特征在于,所述从所述分词中提取搜索关键词,包括:
从所述分词中提取符合预设类型的分词作为搜索关键词。
5.根据权利要求3所述的搜索方法,其特征在于,所述长文本数据设有对应的文本标识;
在从所述分词中提取搜索关键词之后,还包括:
建立所述搜索关键词与所述长文本数据的文本标识的对应关系。
6.根据权利要求3所述的搜索方法,其特征在于,所述获取网络信息,从所述网络信息中提取长文本数据,还包括:
获取网络信息,对所述网络信息进行加密,从加密后的网络信息中提取长文本数据;
所述对所述长文本数据进行分割,得到对应的分词,包括:对加密后的长文本数据进行分割,得到对应的分词。
7.一种搜索装置,其特征在于,所述装置包括:
搜索词获取模块,用于获取搜索词;
搜索关键词确定模块,用于根据所述搜索词确定对应的搜索关键词;
搜索模块,用于根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;
长文本数据获取模块,用于根据所述文本标识获取对应的长文本数据;
长文本数据返回模块,用于返回所述长文本数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种搜索系统,其特征在于,所述系统包括:第一搜索服务器、数据处理服务器和第二搜索服务器;
所述第一搜索服务器,用于对长文本数据进行分割,得到对应的分词,并向所述数据处理服务器发送所述分词;
所述数据处理服务器,用于从所述分词中提取搜索关键词,建立所述搜索关键词与所述长文本数据的文本标识的对应关系,向所述第二搜索服务器发送所述对应关系;
所述第二搜索服务器,用于获取搜索词;从所述搜索词提取所述搜索关键词;根据所述搜索关键词进行搜索,根据预存的搜索关键词与文本标识的对应关系,得到与所述搜索关键词对应的文本标识;根据所述文本标识获取对应的长文本数据;返回所述长文本数据。
CN201810145564.2A 2018-02-12 2018-02-12 搜索方法、装置、计算机设备、存储介质及搜索系统 Active CN108460116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810145564.2A CN108460116B (zh) 2018-02-12 2018-02-12 搜索方法、装置、计算机设备、存储介质及搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145564.2A CN108460116B (zh) 2018-02-12 2018-02-12 搜索方法、装置、计算机设备、存储介质及搜索系统

Publications (2)

Publication Number Publication Date
CN108460116A true CN108460116A (zh) 2018-08-28
CN108460116B CN108460116B (zh) 2019-12-27

Family

ID=63217077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145564.2A Active CN108460116B (zh) 2018-02-12 2018-02-12 搜索方法、装置、计算机设备、存储介质及搜索系统

Country Status (1)

Country Link
CN (1) CN108460116B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992603A (zh) * 2019-04-04 2019-07-09 北京金堤科技有限公司 一种数据搜索方法、装置、电子设备和计算机可读介质
CN112052309A (zh) * 2020-09-07 2020-12-08 深圳壹账通智能科技有限公司 一种文本数据的检索方法、相关设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060265399A1 (en) * 2005-05-23 2006-11-23 Giotto De Filippi Keywords auto-segmentation and auto-allocation system to increase search engines income
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102929925A (zh) * 2012-09-20 2013-02-13 百度在线网络技术(北京)有限公司 一种基于浏览内容的搜索方法及装置
CN104881497A (zh) * 2015-06-17 2015-09-02 郑州悉知信息技术有限公司 一种搜索方法及客户端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060265399A1 (en) * 2005-05-23 2006-11-23 Giotto De Filippi Keywords auto-segmentation and auto-allocation system to increase search engines income
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102929925A (zh) * 2012-09-20 2013-02-13 百度在线网络技术(北京)有限公司 一种基于浏览内容的搜索方法及装置
CN104881497A (zh) * 2015-06-17 2015-09-02 郑州悉知信息技术有限公司 一种搜索方法及客户端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992603A (zh) * 2019-04-04 2019-07-09 北京金堤科技有限公司 一种数据搜索方法、装置、电子设备和计算机可读介质
CN112052309A (zh) * 2020-09-07 2020-12-08 深圳壹账通智能科技有限公司 一种文本数据的检索方法、相关设备和可读存储介质

Also Published As

Publication number Publication date
CN108460116B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
US10776447B2 (en) Digital communications platform for webpage overlay
US11294968B2 (en) Combining website characteristics in an automatically generated website
CN108228873A (zh) 对象推荐、发布内容推送方法、装置、存储介质和设备
CN110765295A (zh) 基于图数据库的查询方法、装置、计算机设备及存储介质
JP2009003930A (ja) 操作可能な検索結果を提供するための方法およびシステム
CN108399150A (zh) 文本处理方法、装置、计算机设备和存储介质
US10754628B2 (en) Extracting web API endpoint data from source code to identify potential security threats
CN107766469A (zh) 一种缓存处理方法和装置
CN106407361A (zh) 基于人工智能的推送信息的方法和装置
US20170109442A1 (en) Customizing a website string content specific to an industry
WO2020233014A1 (zh) 消息发送方法、装置、计算机设备和存储介质
CN110955608A (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN108460116A (zh) 搜索方法、装置、计算机设备、存储介质及搜索系统
CN109542501A (zh) 浏览器表格兼容方法、装置、计算机设备及存储介质
CN104182402A (zh) 浏览器界面地址栏输入控制方法及系统
CN107408055A (zh) 代码缓存系统
CN109213775A (zh) 搜索方法、装置、计算机设备和存储介质
CN107943921A (zh) 页面分享信息生成方法、装置、计算机设备和存储介质
Castell-Uroz et al. ASTrack: Automatic Detection and Removal of Web Tracking Code with Minimal Functionality Loss
CN109656954A (zh) 商标查询方法、装置及计算机设备
CN109918114A (zh) 代码的评论信息获取方法、装置、计算机设备和存储介质
CN114153547B (zh) 管理页面显示方法及装置
CN112765997A (zh) 多语言转换方法、装置、计算机设备和存储介质
JP5062134B2 (ja) 情報拡散システム、情報拡散装置、情報拡散方法、および情報拡散プログラム
US20150324333A1 (en) Systems and methods for automatically generating hyperlinks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 A-901, Hui Hu building, 10 Yue Liang Wan Road, Suzhou Industrial Park, Jiangsu.

Patentee after: Qicha Technology Co.,Ltd.

Address before: 215123 A-901, Hui Hu building, 10 Yue Liang Wan Road, Suzhou Industrial Park, Jiangsu.

Patentee before: SUZHOU LANGDONG NET TEC Co.,Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province

Patentee after: Qicha Technology Co.,Ltd.

Address before: 215123 a-901, Huihu building, No.10, Yueliangwan Road, Suzhou Industrial Park, Jiangsu Province

Patentee before: Qicha Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000

Patentee after: Qichacha Technology Co.,Ltd.

Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province

Patentee before: Qicha Technology Co.,Ltd.