CN114912003A - 文档搜索方法、装置、计算机设备及存储介质 - Google Patents

文档搜索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114912003A
CN114912003A CN202210588966.6A CN202210588966A CN114912003A CN 114912003 A CN114912003 A CN 114912003A CN 202210588966 A CN202210588966 A CN 202210588966A CN 114912003 A CN114912003 A CN 114912003A
Authority
CN
China
Prior art keywords
document
search
user
target
index relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210588966.6A
Other languages
English (en)
Inventor
王成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202210588966.6A priority Critical patent/CN114912003A/zh
Publication of CN114912003A publication Critical patent/CN114912003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于计算机领域,涉及一种文档搜索方法,包括在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。本申请还提供一种文档搜索装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,匹配信息可存储于区块链中。本申请实现了对文档的实时搜索,提高了文档搜索效率。

Description

文档搜索方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种文档搜索方法、装置、计算机设备及存储介质。
背景技术
当前,随着科技的高速发展,越来越多的新功能需要在网络上进行开发,开发人员对于代码文档阅读的需求也愈加强烈。而传统的搜索方案往往需要繁琐的配置,或者需要数据库等软硬件方面的强制要求,几乎没有方案能做到在网站中插入少量代码就能实现强大的搜索功能。
受限于这种情况,大多数知名网站通常都采用algolia search所提供的搜索功能,该方案虽然解决了上述痛点,但也引入了新的问题。该方案只能基于外网的在线文档网站对文档进行搜索,而由于每24小时爬取一次在线文档数据,最终导致无法对文档进行实时搜索的问题。
发明内容
本申请实施例的目的在于提出一种文档搜索方法、装置、计算机设备及存储介质,以解决不能对文档进行实时搜索的技术问题。
为了解决上述技术问题,本申请实施例提供一种文档搜索方法,采用了如下所述的技术方案:
在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
进一步的,所述根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息的步骤包括:
获取预设的分词算法,根据所述分词算法的参考关键字对所述搜索内容进行分词,得到分词结果;
根据所述分词结果匹配所述索引关系文件中的文档内容,得到匹配结果;
获取所述匹配结果对应的匹配文档标识,将所述匹配结果和所述匹配文档标识作为所述匹配信息。
进一步的,所述推送所述匹配信息至客户端的显示界面的步骤包括:
计算所述匹配信息的权重信息,按照所述权重信息从高到低推送所述匹配信息至所述客户端的显示界面。
进一步的,在所述获取所述文档搜索请求的搜索内容的步骤之前,还包括:
在所述用户非所述首次搜索用户时,从本地内存中查找所述文档搜索请求对应的索引关系文件。
进一步的,在所述确定文档搜索请求对应的用户是否为首次搜索用户的步骤之前,还包括:
获取目标文档网站,将搜索插件引入至所述目标文档网站;
在接收到目标发布文档的打包指令时,根据所述搜索插件建立所述目标发布文档的索引关系文件。
进一步的,所述根据所述搜索插件建立所述目标发布文档的索引关系文件的步骤包括:
基于所述搜索插件扫描所述目标发布文档,得到文档标题和文档段落;
随机生成所述目标发布文档的文档ID,根据所述文档标题、所述文档段落和所述文档ID生成所述目标发布文档的索引关系文件。
进一步的,在所述将搜索插件引入至所述目标文档网站的步骤之后,还包括:
获取所述搜索插件对应的预设组件样式;
根据所述预设组件样式通过组件接口对所述搜索插件进行封装,得到目标搜索组件;
在接收到目标发布文档的打包指令时,根据所述目标搜索组件建立所述目标发布文档的索引关系文件。
为了解决上述技术问题,本申请实施例还提供一种文档搜索装置,采用了如下所述的技术方案:
确认模块,用于在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
获取模块,用于在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
解析模块,用于获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
本申请提出的文档搜索方法,通过在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件,实现了对索引关系文件的高效获取,使得通过该索引关系文件能够对文档进行实时搜索;之后,获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面,实现了对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,实现了对文档的实时搜索,提高了文档搜索的效率,并且提高了文档搜索的安全性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的文档搜索方法的一个实施例的流程图;
图3是根据本申请的文档搜索装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:文档搜索装置300、确认模块301、获取模块302以及解析模块303。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的文档搜索方法一般由服务器/终端设备执行,相应地,文档搜索装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的文档搜索的方法的一个实施例的流程图。所述的文档搜索方法,包括以下步骤:
步骤S201,在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在本实施例中,在接收到文档搜索请求时,确定该文档搜索请求对应用户是否为首次搜索用户。其中,用户为发送该搜索请求的用户账号,当用户触发搜索的点击指令时,则发送文档搜索请求。在接收到文档搜索请求时,对该用户进行身份校验,并确定是否存在该用户的历史搜索记录;若存在该用户的历史搜索记录,则确定该用户非首次搜索记录;若不存在该用户的历史搜索记录,则确定该用户为首次搜索用户。除此之外,在接收到文档搜索请求时,还可根据该文档搜索请求查找本地内存,确定该本地内存中是否存储有目标格式的索引关系文件;若本地内存中存储有目标格式的索引关系文件,则确定该文档搜索请求对应的用户非首次搜索用户;若本地内存中不存在目标格式的索引关系文件,则确定该文档搜索请求对应的用户为首次搜索用户。
步骤S202,在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
在本实施例中,在确定文档搜索请求对应的用户为首次搜索用户时,解析该文档搜索请求,查找到该文档搜索请求对应的索引关系接口,索引关系接口为一系列执行指令的集合,通过该索引关系接口获取到该文档搜索请求对应的索引关系文件。其中,索引关系文件为存储有文档段落、标题与文档ID之间索引关系的文件。
步骤S203,获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
在本实施例中,搜索内容为用户在搜索框内输入的内容。获取文档搜索请求的搜索内容,根据该搜索内容解析索引关系文件,得到搜索内容对应的匹配信息。具体地,在得到搜索内容时,将该搜索内容进行分词处理,得到分词结果。根据该分词结果与索引关系文件中的文档内容进行文本匹配,计算得到匹配度;该匹配度可以通过文本之间的余弦相似度确定。将该匹配度大于等于预设阈值的文档内容确定为与该分词结果匹配成功的匹配信息,推送该匹配信息至客户端的显示界面。除此之外,在推送该匹配信息时,还可以根据该索引关系文件获取该匹配信息的索引路径,将该索引路径和该匹配信息推送至客户端的显示界面。索引路径为该匹配信息的查找路径,根据该索引路径可以精确查找到搜索内容所在的文本位置。
需要强调的是,为进一步保证上述匹配信息的私密和安全性,上述匹配信息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例实现了对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,实现了对文档的实时搜索,提高了文档搜索的效率,并且提高了文档搜索的安全性。
在本实施例的一些可选的实现方式中,上述根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息的步骤包括:
获取预设的分词算法,根据所述分词算法的参考关键字对所述搜索内容进行分词,得到分词结果;
根据所述分词结果匹配所述索引关系文件中的文档内容,得到匹配结果;
获取所述匹配结果对应的匹配文档标识,将所述匹配结果和所述匹配文档标识作为所述匹配信息。
在本实施例中,分词算法为预先设定的算法,如nodejieba分词算法。获取预设的分词算法,根据该分词算法的参考关键字对搜索内容进行分词,得到分词结果。例如,通过预设的分词算法可以将“a一定属于b”分词为“a”和“一定”。在得到分词结果时,根据该分词结果匹配索引关系文件中的文档内容,得到匹配结果。具体地,该匹配结果可通过计算分词结果与文档内容的文本相似度,根据该文本相似度与预设阈值进行比对得到;除此之外,亦可在得到分词结果之后,根据该分词结果和文档内容进行问答匹配,进一步得到与该分词结果匹配的匹配结果。在得到匹配结果时,从索引关系文件中获取该匹配结果对应的匹配文档标识,该匹配文档标识即为索引关系文件中该匹配结果对应的索引名称或索引编号,将该匹配结果和匹配文档标识作为该搜索内容的匹配信息。
本实施例通过对搜索内容进行分词,并将该分词结果与索引关系文件中的文档内容进行匹配,得到匹配结果,根据该匹配结果和匹配文档标识得到搜索内容对应的匹配信息,实现了对文档的精确搜索,并且由于索引关系文件为预先在网站中建立的文件,因此,通过该索引关系文件进一步实现了对文档的实时搜索。
在本实施例的一些可选的实现方式中,上述推送所述匹配信息至客户端的显示界面的步骤包括:
计算所述匹配信息的权重信息,按照所述权重信息从高到低推送所述匹配信息至所述客户端的显示界面。
在本实施例中,匹配信息包括索引关系文件的文档内容中与搜索内容匹配成功的文档信息。然而,对搜索内容进行分词处理可以得到多个分词结果,在将索引关系文件的文档内容与分词结果进行匹配时,可能会得到不同分词结果分别对应的匹配结果,从而得到不同的匹配信息。因此,在得到匹配结果时,计算每个分词结果对应的匹配结果的权重信息,根据该权重信息对搜索内容的最终的匹配信息进行筛选。具体地,在得到搜索内容对应的分词结果时,获取每个分词结果在搜索内容中的位置信息,以及每个分词结果在搜索内容中出现频次。对该位置信息和频次进行加权求和计算,得到每个分词结果对应的权重值;在计算得到每个分词结果对应的匹配结果时,将该权重值作为每个分词结果对应匹配结果的权重信息,该权重信息亦为该分词结果对应匹配信息的权重信息。在得到每个分词结果对应的匹配信息的权重信息时,则按照该权重信息从高到低推送预设个数的匹配信息至客户端的显示界面。
本实施例通过计算匹配信息的权重信息,使得根据该权重信息能够对搜索内容对应的匹配信息进行筛选,进一步实现了对文档的精确推送。
在本实施例的一些可选的实现方式中,在上述获取所述文档搜索请求的搜索内容的步骤之前,还包括:
在所述用户非所述首次搜索用户时,从本地内存中查找所述文档搜索请求对应的索引关系文件。
在本实施例中,在接收到文档搜索请求时,若本地内存中存在目标格式的索引关系文件,或存在当前用户账号的历史搜索记录,则确定当前用户非首次搜索用户。在确定用户非首次搜索用户时,则直接从本地内存中查找该文档搜索请求对应的索引关系文件。具体地,在确定用户非首次搜索用户时,解析文档搜索请求,通过该文档搜索请求的标识获取到内存中对应的索引关系文件。由此,通过内存直接获取索引关系文件可以进一步提高文档搜索的速度。
本实施例通过在用户为非首次搜索用户时,从本地内存中直接查找该文档搜索请求对应的索引关系文件,实现了对索引关系文件的快速获取,隔绝了网络的限制,进一步提高文档搜索的速度。
在本实施例的一些可选的实现方式中,在上述确定文档搜索请求对应的用户是否为首次搜索用户的步骤之前,还包括:
获取目标文档网站,将搜索插件引入至所述目标文档网站;
在接收到目标发布文档的打包指令时,根据所述搜索插件建立所述目标发布文档的索引关系文件。
在本实施例中,目标文档网站为文档搜索网站,基于该目标文档网站可以对各类文档进行搜索。获取目标文档网站,将搜索插件引入至该目标文档网站,其中,搜索插件为预先封装的搜索插件,基于该搜索插件可以对目标发布文档进行扫描。
具体地,目标发布文档为需要在该目标文档网站进行发布的文档,如代码注释文档。在接收到目标发布文档的打包或部署指令时,根据该搜索插件建立该目标发布文档的索引关系文件。其中,该索引关系文件为根据该目标发布文档建立的文档段落、文档标题与文档I D之间索引关系的文件,该索引关系文件中可存储多个不同目标发布文档的索引信息。在接收到目标发布文档的打包或部署指令时,根据搜索插件对目标发布文档进行文本扫描,得到该目标发布文档的文档段落和文档标题;而后,随机生成该目标发布文档的唯一文档I D,根据该目标发布文档的文档段落、文档标题和文档I D生成索引信息,存储该索引信息至目标文件中,即得到索引关系文件。
本实施例通过在目标发布文档打包时建立索引关系文件,可以实现对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,进一步提高了文档搜索的效率。
在本实施例的一些可选的实现方式中,在上述根据所述搜索插件建立所述目标发布文档的索引关系文件的步骤包括:
基于所述搜索插件扫描所述目标发布文档,得到文档标题和文档段落;
随机生成所述目标发布文档的文档ID,根据所述文档标题、所述文档段落和所述文档ID生成所述目标发布文档的索引关系文件。
在本实施例中,在接收到目标发布文档的打包或部署指令时,基于搜索插件扫描目标发布文档,得到目标发布文档的文档段落和文档标题;而后,随机或按照预设顺序生成该目标发布文档的文档ID,根据该文档ID可唯一查找到该目标发布文档;之后,获取该文档段落、文档标题和文档ID的层级关系,根据该文档段落、文档标题和文档ID的层级关系建立索引关系文件。其中,文档段落、文档标题和文档ID为层级递进关系,根据该层级递进关系可以确定该文档标题为文档段落的上级目录,文档ID为文档标题的上级目录,基于该目录建立得到该目标发布文档对应的索引关系文件。
本实施例通过文档标题、文档段落和文档ID生成目标发布文档的索引关系文件,实现了对目标发布文档的索引关系文件的精确生成,使得通过该索引关系文件能够精确查找到对应的文档。
在本实施例的一些可选的实现方式中,在上述将搜索插件引入至所述目标文档网站的步骤之后,还包括:
获取所述搜索插件对应的预设组件样式;
根据所述预设组件样式通过组件接口对所述搜索插件进行封装,得到目标搜索组件;
在接收到目标发布文档的打包指令时,根据所述目标搜索组件建立所述目标发布文档的索引关系文件。
在本实施例中,在将搜索插件引入至目标文档网站之后,还可以进一步通过react库对搜索插件进行封装实现对搜索插件搜索框的定制化。具体地,获取搜索插件对应的预设组件样式,根据该预设组件样式通过组件接口对搜索组件进行封装,得到该预设组件样式的搜索组件,该预设组件样式的搜索组件即为目标搜索组件。而后,在接收到目标发布文档的打包或部署指令时,则根据该目标搜索组件建立目标发布文档的索引关系文件。
本实施例通过预设组件样式对搜索插件进行封装,实现了搜索插件的定制化配置,打破了固定样式的局限性,提高了搜索插件的使用性能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种文档搜索装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的文档搜索装置300包括:确认模块301、获取模块302以及解析模块303。其中:
确认模块301,用于在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在本实施例中,在接收到文档搜索请求时,确定该文档搜索请求对应用户是否为首次搜索用户。其中,用户为发送该搜索请求的用户账号,当用户触发搜索的点击指令时,则发送文档搜索请求。在接收到文档搜索请求时,对该用户进行身份校验,并确定是否存在该用户的历史搜索记录;若存在该用户的历史搜索记录,则确定该用户非首次搜索记录;若不存在该用户的历史搜索记录,则确定该用户为首次搜索用户。除此之外,在接收到文档搜索请求时,还可根据该文档搜索请求查找本地内存,确定该本地内存中是否存储有目标格式的索引关系文件;若本地内存中存储有目标格式的索引关系文件,则确定该文档搜索请求对应的用户非首次搜索用户;若本地内存中不存在目标格式的索引关系文件,则确定该文档搜索请求对应的用户为首次搜索用户。
获取模块302,用于在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
在本实施例中,在确定文档搜索请求对应的用户为首次搜索用户时,解析该文档搜索请求,查找到该文档搜索请求对应的索引关系接口,索引关系接口为一系列执行指令的集合,通过该索引关系接口获取到该文档搜索请求对应的索引关系文件。其中,索引关系文件为存储有文档段落、标题与文档ID之间索引关系的文件。
解析模块303,用于获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
在本实施例的一些可选的实现方式中,解析模块303包括:
第一获取单元,用于获取预设的分词算法,根据所述分词算法的参考关键字对所述搜索内容进行分词,得到分词结果;
匹配单元,用于根据所述分词结果匹配所述索引关系文件中的文档内容,得到匹配结果;
确认单元,用于获取所述匹配结果对应的匹配文档标识,将所述匹配结果和所述匹配文档标识作为所述匹配信息。
在本实施例的一些可选的实现方式中,解析模块303还包括:
计算单元,用于计算所述匹配信息的权重信息,按照所述权重信息从高到低推送所述匹配信息至所述客户端的显示界面。
在本实施例中,搜索内容为用户在搜索框内输入的内容。获取文档搜索请求的搜索内容,根据该搜索内容解析索引关系文件,得到搜索内容对应的匹配信息。具体地,在得到搜索内容时,将该搜索内容进行分词处理,得到分词结果。根据该分词结果与索引关系文件中的文档内容进行文本匹配,计算得到匹配度;该匹配度可以通过文本之间的余弦相似度确定。将该匹配度大于等于预设阈值的文档内容确定为与该分词结果匹配成功的匹配信息,推送该匹配信息至客户端的显示界面。除此之外,在推送该匹配信息时,还可以根据该索引关系文件获取该匹配信息的索引路径,将该索引路径和该匹配信息推送至客户端的显示界面。索引路径为该匹配信息的查找路径,根据该索引路径可以精确查找到搜索内容所在的文本位置。
需要强调的是,为进一步保证上述匹配信息的私密和安全性,上述匹配信息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例的一些可选的实现方式中,上述文档搜索装置300还包括:
查找模块,用于在所述用户非所述首次搜索用户时,从本地内存中查找所述文档搜索请求对应的索引关系文件。
在本实施例中,在接收到文档搜索请求时,若本地内存中存在目标格式的索引关系文件,或存在当前用户账号的历史搜索记录,则确定当前用户非首次搜索用户。在确定用户非首次搜索用户时,则直接从本地内存中查找该文档搜索请求对应的索引关系文件。具体地,在确定用户非首次搜索用户时,解析文档搜索请求,通过该文档搜索请求的标识获取到内存中对应的索引关系文件。由此,通过内存直接获取索引关系文件可以进一步提高文档搜索的速度。
在本实施例的一些可选的实现方式中,上述文档搜索装置300还包括:
引入模块,用于获取目标文档网站,将搜索插件引入至所述目标文档网站;
建立模块,用于在接收到目标发布文档的打包指令时,根据所述搜索插件建立所述目标发布文档的索引关系文件。
在本实施例的一些可选的实现方式中,建立模块包括:
扫描单元,用于基于所述搜索插件扫描所述目标发布文档,得到文档标题和文档段落;
生成单元,用于随机生成所述目标发布文档的文档ID,根据所述文档标题、所述文档段落和所述文档ID生成所述目标发布文档的索引关系文件。
在本实施例中,目标文档网站为文档搜索网站,基于该目标文档网站可以对各类文档进行搜索。获取目标文档网站,将搜索插件引入至该目标文档网站,其中,搜索插件为预先封装的搜索插件,基于该搜索插件可以对目标发布文档进行扫描。
具体地,目标发布文档为需要在该目标文档网站进行发布的文档,如代码注释文档。在接收到目标发布文档的打包或部署指令时,根据该搜索插件建立该目标发布文档的索引关系文件。其中,该索引关系文件为根据该目标发布文档建立的文档段落、文档标题与文档ID之间索引关系的文件,该索引关系文件中可存储多个不同目标发布文档的索引信息。在接收到目标发布文档的打包或部署指令时,根据搜索插件对目标发布文档进行文本扫描,得到该目标发布文档的文档段落和文档标题;而后,随机生成该目标发布文档的唯一文档ID,根据该目标发布文档的文档段落、文档标题和文档ID生成索引信息,存储该索引信息至目标文件中,即得到索引关系文件。
在本实施例的一些可选的实现方式中,上述文档搜索装置300还包括:
第二获取单元,用于获取所述搜索插件对应的预设组件样式;
封装单元,用于根据所述预设组件样式通过组件接口对所述搜索插件进行封装,得到目标搜索组件;
建立单元,用于在接收到目标发布文档的打包指令时,根据所述目标搜索组件建立所述目标发布文档的索引关系文件。
在本实施例中,在将搜索插件引入至目标文档网站之后,还可以进一步通过react库对搜索插件进行封装实现对搜索插件搜索框的定制化。具体地,获取搜索插件对应的预设组件样式,根据该预设组件样式通过组件接口对搜索组件进行封装,得到该预设组件样式的搜索组件,该预设组件样式的搜索组件即为目标搜索组件。而后,在接收到目标发布文档的打包或部署指令时,则根据该目标搜索组件建立目标发布文档的索引关系文件。
本申请提出的文档搜索装置,实现了对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,实现了对文档的实时搜索,提高了文档搜索的效率,并且提高了文档搜索的安全性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如文档搜索方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述文档搜索方法的计算机可读指令。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请提出的计算机设备,实现了对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,实现了对文档的实时搜索,提高了文档搜索的效率,并且提高了文档搜索的安全性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文档搜索方法的步骤。
本申请提出的计算机可读存储介质,实现了对索引关系文件的直接获取,避免了在文档搜索时需要通过在线爬取数据建立索引,隔绝了网络的限制,实现了对文档的实时搜索,提高了文档搜索的效率,并且提高了文档搜索的安全性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种文档搜索方法,其特征在于,包括下述步骤:
在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
2.根据权利要求1所述的文档搜索方法,其特征在于,所述根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息的步骤包括:
获取预设的分词算法,根据所述分词算法的参考关键字对所述搜索内容进行分词,得到分词结果;
根据所述分词结果匹配所述索引关系文件中的文档内容,得到匹配结果;
获取所述匹配结果对应的匹配文档标识,将所述匹配结果和所述匹配文档标识作为所述匹配信息。
3.根据权利要求1所述的文档搜索方法,其特征在于,所述推送所述匹配信息至客户端的显示界面的步骤包括:
计算所述匹配信息的权重信息,按照所述权重信息从高到低推送所述匹配信息至所述客户端的显示界面。
4.根据权利要求1所述的文档搜索方法,其特征在于,在所述获取所述文档搜索请求的搜索内容的步骤之前,还包括:
在所述用户非所述首次搜索用户时,从本地内存中查找所述文档搜索请求对应的索引关系文件。
5.根据权利要求1所述的文档搜索方法,其特征在于,在所述确定文档搜索请求对应的用户是否为首次搜索用户的步骤之前,还包括:
获取目标文档网站,将搜索插件引入至所述目标文档网站;
在接收到目标发布文档的打包指令时,根据所述搜索插件建立所述目标发布文档的索引关系文件。
6.根据权利要求5所述的文档搜索方法,其特征在于,所述根据所述搜索插件建立所述目标发布文档的索引关系文件的步骤包括:
基于所述搜索插件扫描所述目标发布文档,得到文档标题和文档段落;
随机生成所述目标发布文档的文档ID,根据所述文档标题、所述文档段落和所述文档ID生成所述目标发布文档的索引关系文件。
7.根据权利要求5所述的文档搜索方法,其特征在于,在所述将搜索插件引入至所述目标文档网站的步骤之后,还包括:
获取所述搜索插件对应的预设组件样式;
根据所述预设组件样式通过组件接口对所述搜索插件进行封装,得到目标搜索组件;
在接收到目标发布文档的打包指令时,根据所述目标搜索组件建立所述目标发布文档的索引关系文件。
8.一种文档搜索装置,其特征在于,包括:
确认模块,用于在接收到文档搜索请求时,确定文档搜索请求对应的用户是否为首次搜索用户;
获取模块,用于在所述用户为所述首次搜索用户时,根据所述文档搜索请求获取索引关系接口,基于所述索引关系接口获取索引关系文件;
解析模块,用于获取所述文档搜索请求的搜索内容,根据所述搜索内容解析所述索引关系文件,得到所述搜索内容对应的匹配信息,推送所述匹配信息至客户端的显示界面。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文档搜索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文档搜索方法的步骤。
CN202210588966.6A 2022-05-26 2022-05-26 文档搜索方法、装置、计算机设备及存储介质 Pending CN114912003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210588966.6A CN114912003A (zh) 2022-05-26 2022-05-26 文档搜索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210588966.6A CN114912003A (zh) 2022-05-26 2022-05-26 文档搜索方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114912003A true CN114912003A (zh) 2022-08-16

Family

ID=82768024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210588966.6A Pending CN114912003A (zh) 2022-05-26 2022-05-26 文档搜索方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114912003A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150456A (zh) * 2023-04-18 2023-05-23 中信天津金融科技服务有限公司 一种智能档案管理方法、装置、电子设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150456A (zh) * 2023-04-18 2023-05-23 中信天津金融科技服务有限公司 一种智能档案管理方法、装置、电子设备和介质
CN116150456B (zh) * 2023-04-18 2023-08-11 中信天津金融科技服务有限公司 一种智能档案管理方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN108090351B (zh) 用于处理请求消息的方法和装置
CN113326991B (zh) 自动授权方法、装置、计算机设备及存储介质
CN107506256B (zh) 一种崩溃数据监控的方法和装置
CN112394908A (zh) 埋点页面自动生成的方法、装置、计算机设备及存储介质
CN112860662B (zh) 自动化生产数据血缘关系建立方法、装置、计算机设备及存储介质
CN112631924A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN112181835A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN114398477A (zh) 基于知识图谱的政策推荐方法及其相关设备
CN115564000A (zh) 二维码生成方法、装置、计算机设备及存储介质
CN111651749A (zh) 基于密码找回账号的方法、装置、计算机设备及存储介质
CN113282591B (zh) 权限过滤方法、装置、计算机设备及存储介质
CN111639360A (zh) 智能数据脱敏方法、装置、计算机设备及存储介质
CN114912003A (zh) 文档搜索方法、装置、计算机设备及存储介质
CN112436943B (zh) 基于大数据的请求去重方法、装置、设备及存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN117133006A (zh) 一种单证验证方法、装置、计算机设备及存储介质
CN112685115A (zh) 国际提示语生成方法、系统、计算机设备及存储介质
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN111552663A (zh) 文件一致性验证方法、装置、计算机设备及存储介质
CN114626352A (zh) 报表自动化生成方法、装置、计算机设备及存储介质
CN115455020A (zh) 一种增量数据同步方法、装置、计算机设备及存储介质
CN114615325A (zh) 消息推送方法、装置、计算机设备及存储介质
CN112416875A (zh) 日志管理方法、装置、计算机设备及存储介质
CN113378549B (zh) 单证校验方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination