CN115098648A - 企业数据搜索方法、装置及电子设备 - Google Patents

企业数据搜索方法、装置及电子设备 Download PDF

Info

Publication number
CN115098648A
CN115098648A CN202211022402.2A CN202211022402A CN115098648A CN 115098648 A CN115098648 A CN 115098648A CN 202211022402 A CN202211022402 A CN 202211022402A CN 115098648 A CN115098648 A CN 115098648A
Authority
CN
China
Prior art keywords
search
index field
content
enterprise data
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211022402.2A
Other languages
English (en)
Inventor
甄教明
李林光
吴江泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN202211022402.2A priority Critical patent/CN115098648A/zh
Publication of CN115098648A publication Critical patent/CN115098648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种企业数据搜索方法、装置及电子设备,所述方法包括:根据企业数据创建对应的索引字段;获取用户输入的搜索内容;对所述搜索内容进行处理;根据处理后的搜索内容,从所述索引字段中查询出搜索结果;展示所述搜索结果。本发明通过为企业数据创建对应的索引,通过索引字段来表示企业数据,并从索引字段中进行搜索,提高了搜索的效率,能够帮助用户快速寻找到想要的数据。

Description

企业数据搜索方法、装置及电子设备
技术领域
本发明涉及搜索技术领域,更具体地,涉及一种企业数据搜索方法、装置及电子设备。
背景技术
信息时代飞速发展,企业信息化普及的速度也越来越快,各种应用系统越发完善。在信息化建设的脚步不断前进的同时,企业内部的信息资源膨胀也越发严重。随之而来的便是对信息资源查找的成本成倍上升,效率降低。
发明内容
本发明的一个目的是提供一种用于企业数据搜索的新技术方案。
根据本发明的第一方面,提供了一种企业数据搜索方法,所述方法包括:
根据企业数据创建对应的索引字段;
获取用户输入的搜索内容;
对所述搜索内容进行处理;
根据处理后的搜索内容,从所述索引字段中查询出搜索结果;
展示所述搜索结果。
可选地,所述对所述输入内容进行处理,包括:
对所述搜索内容进行自然语言处理分析,所述自然语言处理分析至少包括搜索意图分析和语义分析。
可选地,所述根据企业数据创建对应的索引字段,包括:
通过预处理流水线对所述企业数据进行处理,获取需要索引的内容;
根据索引配置信息和所述需要索引的内容创建索引字段。
可选地,所述预处理流水线包括以下至少一项:文本内容抽取、数据清洗、语言分析、语义分析、关键词提取、摘要提取、同义词扩展和拼音扩展。
可选地,所述展示所述搜索结果,包括:
根据预设的排序机制对所述搜索结果进行排序;
展示排序后的搜索结果。
可选地,所述根据处理后的搜索内容,从所述索引字段中查询出搜索结果,包括:
对所述搜索内容进行分词处理,获取与所述搜索内容对应的多个关键词,根据所述关键词从所述索引字段中进行搜索,搜索出包含至少一个所述关键词的搜索结果;
或者,根据所述搜索内容从所述索引字段中搜索出包含所述搜索内容的搜索结果。
可选地,所述从所述索引字段中查询出搜索结果,包括:
获取所述用户的权限;
根据所述用户的权限对所述索引字段进行过滤;
从过滤后的索引字段中查询出搜索结果。
可选地,所述根据企业数据创建对应的索引字段,包括:
将所述索引字段存入离线查询集群;
获取企业数据的生成时间,若所述企业数据的生成时间晚于时间阈值,将所述企业数据对应的索引字段存入在线查询集群;
所述从所述索引字段中查询出搜索结果,包括:
从所述在线查询集群或所述离线查询集群中查询出搜索结果。
根据本发明的第二方面,提供了一种企业数据搜索装置,所述装置包括:
索引字段创建模块,用于根据企业数据创建对应的索引字段;
内容获取模块,用于获取用户输入的搜索内容;
处理模块,用于对所述搜索内容进行处理;
搜索模块,用于根据处理后的搜索内容,从所述索引字段中查询出搜索结果;
展示模块,用于展示所述搜索结果。
根据本发明的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如本发明第一方面所述的企业数据搜索方法的步骤。
根据本发明的一个实施例,本发明通过对企业数据创建对应的索引字段,通过索引字段来表示企业数据,并从索引字段中进行搜索,提高了搜索的效率,能够帮助用户快速寻找到想要的数据。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是本发明一种企业数据搜索方法的流程图。
图2是本发明搜索服务的示意图。
图3是本发明离线查询集群和在线查询集群存储示意图。
图4是本发明企业数据搜索装置示意图。
图5是本发明电子设备示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如图1所示,本发明实施例介绍了一种企业数据搜索方法,所述方法包括:
S101:根据企业数据创建对应的索引字段。
企业数据来自于企业内网,包含各种结构化或者非结构化的数据。比如,企业的内部文档、数据库、第三方软件产生的数据、日志等。在企业运行过程中,企业数据会随时更新。索引字段是根据企业数据所生成的,比如索引字段可以是文档的名称、日志的时间等,可以根据实际需求来设置索引字段。
S102:获取用户输入的搜索内容。
搜索内容可以是与用户想要寻找的企业数据相关的内容,比如用户想要寻找一份文档,那么用户输入的搜索内容可以是该文档的名称,也可以是该文档中包含的部分文字。
S103:对所述搜索内容进行处理。
S104:根据处理后的搜索内容,从所述索引字段中查询出搜索结果。
搜索结果与搜索内容之间具有相关性,比如用户输入的搜索内容是多个词语,那么搜索结果至少需要包含上述多个词语中的一个;或者搜索结果中包含与上述词语相关的内容,比如搜索结果中包含上述词语的同义词。
S105:展示所述搜索结果。
在搜索完毕后可能会查询到多条搜索结果,在展示搜索结果时,可以将所有的搜索结果都进行展示,也可以根据指定规则对搜索结果进行过滤,只展示过滤后的搜索结果。
本发明通过对企业数据创建对应的索引字段,通过索引字段来表示企业数据,并从索引字段中进行搜索,提高了搜索的效率,能够帮助用户快速寻找到想要的数据。
在本发明一种实施方式中,上述步骤S103包括:对所述输入内容进行自然语言处理分析,所述自然语言处理分析至少包括搜索意图分析和语义分析。
通过对输入内容进行搜索意图分析和语义分析,可以判断出用户想要搜索的目标,提高搜索效率。比如用户输入内容是“图片A”,对用户输入内容进行自然语言处理分析后可以得知用户需要搜索的目标可能是一张图片,图片的名称是“A”,那么在搜索过程中可以只在图片数据中进行搜索,减小搜索范围。如图2所示,搜索服务中包括NLP(NaturalLanguage Processing,自然语言处理)模块,通过NLP模块对输入内容进行自然语言处理分析。
在本发明一种实施方式中,上述步骤S101包括:通过预处理流水线对所述企业数据进行处理,获取需要索引的内容;根据索引配置信息和所述需要索引的内容创建索引字段。
如图2所示,搜索服务右侧对接底层的搜索引擎,搜索引擎可以为开源的搜索引擎Elasticsearch,可以根据实际场景替换为企业内部的搜索引擎。本发明基于可维护性和项目定制化,底层搜索引擎去耦合等考虑,提供多种数据源连接器,包括DataBase(数据库)、FILE(文件)、LOGS(日志),上述数据源连接器输出的原始数据即为企业数据。通过预处理流水线对连接器输出的原始数据进行处理,预处理流水线输出需要索引的内容。通过索引模块来创建索引字段,索引模块根据索引字段的属性描述创建索引配置信息,在索引配置信息中,包括索引字段的配置,比如分词器、类型映射等。每个字段的分词方案决定了能够提供的业务功能,比如在高级检索中是否支持模糊匹配、是否支持关键字查询、是否可以作为排序字段和聚合字段,上述功能通过接口反馈到上层应用。同样支持用户配置复合索引字段、全文索引字段和控制哪些索引字段进行高亮输出。
所述预处理流水线包括以下至少一项:文本内容抽取、数据清洗、语言分析、语义分析、关键词提取、摘要提取、同义词扩展和拼音扩展。
在数据预处理方面,可以使用Elasticsearch的ingest API,使用ingest API基于脚本实现,不需要开发额外程序,但是使用不灵活,不方便调试。也可以扩展Elasticsearch的插件,这种方式相比ingest API脚本更加灵活,但是需要部署到Elasticsearch并且在维护时需要重启服务,同样不方便调试。也可以将预处理程序做成可插件化,根据实际需求进行定制,并且不需要重启Elasticsearch集群,与底层引擎解耦,便于集成其它引擎。
在预处理流水线预设了多种可用的插件,比如文本内容抽取、数据清洗、语言分析、语义分析、关键词提取、摘要提取、同义词扩展和拼音扩展等,可以根据实际需求进行扩展。
在本发明一种实施方式中,上述步骤S105包括:根据预设的排序机制对所述搜索结果进行排序;展示排序后的搜索结果。
如图2所示,搜索服务中包括排序模块,通过排序模块对搜索结果进行排序。在搜索完毕后可能会得到多条搜索结果,为了方便用户查看,可以将搜索结果进行排序后再展示。比如,可以按照搜索结果与输入内容之间的相关度进行排序,搜索结果与输入内容之间的相关度越高,说明该搜索结果是用户想要的搜索结果的可能性越大,优先让用户看到相关度高的搜索结果。
也可以根据权重对搜索结果进行排序,预先为每个搜索结果设置对应的权重,可以用权重表示搜索结果的重要性,按照重要性的高低进行排序,让用户优先看到重要性高的搜索结果。
也可以根据时间进行排序,比如搜索结果是从日志中查询到的多条记录,每条记录都对应一个记录的生成时间,可以按照时间对搜索结果进行排序。
也可以按照数值进行排序,比如对企业员工的工作年限进行搜索,返回的搜索结果是用数值表示的企业员工的工作年限,比如3年、5年等。可以按照年限从高到低的顺序进行排序,也可以按照年限从低到高的顺序进行排序。
在本发明一种实施方式中,所述步骤S104包括:对所述搜索内容进行分词处理,获取与所述搜索内容对应的多个关键词,根据所述关键词从所述索引字段中进行搜索,搜索出包含至少一个所述关键词的搜索结果;或者,根据所述搜索内容从所述索引字段中搜索出包含所述搜索内容的搜索结果。
用户可以选择对输入内容进行精确搜索或者模糊搜索。在模糊搜索过程中,对输入内容进行分词处理,得到多个关键词,搜索内容可以只包含部分关键词。比如对输入内容进行分词处理后,得到三个关键词,那么搜索内容中可以只包含上述三个关键词中的一个,也可以只包含上述关键词中的两个,搜索结果也可以包含上述三个关键词。模糊搜索返回的搜索结果较多,需要用户进一步确认。
在精确搜索过程中,不对输入内容进行分词处理,对输入内容进行完全匹配,搜索结果需要包含所有的输入内容。比如输入内容包括三个词语,那么搜索结果中需要包含上述三个词语,而不能只包含上述三个词语中的一个或者两个。精确搜索适合要求结果比较准确的搜索场景。
在本发明一种实施方式中,所述从所述索引字段中查询出搜索结果,包括:获取所述用户的权限;根据所述用户的权限对所述索引字段进行过滤;从过滤后的索引字段中查询出搜索结果。
企业搜索是从企业内部数据中进行搜索,通常只会让企业内部员工进行搜索。对于不同的员工,可以设置不同的权限。比如企业内包含三个部门,部门A的员工在进行搜索时,只能从与部门A相关的数据中进行搜索,而无法搜索到与部门B相关的数据。
也可以让用户自行设置需要搜索的企业数据,比如企业数据包括文档数据和图片数据,当用户想要搜索一张图片时,可以根据用户的输入内容只在文档数据中进行搜索,而不在图片数据中进行搜索。
在本发明一种实施方式中,所述根据企业数据创建对应的索引字段,包括:
将所述索引字段存入离线查询集群;
获取企业数据的生成时间,若所述企业数据的生成时间晚于时间阈值,将所述企业数据对应的索引字段存入在线查询集群;
所述从所述索引字段中查询出搜索结果,包括:
从所述在线查询集群或所述离线查询集群中查询出搜索结果。
如图3所示,在离线查询集群中保存所有的索引字段。对于生成时间晚于时间阈值的企业数据,对应的索引字段保存在在线查询集群中。比如,时间阈值为半年,那么对于生成时间在半年之内的企业数据,对应的索引字段同时保持在离线查询集群和在线查询集群中,实时数据也是生成时间在半年之内的企业数据;而对于生成时间在半年之外的企业数据,对应的索引字段只保存在离线查询集群中。
如图4所示,本发明实施例介绍了一种企业数据搜索装置200,所述装置包括:
索引字段创建模块201,用于根据企业数据创建对应的索引字段。
内容获取模块202,用于获取用户输入的搜索内容。
处理模块203,用于对所述搜索内容进行处理。
搜索模块204,用于根据处理后的搜索内容,从所述索引字段中查询出搜索结果。
展示模块205,用于展示所述搜索结果。
在本发明一种实施方式中,所述处理模块,还用于对所述搜索内容进行自然语言处理分析,所述自然语言处理分析至少包括搜索意图分析和语义分析。
在本发明一种实施方式中,所述索引字段创建模块还用于,通过预处理流水线对所述企业数据进行处理,获取需要索引的内容;根据索引配置信息和所述需要索引的内容创建索引字段。
在本发明一种实施方式中,所述预处理流水线包括以下至少一项:文本内容抽取、数据清洗、语言分析、语义分析、关键词提取、摘要提取、同义词扩展和拼音扩展。
在本发明一种实施方式中,所述装置还包括排序模块,用于根据预设的排序机制对所述搜索结果进行排序;所述展示模块还用于展示排序后的搜索结果。
在本发明一种实施方式中,所述搜索模块还用于,对所述搜索内容进行分词处理,获取与所述搜索内容对应的多个关键词,根据所述关键词从所述索引字段中进行搜索,搜索出包含至少一个所述关键词的搜索结果;或者,根据所述搜索内容从所述索引字段中搜索出包含所述搜索内容的搜索结果。
在本发明一种实施方式中,所述装置还包括:
权限获取模块,用于获取所述用户的权限;
过滤模块,用于根据所述用户的权限对所述索引字段进行过滤;
所述搜索模块还用于从过滤后的索引字段中查询出搜索结果。
在本发明一种实施方式中,所述装置还包括:
第一存储模块,用于将所述索引字段存入离线查询集群;
第二存储模块,用于获取企业数据的生成时间,若所述企业数据的生成时间晚于时间阈值,将所述企业数据对应的索引字段存入在线查询集群;
所述搜索模块还用于,从所述在线查询集群或所述离线查询集群中查询出搜索结果。
如图5所示,本发明实施例介绍了一种电子设备,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现本发明任一实施例所述的企业数据搜索方法的步骤。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种企业数据搜索方法,其特征在于,所述方法包括:
根据企业数据创建对应的索引字段;
获取用户输入的搜索内容;
对所述搜索内容进行处理;
根据处理后的搜索内容,从所述索引字段中查询出搜索结果;
展示所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述输入内容进行处理,包括:
对所述搜索内容进行自然语言处理分析,所述自然语言处理分析至少包括搜索意图分析和语义分析。
3.根据权利要求1所述的方法,其特征在于,所述根据企业数据创建对应的索引字段,包括:
通过预处理流水线对所述企业数据进行处理,获取需要索引的内容;
根据索引配置信息和所述需要索引的内容创建索引字段。
4.根据权利要求3所述的方法,其特征在于,所述预处理流水线包括以下至少一项:文本内容抽取、数据清洗、语言分析、语义分析、关键词提取、摘要提取、同义词扩展和拼音扩展。
5.根据权利要求1所述的方法,其特征在于,所述展示所述搜索结果,包括:
根据预设的排序机制对所述搜索结果进行排序;
展示排序后的搜索结果。
6.根据权利要求1所述的方法,其特征在于,所述根据处理后的搜索内容,从所述索引字段中查询出搜索结果,包括:
对所述搜索内容进行分词处理,获取与所述搜索内容对应的多个关键词,根据所述关键词从所述索引字段中进行搜索,搜索出包含至少一个所述关键词的搜索结果;
或者,根据所述搜索内容从所述索引字段中搜索出包含所述搜索内容的搜索结果。
7.根据权利要求1所述的方法,其特征在于,所述从所述索引字段中查询出搜索结果,包括:
获取所述用户的权限;
根据所述用户的权限对所述索引字段进行过滤;
从过滤后的索引字段中查询出搜索结果。
8.根据权利要求1所述的方法,其特征在于,所述根据企业数据创建对应的索引字段,包括:
将所述索引字段存入离线查询集群;
获取企业数据的生成时间,若所述企业数据的生成时间晚于时间阈值,将所述企业数据对应的索引字段存入在线查询集群;
所述从所述索引字段中查询出搜索结果,包括:
从所述在线查询集群或所述离线查询集群中查询出搜索结果。
9.一种企业数据搜索装置,其特征在于,所述装置包括:
索引字段创建模块,用于根据企业数据创建对应的索引字段;
内容获取模块,用于获取用户输入的搜索内容;
处理模块,用于对所述搜索内容进行处理;
搜索模块,用于根据处理后的搜索内容,从所述索引字段中查询出搜索结果;
展示模块,用于展示所述搜索结果。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-8任一项所述的企业数据搜索方法的步骤。
CN202211022402.2A 2022-08-25 2022-08-25 企业数据搜索方法、装置及电子设备 Pending CN115098648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211022402.2A CN115098648A (zh) 2022-08-25 2022-08-25 企业数据搜索方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211022402.2A CN115098648A (zh) 2022-08-25 2022-08-25 企业数据搜索方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115098648A true CN115098648A (zh) 2022-09-23

Family

ID=83301431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211022402.2A Pending CN115098648A (zh) 2022-08-25 2022-08-25 企业数据搜索方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115098648A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699640A (zh) * 2013-12-24 2014-04-02 乐视网信息技术(北京)股份有限公司 多媒体资源搜索方法、装置及系统
CN107103067A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种基于搜索引擎的数据同步方法及系统
CN109376121A (zh) * 2018-08-10 2019-02-22 南京华讯方舟通信设备有限公司 一种基于ElasticSearch全文检索的文件索引系统及方法
CN113342923A (zh) * 2021-06-29 2021-09-03 招商局金融科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN113377896A (zh) * 2021-05-19 2021-09-10 朗新科技集团股份有限公司 全文快速检索方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699640A (zh) * 2013-12-24 2014-04-02 乐视网信息技术(北京)股份有限公司 多媒体资源搜索方法、装置及系统
CN107103067A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种基于搜索引擎的数据同步方法及系统
CN109376121A (zh) * 2018-08-10 2019-02-22 南京华讯方舟通信设备有限公司 一种基于ElasticSearch全文检索的文件索引系统及方法
CN113377896A (zh) * 2021-05-19 2021-09-10 朗新科技集团股份有限公司 全文快速检索方法、装置、电子设备及存储介质
CN113342923A (zh) * 2021-06-29 2021-09-03 招商局金融科技有限公司 数据查询方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李小华 等: "《医院信息系统数据库技术与应用》", 31 October 2015 *

Similar Documents

Publication Publication Date Title
US11163957B2 (en) Performing semantic graph search
US10146878B2 (en) Method and system for creating filters for social data topic creation
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US8060513B2 (en) Information processing with integrated semantic contexts
US20100005087A1 (en) Facilitating collaborative searching using semantic contexts associated with information
US11144606B2 (en) Utilizing online content to suggest item attribute importance
US9984166B2 (en) Systems and methods of de-duplicating similar news feed items
US9824155B2 (en) Automated electronic discovery collections and preservations
US20210342541A1 (en) Stable identification of entity mentions
US20120233160A1 (en) System and method for assisting a user to identify the contexts of search results
US11074266B2 (en) Semantic concept discovery over event databases
US10592236B2 (en) Documentation for version history
US11481454B2 (en) Search engine results for low-frequency queries
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
EP3480706A1 (en) Automatic search dictionary and user interfaces
CN110347573B (zh) 应用程序分析方法、装置、电子设备及计算机可读介质
EP3079083A1 (en) Providing app store search results
Choi et al. Chrological big data curation: A study on the enhanced information retrieval system
US9984108B2 (en) Database joins using uncertain criteria
CN116561434A (zh) 一种数据检索推荐方法、装置、存储介质及设备
CN111666278A (zh) 数据存储、检索方法、电子设备及存储介质
CN115098648A (zh) 企业数据搜索方法、装置及电子设备
CN107220249B (zh) 基于分类的全文搜索
CN110941765A (zh) 搜索意图识别方法、信息搜索方法、装置及电子设备
US20180067911A1 (en) Creating and editing documents using word history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220923