CN111008265A - 企业信息搜索方法及装置 - Google Patents

企业信息搜索方法及装置 Download PDF

Info

Publication number
CN111008265A
CN111008265A CN201911222316.4A CN201911222316A CN111008265A CN 111008265 A CN111008265 A CN 111008265A CN 201911222316 A CN201911222316 A CN 201911222316A CN 111008265 A CN111008265 A CN 111008265A
Authority
CN
China
Prior art keywords
search
word
words
enterprise information
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911222316.4A
Other languages
English (en)
Other versions
CN111008265B (zh
Inventor
司徒健聪
张甸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Cloud Computing Beijing Co Ltd
Priority to CN201911222316.4A priority Critical patent/CN111008265B/zh
Publication of CN111008265A publication Critical patent/CN111008265A/zh
Application granted granted Critical
Publication of CN111008265B publication Critical patent/CN111008265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了企业信息搜索方法及装置,预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息,而且,标注后的企业信息基于企业信息的全文内容进行标注,标注深度深。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。该方案不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。

Description

企业信息搜索方法及装置
技术领域
本申请涉及搜索技术领域,尤其涉及企业信息搜索方法及装置。
背景技术
目前的企业信息搜索方案主要是基于企业数据的不同属性进行关键字检索。用户在查询时必须明确知道需要查询的内容对应的属性,例如,需要查询某公司名称则必须把公司名称填入对应的标题的文本框中,如果填入其它标题的文本框中则无法查询到匹配的内容。
但是,不同企业的信息对应的属性数据差异很大,用户使用时很难确定查询关键字所对应的属性,例如,用户知道该公司的电话但是不知道该电话是法人电话还是公司电话或是分公司电话,用户使用时必须获知查询内容所匹配的属性,因此使用负担重。而且,此种方式的查询结果准确率较低。
发明内容
有鉴于此,本申请提供了企业信息搜索方法及装置,以解决传统方案中搜索结果准确率低的问题,其公开的具体技术方案如下:
一方面,本申请提供了一种企业信息搜索方法,包括:
获取搜索内容;
解析所述搜索内容获得对应的搜索关键字词;
从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
在一种可能的实现方式中,对企业信息进行自动标注的过程,包括:
对待标注企业信息的全文进行分词处理得到分词结果;
将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词;
建立所述目标索引字词与所述待标注企业信息之间的关联关系,得到标注后的企业信息。
在另一种可能的实现方式中,将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词,包括:
对于所述分词结果中的每一个分词,计算该分词与所述预设索引词库中的任一索引词之间的相似度;
当所述相似度大于或等于相似度阈值范围时,确定分词与所述索引词相匹配;
获取所述索引词对应的预先设定的权重,以及与所述索引词相匹配的分词在所述待标注企业信息中出现的频率;
依据分词出现的频率及与该分词相匹配的索引词的权重,选取目标索引字词。
在另一种可能的实现方式中,所述方法还包括:
从预设时间段内获得的搜索关键字词中查找无命中字词,所述无命中字词表征从所述全文检索库中未搜索到相匹配的企业信息的搜索关键字词;
统计所述无命中字词在所述预设时间段内出现的次数;
当所述次数大于或等于预设次数范围时,将该无命中字词添加至所述预设索引词库中,得到更新后的预设索引词库。
在另一种可能的实现方式中,解析所述搜索内容获得对应的搜索关键字词,包括:
所述搜索内容为文本内容,解析所述搜索内容获得对应的语义内容;
从所述语义内容中提取得到至少一个搜索关键字词。
在另一种可能的实现方式中,从所述语义内容中提取得到至少一个搜索关键字词,包括:
从所述语义内容中提取至少一个关键字词;
将所述至少一个关键字词与预设敏感词库进行对比,删除与所述预设敏感词库中的敏感词相匹配的关键字词,得到与所述搜索内容相匹配的搜索关键字词。
在另一种可能的实现方式中,从所述语义内容中提取得到至少一个搜索关键字词,包括:
从所述语义内容中提取至少一个关键字词;
对于每个关键字词,查找预设同义词库中是否包含与该关键字词相对应的同义词,所述预设同义词库中包括预先自定义的与表征政务和商务意义的企业术语相对应的同义词;
将每个关键字词及具有同义词的关键字词所对应的同义词确定为与所述搜索内容相匹配的搜索关键字词。
在另一种可能的实现方式中,所述从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,包括:
计算所述搜索关键字词与所述全文检索库中的索引字词之间的相似度;
按照所述相似度由高到低的顺序确定前预设数量个企业信息为与所述搜索关键字词相匹配的企业信息。
在另一种可能的实现方式中,所述按照所述相似度由高到低的顺序确定前预设数量个企业信息为与所述搜索关键字词相匹配的企业信息,包括:
获取搜索结果返回策略,所述搜索结果返回策略包括输入所述搜索内容的用户所属的岗位属性、该用户的搜索习惯和搜索结果优先级中的至少一种;
依据所述搜索结果返回策略从相匹配的企业信息中筛选得到目标企业信息。
另一方面,本发明还提供了一种企业信息搜索装置,包括:
获取模块,用于获取搜索内容;
内容解析模块,用于解析所述搜索内容获得对应的搜索关键字词;
搜索模块,用于从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
再一方面,本申请还提供了一种服务器,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取搜索内容;
解析所述搜索内容获得对应的搜索关键字词;
从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一种可能的实现方式所述的企业信息搜索方法。
本申请提供了企业信息搜索方法,预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息,而且,标注后的企业信息基于企业信息的全文内容进行标注,标注深度深。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。该方案不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的一种企业信息搜索系统的总体架构示意图;
图2示出了本申请实施例提供的一种企业信息搜索方法的流程图;
图3示出了本申请实施例提供的一种搜索首页页面的示意图;
图4示出了本申请实施例提供的另一种搜索页面的示意图;
图5示出了本申请实施例提供的一种自动标注企业信息过程的流程图;
图6示出了本申请实施例提供的一种确定目标索引字词过程的流程图;
图7示出了本申请实施例提供的一种客户端的参数配置页面的示意图;
图8示出了本申请实施例提供的一种客户端的同义词配置页面的示意图;
图9示出了本申请实施例提供的一种客户端的统计数据展示页面的示意图;
图10示出了本申请实施例提供的一种客户端的热门关键字统计数据展示页面的示意图;
图11示出了本申请实施例提供的一种企业信息搜索装置的结构示意图;
图12示出了本申请实施例提供的一种标注模块的结构示意图;
图13示出了本申请实施例提供的另一种企业信息搜索装置的结构示意图;
图14示出了本申请实施例提供的一种服务器的结构示意图。
具体实施方式
目前的企业信息搜索方案基于企业数据的不同属性进行关键字检索。用户在查询时必须明确知道需要查询的内容对应的属性,从而增加了用户的使用负担,而且,此种方式的搜索结果准确率低。为了解决该技术问题,本申请提供了企业信息搜索方法,该方案在预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。
为了更好地理解本申请的企业信息搜索方法,下面将对企业信息搜索系统进行介绍。
请参见图1,示出了本申请实施例提供的一种企业信息搜索系统的总体架构示意图;该系统主要包括服务端1和客户端2;其中,服务端1部署有引擎区和业务区,客户端2部署有应用区。
引擎区包括全文检索引擎和自然语言处理引擎;其中,全文检索引擎通过将企业信息的全文内容提供至自然语言处理引擎进行分析处理后标注相应的索引字词得到标注后的企业信息,实现对企业信息的全文检索。而且,全文检索引擎能够快速接入大批量数据及流式接入实时生产数据,支持时效性高的数据分析场景。
自然语言处理引擎,提供针对中文文本的智能化分析处理服务,依托于海量中文语料积累,实现词法分析、句法分析、文本分析等多个维度的综合文本处理能力。例如,包括智能分词、命名实体识别、情感识别、关键词提取等。
业务区包括搜索服务端;该搜索服务端将全文搜索引擎封装为上层搜索服务,对接搜索应用端的搜索门户功能模块和搜索管理功能模块。
全文库即全文检索库,其内部存储有针对全文内容标注后的企业信息。配置库用于存储搜索配置信息。
搜索应用端包括搜索门户功能模块和搜索管理功能模块,其中,搜索门户用于提供企业信息搜索入口,搜索管理提供该搜索系统的定制化能力,使得系统管理员对搜索配置进行管理。
下面将结合企业信息搜索方法流程图详细介绍企业信息搜索过程。
请参见图2,示出了本申请实施例提供的一种企业信息搜索方法的流程图,该方法可以运行于服务端,如图2所示,该方法包括以下步骤:
S110,获取搜索内容。
在一种可能的实现方式中,该搜索内容可以是用户输入的自然语言内容,例如“我想知道湖南省的农业企业有哪些”。
在一种应用场景下,用户可以在客户端的搜索页面输入搜索内容,如图3所示的输入框10,用户可以在输入框中输入需要搜索的相关信息。当然,在其他实施例中,搜索内容还可以由其它的搜索渠道提供给服务端,例如,自助客服机器人、移动客户端等其它搜索渠道。
在另一可能的实现方式中,搜索内容可以是用户根据页面提供的选项选择的搜索条件。用户也可以结合具体的企业属性选取相应的搜索条件;如图4所示的企业属性,例如,机构类型、企业类型、注册资本、成立年限、经营状态、省份地区、参保人数等多个属性。每个企业属性包括相应的选项,例如,机构类型包括企业、社会组织、事业单位、基金会、律所、香港企业、台湾企业等选项,其它企业属性对应的选项请详见附图所示的实例,此处不再一一举例。
用户可以选取相应的企业属性及该企业属性下的具体选项,本申请基于用户选定的搜索条件从全文搜索库中搜索出相匹配的企业信息并展示。
S120,解析搜索内容获得对应的搜索关键字词。
在本申请一种可能的实现方式中,对用户输入的搜索内容进行解析得到该搜索内容对应的语义内容,然后从语义内容中提取得到搜索关键字词。
例如,搜索内容是“我想知道湖南省的农业企业有哪些”,利用自然语言处理引擎对该文本进行解析得到相应的语义内容,并提取出搜索关键词“湖南省”、“农业”、“企业”。
S130,从预先创建的全文检索库中搜索与搜索关键字词相匹配的企业信息。其中,该全文检索库中存储标注有索引字词的企业信息。
其中,索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到。索引词包括表征政务和商务意义的企业术语。
在本申请的一个实施例中,预先创建索引词库(即,预设索引词库),索引词库中的索引词是能够表征政务和商务意义的企业术语,例如,经营范围、受惠政策等等。这些索引词可以通过学习大量政务、商务领域的语料提取得到。
全文检索库中存储有标注后的企业信息,搜索时,由全文检索引擎从全文检索库中搜索与搜索关键字词相匹配的信息。仍延用“我想知道湖南省的农业企业有哪些”的实例,提取出的搜索关键字词包括“湖南省”、“农业”和“企业”,全文检索引擎从全文检索库中搜索得到湖南省内所有与农业相关的企业的信息。
在一种可能的实现方式中,全文检索引擎计算搜索关键字词与全文检索库中的索引字词之间的相似度,并按照相似度由高到低的顺序确定前预设数量个企业信息为与该搜索关键字词相匹配的企业信息。进一步可以按照相似度由高到低的顺序展示该预设数量个企业信息。
例如,假设甲企业的营业范围包括“农产品售卖”的关键字,而乙企业的企业所属行业为农业,当用户搜索“农业”时,乙企业标注的索引词与用户的搜索关键字的相似度大于甲企业标注的索引词与用户的搜索关键字的相似度,因此,乙企业在结果展示时排序会排在甲企业的前面。
相似度通常在[0,1]范围内,而且,通常相似度数值越大表明两者越相似,相反相似度数值越小表明两者越不相似。
本实施例提供的企业信息搜索方法,预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息,而且,标注后的企业信息基于企业信息的全文内容进行标注,标注深度深。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。该方案不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。
在本申请的一个实施例中,如图5所示,对企业信息进行自动标注的过程如下:
S210,对待标注企业信息的全文进行分词处理,得到分词结果。
接收到的企业信息通常是以结构化二维数据表进行存储,不同属性的数据字段对应的数据格式可能不同,例如,字符、数值、日期等,而且一个企业的信息通常会分多个数据表存储,因此,全文检索引擎需要将企业数据整合成文件型数据并以长字符串格式存储,以便后续进行检索。
然后全文检索引擎将转换后的企业信息提供给自然语言处理引擎,由自然语言处理引擎解析接收到的企业信息,首先需要将企业信息转换为对应的文本向量,然后对文本向量进行分词处理,得到相应的分词结果。
需要说明的是,本文中的自然语言处理引擎利用政务和商务领域的语料进行训练得到,因此,该自然语言处理引擎能够准确地解析企业信息的语义,因此,得到的分词结果也更符合政务和商务领域的表达习惯,即得到的分词结果更准确。
S220,将分词结果与预设索引词库中的索引词进行对比,确定与索引词相匹配的分词为目标索引字词。
自然语言处理引擎将得到的分词结果与预设索引词库中的索引词进行比较,具体的,可以针对任一分词,计算该分词对应的词向量与预设索引库中的每个索引词对应的词向量之间的相似度,并依据相似度确定该分词是否与索引字词相匹配。然后,从与预设索引词库中的索引词相匹配的分词中选取目标分词作为目标索引字词。
在一种可能的实现方式中,需要从待标注的企业信息中查找到的包含政务、商务意义的分词中选取与实际需求最相符的字词进行标注;如图6所示,确定目标索引字词的过程可以包括如下步骤:
S221,对于分词结果中的每一个分词,计算该分词与所述预设索引词库中的任一索引词之间的相似度。
S222,当相似度大于或等于相似度阈值范围时,确定分词与索引词相匹配。
计算分词的向量与索引词的词向量之间的相似度,若相似度大于或等于预先设定的相似度阈值范围,则确定该分词与该索引词相匹配。相似度阈值范围可以根据实际情况设定。
S223,获取索引词对应的预先设定的权重,以及,获取与该索引词相匹配的分词在所述待标注企业信息中出现的频率。
在一种可能的实现方式中,在创建预设索引词库时,可以根据实际需求制定各个索引词的权重,例如,可以根据应用场景设定索引词的权重,例如,该搜索系统应用于税务局,是协助税务工作人员办公的系统,因此,可以将与税务部门关注的企业术语,例如,纳税额等与税务相关的词的权重值较大,而税务部门不关注的企业术语的权重相对较小。
此外,统计该企业信息中与该索引词相匹配的分词的出现频率,频率越大表明这个分词越能表征企业信息的含义。
S224,依据分词出现的频率及与该分词相匹配的索引词的权重,选取目标索引字词。
综合考虑分词的频率和该分词相匹配的索引词的权重,选取目标索引字词,例如,选取权重比较大且频率较大的词语作为最终需要标注的目标索引字词。
需要说明的是,此处的目标索引字词是从企业信息的分词结果中选取的字词。
S230,建立目标索引字词与所述待标注企业信息之间的关联关系,得到标注后的企业信息。
最后,建立选出的目标索引字词与对应的企业信息之间的关联关系,得到标注后的企业信息,并存储至全文检索库中。后续全文检索引擎可以从全文检索库中检索出与搜索关键字词相匹配的企业信息。
在本申请的另一种可能的实现方式中,系统可以统计无命中字词,其中,无命中字词是指从全文检索库中未搜索到相匹配的企业信息的搜索关键字词,即系统利用该搜索关键字词进行了搜索,但没有搜索到相应的结果。换言之,企业信息的标注字词中不包括与该无命中字词相似的词。
如果同一无命中字词出现的次数积累到一定量,可以将该关键字词更新到预设索引词库中,当企业信息包含与该关键字词相匹配的词语时,对该词语进行标注,提高了标注范围的扩展性。
本实施例提供的企业信息自动标注过程,通过自然语言处理技术能够使计算机自动从企业信息的全文文本中抽取与预设索引库中的索引词相匹配的字词进行标注;而且,由于企业信息涉及的数据量较大、数据属性较多,随着企业信息不断增加,通过该方案系统能够自动对新增的企业信息建立相应的索引,不需要人工介入,从而降低了标注人员的工作量,而且,提高了标注范围的扩展性。
在本申请的另一个实施例中,为了使企业信息搜索系统能够提供更高效准确的搜索服务,系统中的全文检索引擎和自然语言处理引擎都能够进行定制化配置。
如图7所示,客户端的界面提供参数配置页面,用户通过该参数配置页面能够配置相应的参数。例如,参数配置页面上设置有敏感词配置、同义词配置、无名中字词配置、返回结果的优先级配置的配置选项。当用户点击任一配置选项则跳转至相应的参数配置页,例如,若用户点击了图7所示页面中的同义词配置选项,则当前页面跳转至图8所示的同义词配置页面。
在一种应用场景中,具有相应权限的用户(如系统管理员)配置了相应敏感词,能够禁止用户对敏感词进行搜索。系统能够将从搜索内容中提取出搜索关键字词中删除敏感词,具体实现过程如下:
1)解析获得的搜索内容得到相应的语义内容,并从语义内容中提取出至少一个关键字词。
利用自然语言处理引擎解析获得的搜索内容得到该搜索内容的语义内容,再基于该语义内容提取得到至少一个关键字词。
2)将提取到的至少一个关键字词与敏感词库中的敏感词进行对比,若某个关键字词与敏感词相匹配,则删除该关键字词,将删除敏感词后剩余的关键字词作为最终的搜索关键字词。
通过计算关键字词与敏感字之间的相似度确定两者是否相匹配,如果两者的相似度大于设定的阈值范围则确定两者相匹配。
在另一种应用场景中,用户配置了同义词,后续进行搜索时,可以利用配置的同义词对搜索关键词进行扩展,具体的实现过程如下:
1)解析获得的搜索内容得到相应的语义内容,并从语义内容中提取出至少一个关键字词。
2)对于每个关键字词,查找同义词库中是否包含与该关键字词相对应的同义词。
其中,所述预设同义词库中包括预先自定义的与表征政务和商务意义的企业术语相对应的同义词。例如,可以设定二胎的同义词为二孩。
3)将每个关键字词及具有同义词的关键字词所对应的同义词确定为与所述搜索内容相匹配的搜索关键字词。
当然,最终用于检索的搜索关键字词可以是从搜索内容中提取出的关键字词经过敏感词筛选和同义词扩展之后得到的搜索关键字词。
在又一种应用场景中,根据搜索关键字词搜索到的企业信息数量庞大,例如,可能达到数万、数百万条,此种情况下,可以根据系统中配置的搜索结果返回策略,从大量与搜索关键字词相匹配的企业信息中筛选得到目标企业信息并展示。
其中,搜索结果返回策略可以包括以下至少一种:用户的岗位属性、用户的搜索习惯和搜索结果优先级。
用户的岗位属性是指该用户的工作岗位的属性,用户的工作岗位在一定程度上决定了用户可能对哪些信息更加关注,例如,用户隶属招商引资岗位,这就决定该用户对企业的投资等方面的信息更加关注。
用户的搜索习惯是指通过收集用户对哪类搜索结果或哪类推送消息更加关注,通过收集用户的搜索习惯推测用户的搜索意图,进而从大量的匹配结果中筛选出符合用户搜索意图的搜索结果。
搜索结果优先级可以由用户根据实际需求在参数配置页面中进行配置,例如,可以分别配置不同类型的信息的权重,例如,与政务相关的信息的权重最大、商务相关的信息权重次之,民众信息的权重最小。当向用户返回搜索结果时,可以按照预先配置的各类信息的权重由大到小的顺序选取一定数量的信息。
例如,假设最多向用户返回100条搜索结果,权重最大的类型的搜索结果占比最大,权重次之的类型的搜索结果占比也较小,以此类推,权重最小的类型的搜索结果占比也最小。
此外,在系统同时接收到大量搜索任务的场景中,还可以设定全文检索引擎对搜索任务的处理策略,例如,大量搜索任务分别来自不同的搜索渠道(例如,搜索门户页面、自助客服机器人等),则可以配置各个搜索渠道的权重,按照权重由大到小的顺序处理搜索任务。例如,搜索门户渠道的权重大于自助客服机器人渠道的权重,则优先处理来自搜索门户的搜索任务。
在本申请的又一个实施例中,搜索系统具有统计功能,可以统计整个搜索系统中的运营数据,并且可以在客户端的页面展示整个搜索系统的运营数据。可以从各个维度统计整个搜索系统的运营数据。
如图9所示,可以统计每个功能页面的用户访问量(UV)、每个功能页面的浏览量(PV),进一步可以从多个维度分析UV和PV,例如,某个功能页面对应的PV占比、PV总量、一天中每个时段的PV等。
从运营数据中有效评估搜索系统的运行情况和用户的搜索习惯。例如,通过对运营数据进行统计能够提供热门搜索的关键字词、无命中词、用户搜索习惯等。例如,根据相应用户的搜索习惯指定相应的运营策略,如返回结果策略。
如图10所示,可以在页面展示热门关键字统计、敏感词统计、无名中词统计等选项,用户可以点击具体的选项,页面跳转至该选项对应的统计数据展示页面。例如,图10展示的是热门关键字统计对应的页面。
此外,还可以选择统计数据对应的时间区间,例如,一天内的统计数据,或者,近一周的统计数据、近一个月的统计数据,或者自定义的时间区间。
另一方面,本申请还提供了企业信息搜索装置实施例,请参见图11,示出了本申请实施例提供的一种企业信息搜索装置的结构示意图,该装置可以应用于服务端,如图11所示,该装置包括:获取模块110、内容解析模块120和搜索模块130。
获取模块110,用于获取搜索内容。
内容解析模块120,用于解析所述搜索内容获得对应的搜索关键字词;
在本申请的一个实施例中,内容解析模块120具体用于:
所述搜索内容为文本内容,解析所述搜索内容获得对应的语义内容;
从所述语义内容中提取得到至少一个搜索关键字词。
在本申请一种可能的实现方式中,从所述语义内容中提取至少一个关键字词;然后,将所述至少一个关键字词与预设敏感词库进行对比,删除与所述预设敏感词库中的敏感词相匹配的关键字词,得到与所述搜索内容相匹配的搜索关键字词。
在本申请另一种可能的实现方式中,从所述语义内容中提取至少一个关键字词;对于每个关键字词,查找预设同义词库中是否包含与该关键字词相对应的同义词,所述预设同义词库中包括预先自定义的与表征政务和商务意义的企业术语相对应的同义词;
将每个关键字词及具有同义词的关键字词所对应的同义词确定为与所述搜索内容相匹配的搜索关键字词。
搜索模块130,用于从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
在本申请的一个实施例中,搜索模块130具体用于:
计算所述搜索关键字词与所述全文检索库中的索引字词之间的相似度;按照所述相似度由高到低的顺序确定前预设数量个企业信息为与所述搜索关键字词相匹配的企业信息。
在一种应用场景中,根据搜索关键字词搜索到的企业信息数量庞大,例如,可能达到数万、数百万条,此种情况下,可以根据系统中配置的搜索结果返回策略,从大量与搜索关键字词相匹配的企业信息中筛选得到目标企业信息并展示。所述搜索结果返回策略包括输入所述搜索内容的用户所属的岗位属性、该用户的搜索习惯和搜索结果优先级中的至少一种。
本实施例提供的企业信息搜索装置,预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息,而且,标注后的企业信息基于企业信息的全文内容进行标注,标注深度深。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。该方案不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。
在本申请的一个实施例中,该装置还包括用于对待标注企业信息进行标注的标注模块140。如图12所示,该标注模块可以包括:
分词子模块141,用于对待标注企业信息的全文进行分词处理得到分词结果;
确定子模块142,用于将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词。
在本申请一种可能的实现方式中,确定子模块具体用于:
对于所述分词结果中的每一个分词,计算该分词与所述预设索引词库中的任一索引词之间的相似度;
当所述相似度大于或等于相似度阈值范围时,确定分词与所述索引词相匹配;
获取所述索引词对应的预先设定的权重,以及与所述索引词相匹配的分词在所述待标注企业信息中出现的频率;
依据分词出现的频率及与该分词相匹配的索引词的权重,选取目标索引字词。
关联子模块143,用于建立所述目标索引字词与所述待标注企业信息之间的关联关系,得到标注后的企业信息。
本实施例提供的企业信息搜索装置,通过自然语言处理技术能够使计算机自动从企业信息的全文文本中抽取与预设索引库中的索引词相匹配的字词进行标注;而且,由于企业信息涉及的数据量较大、数据属性较多,随着企业信息不断增加,通过该方案系统能够自动对新增的企业信息建立相应的索引,不需要人工介入,从而降低了标注人员的工作量,而且,提高了标注范围的扩展性。
在本申请的另一个实施例中,如图13所示,所述企业信息搜索装置在图11的基础上还包括:查找模块210、第一统计模块220和更新模块230。
查找模块210,用于从预设时间段内获得的搜索关键字词中查找无命中字词,所述无命中字词表征从所述全文检索库中未搜索到相匹配的企业信息的搜索关键字词;
第一统计模块220,用于统计所述无命中字词在所述预设时间段内出现的次数;
更新模块230,用于当所述次数大于或等于预设次数范围时,将该无命中字词添加至所述预设索引词库中,得到更新后的预设索引词库。
本实施例提供的企业信息搜索装置,对搜索数据中的无命中词进行统计,如果某个无命中字词出现的次数积累到一定量,可以将该关键字词更新到预设索引词库中,当企业信息包含与该关键字词相匹配的词语时,对该词语进行标注,提高了标注范围的扩展性。
又一方面,本申请还提供了一种服务器,如参见图14,其示出了本申请的服务器的一种组成结构示意图,本实施例的服务器可以包括:处理器310和存储器320。
可选的,该服务器还可以包括通信接口330、输入单元340和显示器350和通信总线360。
处理器310、存储器320、通信接口330、输入单元340、显示器350、均通过通信总线360完成相互间的通信。
在本申请实施例中,该处理器310,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器320中存储的程序。具体的,处理器可以执行以下消息发送方法的实施例中应用服务器侧所执行的操作。
存储器320中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现上述任一实施例提供的企业信息搜索方法的程序。
在一种可能的实现方式中,该存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户数据及图像数据等等。
此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口330可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器340和输入单元350等等。
当然,图14所示的服务器的结构并不构成对本申请实施例中服务器的限定,在实际应用中服务器可以包括比图14所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例的企业信息搜索方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种企业信息搜索方法,其特征在于,包括:
获取搜索内容;
解析所述搜索内容获得对应的搜索关键字词;
从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
2.根据权利要求1所述的方法,其特征在于,对企业信息进行自动标注的过程,包括:
对待标注企业信息的全文进行分词处理得到分词结果;
将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词;
建立所述目标索引字词与所述待标注企业信息之间的关联关系,得到标注后的企业信息。
3.根据权利要求2所述的方法,其特征在于,将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词,包括:
对于所述分词结果中的每一个分词,计算该分词与所述预设索引词库中的任一索引词之间的相似度;
当所述相似度大于或等于相似度阈值范围时,确定分词与所述索引词相匹配;
获取所述索引词对应的预先设定的权重,以及与所述索引词相匹配的分词在所述待标注企业信息中出现的频率;
依据分词出现的频率及与该分词相匹配的索引词的权重,选取目标索引字词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
从预设时间段内获得的搜索关键字词中查找无命中字词,所述无命中字词表征从所述全文检索库中未搜索到相匹配的企业信息的搜索关键字词;
统计所述无命中字词在所述预设时间段内出现的次数;
当所述次数大于或等于预设次数范围时,将该无命中字词添加至所述预设索引词库中,得到更新后的预设索引词库。
5.根据权利要求1-4任一项所述的方法,其特征在于,解析所述搜索内容获得对应的搜索关键字词,包括:
所述搜索内容为文本内容,解析所述搜索内容获得对应的语义内容;
从所述语义内容中提取得到至少一个搜索关键字词。
6.根据权利要求5所述的方法,其特征在于,从所述语义内容中提取得到至少一个搜索关键字词,包括:
从所述语义内容中提取至少一个关键字词;
将所述至少一个关键字词与预设敏感词库进行对比,删除与所述预设敏感词库中的敏感词相匹配的关键字词,得到与所述搜索内容相匹配的搜索关键字词。
7.根据权利要求5所述的方法,其特征在于,从所述语义内容中提取得到至少一个搜索关键字词,包括:
从所述语义内容中提取至少一个关键字词;
对于每个关键字词,查找预设同义词库中是否包含与该关键字词相对应的同义词,所述预设同义词库中包括预先自定义的与表征政务和商务意义的企业术语相对应的同义词;
将每个关键字词及具有同义词的关键字词所对应的同义词确定为与所述搜索内容相匹配的搜索关键字词。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,包括:
计算所述搜索关键字词与所述全文检索库中的索引字词之间的相似度;
按照所述相似度由高到低的顺序确定前预设数量个企业信息为与所述搜索关键字词相匹配的企业信息。
9.根据权利要求8所述的方法,其特征在于,所述按照所述相似度由高到低的顺序确定前预设数量个企业信息为与所述搜索关键字词相匹配的企业信息,包括:
获取搜索结果返回策略,所述搜索结果返回策略包括输入所述搜索内容的用户所属的岗位属性、该用户的搜索习惯和搜索结果优先级中的至少一种;
依据所述搜索结果返回策略从相匹配的企业信息中筛选得到目标企业信息。
10.一种企业信息搜索装置,其特征在于,包括:
获取模块,用于获取搜索内容;
内容解析模块,用于解析所述搜索内容获得对应的搜索关键字词;
搜索模块,用于从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
11.一种服务器,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取搜索内容;
解析所述搜索内容获得对应的搜索关键字词;
从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至9任一项所述的企业信息搜索方法。
CN201911222316.4A 2019-12-03 2019-12-03 企业信息搜索方法及装置 Active CN111008265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911222316.4A CN111008265B (zh) 2019-12-03 2019-12-03 企业信息搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911222316.4A CN111008265B (zh) 2019-12-03 2019-12-03 企业信息搜索方法及装置

Publications (2)

Publication Number Publication Date
CN111008265A true CN111008265A (zh) 2020-04-14
CN111008265B CN111008265B (zh) 2023-03-28

Family

ID=70114934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911222316.4A Active CN111008265B (zh) 2019-12-03 2019-12-03 企业信息搜索方法及装置

Country Status (1)

Country Link
CN (1) CN111008265B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797205A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN111984847A (zh) * 2020-08-21 2020-11-24 上海风秩科技有限公司 信息搜索方法、装置、存储介质和电子装置
CN112231544A (zh) * 2020-06-30 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的rpa机器人的搜索方法、装置和设备
CN112507201A (zh) * 2020-11-03 2021-03-16 国网浙江省电力有限公司台州供电公司 一种基于nlp检索分析技术的搜索引擎构建及搜索方法
CN112650951A (zh) * 2020-12-21 2021-04-13 撼地数智(重庆)科技有限公司 一种企业相似度匹配方法、系统和计算装置
CN112734493A (zh) * 2021-01-18 2021-04-30 科技谷(厦门)信息技术有限公司 一种产业监测分析平台
CN113033208A (zh) * 2021-04-21 2021-06-25 浙江非线数联科技股份有限公司 一种基于政务文本数据词性标注的企业主体匹配方法
CN113535028A (zh) * 2021-07-29 2021-10-22 合肥新青罗数字技术有限公司 一种企服运营状态可视化展示方法
CN114154495A (zh) * 2021-12-03 2022-03-08 海南港航控股有限公司 一种基于关键词匹配的实体抽取方法及系统
WO2022108666A1 (en) * 2020-11-19 2022-05-27 Microsoft Technology Licensing, Llc Method and system for automatically tagging data
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103218373A (zh) * 2012-01-20 2013-07-24 腾讯科技(深圳)有限公司 一种相关搜索系统、方法及装置
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法
WO2017065593A1 (ko) * 2015-10-16 2017-04-20 홍교식 검색 키워드에 연동된 멀티 접속정보 제공장치 및 그 시스템과 방법
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN110110044A (zh) * 2019-04-11 2019-08-09 广州探迹科技有限公司 一种企业信息组合筛选的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103218373A (zh) * 2012-01-20 2013-07-24 腾讯科技(深圳)有限公司 一种相关搜索系统、方法及装置
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法
WO2017065593A1 (ko) * 2015-10-16 2017-04-20 홍교식 검색 키워드에 연동된 멀티 접속정보 제공장치 및 그 시스템과 방법
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN110110044A (zh) * 2019-04-11 2019-08-09 广州探迹科技有限公司 一种企业信息组合筛选的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID EDWARD JONES ET AL.: "Improving Enterprise Wide Search in Large Engineering Multinationals A Linguistic Comparison of the Structures of Internet-Search and Enterprise-Search Queries" *
王倪东: "企业互联网负面信息抓取研究" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231544A (zh) * 2020-06-30 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的rpa机器人的搜索方法、装置和设备
CN111797205A (zh) * 2020-06-30 2020-10-20 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN111797205B (zh) * 2020-06-30 2024-03-12 百度在线网络技术(北京)有限公司 一种词表检索方法、装置、电子设备及存储介质
CN111881183A (zh) * 2020-07-28 2020-11-03 北京金堤科技有限公司 企业名称匹配方法和装置、以及存储介质和电子设备
CN111984847A (zh) * 2020-08-21 2020-11-24 上海风秩科技有限公司 信息搜索方法、装置、存储介质和电子装置
CN112507201A (zh) * 2020-11-03 2021-03-16 国网浙江省电力有限公司台州供电公司 一种基于nlp检索分析技术的搜索引擎构建及搜索方法
WO2022108666A1 (en) * 2020-11-19 2022-05-27 Microsoft Technology Licensing, Llc Method and system for automatically tagging data
US11397716B2 (en) 2020-11-19 2022-07-26 Microsoft Technology Licensing, Llc Method and system for automatically tagging data
CN112650951A (zh) * 2020-12-21 2021-04-13 撼地数智(重庆)科技有限公司 一种企业相似度匹配方法、系统和计算装置
CN112734493A (zh) * 2021-01-18 2021-04-30 科技谷(厦门)信息技术有限公司 一种产业监测分析平台
CN113033208A (zh) * 2021-04-21 2021-06-25 浙江非线数联科技股份有限公司 一种基于政务文本数据词性标注的企业主体匹配方法
CN113535028A (zh) * 2021-07-29 2021-10-22 合肥新青罗数字技术有限公司 一种企服运营状态可视化展示方法
CN114154495A (zh) * 2021-12-03 2022-03-08 海南港航控股有限公司 一种基于关键词匹配的实体抽取方法及系统
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置
CN116089368B (zh) * 2022-08-01 2023-12-19 荣耀终端有限公司 文件搜索方法和相关装置

Also Published As

Publication number Publication date
CN111008265B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111008265B (zh) 企业信息搜索方法及装置
CN108154395B (zh) 一种基于大数据的客户网络行为画像方法
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US8538989B1 (en) Assigning weights to parts of a document
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
US20110093462A1 (en) Hierarchical metadata generator for retrieval systems
US7970754B1 (en) Optimizing, distributing, and tracking online content
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
CN103235827B (zh) 一种科技信息自动分类筛选的方法
CN108959580A (zh) 一种标签数据的优化方法及系统
EP2933734A1 (en) Method and system for the structural analysis of websites
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN112269816A (zh) 一种政务预约事项相关性检索方法
TWI417751B (zh) Information providing device, information providing method, information application program, and information recording medium
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
WO2009054611A1 (en) System and method for managing information map
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
CN108509449B (zh) 一种信息处理的方法及服务器
WO2019056727A1 (zh) 机构名称检索式的显示方法、装置、设备及存储介质
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
CN111666479A (zh) 搜索网页的方法和计算机可读存储介质
TWM623755U (zh) 產生創意素材的系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022141

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant