CN114580402A - 一种面向企业的产品信息获取方法、装置、服务器和存储介质 - Google Patents
一种面向企业的产品信息获取方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN114580402A CN114580402A CN202210082468.4A CN202210082468A CN114580402A CN 114580402 A CN114580402 A CN 114580402A CN 202210082468 A CN202210082468 A CN 202210082468A CN 114580402 A CN114580402 A CN 114580402A
- Authority
- CN
- China
- Prior art keywords
- product
- enterprise
- word
- words
- industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种面向企业的产品信息获取方法、装置、服务器和存储介质,涉及计算机技术领域,所述方法包括:获取至少一个企业的产品相关信息,建立行业产品词库;获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。采用本申请,可以更为准确和有效地认知企业生产经营活动。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种面向企业的产品信息获取方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,越来越多的企业开始将生产经营活动的重点转移至线上,以通过互联网进行企业宣传或者业务开展。在这个过程中,企业在网上公开自己的产品服务信息,以便于潜在客户通过产品服务信息了解企业,从而达成业务合作。
一般来说,企业可以在自建的官方网站、信息展示平台、商品销售网站等网络位置处展示与自身生产经营活动相关的产品服务信息。当用户使用终端在网上搜索企业的相关信息时,用户可能在上述网络位置处查找到所显示的产品服务信息,并进一步可以根据产品服务信息,对企业的产品服务进行了解。
在实现本申请的过程中,发明人发现上述技术至少存在以下问题:
企业的生产经营活动往往较为复杂,可能会涉及大量的产品服务,产品服务信息比较难以确切而完整的定义;同时,网上公开的产品服务信息可能是由第三方随意登记的,其真实度和准确性难以得到保证,因此,用户对于企业生产经营活动的认知的有效性和准确性难以得到保障。
发明内容
为了更为准确和有效地体现企业生产经营活动,本申请实施例提供了一种面向企业的产品信息获取方法、装置、后台服务器和存储介质。所述技术方案如下:
第一方面,本申请实施例提供了一种面向企业的产品信息获取方法,所述方法包括:
获取至少一个企业的产品相关信息,建立行业产品词库;
获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;
基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;
响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。
基于上述技术方案,以行业产品词库为依托,以企业的基础产品用词为基准,关联生成与企业生产经营活动相关的大数据量的企业产品词云,从而可以通过企业产品词云对企业生产经营活动进行较为准确和有效的体现。
可选的,所述获取至少一个企业的产品相关信息,建立行业产品词库,包括:
基于预设的词语分类词库构建正则表达式;
利用爬虫技术从预设数据源中提取与所述正则表达式匹配的至少一个企业的企业经营描述用语;
将所述企业经营描述用语中的名词或短语提取为企业产品用词;
利用词向量对所有的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
基于上述技术方案,利用正则表达式匹配的方式,从数据源处爬取企业经营描述用语,再利用聚类算法对企业经营描述用语中包含的企业产品用词进行汇总,一方面可以保证爬取到的企业经营描述用语的准确性,另一方面可以快速有效地生成行业产品词库。
可选的,所述获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词,包括:
利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词;
通过比对词语相似度,从所述行业产品词库中提取与所述基础产品用词的相似度大于预设阈值的关联产品用词。
基于上述技术方案,从基准数据源处爬取基础产品用词,再从行业产品词库中提取相似度较高的关联产品用词,即可以保证基础产品用词真实可信,又可以精确提取出关联产品用词。
可选的,所述获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词,包括:
获取目标企业的至少一个行业归属信息,并确定各个所述行业归属信息对应的基础产品用词;
在各个所述行业归属信息对应的行业产品词库中,分别提取所述行业归属信息对应的基础产品用词的关联产品用词。
基于上述技术方案,以行业归属为标准,在不同行业内提取企业的产品用词,可以提高关联产品用词的准确性。
可选的,所述基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云,包括:
根据每个所述关联产品用词的词语属性信息,为每个所述关联产品用词设置核心度权值;
按照所述核心度权值和预设核心度阈值,从所述关联产品用词中筛选整理出所述目标企业的核心产品用词;
基于所述核心产品用词构建所述目标企业的企业产品词云。
基于上述技术方案,以核心度权值来量化企业的产品用词,一者可以筛选出更为贴近企业真实生产经营活动的产品用词,另者可以实现对企业生产经营活动更为具化的体现。
可选的,所述基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云之后,还包括:
确定所述目标企业的关联企业,基于已存储的所述关联企业的企业产品词云对所述目标企业的企业产品词云进行调整。
基于上述技术方案,利用关联企业的企业产品词云对目标企业的企业产品词云进行调整,使得企业产品词云可以更为准确而全面地反映目标企业的真实生产经营活动。
可选的,所述方法还包括:
定期获取所述目标企业的新产品用词,计算所述新产品用词与所述目标企业的企业产品词云的匹配度;
若匹配度不小于预设阈值,则将所述新产品用词添加至所述目标企业的企业产品词云;
若匹配度小于预设阈值,则在所述行业产品词库中提取所述新产品用词的关联产品用词;
基于预设的选词标准和所述新产品用词的关联产品用词,对所述目标企业的企业产品词云进行更新。
基于上述技术方案,周期性利用新产品用词对企业的企业产品词云更新优化,提高了企业产品词云的有效性,且通过企业产品词云的更新过程可以更为直观地反映企业的生产经营变化。
第二方面,本申请实施例提供了一种面向企业的产品信息获取装置,所述装置包括:
词库建立模块,用于获取至少一个企业的产品相关信息,建立行业产品词库;
词语关联模块,用于获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;
词云生成模块,用于基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;
词语输出模块,用于响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。
可选的,所述词库建立模块,具体用于:
基于预设的词语分类词库构建正则表达式;
利用爬虫技术从预设数据源中提取与所述正则表达式匹配的至少一个企业的企业经营描述用语;
将所述企业经营描述用语中的名词或短语提取为企业产品用词;
利用词向量对所有的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
可选的,所述词语关联模块,具体用于:
利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词;
通过比对词语相似度,从所述行业产品词库中提取与所述基础产品用词的相似度大于预设阈值的关联产品用词。
可选的,所述词语关联模块,具体用于:
获取目标企业的至少一个行业归属信息,并确定各个所述行业归属信息对应的基础产品用词;
在各个所述行业归属信息对应的行业产品词库中,分别提取所述行业归属信息对应的基础产品用词的关联产品用词。
可选的,所述词云生成模块,具体用于:
根据每个所述关联产品用词的词语属性信息,为每个所述关联产品用词设置核心度权值;
按照所述核心度权值和预设核心度阈值,从所述关联产品用词中筛选整理出所述目标企业的核心产品用词;
基于所述核心产品用词构建所述目标企业的企业产品词云。
可选的,所述装置还包括:
词云调整模块,用于确定所述目标企业的关联企业,基于已存储的所述关联企业的企业产品词云对所述目标企业的企业产品词云进行调整。
可选的,所述装置还包括词云更新模块,用于:
定期获取所述目标企业的新产品用词,计算所述新产品用词与所述目标企业的企业产品词云的匹配度;
若匹配度不小于预设阈值,则将所述新产品用词添加至所述目标企业的企业产品词云;
若匹配度小于预设阈值,则在所述行业产品词库中提取所述新产品用词的关联产品用词;
基于预设的选词标准和所述新产品用词的关联产品用词,对所述目标企业的企业产品词云进行更新。
第三方面,本申请实施例提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的面向企业的产品信息获取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的面向企业的产品信息获取方法。
综上所述,本申请具有以下有益效果:
采用本申请公开的面向企业的产品信息获取方法,先利用大量的产品相关信息来创建行业级的多个行业产品词库,再以目标企业的基础产品用词为基准,在行业产品词库中提取关联产品用词,并在对关联产品用词进行处理后构建企业级的企业产品词云,最终在需要查询企业的产品信息时,输出企业产品词云中的产品用词。这样,以行业产品词库为依托,以企业的基础产品用词为起点,关联生成与企业生产经营活动相关的大数据量的企业产品词云,从而可以通过企业产品词云对企业生产经营活动进行较为准确和有效的体现。
附图说明
图1为本申请实施例中面向企业的产品信息获取方法流程图;
图2为本申请实施例中关联产品信息的提取原理示意图;
图3为本申请实施例中企业产品词云的更新方法流程图;
图4为本申请实施例中面向企业的产品信息获取装置的结构示意图;
图5为本申请实施例中面向企业的产品信息获取装置的结构示意图;
图6为本申请实施例中面向企业的产品信息获取装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-6及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供了一种面向企业的产品信息获取方法,该方法的执行主体可以是企业信息服务平台的后台服务器,企业信息服务平台可以用于搜集整合企业信息,并基于企业信息对外提供信息查询服务、分析服务、认证服务等多维度服务。在实现上述服务的过程中,后台服务器主要负责数据采集、数据整合以及数据输出等数据层面的业务执行,在本申请实施例中数据即为企业产品信息,并主要采用名词的形式存在。在其它实施场景下,上述后台服务器的功能可以由内嵌有上述业务执行逻辑的任意处理设备来实现,其实现过程与后台服务器基本相似,本实施例中不再针对性地进行说明。
下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
步骤101,获取至少一个企业的产品相关信息,建立行业产品词库。
其中,产品相关信息可以为能够体现企业生产经营活动的相关信息,可以是文字、图片、网页等,具体可以是企业生产的产品名称或对外提供的服务名称,如手机、水杯、旅游、按摩等。
在实施中,企业信息服务平台在开展企业信息查询服务前,可以先建立行业级的产品词库。该过程中,后台服务器可以获取至少一个企业的产品相关信息,并基于产品相关信息构建出不同行业的行业产品词库,其中,每个行业产品词库中均可以包含有归属于该行业的大量企业产品用词。更为细节的来说,企业产品用词可以是由后台服务器的技术人员人工输入至后台服务器中的,也可以是后台服务器基于数据采集技术自行在网络上采集后整理得到的,还可以是企业主动向后台服务器上报的;行业产品词库的行业划分标准可以是技术人员人工设定的,也可以是后台服务器基于信息聚类技术对所有企业产品用词聚类划分后得到的。
可选的,可以采用短词提取加词向量聚类的方式,实现行业产品词库的构建,相应的,步骤101的处理可以如下:基于预设的词语分类词库构建正则表达式;利用爬虫技术从预设数据源中提取与正则表达式匹配的至少一个企业的企业经营描述用语;将企业经营描述用语中的名词或短语提取为企业产品用词;利用词向量对所有的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
在实施中,后台服务器中可以预设有词语分类词库,该词语分类词库中可以存在按照行业或者技术领域,与企业生产经营相关的多个词语分类,如可以是尼斯词库。在构建行业产品词库的过程中,后台服务器可以基于该词语分类词库来构建正则表达式,之后可以利用爬虫技术从预设数据源处爬取与正则表达式匹配的企业经营描述用语。此处的预设数据源可以是网络爬取的起始位置,具体可以由技术人员设定,如可以是搜索引擎的网页快照、企业的官方网站、企业年报的展示平台、第三方企业信息服务平台等。接下来,后台服务器可以对匹配得到的企业经营描述用语进行词义拆分,如可以通过去停用词的方式提取出其中的名词或者短语作为企业产品用词。再者,后台服务器可以通过词向量的方式,对提取到的所有企业产品用词进行聚类分析,从而生成不同行业对应的行业产品词库。可以理解,由于企业产品用词本身蕴含有一定的行业特有属性,故而聚类分析得到的各类词语将大概率与行业分类相对应。
进一步的,在从企业经营描述用语中提取出企业产品用词后,可以先利用NLP分词技术和词性标注算法,构建分词模型,至少可以包括辅助式、偏正式和复合式三种类型。继而,后台服务器可以通过分词模型对企业产品用词进行数据清洗,提取出符合预设用词要求的企业产品用词,如提取出词频较高,词义准确,词语较短的企业产品用词。这样,后台服务器可以再利用词向量对清洗后的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
步骤102,获取目标企业的基础产品用词,在行业产品词库中提取基础产品用词的关联产品用词。
其中,目标企业可以是任意一个存在生产经营活动的企业。
在实施中,后台服务器在建立了行业产品词库之后,可以针对每个具体的企业,构建专属于企业的企业产品词云。为了便于理解,图2给出了关联产品用词的提取示意图。具体而言,后台服务器可以先获取目标企业的基础产品用词,进而以基础产品用词作为基准,在行业产品词库中提取与基础产品用词存在关联关系的关联产品用词。其中,基础产品用词的获取方式与步骤101中的企业产品用词的获取方式相似,区别在于数据来源的不同,此处不再赘述;两个词语存在关联关系可以是两者存在相同字词,或者是两者属于近义词,或者是两者包含的部分字词属于近义词等等。
可选的,可以在爬取得到基础产品用词后,以词语相似度来提取关联产品用词,相应的,步骤102的处理可以如下:利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词;通过比对词语相似度,从行业产品词库中提取与基础产品用词的相似度大于预设阈值的关联产品用词。
在实施中,后台服务器在针对目标企业生产企业产品词云时,可以先利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词。需要说明的是,此处的爬虫技术本质与前述构建行业产品词库中对企业产品用词的爬虫处理相同,区别在于基准数据源相比于前述的预设数据源的可信度更高,如可以将企业的官方网站,或者政府搭建的企业信息平台为基准数据源,而从基准数据源爬取到的基础产品用词大概率能够更为准确的体现企业真实的生产经营活动。继而,后台服务器可以通过比对词语相似度的方式,从行业产品词库中提取与基础产品用词的相似度大于预设阈值的关联产品用词。其中,相似度比对可以采用相似度阈值来判断,也可以通过企业产品词库的密度聚类算法来实现。举例而言,如企业的基础产品用词为“杯”,则其关联产品用词可能为“水杯”、“保温杯”、“茶杯”等,又比如企业的基础产品用词为“手机”,则其关联产品用词可能为“触屏手机”、“智能手机”、“5G手机”等。
可选的,在提取企业的关联产品用词时,可以以行业为基准进行提取,相应的,步骤102的处理可以如下:获取目标企业的至少一个行业归属信息,并确定各个行业归属信息对应的基础产品用词;在各个行业归属信息对应的行业产品词库中,分别提取行业归属信息对应的基础产品用词的关联产品用词。
在实施中,后台服务器从行业产品词库提取目标企业的关联产品用词前,可以先获取目标企业的至少一个行业归属信息,该行业归属信息可以是从目标企业直接收集的,也可以是从政府的企业信息公示平台采集的。可以理解,一个企业往往会涉及多个行业的生产经营活动,因此一个企业的行业归属信息可以是多个相近或独立的行业名称。进一步的,步骤102中获取的基础产品用词,可以依照该行业归属信息适配性地分为多个行业归属信息对应的基础产品用词。这样,后台服务器可以利用归属于不同行业的基础产品用词,在不同行业归属信息对应的行业产品词库中,分别提取出与基础产品用词的关联产品用词。基于此,将企业的产品用词按照行业来划分,降低了不同行业的产品用词间的干扰,关联产品用词相对企业生产经营活动的命中率更高。
步骤103,基于预设的选词标准,对关联产品用词进行处理,得到目标企业的企业产品词云。
其中,企业产品词云即为与企业相关的产品用词的集合,企业产品词云中可以包含前述基础产品用词和筛选后的关联产品用词。
在实施中,后台服务器在提取目标企业的关联产品用词之后,基于预设的选词标准,对关联产品用词进行处理,即剔除关联产品用词中不符合选词标准的词语,进而可以得到目标企业的企业产品词云。该选词标准可以根据实际需求由技术人员自行设定,此处不进行具体限定。
可选的,可以依照词语的核心程度对关联产品用词进行筛选,相应的,步骤103的处理可以如下:根据每个关联产品用词的词语属性信息,为每个关联产品用词设置核心度权值;按照核心度权值和预设核心度阈值,从关联产品用词中筛选整理出目标企业的核心产品用词;基于核心产品用词构建目标企业的企业产品词云。
在实施中,后台服务器在从行业产品词库中提取出关联产品用词后,可以确定该关联产品用词的词语属性信息,该词语属性信息可以是:关联产品用词是否存在于目标企业的基准数据源中,关联产品用词在目标企业的基准数据源中出现的次数,关联产品用词与目标企业的标识同时出现的次数,关联产品用词与目标企业的基础产品用词的关联度等,其中,目标企业的标识可以是目标企业的全称、别名、简称、名称缩写等等。之后,后台服务器可以根据每个关联产品用词的词语属性信息,为关联产品用词设置核心度权值。细节而言,每项词语属性信息都可以对应一个权值,利用预设算法综合所有词语属性信息的权值,计算得出关联产品用词的核心度权值,例如,关联产品用词出现在企业的官方网站一次,对应的权值为0.3,出现在企业信息公示平台一次,对应的权值为0.3,出现次数与对应的权值相乘;关联产品用词在其它数据源中与目标企业的标识共同出现,对应的权值与数据源的可信度成正比;关联产品用词与基础产品用词的关联度,对应的权值与关联度成正比。同理,后台服务器还可以基于上述机制,以及关联产品用词的核心度权值,为每个基础产品用词设置核心度权值,基础产品用词的核心度权值大于关联产品用词。
基于上述设定,后台服务器进一步将每个关联产品用词的核心度权值,与预设核心度阈值进行比对,从而可以将核心度权值大于预设核心度阈值的关联产品用词筛选出作为目标企业的核心产品用词,并基于所有核心产品用词构建目标企业的企业产品词云。此外,后台服务器还可以按照核心度权值的大小,在企业产品词云中设置多层产品用词,每层产品用词的核心度权值属于相同数值范围,核心度权值越高,代表产品用词越接近企业的生产经营活动。
可选的,在生成企业产品词云后,可以利用同行企业的产品词云进行调整,故而步骤103之后可以存在如下处理:确定目标企业的关联企业,基于已存储的关联企业的企业产品词云对目标企业的企业产品词云进行调整。
在实施中,后台服务器构建了目标企业的企业产品词库之后,可以先确定目标企业的关联企业,其中,关联企业可以是目标企业的同行企业,或者目标企业的产业链的上下游企业。关联企业的确定方式可以是根据目标企业提供的关联企业信息确定的,也可以是后台服务器对不同企业的企业信息综合分析后推定的。进而,后台服务器可以调取已生成的关联企业的企业产品词云,对目标企业的企业产品词云中的产品用词进行调整。例如,可以将目标企业的企业产品词云中,与关联企业的企业产品词云中的产品用词均无关联的产品用词直接剔除,将关联性较弱的产品用词标记为待确认产品用词,或者降低产品用词的核心度权值,提高关联性较强的产品用词的核心度权值,将关联企业的企业产品词云中的高频产品用词标记为可添加产品用词。
步骤104,响应针对目标企业的信息调取请求,输出目标企业的企业产品词云中的产品用词。
在实施中,后台服务器生成目标企业的企业产品词云后,可以对外提供目标企业的企业产品词云的调用功能。例如,后台服务器在接收到针对目标企业的企业信息查询请求后,或者在接收到针对目标企业的企业分析请求后,或者在接收到其它任何需要企业产品用词的业务请求后,均可以触发针对目标企业的信息调取请求的响应处理,从而后台服务器可以调取并输出目标企业的企业产品词云中的产品用词。值得一提的是,在调取并输出产品用词的过程中,可以先按照调取需求对企业产品词云中的多个产品用词进行挑选后输出,例如,可以优先输出企业产品词云中的基础产品用词,其次输出企业产品词云中与基础产品用词关联性较大的关联产品用词,再者输出企业产品词云中与基础产品用词关联性稍弱的关联产品用词,往后依次类推,直至产品用词的输出个数满足所需数量。
结合上述为关联产品用词设置核心度权值的处理,在输出企业产品词云中的产品用词时,后台服务器可以同时输出每个产品用词的核心度权值,从而可以便于通过核心度权值以量化的方式来刻画公司的生产经营和服务活动以及产品画像。
在另一实施例中,后台服务器可以在获取到目标企业的基础产品用词后,如果基础产品用词的数量达到预设数量,则可以基于基础产品用词构建目标企业的核心产品词云,这样当后续需要响应针对目标企业的信息调取请求时,如果产品用词的需求数量小于基础产品用词的数量,后台服务器则可以直接输出该核心产品词云中的基础产品用词。
在另一实施例中,本申请还公开了一种企业产品词云的更新方法,可以参考图3,具体流程可以如下:
步骤301,定期获取目标企业的新产品用词,计算新产品用词与目标企业的企业产品词云的匹配度。
在实施中,后台服务器可以在生成企业的企业产品词云后,对企业的生产经营活动进行持续跟进,不断更新企业产品词云。以目标企业为例,后台服务器可以定期获取目标企业的新产品用词,如每一个月获取一次,然后将该新产品用词与目标企业的企业产品词云进行比对,计算新产品用词与企业产品词云的匹配度。需要说明的是,新产品用词的获取周期可以根据企业的新产品推出频率而定,或者根据企业所属行业的新产品推出频率而定,而新产品推出频率可以由企业或者行业的新产品推出的历史数据推算得到;匹配度的计算可以是将新产品用词与企业产品词云的每个产品用词进行相似度比对后综合计算得到的。
步骤302,若匹配度不小于预设阈值,则将新产品用词添加至目标企业的企业产品词云。
在实施中,如果新产品用词与企业产品词云的匹配度不小于预设阈值,后台服务器则可以直接将新产品用词添加至目标企业的企业产品词云中。
步骤303,若匹配度小于预设阈值,则在行业产品词库中提取新产品用词的关联产品用词。
步骤304,基于预设的选词标准和新产品用词的关联产品用词,对目标企业的企业产品词云进行更新。
在实施中,如果新产品用词与企业产品词云的匹配度小于预设阈值,后台服务器则可以基于前述步骤102和步骤103的处理,在行业产品词库中提取新产品用词的关联产品用词,并将新产品用词及其关联产品用词统一添加至目标企业的企业产品词云。可以理解,如果在行业产品词库中无法提取到新产品用词的关联产品用词,或者提取出的关联产品用词与新产品用词的关联性较低,后台服务器则可以触发行业产品词库的更新,即重新爬取目标企业所属行业的企业产品用词,并重新建立针对该行业的行业产品词库。
采用本申请公开的面向企业的产品信息获取方法,先利用大量企业的产品相关信息来创建行业级的多个行业产品词库,再以目标企业的基础产品用词为基准,在行业产品词库中提取关联产品用词,并在对关联产品用词进行处理后构建企业级的企业产品词云,最终在需要查询企业的产品信息时,输出企业产品词云中的产品用词。这样,以行业产品词库为依托,以企业的基础产品用词为起点,关联生成与企业生产经营活动相关的大数据量的企业产品词云,从而可以通过企业产品词云对企业生产经营活动进行较为准确和有效的体现。
基于相同的技术构思,本申请实施例还提供了一种面向企业的产品信息获取装置,如图4所示,所述装置包括:
词库建立模块401,用于获取至少一个企业的产品相关信息,建立行业产品词库;
词语关联模块402,用于获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;
词云生成模块403,用于基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;
词语输出模块404,用于响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。
可选的,所述词库建立模块401,具体用于:
基于预设的词语分类词库构建正则表达式;
利用爬虫技术从预设数据源中提取与所述正则表达式匹配的至少一个企业的企业经营描述用语;
将所述企业经营描述用语中的名词或短语提取为企业产品用词;
利用词向量对所有的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
可选的,所述词语关联模块402,具体用于:
利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词;
通过比对词语相似度,从所述行业产品词库中提取与所述基础产品用词的相似度大于预设阈值的关联产品用词。
可选的,所述词语关联模块402,具体用于:
获取目标企业的至少一个行业归属信息,并确定各个所述行业归属信息对应的基础产品用词;
在各个所述行业归属信息对应的行业产品词库中,分别提取所述行业归属信息对应的基础产品用词的关联产品用词。
可选的,所述词云生成模块403,具体用于:
根据每个所述关联产品用词的词语属性信息,为每个所述关联产品用词设置核心度权值;
按照所述核心度权值和预设核心度阈值,从所述关联产品用词中筛选整理出所述目标企业的核心产品用词;
基于所述核心产品用词构建所述目标企业的企业产品词云。
可选的,如图5所示,所述装置还包括:
词云调整模块405,用于确定所述目标企业的关联企业,基于已存储的所述关联企业的企业产品词云对所述目标企业的企业产品词云进行调整。
可选的,如图6所示,所述装置还包括词云更新模块406,用于:
定期获取所述目标企业的新产品用词,计算所述新产品用词与所述目标企业的企业产品词云的匹配度;
若匹配度不小于预设阈值,则将所述新产品用词添加至所述目标企业的企业产品词云;
若匹配度小于预设阈值,则在所述行业产品词库中提取所述新产品用词的关联产品用词;
基于预设的选词标准和所述新产品用词的关联产品用词,对所述目标企业的企业产品词云进行更新。
本申请实施例提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如步骤101-步骤104所述的面向企业的产品信息获取方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其它等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
Claims (10)
1.一种面向企业的产品信息获取方法,其特征在于,所述方法包括:
获取至少一个企业的产品相关信息,建立行业产品词库;
获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;
基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;
响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一个企业的产品相关信息,建立行业产品词库,包括:
基于预设的词语分类词库构建正则表达式;
利用爬虫技术从预设数据源中提取与所述正则表达式匹配的至少一个企业的企业经营描述用语;
将所述企业经营描述用语中的名词或短语提取为企业产品用词;
利用词向量对所有的企业产品用词进行聚类分析,生成不同行业对应的行业产品词库。
3.根据权利要求1所述的方法,其特征在于,所述获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词,包括:
利用爬虫技术从预设的基准数据源处爬取目标企业的基础产品用词;
通过比对词语相似度,从所述行业产品词库中提取与所述基础产品用词的相似度大于预设阈值的关联产品用词。
4.根据权利要求1所述的方法,其特征在于,所述获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词,包括:
获取目标企业的至少一个行业归属信息,并确定各个所述行业归属信息对应的基础产品用词;
在各个所述行业归属信息对应的行业产品词库中,分别提取所述行业归属信息对应的基础产品用词的关联产品用词。
5.根据权利要求1所述的方法,其特征在于,所述基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云,包括:
根据每个所述关联产品用词的词语属性信息,为每个所述关联产品用词设置核心度权值;
按照所述核心度权值和预设核心度阈值,从所述关联产品用词中筛选出所述目标企业的核心产品用词;
基于所述核心产品用词构建所述目标企业的企业产品词云。
6.根据权利要求1所述的方法,其特征在于,所述基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云之后,还包括:
确定所述目标企业的关联企业,基于已存储的所述关联企业的企业产品词云对所述目标企业的企业产品词云进行调整。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定期获取所述目标企业的新产品用词,计算所述新产品用词与所述目标企业的企业产品词云的匹配度;
若匹配度不小于预设阈值,则将所述新产品用词添加至所述目标企业的企业产品词云;
若匹配度小于预设阈值,则在所述行业产品词库中提取所述新产品用词的关联产品用词;
基于预设的选词标准和所述新产品用词的关联产品用词,对所述目标企业的企业产品词云进行更新。
8.一种面向企业的产品信息获取装置,其特征在于,所述装置包括:
词库建立模块,用于获取至少一个企业的产品相关信息,建立行业产品词库;
词语关联模块,用于获取目标企业的基础产品用词,在所述行业产品词库中提取所述基础产品用词的关联产品用词;
词云生成模块,用于基于预设的选词标准,对所述关联产品用词进行处理,得到所述目标企业的企业产品词云;
词语输出模块,用于响应针对所述目标企业的信息调取请求,输出所述目标企业的企业产品词云中的产品用词。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的面向企业的产品信息获取方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的面向企业的产品信息获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082468.4A CN114580402A (zh) | 2022-01-24 | 2022-01-24 | 一种面向企业的产品信息获取方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210082468.4A CN114580402A (zh) | 2022-01-24 | 2022-01-24 | 一种面向企业的产品信息获取方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580402A true CN114580402A (zh) | 2022-06-03 |
Family
ID=81772145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210082468.4A Pending CN114580402A (zh) | 2022-01-24 | 2022-01-24 | 一种面向企业的产品信息获取方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580402A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544045A (zh) * | 2022-11-23 | 2022-12-30 | 云账户技术(天津)有限公司 | 一种行业表述的获取方法及装置 |
CN115619290A (zh) * | 2022-12-02 | 2023-01-17 | 北京视野智慧数字科技有限公司 | 确定企业的产品服务的方法、装置及设备 |
-
2022
- 2022-01-24 CN CN202210082468.4A patent/CN114580402A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544045A (zh) * | 2022-11-23 | 2022-12-30 | 云账户技术(天津)有限公司 | 一种行业表述的获取方法及装置 |
CN115619290A (zh) * | 2022-12-02 | 2023-01-17 | 北京视野智慧数字科技有限公司 | 确定企业的产品服务的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220114199A1 (en) | System and method for information recommendation | |
KR101778679B1 (ko) | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 | |
US11797620B2 (en) | Expert detection in social networks | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
US20200233914A1 (en) | Search engine | |
CN106557480B (zh) | 查询改写的实现方法及装置 | |
CN107436875A (zh) | 文本分类方法及装置 | |
US20150046452A1 (en) | Geotagging unstructured text | |
WO2020019562A1 (zh) | 搜索排序方法、装置、电子设备和存储介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
US20180300296A1 (en) | Document similarity analysis | |
CN109819015B (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
US20230153870A1 (en) | Unsupervised embeddings disentanglement using a gan for merchant recommendations | |
EP1634204A2 (en) | Search query categorization for business listings search | |
CN114580402A (zh) | 一种面向企业的产品信息获取方法、装置、服务器和存储介质 | |
CN110516033B (zh) | 一种计算用户偏好的方法和装置 | |
CN105531701A (zh) | 个性化趋势图像搜索建议 | |
CN113468414A (zh) | 商品搜索方法、装置、计算机设备及存储介质 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
EP2073131A1 (en) | Method and apparatus for processing a search query for text content items | |
CN111382254A (zh) | 电子名片推荐方法、装置、设备及计算机可读存储介质 | |
US20230177581A1 (en) | Product metadata suggestion using embeddings | |
CN110959157A (zh) | 加速大规模相似性计算 | |
EP4002151A1 (en) | Data tagging and synchronisation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518051 2201, block D, building 1, bid section 1, Chuangzhi Yuncheng, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant after: Qizhi Technology Co.,Ltd. Address before: 518051 2201, block D, building 1, bid section 1, Chuangzhi Yuncheng, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant before: Qizhi Network Technology Co.,Ltd. |