CN111898378B - 政企客户的行业分类方法和装置、电子设备、存储介质 - Google Patents
政企客户的行业分类方法和装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111898378B CN111898378B CN202010756721.0A CN202010756721A CN111898378B CN 111898378 B CN111898378 B CN 111898378B CN 202010756721 A CN202010756721 A CN 202010756721A CN 111898378 B CN111898378 B CN 111898378B
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- name
- industry
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 235
- 238000012545 processing Methods 0.000 claims description 36
- 238000012216 screening Methods 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种政企客户的行业分类方法和装置、电子设备、存储介质,包括:从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,对第一名称进行分词处理,得到第一分词列表,并对第二名称进行分词处理,得到第二分词列表,分别计算第一分词列表中每个分词在其所属的第一行业类别下的权重值,根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别,根据目标行业类别对待标注的政企客户进行标注,通过基于分词操作的结果和计算得到的权重值进行标注,避免因人工标注造成的准确度不高等问题,进而实现提高识别的准确度和效率的技术效果。
Description
技术领域
本公开涉及互联网技术领域,具体涉及数据处理技术领域,尤其涉及一种政企客户的行业分类方法和装置、电子设备、存储介质。
背景技术
随着科学技术的飞速发展,人工智能的大潮流,冲击着每一个行业的行业结构和技术。行业类别是政企客户的一个重要字段,因此,如何快速对政企客户的行业类别进行标注,以确定政企客户的行业类别成了亟需解决的问题。
在现有技术中,主要通过人工的方式对已标注的政企客户的行业类别进行关键词梳理,通过按照待标注的政企客户名称,找到与待标注的政企客户名称相似度高的已标注的政企客户,并根据相似度高的已标注的政企客户的行业类别对待标注的政企客户进行标注。
然而发明人在实现本公开的过程中,发现至少存在如下问题:由于通过人工的方式确定待标注的政企客户的行业类别并进行标注,一方面会造成人力成本消耗较大,另一方面还会造成标注的可靠性不高。
发明内容
本公开提供一种政企客户的行业分类方法和装置、电子设备、存储介质,用以解决现有技术中由于通过人工的方式确定待标注的政企客户的行业类别并进行标注,一方面会造成人力成本消耗较大,另一方面还会造成标注的可靠性不高的问题。
一方面,本公开实施例提供一种政企客户的行业分类方法,所述方法包括:
从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,所述属性信息包括第一名称和行业类别;
对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表;
分别计算所述第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,所述行业类别包括所述第一行业类别;
根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别;
根据所述目标行业类别对所述待标注的政企客户进行标注,并对携带所述目标行业类别的所述待标注的政企客户进行显示。
在一些实施例中,所述分别计算所述第一分词列表中每个分词在所属第一行业类别下的权重值包括:
计算所述每个分词在其所属的第一行业类别下的第一名称中的分词词频;
获取与所述每个分词属于同一第一行业类别的分词的最大词频;
获取所述行业类别中包括所述每个分词的行业类别的数量;
根据所述分词词频、所述最大词频和所述数量确定所述分词的权重值。
在一些实施例中,所述根据所述第一分词列表、第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别包括:
将所述第一分词列表转换为第一分词数组,并将所述第二分词列表转换为第二分词数组;
根据所述权重值分别计算所述第一分词数组与所述第二分词数组中的各数组之间的距离;
从所述距离中选取最大距离;
将所述最大距离对应的行业类别确定为所述目标行业类别。
在一些实施例中,所述对所述第一名称进行分词处理包括:
根据预设拆词规则对所述第一名称进行拆词处理,得到第一词语分词;
根据预设筛选规则对所述第一词语分词进行筛选处理,得到所述第一分词列表;
和/或,
所述对所述第二名称进行分词处理包括:
根据预设拆词规则对所述第二名称进行拆词处理,得到第二词语分词;
根据预设筛选规则对所述第二词语分词进行筛选处理,得到所述第二分词列表;
其中,所述拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种,所述筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
在一些实施例中,在所述对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表之前,所述方法包括:
将所述第二名称与所述第一名称进行匹配,得到匹配度;
提取所述匹配度中的最大匹配度;
响应于所述最大匹配度大于预设第二阈值,确定与所述最大匹配度对应的第一名称;
根据确定出的第一名称的行业类别对为所述待标注政企客户进行标注;
将标注后的所述待标注政企客户添加至所述样本政企客户。
另一方面,本公开实施例还提供了一种政企客户的行业分类装置,所述装置包括:
第一提取模块,用于从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,所述属性信息包括第一名称和行业类别;
分词模块,用于对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表;
计算模块,用于分别计算所述第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,所述行业类别包括所述第一行业类别;
第一确定模块,用于根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别;
第一标注模块,用于根据所述目标行业类别对所述待标注的政企客户进行标注;
显示模块,用于对携带所述目标行业类别的所述待标注的政企客户进行显示。
在一些实施例中,所述计算模块用于,计算所述每个分词在其所属的第一行业类别下的第一名称中的分词词频,获取与所述每个分词属于同一第一行业类别的分词的最大词频,获取所述行业类别中包括所述每个分词的行业类别的数量,根据所述分词词频、所述最大词频和所述数量确定所述分词的权重值。
在一些实施例中,所述第一确定模块用于,将所述第一分词列表转换为第一分词数组,并将所述第二分词列表转换为第二分词数组,根据所述权重值分别计算所述第一分词数组与所述第二分词数组中的各数组之间的距离,从所述距离中选取最大距离,将所述最大距离对应的行业类别确定为所述目标行业类别。
在一些实施例中,所述分词模块用于,根据预设拆词规则对所述第一名称进行拆词处理,得到第一词语分词,根据预设筛选规则对所述第一词语分词进行筛选处理,得到所述第一分词列表;和/或,
所述分词模块用于,根据预设拆词规则对所述第二名称进行拆词处理,得到第二词语分词,根据预设筛选规则对所述第二词语分词进行筛选处理,得到所述第二分词列表;
其中,所述拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种,所述筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
在一些实施例中,所述装置还包括:
匹配模块,用于将所述第二名称与所述第一名称进行匹配,得到匹配度;
第二提取模块,用于提取所述匹配度中的最大匹配度;
第二确定模块,用于响应于所述最大匹配度大于预设第二阈值,确定与所述最大匹配度对应的第一名称;
第二标注模块,用于根据确定出的第一名称的行业类别对为所述待标注政企客户进行标注;
添加模块,用于将标注后的所述待标注政企客户添加至所述样本政企客户。
另一个方面,本公开实施例还提供了一种电子设备,包括:存储器,处理器;
所述存储器用于存储所述处理器可执行指令的存储器;
其中,当执行所述存储器中的指令时,所述处理器被配置为实现如上任一实施例所述的方法。
另一个方面,本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上任一实施例所述的方法。
本公开提供一种政企客户的行业分类方法和装置、电子设备、存储介质,包括:从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,属性信息包括第一名称和行业类别,对第一名称进行分词处理,得到第一分词列表,并对第二名称进行分词处理,得到第二分词列表,分别计算第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,行业类别包括第一行业类别,根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别,根据目标行业类别对待标注的政企客户进行标注,并对携带目标行业类别的待标注的政企客户进行显示,通过分词操作、计算权重值,以便基于分词操作的结果和计算得到的权重值进行标注,从而避免因人工标注造成的准确度不高等问题,进而实现提高识别的准确度和效率,且实现节约人力成本的技术效果,并对标注结果进行显示,以提高相关信息的可视化,提高用户搜索某政企客户的属性信息的便捷性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本公开实施例的政企客户的行业分类方法的应用场景示意图;
图2为本公开另一实施例的政企客户的行业分类方法的应用场景示意图;
图3为本公开实施例的政企客户的行业分类方法的流程示意图;
图4为本公开实施例的分别计算第一分词列表中每个分词在所属第一行业类别下的权重值的方法的流程示意图;
图5为本公开实施例的根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别的方法的流程示意图;
图6为本公开实施例的政企客户的行业分类装置的示意图;
图7为本公开另一实施例的政企客户的行业分类装置的示意图;
图8为本公开实施例的电子设备的结构示意图;
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在现有技术中,主要通过人工的方式对待标注的企业进行标注,一方面,由于在人工标注过程中,容易受个人主观因素的影响,导致标注的准确性不高;另一方面,由于待标注的政企客户的数量较多,因此标注的工作量较大,而由于人工体质等各方面因素,容易造成标注效率较低,且消耗的人力成本较高的问题。为了解决现有技术中因人工标注导致的上述问题,发明人经过创造性的劳动得到本公开实施的技术方案。在本公开实施例中,通过分词操作、计算权重值,以便基于分词操作的结果和计算得到的权重值进行标注,从而避免因人工标注造成的准确度不高等问题,进而实现提高识别的准确度和效率,且实现节约人力成本的技术效果,并对标注结果进行显示,以提高相关信息的可视化,提高用户搜索某政企客户的属性信息的便捷性。
本公开实施例提供的政企客户的行业分类方法,可以适用于如图1所示的应用场景。
在如图1所示的应用场景中,服务器100中存储有已标注的政企客户的属性信息,如已标注的政企客户的名称、行业类别、注册资金和注册地,等等。
计算机200与服务器100通信连接,以便从服务器100中获取信息,或将信息输入至服务器100。如,计算机200可从服务器100中获取已标注的政企客户的属性信息(包括但不限于名称、行业类别、注册资金和注册地)。
计算机200中存储有未标注的政企客户,当其从服务器100中获取到已标注的政企客户的属性信息时,根据已标注的政企客户的属性信息对未标注的政企客户进行标注,具体由计算机200执行本公开实施例的政企客户的行业分类方法实现。
当然,在另一些实施例中,本公开实施例的政企客户的行业分类方法还可用于如图2所示的应用场景。
如图2所示,服务器100中存储有已标注的政企客户的属性信息,如已标注的政企客户的名称、行业类别、注册资金和注册地,等等。
计算机200与服务器100通信连接,以便从服务器100中获取信息,或将信息输入至服务器100。如,计算机200可从服务器100中获取已标注的政企客户的属性信息(包括但不限于名称、行业类别、注册资金和注册地)。
计算机200还可与用户终端300通信连接。
用户终端300根据用户400的点击操作或者语音操作生成标注请求,标注请求中携带待标注的政企客户。
用户终端300将标注请求发送至计算机200。
计算机200根据已标注的政企客户的属性信息对未标注的政企客户进行标注,具体由计算机200执行本公开实施例的政企客户的行业分类方法实现。
计算机200对待标注的政企客户进行标注并将标注后的信息反馈至用户终端300。
用户终端300对计算机200进行标注后的政企客户进行显示,以便用户400可从显示界面上看到标注后的政企客户的行业类别和名称等。
下面以具体地实施例对本公开的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
一个方面,本公开实施例提供了一种适用于上述应用场景的政企客户的行业分类方法。
请参阅图3,图3为本公开实施例的政企客户的行业分类方法的流程示意图。
如图3所示,该方法包括:
S101:从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,属性信息包括第一名称和行业类别。
其中,执行本公开实施例的政企客户的行业分类方法的主体可以为政企客户的行业分类装置,装置可以为计算机(如图1和2中所述的计算机)、终端和服务器等。
示范性地,样本政企客户的数量为m个,且一个样本政企客户对应一个属性信息,即一个样本政企客户对应一个第一名称和一个行业类别。待标注的政企客户的数量为n个,且一个待标注的政企客户对应一个第二名称。
S102:对第一名称进行分词处理,得到第一分词列表,并对第二名称进行分词处理,得到第二分词列表。
在该步骤中,包括对第一名称的分词处理,还包括对第二名称的分词处理。
基于上述示例,第一名称共有m个,则分别对m个第一名称进行分词处理,得到m个第一分词列表。同理,第二名称共有n个,则分别对n个第二名称进行分词处理,得到n各第二分词列表。
S103:分别计算第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,行业类别包括第一行业类别。
基于上述示例,现以m个第一分词列表中的第一分词列表A为例进行该步骤的阐述如下:
第一分词列表A为对第一名称a进行分词处理得到的第一分词列表。
第一分词列表A中共包括3个分词,分别为分词A1、分词A2和分词A3。
计算分词A1在其所属的第一行业类别下的权重值,若第一名称a的行业类别为通信行业类别,则具体为计算分词A1在通信行业类别下的权重值。
同理,计算分词A2在通信行业类别下的权重值。
同理,计算分词A3在通信行业类别下的权重值。
在现有技术中,是通过人工的方式对待标注的政企客户的行业类别进行标注,而在本公开实施例中,通过分词处理,并计算不同分词的权重值,以便后续结合权重值和分词列表进行标注并显示,避免了现有技术中通过人工方式标注耗费人力成本高,且标注效率低等弊端,实现了高校且精准的标注并对标注结果进行显示,从而实现了信息(即标注后的目标行业类别)的可视化。
S104:根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别。
S105:根据目标行业类别对待标注的政企客户进行标注,并对携带目标行业类别的待标注的政企客户进行显示。
本公开实施例提供了一种新的政企客户的行业分类方法,该方法包括:从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,属性信息包括第一名称和行业类别,对第一名称进行分词处理,得到第一分词列表,并对第二名称进行分词处理,得到第二分词列表,分别计算第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,行业类别包括第一行业类别,根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别,根据目标行业类别对待标注的政企客户进行标注,以便对携带目标行业类别的待标注的政企客户进行显示,通过分词操作、计算权重值,以便基于分词操作的结果和计算得到的权重值进行标注,从而避免因人工标注造成的准确度不高等问题,进而实现提高识别的准确度和效率,且实现节约人力成本的技术效果,并对标注结果进行显示,以提高相关信息的可视化,提高用户搜索某政企客户的属性信息的便捷性。
结合图4(图4为本公开实施例的分别计算第一分词列表中每个分词在所属第一行业类别下的权重值的方法的流程示意图)可知,在一些实施例中,S103包括:
S31:计算每个分词在其所属的第一行业类别下的第一名称中的分词词频。
基于上述示例,现以计算分词A2的权重值进行阐述如下:
m个第一名称中有M个第一名称的行业类别为通信行业类别。
统计M个第一名称中包括分词A2的第一名称的数量,该数量即为分词A2的分词词频。
S32:获取与每个分词属于同一第一行业类别的分词的最大词频。
基于上述示例,确定属于通信行业类别的分词(包括分词A2)。
统计确定出的分词中的每一个分词出现在M个第一名称中的次数,并从所有次数中选取最大的次数,该最大的次数即为最大词频。
S33:获取行业类别中包括每个分词的行业类别的数量。
基于上述示例,m个第一名称共对应有d个行业类别,其中,一个第一名称对应一个行业类别,一个行业类别至少对应一个第一名称。
获取包括分词A2的第一名称。
确定包括分词A2的第一名称对应行业类别。
将重复的行业类别删除。
统计删除后的行业类别的数量,该数量即为S33获取到的数量。
S34:根据分词词频、最大词频和数量确定所述分词的权重值。
在一些实施例中,权重值=(分词词频/最大词频)*(1/数量)。
也就是说,某分词在不同行业类别里出现得越多,则说明该分词的行业类别的标识度越低,则该分词的权重值越小。反之,若某分词在不同行业类别里出现得越少,则说明书该分词的行业标识度越高,则该分词的权重值越大。
在一些实施例中,结合图5(图5为本公开实施例的根据第一分词列表、第二分词列表和权重值确定待标注的政企客户的目标行业类别的方法的流程示意图)可知,S104包括:
S41:将第一分词列表转换为第一分词数组,并将第二分词列表转换为第二分词数组。
基于上述示例,将第一分词列表A转换为第一分词数组。
第二分词列表中包括第二分词列表B,且第二分词列表B包括两个分词,分别为分词B1和分词B2,结合第二分词列表B为例进行阐述如下:
转第二分词列表B换为第二分词数组Y。
若分词B1与分词A2相同,则第一分词数组X=(1,1,1,1,0),第二分词数组Y=(0,0,0,1,1)。
S42:根据权重值分别计算第一分词数组与第二分词数组中的各数组之间的距离。
基于上述示例,根据A1、A2和A3的权重值计算第一分词数组X(1,1,1,1,0)与第二分词数组Y(0,0,0,1,1)之间的距离。
在一些实施例中,可基于式1确定距离d(X,Y),式1:
S43:从距离中选取最大距离。
S44:将最大距离对应的行业类别确定为目标行业类别。
在该步骤中,可确定最大距离对应的第一分词数组,以便确定该第一分词数组对应的第一分词列表,从而得到与该第一分词列表对应的第一名称,进而确定该第一名称对应的行业类别,并将该行业类别确定为目标行业类别。
在一些实施例中,对第一名称进行分词处理包括:
S11:根据预设拆词规则对第一名称进行拆词处理,得到第一词语分词。
其中,拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种。
S12:根据预设筛选规则对第一词语分词进行筛选处理,得到第一分词列表。
其中,筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
其中,第一阈值可基于需求进行设定、
示范性地,去除尾部频率大于预设第一阈值的词包括:去除“有限”、“责任”和“公司”等。
在一些实施例中,对第二名称进行分词处理包括:
S21:根据预设拆词规则对第二名称进行拆词处理,得到第二词语分词。
其中,拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种。
S22:根据预设筛选规则对第二词语分词进行筛选处理,得到第二分词列表。
其中,筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
在一些实施例中,在S102之前,该方法还包括:
S1011:将第二名称与第一名称进行匹配,得到匹配度。
在该步骤中,先对第二名称与第一名称进行匹配,即模糊匹配的过程,以通过模糊匹配的方式对待标注的政企客户进行筛选和过滤,以实现节约计算成本的技术效果。
S1012:提取匹配度中的最大匹配度。
S1013:响应于最大匹配度大于预设第二阈值,确定与最大匹配度对应的第一名称。
S1014:根据确定出的第一名称的行业类别对为待标注政企客户进行标注。
S1015:将标注后的待标注政企客户添加至样本政企客户。
在本公开实施例中,通过模糊匹配的方式对待标注的政企客户进行筛选和过滤,并将基于模糊匹配完成标注的标注后的待标注政企客户添加至样本政企客户,以对样本政企客户进行不断扩展,从而实现标注的准确性和可靠性。
根据本公开实施例的另一个方面,本公开实施例还提供了一种政企客户的行业分类装置。
请参阅图6,图6为本公开实施例的政企客户的行业分类装置的示意图。
如图6所示,该装置包括:
第一提取模块1,用于从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,所述属性信息包括第一名称和行业类别;
分词模块2,用于对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表;
计算模块3,用于分别计算所述第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,所述行业类别包括所述第一行业类别;
第一确定模块4,用于根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别;
第一标注模块5,用于根据所述目标行业类别对所述待标注的政企客户进行标注;
显示模块6,用于对携带所述目标行业类别的所述待标注的政企客户进行显示。
在一些实施例中,所述计算模块3用于,计算所述每个分词在其所属的第一行业类别下的第一名称中的分词词频,获取与所述每个分词属于同一第一行业类别的分词的最大词频,获取所述行业类别中包括所述每个分词的行业类别的数量,根据所述分词词频、所述最大词频和所述数量确定所述分词的权重值。
在一些实施例中,所述第一确定模块4用于,将所述第一分词列表转换为第一分词数组,并将所述第二分词列表转换为第二分词数组,根据所述权重值分别计算所述第一分词数组与所述第二分词数组中的各数组之间的距离,从所述距离中选取最大距离,将所述最大距离对应的行业类别确定为所述目标行业类别。
在一些实施例中,所述分词模块2用于,根据预设拆词规则对所述第一名称进行拆词处理,得到第一词语分词,根据预设筛选规则对所述第一词语分词进行筛选处理,得到所述第一分词列表;和/或,
所述分词模块2用于,根据预设拆词规则对所述第二名称进行拆词处理,得到第二词语分词,根据预设筛选规则对所述第二词语分词进行筛选处理,得到所述第二分词列表;
其中,所述拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种,所述筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
结合图7可知,在一些实施例中,所述装置还包括:
匹配模块7,用于将所述第二名称与所述第一名称进行匹配,得到匹配度;
第二提取模块8,用于提取所述匹配度中的最大匹配度;
第二确定模块9,用于响应于所述最大匹配度大于预设第二阈值,确定与所述最大匹配度对应的第一名称;
第二标注模块10,用于根据确定出的第一名称的行业类别对为所述待标注政企客户进行标注;
添加模块11,用于将标注后的所述待标注政企客户添加至所述样本政企客户。
根据本公开实施例的另一个方面,本公开实施例还提供了一种电子设备,包括:存储器,处理器;
存储器用于存储处理器可执行指令的存储器;
其中,当执行存储器中的指令时,处理器被配置为实现如上任一实施例所述的方法。
请参阅图8,图8为本公开实施例的电子设备的结构示意图。
如图8所示,该电子设备包括存储器和处理器,该电子设备还可以包括通信接口和总线,其中,处理器、通信接口和存储器通过总线连接;处理器用于执行存储器中存储的可执行模块,例如计算机程序。
其中,存储器可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序,前述本公开实施例任一实施例揭示的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上任一实施例所述的方法。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
还应理解,在本公开各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种政企客户的行业分类方法,其特征在于,所述方法包括:
从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,所述属性信息包括第一名称和行业类别;
对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表;
分别计算所述第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,所述行业类别包括所述第一行业类别;
根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别;
根据所述目标行业类别对所述待标注的政企客户进行标注,并对携带所述目标行业类别的所述待标注的政企客户进行显示;
所述分别计算所述第一分词列表中每个分词在所属第一行业类别下的权重值包括:
计算所述每个分词在其所属的第一行业类别下的第一名称中的分词词频;
获取与所述每个分词属于同一第一行业类别的分词的最大词频;
获取所述行业类别中包括所述每个分词的行业类别的数量;
根据所述分词词频、所述最大词频和所述数量确定所述分词的权重值;
所述根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别包括:
将所述第一分词列表转换为第一分词数组,并将所述第二分词列表转换为第二分词数组;
根据所述权重值分别计算所述第一分词数组与所述第二分词数组中的各数组之间的距离;
从所述距离中选取最大距离;
将所述最大距离对应的行业类别确定为所述目标行业类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一名称进行分词处理包括:
根据预设拆词规则对所述第一名称进行拆词处理,得到第一词语分词;
根据预设筛选规则对所述第一词语分词进行筛选处理,得到所述第一分词列表;
和/或,
所述对所述第二名称进行分词处理包括:
根据预设拆词规则对所述第二名称进行拆词处理,得到第二词语分词;
根据预设筛选规则对所述第二词语分词进行筛选处理,得到所述第二分词列表;
其中,所述拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种,所述筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
3.根据权利要求1所述的方法,其特征在于,在所述对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表之前,所述方法包括:
将所述第二名称与所述第一名称进行匹配,得到匹配度;
提取所述匹配度中的最大匹配度;
响应于所述最大匹配度大于预设第二阈值,确定与所述最大匹配度对应的第一名称;
根据确定出的第一名称的行业类别对为所述待标注的政企客户进行标注;
将标注后的所述待标注的政企客户添加至所述样本政企客户。
4.一种政企客户的行业分类装置,其特征在于,所述装置包括:
第一提取模块,用于从第三方数据库中提取多个已标注的样本政企客户的属性信息,并从本地数据库中提取待标注的政企客户的第二名称,其中,所述属性信息包括第一名称和行业类别;
分词模块,用于对所述第一名称进行分词处理,得到第一分词列表,并对所述第二名称进行分词处理,得到第二分词列表;
计算模块,用于分别计算所述第一分词列表中每个分词在其所属的第一行业类别下的权重值,其中,所述行业类别包括所述第一行业类别;
第一确定模块,用于根据所述第一分词列表、所述第二分词列表和所述权重值确定所述待标注的政企客户的目标行业类别;
第一标注模块,用于根据所述目标行业类别对所述待标注的政企客户进行标注;
显示模块,用于对携带所述目标行业类别的所述待标注的政企客户进行显示;
所述计算模块用于,计算所述每个分词在其所属的第一行业类别下的第一名称中的分词词频,获取与所述每个分词属于同一第一行业类别的分词的最大词频,获取所述行业类别中包括所述每个分词的行业类别的数量,根据所述分词词频、所述最大词频和所述数量确定所述分词的权重值;
所述第一确定模块用于,将所述第一分词列表转换为第一分词数组,并将所述第二分词列表转换为第二分词数组,根据所述权重值分别计算所述第一分词数组与所述第二分词数组中的各数组之间的距离,从所述距离中选取最大距离,将所述最大距离对应的行业类别确定为所述目标行业类别。
5.根据权利要求4所述的装置,其特征在于,所述分词模块用于,根据预设拆词规则对所述第一名称进行拆词处理,得到第一词语分词,根据预设筛选规则对所述第一词语分词进行筛选处理,得到所述第一分词列表;和/或,
所述分词模块用于,根据预设拆词规则对所述第二名称进行拆词处理,得到第二词语分词,根据预设筛选规则对所述第二词语分词进行筛选处理,得到所述第二分词列表;
其中,所述拆词规则包括词库拆词、关键字拆词、字典拆词、正则表达式拆词和隐马尔科夫模型拆词中的至少一种,所述筛选规则至少包括去除首部地域属性的词和/或去除尾部频率大于预设第一阈值的词。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
匹配模块,用于将所述第二名称与所述第一名称进行匹配,得到匹配度;
第二提取模块,用于提取所述匹配度中的最大匹配度;
第二确定模块,用于响应于所述最大匹配度大于预设第二阈值,确定与所述最大匹配度对应的第一名称;
第二标注模块,用于根据确定出的第一名称的行业类别对为所述待标注的政企客户进行标注;
添加模块,用于将标注后的所述待标注的政企客户添加至所述样本政企客户。
7.一种电子设备,包括:存储器,处理器;
所述存储器用于存储所述处理器可执行指令的存储器;
其中,当执行所述存储器中的指令时,所述处理器被配置为实现如权利要求1至3中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756721.0A CN111898378B (zh) | 2020-07-31 | 2020-07-31 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756721.0A CN111898378B (zh) | 2020-07-31 | 2020-07-31 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898378A CN111898378A (zh) | 2020-11-06 |
CN111898378B true CN111898378B (zh) | 2023-09-19 |
Family
ID=73182931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010756721.0A Active CN111898378B (zh) | 2020-07-31 | 2020-07-31 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898378B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486630B (zh) * | 2021-09-07 | 2021-11-19 | 浙江大学 | 一种供应链数据向量化和可视化处理方法及装置 |
CN117172792A (zh) * | 2023-11-02 | 2023-12-05 | 赞塔(杭州)科技有限公司 | 客户信息管理方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1562402A (en) * | 1995-10-31 | 2002-04-11 | Frederick S.M. Herz | System for customized electronic identification of desirable objects |
JP2008027431A (ja) * | 2006-06-22 | 2008-02-07 | Nec Corp | 情報解析装置、情報解析方法、及び情報解析プログラム |
CN101187993A (zh) * | 2006-11-17 | 2008-05-28 | 中兴通讯股份有限公司 | 企业信息化管理系统中的策略管理方法 |
CN101814083A (zh) * | 2010-01-08 | 2010-08-25 | 上海复歌信息科技有限公司 | 网页自动分类方法和系统 |
CN106155998A (zh) * | 2015-04-09 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106339806A (zh) * | 2016-08-24 | 2017-01-18 | 北京创业公社征信服务有限公司 | 一种面向企业信息的行业全息画像构建方法及系统 |
CN107145600A (zh) * | 2017-06-01 | 2017-09-08 | 苏州唯亚信息科技股份有限公司 | 适用于同类别企业公开信息归类方法 |
CN107273361A (zh) * | 2017-06-21 | 2017-10-20 | 河南工业大学 | 基于广义一般二型模糊集合的词计算方法及其装置 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
CN108921431A (zh) * | 2018-07-03 | 2018-11-30 | 中国联合网络通信集团有限公司 | 政企客户聚类方法及装置 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110381115A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 信息推送方法、装置、计算机可读存储介质和计算机设备 |
CN110689225A (zh) * | 2019-08-26 | 2020-01-14 | 深圳壹账通智能科技有限公司 | 基于外呼的企业金融风险画像创建方法及相关设备 |
CN111460098A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本匹配方法、装置及终端设备 |
-
2020
- 2020-07-31 CN CN202010756721.0A patent/CN111898378B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1562402A (en) * | 1995-10-31 | 2002-04-11 | Frederick S.M. Herz | System for customized electronic identification of desirable objects |
JP2008027431A (ja) * | 2006-06-22 | 2008-02-07 | Nec Corp | 情報解析装置、情報解析方法、及び情報解析プログラム |
CN101187993A (zh) * | 2006-11-17 | 2008-05-28 | 中兴通讯股份有限公司 | 企业信息化管理系统中的策略管理方法 |
CN101814083A (zh) * | 2010-01-08 | 2010-08-25 | 上海复歌信息科技有限公司 | 网页自动分类方法和系统 |
CN106155998A (zh) * | 2015-04-09 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106339806A (zh) * | 2016-08-24 | 2017-01-18 | 北京创业公社征信服务有限公司 | 一种面向企业信息的行业全息画像构建方法及系统 |
CN107145600A (zh) * | 2017-06-01 | 2017-09-08 | 苏州唯亚信息科技股份有限公司 | 适用于同类别企业公开信息归类方法 |
CN107273361A (zh) * | 2017-06-21 | 2017-10-20 | 河南工业大学 | 基于广义一般二型模糊集合的词计算方法及其装置 |
CN108154395A (zh) * | 2017-12-26 | 2018-06-12 | 上海新炬网络技术有限公司 | 一种基于大数据的客户网络行为画像方法 |
CN108921431A (zh) * | 2018-07-03 | 2018-11-30 | 中国联合网络通信集团有限公司 | 政企客户聚类方法及装置 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110381115A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 信息推送方法、装置、计算机可读存储介质和计算机设备 |
CN110689225A (zh) * | 2019-08-26 | 2020-01-14 | 深圳壹账通智能科技有限公司 | 基于外呼的企业金融风险画像创建方法及相关设备 |
CN111460098A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本匹配方法、装置及终端设备 |
Non-Patent Citations (4)
Title |
---|
Customer segmentation of multiple category data in e-commerce using a soft-clustering approach;Wu Roung-Shiunn 等;《Electronic Commerce Research and Applications》;第10卷(第3期);331-341 * |
Ontology construction for information classification;Weng Sung-Shun 等;《Expert Systems with Applications》;第31卷(第1期);1-12 * |
文本分类算法分析及其在智能答疑系统中的应用研究;杨敬妹;《中国优秀硕士学位论文全文数据库信息科技辑》(第12期);I138-486 * |
融合BERT语义加权与网络图的关键词抽取方法;李俊 等;《计算机工程》;第46卷(第09期);89-94 * |
Also Published As
Publication number | Publication date |
---|---|
CN111898378A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
CN110888968A (zh) | 客服对话意图分类方法及装置、电子设备及介质 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN109902090B (zh) | 字段名称获取方法和装置 | |
CN111191445B (zh) | 广告文本分类方法及装置 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN112434884A (zh) | 一种供应商分类画像的建立方法及装置 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN112035449A (zh) | 数据处理方法及装置、计算机设备、存储介质 | |
CN111538903A (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN111198943B (zh) | 一种简历筛选方法、装置及终端设备 | |
CN116821087A (zh) | 输电线路故障数据库构建方法、装置、终端及存储介质 | |
US10509809B1 (en) | Constructing ground truth when classifying data | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN110909112B (zh) | 数据提取方法、装置、终端设备及介质 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN112632284A (zh) | 用于未标注文本数据集的信息抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |