CN111241240B - 行业关键词提取方法及装置 - Google Patents

行业关键词提取方法及装置 Download PDF

Info

Publication number
CN111241240B
CN111241240B CN202010016745.2A CN202010016745A CN111241240B CN 111241240 B CN111241240 B CN 111241240B CN 202010016745 A CN202010016745 A CN 202010016745A CN 111241240 B CN111241240 B CN 111241240B
Authority
CN
China
Prior art keywords
keywords
data
industry
long
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010016745.2A
Other languages
English (en)
Other versions
CN111241240A (zh
Inventor
付喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202010016745.2A priority Critical patent/CN111241240B/zh
Publication of CN111241240A publication Critical patent/CN111241240A/zh
Application granted granted Critical
Publication of CN111241240B publication Critical patent/CN111241240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种行业关键词提取方法及装置,通过对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据,提高了提取聚类关键词的精确度。本方案先将原始数据处理成长关键词,然后再利用长关键词获取到有向无环图,通过有向无环图获取到短关键词,通过对原始数据多次分步处理,提高了提取聚类关键词的精确度。

Description

行业关键词提取方法及装置
技术领域
本发明涉及互联网技术,尤其涉及一种行业关键词提取方法及装置。
背景技术
随着客户营销管理工作的深入,基于客户维度、行业维度的管理要求越来越迫切,对行业聚类的关键词统计已经成为刚性需求。
目前的行业聚类关键词由普通分词得到或人工提供,例如,在环保行业,人工提供到的行业聚类关键词可能是与环保相关的,例如可以是环保、环保检测等关键词。
然而,现有技术提取聚类关键词的精确度较低。
发明内容
本发明实施例提供一种行业关键词提取方法及装置,提高了提取聚类关键词的精确度。
本发明实施例的第一方面,提供一种行业关键词提取方法,包括:
对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;
对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。
可选地,在第一方面的一种可能实现方式中,所述对所述长关键词进行分词处理,获取短关键词,包括:
根据所述长关键词,获取有向无环图;
获取所述有向无环图的最大概率路径;
根据所述最大概率路径,获取所述短关键词。
可选地,在第一方面的一种可能实现方式中,所述根据所述长关键词,获取有向无环图,包括:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果;
根据所述前缀词统计结果,获取前缀词典;
根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;
根据所述切分结果获取所述有向无环图。
可选地,在第一方面的一种可能实现方式中,所述根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据,包括:
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;
根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;
根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据。
可选地,在第一方面的一种可能实现方式中,所述根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据之后,还包括:
根据所述短关键词词频数据,对所述短关键词进行降序排序;
确定排序为前K名的所述短关键词作为所述行业的关键词。
可选地,在第一方面的一种可能实现方式中,所述原始数据还包括待提取数据;
所述对原始数据处理,获取长关键词,包括:
根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词。
可选地,在第一方面的一种可能实现方式中,所述预设的词库包括预设无用词库和预设地名词库;
所述根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词,包括:
根据所述预设无用词库和所述预设地名词库,对所述待提取数据进行数据清洗处理,获取所述长关键词。
本发明实施例的第二方面,提供一种行业关键词提取装置,包括:
长关键词模块,用于对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;
短关键词模块,用于对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
行业关键词模块,用于根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。
可选地,在第二方面的一种可能实现方式中,所述短关键词模块具体用于:
根据所述长关键词,获取有向无环图;
获取所述有向无环图的最大概率路径;
根据所述最大概率路径,获取所述短关键词。
可选地,在第二方面的一种可能实现方式中,所述短关键词模块具体用于:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果;
根据所述前缀词统计结果,获取前缀词典;
根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;
根据所述切分结果获取所述有向无环图。
可选地,在第二方面的一种可能实现方式中,所述行业关键词模块具体用于:
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;
根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;
根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据。
可选地,在第二方面的一种可能实现方式中,所述行业关键词模块具体用于:
根据所述短关键词词频数据,对所述短关键词进行降序排序;
确定排序为前K名的所述短关键词作为所述行业的关键词。
可选地,在第二方面的一种可能实现方式中,所述原始数据还包括待提取数据;
所述长关键词模块具体用于:
根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词。
可选地,在第二方面的一种可能实现方式中,所述预设的词库包括预设无用词库和预设地名词库;
所述长关键词模块具体用于:
根据所述预设无用词库和所述预设地名词库,对所述待提取数据进行数据清洗处理,获取所述长关键词。
本发明实施例的第三方面,提供一种行业关键词提取设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述方法。
本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
本发明提供的一种行业关键词提取方法,通过对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据,提高了提取聚类关键词的精确度。本方案先将原始数据处理成长关键词,然后再利用长关键词获取到有向无环图,通过有向无环图获取到短关键词,通过对原始数据多次分步处理,提高了提取聚类关键词的精确度。
附图说明
图1是本发明实施例提供的一种应用场景示意图;
图2是本发明实施例提供的一种行业关键词提取方法的流程示意图;
图3是本发明实施例提供的一种行业关键词提取装置的结构示意图;
图4是本发明实施例提供的一种行业关键词提取设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
随着客户营销管理工作的深入,基于客户维度、行业维度的管理要求越来越迫切,对行业聚类的关键词统计已经成为刚性需求。目前的行业聚类关键词由普通分词得到或人工提供,例如,在环保行业,人工提供到的行业聚类关键词可能是与环保行业相关的,例如可以是环保、环保检测等关键词。然而,这些关键词只是人为的去认定,主观影响较大,例如,环保行业的最相关的关键词可能是环保监测,而人为可能认定,环保检测是最相关的关键词,导致认定错误,因此现有技术获取到聚类关键词的精确度较低。
参见图1,是本发明实施例提供的一种应用场景示意图。图中的第三方平台11可以包含有行业与实体客户关系数据,用户12可以从第三方平台11上获取行业与实体客户关系数据,以此作为提取关键词的原始数据,然后用户12去认为的认定行业聚类关键词,然而,这些关键词只是人为的去认定,主观影响较大,导致获取到的聚类关键词的精确度较低。
为了解决上述技术问题,本发明提供一种行业关键词提取方法及装置,提高了提取聚类关键词的精确度。
参见图2,是本发明实施例提供的一种行业关键词提取方法的流程示意图,图2所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个:用户设备、网络设备等。其中,用户设备可以包括但不限于计算机、智能手机、个人数字助理(Personal Digital Assistant,简称:PDA)及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。本方法包括步骤S101至步骤S103,具体如下:
S101,对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据。
具体地,原始数据是用于提取长关键词的数据,行业数据是包含在原始数据中的,可以理解,原始数据可以是包含待提取数据和行业数据的,长关键词可以根据待提取数据进行提取。
其中,待提取数据例如可以是政企自然客户名称数据,则获取到的长关键词可以是根据对政企自然客户名称数据的处理所得到。其中,政企自然客户名称数据是指事业单位法人证书、社会团体法人登记证书、营业执照、公章和组织机构代码等证件入网的党政事业单位、社会机构、企业和个体经营户的名称数据。例如,政企自然客户名称数据可以是合肥恒春玻璃有限责任公司、合肥恒达文化传播有限公司、合肥恒达文化传播有限公司等。
行业数据可以是与待提取数据相关的行业,例如待提取数据可以是合肥恒必天成信息科技有限公司,则行业数据可以是与待提取数据相关的互联网和相关服务行业,再例如,待提取数据可以是合肥恒春玻璃有限责任公司,则行业数据可以是与待提取数据相关的玻璃制造行业,还例如,待提取数据可以是合肥恒达文化传播有限公司,则行业数据可以是与待提取数据相关的广告业行业。可以理解,行业数据与对应的待提取数据可以是一对一的关系,例如,合肥恒达文化传播有限公司与广告业行业是一对一的关系。
目前通过人工归纳或互联网信息或购买第三方平台数据获取行业与实体客户关系,以此作为聚类算法的原始数据,信息的可靠性与稳定性存在风险。所以本方案可以利用已存在的行业与政企自然客户的关系提取行业关键词,使得结果更加准确。
在实际应用中,可以根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词,即可以将待提取数据中与关键词无关的部分减除,剩余部分即为长关键词。
示例性的,预设的词库可以包括预设无用词库和预设地名词库,然后采用预设无用词库和所述预设地名词库,对所述待提取数据进行数据清洗处理,获取所述长关键词。
其中,预设无用词库例如可以是包括“公司”、“有限责任公司”等词汇,预设地名词库例如可以是包括“合肥”、“合肥市”等地名词汇。在对待提取数据进行数据清洗处理时,可以查询待提取数据里面是否有与预设无用词库和预设地名词库中词汇相同的词语,如果有将其从待提取数据中删除即可。例如待提取数据为合肥恒春玻璃有限责任公司,预设无用词库例如可以是包括“公司”、“有限责任公司”等词汇,预设地名词库例如可以是包括“合肥”、“合肥市”等地名词汇。则可以将“合肥”“有限责任公司”从合肥恒春玻璃有限责任公司中删除,从而获取到长关键词“恒春玻璃”。
可以理解,在获取到长关键词“恒春玻璃”时,长关键词“恒春玻璃”对应“玻璃制造行业”的行业数据。
S102,对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理。
具体地,为了得到短关键词,需要对长关键词进行分词处理,以获取到多个短关键词,例如长关键词为“恒春玻璃”时,对应的短关键词可以是“恒春”、“玻璃”等关键词。
示例性的,可以根据长关键词,获取有向无环图。其中,根据长关键词,获取有向无环图具体可以如下:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果。
具体的,可以首先根据预设的统计词典,来对长关键词的前缀词进行统计,得到前缀词的统计结果,统计结果可以是前缀词的词频,例如,以“去北京大学玩”为例,作为待分词的输入文本。
统计词典形式如下,每一行有两列,第一列是词,第二列是词频,具体如下:
北京大学2053
大学20025
去123402
玩4207
北京34488
北17860
京6583
大144099
学17482
在得到统计结果后,可以根据前缀词统计结果,获取前缀词典,例如如统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”;词“大学”的前缀是“大”。统计词典中所有的词形成的前缀词典如下所示:
北京大学2053
北京大0
大学20025
去123402
玩4207
北京34488
北17860
京6583
大144099
学17482
在得到前缀词典后,根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;根据所述切分结果获取所述有向无环图。基于前缀词典,对输入文本进行切分,对于“去”,没有前缀,那么就只有一种划分方式;对于“北”,则有“北”、“北京”、“北京大学”三种划分方式;对于“京”,也只有一种划分方式;对于“大”,则有“大”、“大学”两种划分方式,依次类推,可以得到每个字开始的前缀词的划分方式,然后获取到有向无环图。
在得到所有可能的切分方式构成的有向无环图后,从起点到终点会存在多条路径,多条路径代表存在多种分词结果,例如:
路径1的分词结果如下:
去/北/京/大/学/玩
路径2的分词结果如下:
去/北京/大/学/玩
路径3的分词结果如下:
去/北京/大学/玩
路径4的分词结果如下:
去/北京大学/玩
因此,需要获取所述有向无环图的最大概率路径,即按照这种方式切分后的分词结果的概率最大,然后根据所述最大概率路径,获取所述短关键词。
示例性的,可以采用动态规划查找最大概率路径,找出基于词频的最大切分组合。对于前缀词典中未登录词,采用了基于汉字成词能力的隐马尔可夫模型(Hidden MarkovModel,缩写为HMM),使用Viterbi算法模型,最终输出对应最大概率路径的分词结果,来获取到短关键词。
S103,根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。
具体地,在得到长关键词和短关键词后,需要将长关键词和短关键词和行业数据关联,例如可以将长关键词和短关键词和行业数据之间建立映射关系。
示例性的,根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据,包括:根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据。
具体地,长关键词和短关键词分别进行词频统计,得到行业与关键词映射关系,例如,以长关键词为“环保检测”,短关键词为“环保”、“检测”为例,对于长关键词:“环保检测”在环保行业出现的词频为1000次,在检测行业出现的词频为500次,则可以将“环保检测”和环保行业建立映射关系。对于短关键词:“环保”在环保行业出现的词频为2000次,在检测行业出现的词频为300次,“检测”在环保行业出现的词频为2000次,在检测行业出现的词频为300次,则可以将“环保”和环保行业建立映射关系。从而得到行业关键词数据,其中,行业关键词数据可以包括长关键词、短关键词和对应的词频。本方案可以根据词频寻找匹配度最高的行业,提升准确性。
示例性的,在所述根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据之前,还包括:对所述长关键词和所述短关键词进行去重处理,获取去重后的所述长关键词和所述短关键词。
示例性的,根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据之后,还包括,按照词频数据对短关键词进行降序排序,然后确定排名为前K名的所述短关键词作为所述行业的关键词。即以行业为Key对短关键词统计所有行业TopN的短关键词。
上述实施例提供的行业关键词提取方法,通过对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。本方案先将原始数据处理成长关键词,然后再利用长关键词获取到有向无环图,通过有向无环图获取到短关键词,通过对原始数据多次分步处理,提高了提取聚类关键词的精确度。
参见图3,图3是本发明实施例提供的一种行业关键词提取装置的结构示意图,该行业关键词提取装置30,包括:
长关键词模块31,用于对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;
短关键词模块32,用于对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
行业关键词模块33,用于根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。
图3所示实施例的装置对应地可用于执行图2所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
可选地,所述短关键词模块32具体用于:
根据所述长关键词,获取有向无环图;获取所述有向无环图的最大概率路径;根据所述最大概率路径,获取所述短关键词。
可选地,所述短关键词模块32具体用于:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果;根据所述前缀词统计结果,获取前缀词典;根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;根据所述切分结果获取所述有向无环图。
可选地,所述行业关键词模块33具体用于:
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据。
可选地,所述行业关键词模块33具体用于:
确定排名为前K名的所述短关键词作为所述行业的关键词。
可选地,所述原始数据还包括待提取数据;
所述长关键词模块31具体用于:
根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词。
可选地,所述预设的词库包括预设无用词库和预设地名词库;
所述长关键词模块31具体用于:
根据所述预设无用词库和所述预设地名词库,对所述待提取数据进行数据清洗处理,获取所述长关键词。
参见图4,是本发明实施例提供的一种行业关键词提取设备的硬件结构示意图,该行业关键词提取设备40包括:处理器41、存储器42和计算机程序;其中
存储器42,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器41,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器42既可以是独立的,也可以跟处理器41集成在一起。
当所述存储器42是独立于处理器41之外的器件时,所述设备还可以包括:
总线43,用于连接所述存储器42和处理器41。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种行业关键词提取方法,其特征在于,包括:
对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据和待提取数据;其中,行业数据是与待提取数据相关的行业;
对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;
根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;
根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据;其中,行业关键词数据包括长关键词、短关键词和对应的词频;
所述对原始数据处理,获取长关键词,包括:
根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词;
所述预设的词库包括预设无用词库和预设地名词库;
所述根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词,包括:
查询所述待提取数据中是否包含与预设无用词库和预设地名词库中词汇相同的词语,如果包含,则将其从待提取数据中删除,以获取所述长关键词。
2.根据权利要求1所述的方法,其特征在于,所述对所述长关键词进行分词处理,获取短关键词,包括:
根据所述长关键词,获取有向无环图;
获取所述有向无环图的最大概率路径;
根据所述最大概率路径,获取所述短关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述长关键词,获取有向无环图,包括:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果;
根据所述前缀词统计结果,获取前缀词典;
根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;
根据所述切分结果获取所述有向无环图。
4.根据权利要求1所述的方法,其特征在于,所述根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据之后,还包括:
根据所述短关键词词频数据,对所述短关键词进行降序排序;
确定排序为前K名的所述短关键词作为所述行业的关键词。
5.根据权利要求1所述的方法,其特征在于,所述待提取数据包括政企自然客户名称数据;
所述对原始数据处理,获取长关键词,包括:
对政企自然客户名称数据处理,获取所述长关键词。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据之前,还包括:
对所述长关键词和所述短关键词进行去重处理,获取去重后的所述长关键词和所述短关键词。
7.一种行业关键词提取装置,其特征在于,包括:
长关键词模块,用于对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据和待提取数据;其中,行业数据是与待提取数据相关的行业;
短关键词模块,用于对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
行业关键词模块,用于根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据;
所述行业关键词模块具体用于:
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据;其中,行业关键词数据包括长关键词、短关键词和对应的词频;
所述长关键词模块具体用于:
根据预设的词库对所述待提取数据进行数据清洗处理,获取所述长关键词;
所述预设的词库包括预设无用词库和预设地名词库;
所述长关键词模块具体用于:
根据所述预设无用词库和所述预设地名词库,对所述待提取数据进行数据清洗处理,获取所述长关键词;
所述长关键词模块还具体用于:查询所述待提取数据中是否包含与预设无用词库和预设地名词库中词汇相同的词语,如果包含,则将其从待提取数据中删除,以获取所述长关键词。
CN202010016745.2A 2020-01-08 2020-01-08 行业关键词提取方法及装置 Active CN111241240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010016745.2A CN111241240B (zh) 2020-01-08 2020-01-08 行业关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010016745.2A CN111241240B (zh) 2020-01-08 2020-01-08 行业关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN111241240A CN111241240A (zh) 2020-06-05
CN111241240B true CN111241240B (zh) 2023-08-15

Family

ID=70870529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016745.2A Active CN111241240B (zh) 2020-01-08 2020-01-08 行业关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN111241240B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375863A (zh) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 一种地理信息领域的关键字提取的方法及装置
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109710087A (zh) * 2018-12-28 2019-05-03 北京金山安全软件有限公司 输入法模型生成方法及装置
CN110188181A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 领域关键词确定方法、装置、电子设备和存储介质
KR20190114166A (ko) * 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법
CN110443661A (zh) * 2018-05-03 2019-11-12 上海媒科锐奇网络科技有限公司 用于购物网页的短文本分类方法、装置、设备及其介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375863A (zh) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 一种地理信息领域的关键字提取的方法及装置
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
KR20190114166A (ko) * 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법
CN110443661A (zh) * 2018-05-03 2019-11-12 上海媒科锐奇网络科技有限公司 用于购物网页的短文本分类方法、装置、设备及其介质
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109710087A (zh) * 2018-12-28 2019-05-03 北京金山安全软件有限公司 输入法模型生成方法及装置
CN110188181A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 领域关键词确定方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合关键词增补与领域本体的共词分析方法研究;唐晓波;肖璐;;现代图书情报技术(第11期);全文 *

Also Published As

Publication number Publication date
CN111241240A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
US8073877B2 (en) Scalable semi-structured named entity detection
CN103313248B (zh) 一种识别垃圾信息的方法和装置
US9436681B1 (en) Natural language translation techniques
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US20090248595A1 (en) Name verification using machine learning
CN108027814B (zh) 停用词识别方法与装置
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN112784063B (zh) 一种成语知识图谱构建方法及装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN106933878B (zh) 一种信息处理方法及装置
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN103226601A (zh) 一种图片搜索的方法和装置
CN110362656A (zh) 一种语义要素提取方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN111241240B (zh) 行业关键词提取方法及装置
CN110851560A (zh) 信息检索方法、装置及设备
CN115357765A (zh) 数据搜索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant