CN112069288A - 数据的处理方法、装置和电子设备 - Google Patents
数据的处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112069288A CN112069288A CN201910433827.4A CN201910433827A CN112069288A CN 112069288 A CN112069288 A CN 112069288A CN 201910433827 A CN201910433827 A CN 201910433827A CN 112069288 A CN112069288 A CN 112069288A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- preset
- text
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 89
- 230000011218 segmentation Effects 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000003860 storage Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 244000089409 Erythrina poeppigiana Species 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000004043 dyeing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 244000061176 Nicotiana tabacum Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000001467 acupuncture Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000003889 chemical engineering Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002316 cosmetic surgery Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009851 ferrous metallurgy Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000036316 preload Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据的处理方法、装置和电子设备,该方法包括:获取目标网页中的待处理文本;确定待处理文本所属的目标行业类别;将M个预设分类词库从数据库预加载到缓存中,M个预设分类词库对应M个行业类别;将目标行业类别的类别名称与缓存中的M个预设分类词库的词库名称进行动态匹配,确定目标分类词库;将目标分类词库从缓存中动态加载到存储器,基于存储器中的目标分类词库对待处理文本进行分词处理,得到分词处理结果。基于上述方法,通过将目标行业的类别名称与预设分类词库的词库名称进行动态匹配,动态加载目标分类词库能够达到动态适配的目的,并且能够也缩小分词的范围,提高分词的准确性、专业性和处理效率。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种数据的处理方法、装置和电子设备。
背景技术
随着业务数据的日益膨胀,DPI日志网页内容深度分析面临巨大的挑战,大量数据分析的需求呈井喷趋势。如何保证对大量数据的分词准确性逐渐成为一个棘手的问题。
现有大量数据识别中的较为通用的分词技术为:以通用词库为基础,对大量的DPI日志网页内容进行分词和统计。这种分词技术的分词结果中常用高频词汇均排序靠前,分词准确性和专业性低,并且通用词库包括的常用高频词汇的数量巨大,导致分词处理效率低。
发明内容
本发明实施例提供一种数据的处理方法、装置和电子设备,以解决目前分词处理效率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种数据的处理方法,所述方法包括:
获取目标网页中的待处理文本,所述目标网页的类别为实例类;
确定所述待处理文本所属的目标行业类别;
将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
第二方面,提供了一种数据的处理装置,所述装置包括:
获取模块,用于获取目标网页中的待处理文本,所述目标网页的类别为实例类;
分类模块,用于确定所述待处理文本所属的目标行业类别;
加载模块,用于将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
匹配模块,用于将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
分词模块,用于将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
第三方面,提供了一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述可执行指令在被处理器执行时,实现如第一方面所述的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,所述可执行指令被计算机执行时实现如第一方面所述的方法。。
本申请实施例的方法,对待处理文本所属的目标行业类别进行识别,在识别出目标行业类别后将目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,确定出与目标行业类别匹配的目标分类词库,基于目标预设分类词库对待处理文本进行分词处理,缩小了分词的范围,提高分词的准确性和专业性。在基于目标预设分类词库对待处理文本进行分词之前,将多个预设分类词库从数据库加载到缓存,并在通过动态匹配确定了目标分类词库之后,将目标分类词库从缓存加载到存储器中,由此能够提高分词的处理效率。通过将待处理文本所属的目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,动态加载目标分类词库能够达到动态适配的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例提供的数据的处理方法的流程图;
图2是本发明的另一个实施例提供的数据的处理装置的结构示意图;
图3是本发明各个实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的一个实施例提供的数据的处理方法的流程图,图1所示的方法可以由数据的处理装置执行,图1所示的方法包括:
S110,获取目标网页中的待处理文本,所述目标网页的类别为实例类。
在S110中,采用爬虫爬取方式先从DPI日志网页中获取目标网页,再基于分布爬虫爬取方式从目标网页中获取待处理文本,其中,目标网页的别为实例类。
比如,首先,从DPI日志网页中获取URL(Uniform Resource Locator,统一资源定位器)网页;其次,基于互联网内容分析(Internet Content Analyze,ICA)产品判断URL网页的类别是资源类还是实例类,若确定URL网页的类别为资源类,则无需获取资源类的URL网页;若确定URL网页的类别为实例类,则获取实例类的URL网页,该实例类的URL网页为目标网页,将实例类的URL网页中全部内容存储到消息队列;最后,获取实例类的URL网页中所有需要被分词处理的内容,该所有需要被分词处理的内容为待处理文本,用于后续进行分词处理。
上述资源类的URL网页表示有特定模板规则并指定获取特定字段的网页;上述实例类的URL网页表示有预设通用模板规则的网页。
具体地,步骤S110中的所述获取目标网页中的待处理文本,可包括:
获取所述目标网页中的多个所述待处理文本并存储;
其中,在获取所述目标网页中的多个所述待处理文本之前,包括:
判断已存储的文本中是否存在所述待处理文本,若所述已存储的文本不存在所述待处理文本,则基于爬虫爬取方式获取所述待处理文本;或,
若所述已存储的文本存在所述待处理文本,则从所述已存储的文本中获取所述待处理文本。
为了提高获取待处理文本的效率,在获取待处理文本之前,判断已存储的文本是否在存在待处理文本,若已存储的文本存在待处理文本,则直接从已存储的文本中获取待处理文本;反之,若已存储的文本不存在待处理文本,则基于爬虫爬取方式获取待处理文本并存储,一方面,可以避免重复爬取相同内容的待处理文本,造成资源浪费;另一方面,将通过爬虫爬取方式获取的待处理文本进行存储,方便下次从已存储的文本中直接获取,提高获取待处理文本的效率。
比如,需要获取待处理文本A、B和C,根据判断结果确定待处理文本B存在已存储的文本中,而待处理文本A和C不存在已存储的文本中,则待处理文本B直接从已存储的文本中获取,而待处理文本A和C通过爬虫爬取方式获取。
S120,确定所述待处理文本所属的目标行业类别。
在S120中,确定待处理文本所属的目标行业类别,比如,行业类别包括:体育、新闻、娱乐、金融和汽车。
比如,获取待处理文本的每一个字符,将所述每一个字符输入预设模型进行处理,输出待处理文本所属的目标行业类别,其中,预设模型包括目标行业类别的关键信息。
可选地,在一些实施例中,确定所述待处理文本所属的目标行业类别,包括:
获取所述待处理文本的关键字;
基于所述关键字和预设对应关系,确定所述待处理文本所属的目标行业类别,其中,所述预设对应关系包括所述关键字与行业类别的对应关系。可以剔除待处理文本中的枝节字符,进而能进一步地提高处理效率。
例如,通过ICA产品获取到DPI日志中的URL信息为https://finance.sina.com,并获取URL信息对应的网页中的待处理文本,且确定待处理文本的关键字为finance,然后基于finance和预设对应关系,确定出包括finance的待处理文本所属的目标行业类别为财经分类。
或者:目标网页的URL信息为https://finance.sina.com,通过ICA产品提取出目标网页的待处理文本,且确定待处理文本的关键字为sina、finance,具体确定出待处理文本的服务提供商为sina,待处理文本的类别字为finance,之后基于sina(新浪)网站对应预设对应关系和finance,确定出包括finance的待处理文本所属目标行业类别为财经分类。
S130,将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数。
在S130中,为了方便提取M个预设分类词库以及提高处理效率,将M个预设分类词库从数据库中的词库表预加载到缓存中。
比如,在开始爬取目标网页的同时,即在爬取程序启动时,将M个预设分类词库从数据库中的词库表预加载到缓存中。若爬取程序重新启动,则将M个预设分类词库重新从数据库中的词库表预加载到缓存中。
可选地,在一些实施例中,在S110之前,所述方法还包括:
确定M个预设分类词库,将M个预设分类词库储存在数据库,具体地,将M个预设分类词库存储在数据库中的词库表,并定期维护词库表,起到防止M个预设分类词库丢失的作用。若建立M+1个预设分类词库,继续将第M+1个预设分类词库按时间排序顺序存储在词库表中。实时将最新的预设分类词库添加词库表,增加更多的预设分类词库,提高分词的准确性,同时,实现预设分类词库的可持续性积累,即提高预设分类词库的可持续性。
可选地,在另一些实施例中,确定M个预设分类词库的具体过程如下:
获取所述M个行业类别中每个行业类别对应的多个词汇,所述每个行业类别对应的多个词汇的权值大于或等于预设值;
基于所述M个行业类别中每个行业类别对应的多个词汇,确定与所述M个行业类别对应的所述M个预设分类词库,所述M个行业类别与所述M个预设分类词库具有一对一的映射关系。
具体地,通过TF-IDF分析法从网络资源中获取各个领域中M个行业中每个行业类别对应的多个词汇,确定与M个行业类别对应的M个预设分类词库。
TF-IDF分析法主要思想是:如果某个词或短语在一篇文档中出现的频率TF高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文档中出现的次数。IDF反文档频率(Inverse Document Frequency)是指如果包含给定的词语的文档越少,IDF越大,则说明词语具有很好的类别区分能力。使用TF-IDF可以计算某个关键字在某篇文档里面的重要性,可以用此关键词来表达文档所包含的含义。
该TF-IDF分析法的具体处理过程如下:
1、获取TF词频,确定词汇tk在文档di出现的次数为Fk,其中k=1,2,......m(m为词汇tk的次数);
2、获取IDF反文档频率,确定词汇tk在文档集合中分布情况的一种量化,其中,IDF反文档频率表示为log2(N/nk+0.01),其中,N表示某一行业类别的文档篇数,nk表示包括词汇tk的所有行业类别的文档篇数。
3、基于TF词频和IDF反文档频率,可以得出公式:
Wk=Fk×log2(N/nk+0.01);
其中,Wk表示词汇tk在文档di中的权值。
为了计算方便,通常需要对向量进行归一化处理。归一化处理后,获取M个行业类别中每个行业类别对应的多个词汇,其中,每个行业类别对应的多个词汇的权值大于或等于预设值;
基于M个行业类别中每个行业类别对应的多个词汇,确定与M个行业类别对应的M个预设分类词库,其中,M个行业类别与M个预设分类词库具有一对一的映射关系。
例如,选取M个行业类别中每个行业类别的权值大于或等于预设值的前300个词汇,确定与M行业类别对应的预设分类词库。
上述各个领域包括:地方城市、自然科学、社会科学、工程应用、农林渔畜、医学医药、电子游戏、艺术设计、生活百科、运动休闲、人文科学和娱乐休闲。进而使得到的预设分类词库种类丰富,涵盖范围广。
比如,1、城市地方包括全国各地城市的词汇数据,该词汇数据具体包含地方词汇,方言,城市地标,各地城市交通专业词汇。2、自然科学包括数学、物理、化学、生物、地理地质、海洋学、气象学、天文学等词汇。3、社会科学包括经济管理、公共管理、法律、广告传媒、教育教学、伦理学、社会学、心理学、政治学、档案学、军事、房地产等词汇。4、工程应用包括计算机、电力电气、电子工程、船舶工程、纺织服装、钢铁冶金、工业设计、化工、材料科学、环境能源、机械工程、建筑、交通运输物流、矿业勘探、汽车工程、水利工程、通信与无线电、土木结构、印刷印染、造纸、质量工程、安全工程、包装、测绘工程与地图等词汇。5、农林渔畜包括林业、农业、畜牧业、渔业等词汇。6、医学医药包括基础医学、西药学、中医、中药、针灸、疾病、超声医学、耳鼻喉科、法医学、护理学、解剖学、口腔医学、美容外科、皮肤科、兽医、医疗器械、医学影像学、肿瘤形态学、医学检验、医疗、外科、等词汇。7、电子游戏包括单机游戏、网络游戏、网页游戏、手机游戏等词汇。8、艺术设计包括刺绣织染、金属工艺、书法篆刻、雕塑、绘画、曲艺、摄影、陶瓷、舞蹈、音乐等词汇。9、生活百科包括理财、家居装饰、家用电器、美容护肤、习俗、服饰、礼品、旅游、日常、办公文教、饮食、美发等词汇。10、运动休闲包括球类、棋牌类、F1赛车、跆拳道、太极拳、气功、武术、奥运、垂钓、轮滑、自行车、杀人游戏等词汇。11、人文科学包括历史、文学、语言、哲学、宗教、考古、伦理学、人类学、神学等词汇。12、娱乐休闲包括动漫、收藏、电影电视、流行音乐、时尚品牌、明星、模型、魔术、汽车、烟草、宠物等词汇。
S140,将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个。
在S140中,基于预设相似度关系将目标行业类别的类别名称与缓存中的M个预设分类词库的词库名称一一进行动态匹配,确定目标分类词库,该目标分类词库为缓存中的M个预设分类词库中的一个。比如,待处理文本所属的目标行业类别的类别名称为游戏网站,将M个预设分类词库从数据库中的词库表预加载到缓存中,将游戏网站与缓存中的M个预设分类词库的词库名称进行相似度匹配,确定目标分类词库,该目标分类词库的词库名称为游戏类分类词库。
可选地,在一些实施例中,S140中将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,可包括:
确定所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称的相似度;
将所述M个预设分类词库中词库名称与所述目标行业类别的类别名称的相似度最高的预设分类词库,确定为所述目标分类词库。
具体地,将目标行业类别的类别名称与缓存中的M个预设分类词库的词库名称一一进行动态匹配,通过相似度计算公式计算目标行业类别的类别名称与缓存中的M个预设分类词库的词库名称的语素相似度、词长相似度和字序相似度,基于目标行业类别的类别名称与缓存中的M个预设分类词库的的词库名称的语素相似度、词长相似度和字序相似度之和,确定目标行业类别的类别名称与缓存中的M个预设分类词库的词库名称的相似度,将相似度最高的预设分类词库确定为目标分类词库。
简而言之,通过上述相似度计算公式计算目标行业类别的类别名称与M个预设分类词库的词库名称的相似度,可以提高匹配的精准度。
该相似度计算公式为:wordsim(A,B)=α×charactersim(A,B)+β×lensim(A,B)+γ×ordsim(A,B),其中,A表示目标行业类别的类别名称,B表示缓存中的预设分类词库的词库名称,wordsim(A,B)表示目标行业类别的类别名称和缓存中的预设分类词库的词库名称之间的相似度,α和β、γ是可调节参数,满足α+β+γ=1。
上述charactersim(A,B)表示目标行业类别的类别名称和缓存中的预设分类词库的词库名称的语素相似度。语素相似度计算公式主要根据字面相似性原理,即汉语中绝大多数同义词、准同义词都含有相同语素这一突出特点,计算词与词之间的关联程度。两个词中相同语素越多,词的相似度就越高,反之相似度则越小。charactersim(A,B)相似度计算公式为:
charactersim(A,B)=2×(samec(A,B)/len(A)+len(B));
其中,len(A)和len(B)分别表示目标行业类别的类别名称和缓存中的预设分类词库的词库名称的长度,samec(A,B)表示目标行业类别的类别名称和缓存中的预设分类词库的词库名称有相同语素的个数。
上述lensim(A,B)表示目标行业类别的词库名称和缓存中的预设分类词库的词库名称的词长相似度。即在词语相似度中,词长是一个考虑因素,两个词的长度相差越小,则相似度就越大,反之相似度越小。lensim(A,B)相似度计算公式如下:
lensim(A,B)=1-∣len(A)-len(B)/len(A)+len(B)∣。
上述ordsim(A,B)表示目标行业类别的类别名称和缓存中的预设分类词库的词库名称的字序相似度。目标行业类别的类别名称和缓存中的预设分类词库的词库名称的字序相似度主要考虑目标行业类别的类别名称和缓存中的预设分类词库的词库名称中相同字的前后次序关系,即在两个词语中,如果相同字的前后次序也相同,则这两个词的相似度就越大,反之相似度就越小。ordsim(A,B)的计算公式如下:
ordsim(A,B)=1-revord(A,B)/(∣oncec(A,B)∣-1);
其中,上述oncec(A,B)表示在目标行业类别的类别名称和缓存中的预设分类词库的词库名称中出现且都只出现一次的语素的集合,Pfirst(A,B)表示oncec(A,B)中的语素在目标行业类别的类别名称中的位置序号构成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按对应语素在缓存中的预设分类词库的词库名称中的次序排序生成的向量,revord(A,B)表示Psecond(A,B)各相邻分量的逆序数。
当目标行业类别的类别名称和缓存中的预设分类词库的词库名称中有且只有一个相同语素时,即oncec(A,B)=1,就单个汉字而言,次序不分前后,故ordsim(A,B)=1;当词的目标行业类别的类别名称和缓存中的预设分类词库的词库名称中没有相同语素时,即oncec(A,B)=0,无逆序可言,故ordsim(A,B)=0。除了这两种情况外,就是目标行业类别的类别名称和缓存中的预设分类词库的词库名称中存在两个或两个以上相同语素的情况,需要计算其逆序数。通过采用上述相似度计算公式,能够提高目标行业类别匹配到目标分类词库的准确性。
S150,将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
在S150中,采用程序赋值方式将缓存中的目标分类词库动态加载到存储器,该存储器为分词算法储存器,其他缓存中的预设分类词库不做处理,其他缓存中的预设分类词库表示缓存中的预设分类词库除了不包括目标分类词库的预设分类词库,通过目标分类词库对待处理文本进行分词处理,得到分词处理结果,分词处理结果中包括与目标行业类别相关的常用高频词汇。进而减少常用高频词汇的数量,提高分词效率。同时,每种行业类别对应一种预设分类词库,缩小分词的范围,提高分词的准确性和专业性。
还有,基于目标分类词库对待处理文本进行分词处理,可以减少常用高频词汇的数量,从而提升分词效果,提升分析价值,减少大量的存储空间。如:待处理文本所属的目标行业类别的类别名称为游戏网站,即待处理文本为游戏网站内容,目标分类词库为游戏类分类词库,如果使用预设通用词库对游戏网站内容进行分词处理,得到的分词结果包括游戏专业词汇和普通词汇,其中,普通词汇对分析游戏网站内容没有任何价值,且影响分词效果;如果使用游戏类分类词库对游戏网站内容进行分词处理,得到分词处理结果仅包括游戏类词汇,提升分词效果,提升分析价值。同时,减少硬件资源的占用,即减少存储空间,保证数据分词的有效性。
通过确定待处理文本所属的目标行业类别以及与目标行业类别匹配的目标分类词库,动态加载目标分类词库,该处理方式具有先进性、准确性、唯一性。
确定各领域中各行业类别对应的预设分类词库后,将待处理文本所属的目标行业类别的类别名称与预设分类词库进行动态匹配,确定并动态加载目标分类词库,能够达到动态适配的目的。
可选地,在另一些实施例中,为了进一步地提高分词准确性和专业性,再次判断分词处理结果是否需要进行二次分词处理,根据判断结果进行对应的处理,具体处理步骤如下:
若所述分词处理结果中包括的分词的个数大于或等于预设数值,则存储所述分词处理结果;或,
若所述分词处理结果中包括的分词的个数小于所述预设数值,则从所述缓存中动态加载所述预设通用词库,基于所述预设通用词库对所述待处理文本进行二次分词处理,得到二次分词处理结果,并存储所述二次分词处理结果。其中,该预设数值是根据实际情况需求而设置的。
在一些实施例中,获取预设通用词库,先将预设通用词库储存在数据库中的词库表,再将预设通用词库从数据库中的词库表预加载到缓存中,若分词处理结果中包括的分词的个数小于预设数值,则采用程序赋值方式将预设通用词库动态加载到存储器中,基于预设通用词库对待处理文本进行二次分词处理。
比如,若分词处理结果中包括的分词的个数大于或等于10,则直接将分词处理结果存储在数据库中;若分词处理结果中包括的分词的个数小于10,则采用程序赋值方式将预设通用词库动态加载到存储器中,通过存储器中的预设通用词库对待处理文本进行二次分词处理,并将二次分词处理结果存储在数据库中。
可选地,在另一些实施例中,若所述缓存中的所述M个预设分类词库中不存在与所述目标行业类别匹配的目标分类词库,则从所述缓存中动态加载预设通用词库,并基于所述预设通用词库对所述待处理文本进行分词处理。说明待处理文本仅包括普通词汇,只需通过预设通用词库对待处理文本进行分词处理,就能够达到分词准确、不模糊的目的。
本申请实施例的方法,对待处理文本所属的目标行业类别进行识别,在识别出目标行业类别后将目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,确定出与目标行业类别匹配的目标分类词库,基于目标预设分类词库对待处理文本进行分词处理,缩小了分词的范围,提高分词的准确性和专业性。在基于目标预设分类词库对待处理文本进行分词之前,将多个预设分类词库从数据库加载到缓存,并在通过动态匹配确定了目标分类词库之后,将目标分类词库从缓存加载到存储器中,由此能够提高分词的处理效率。还有,通过将待处理文本所属的目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,动态加载目标分类词库能够达到动态适配的目的。
图2为本发明另一个实施例提供的数据的处理装置的结构示意图。如图2所示,在一种软件实施方式中,该装置20包括:
获取模块21,用于获取目标网页中的待处理文本,所述目标网页的类别为实例类;
分类模块22,用于确定所述待处理文本所属的目标行业类别;
加载模块23,用于将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
匹配模块24,用于将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
分词模块25,用于将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
本申请实施例的方法,对待处理文本所属的目标行业类别进行识别,在识别出目标行业类别后将目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,确定出与目标行业类别匹配的目标分类词库,基于目标预设分类词库对待处理文本进行分词处理,缩小了分词的范围,提高分词的准确性和专业性。在基于目标预设分类词库对待处理文本进行分词之前,将多个预设分类词库从数据库加载到缓存,并在通过动态匹配确定了目标分类词库之后,将目标分类词库从缓存加载到存储器中,由此能够提高分词的处理效率。还有,通过将待处理文本所属的目标行业类别的类别名称与预设分类词库的词库名称进行动态匹配,动态加载目标分类词库能够达到动态适配的目的。
可选地,作为一个实施例,所述装置20还包括:
确定模块,用于获取所述M个行业类别中每个行业类别对应的多个词汇,所述每个行业类别对应的多个词汇的权值大于或等于预设值;
基于所述M个行业类别中每个行业类别对应的多个词汇,确定与所述M个行业类别对应的所述M个预设分类词库,所述M个行业类别与所述M个预设分类词库具有一对一的映射关系。
可选地,作为一个实施例,所述装置20还包括:
第一判断模块,用于若所述缓存中的所述M个预设分类词库中不存在与所述目标行业类别匹配的目标分类词库,则从所述缓存中动态加载预设通用词库,并基于所述预设通用词库对所述待处理文本进行分词处理。
可选地,作为一个实施例,所述装置20还包括:
第二判断模块,用于若所述分词处理结果中包括的分词的个数大于或等于预设数值,则存储所述分词处理结果;或,
若所述分词处理结果中包括的分词的个数小于所述预设数值,则从所述缓存中动态加载所述预设通用词库,基于所述预设通用词库对所述待处理文本进行二次分词处理,得到二次分词处理结果,并存储所述二次分词处理结果。
可选地,作为一个实施例,所述获取模块21,具体用于:
判断已存储的文本中是否存在所述待处理文本;
若所述已存储的文本不存在所述待处理文本,则基于爬虫爬取方式获取所述待处理文本;或,
若所述已存储的文本存在所述待处理文本,则从所述已存储的文本中获取所述待处理文本。
可选地,作为一个实施例,所述分类模块22,具体用于:
获取所述待处理文本的关键字;
基于所述关键字和预设对应关系,确定所述待处理文本所属的目标行业类别,其中,所述预设对应关系包括所述关键字与行业类别的对应关系。
可选地,作为一个实施例,所述匹配模块24,具体用于:
确定所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称的相似度;
将所述M个预设分类词库中词库名称与所述目标行业类别的类别名称的相似度最高的预设分类词库,确定为所述目标分类词库。
本发明实施例提供的装置能够实现图1所示的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
下面将结合图3详细描述根据本申请一个实施例的电子设备。参考图3,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据预测的装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标网页中的待处理文本,所述目标网页的类别为实例类;
确定所述待处理文本所属的目标行业类别;
将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
上述如本申请图1所示实施例揭示的数据的处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field -Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有可执行指令,该可执行指令被处理器执行时实现上述图1所示的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种数据的处理方法,其特征在于,所述方法包括:
获取目标网页中的待处理文本,所述目标网页的类别为实例类;
确定所述待处理文本所属的目标行业类别;
将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述M个行业类别中每个行业类别对应的多个词汇,所述每个行业类别对应的多个词汇的权值大于或等于预设值;
基于所述M个行业类别中每个行业类别对应的多个词汇,确定与所述M个行业类别对应的所述M个预设分类词库,所述M个行业类别与所述M个预设分类词库具有一对一的映射关系。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
若所述缓存中的所述M个预设分类词库中不存在与所述目标行业类别匹配的目标分类词库,则从所述缓存中动态加载预设通用词库,并基于所述预设通用词库对所述待处理文本进行分词处理。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若所述分词处理结果中包括的分词的个数大于或等于预设数值,则存储所述分词处理结果;或,
若所述分词处理结果中包括的分词的个数小于所述预设数值,则从所述缓存中动态加载所述预设通用词库,基于所述预设通用词库对所述待处理文本进行二次分词处理,得到二次分词处理结果,并存储所述二次分词处理结果。
5.如权利要求1或2所述的方法,其特征在于,所述获取目标网页中的待处理文本,包括:
判断已存储的文本中是否存在所述待处理文本;
若所述已存储的文本不存在所述待处理文本,则基于爬虫爬取方式获取所述待处理文本;或,
若所述已存储的文本存在所述待处理文本,则从所述已存储的文本中获取所述待处理文本。
6.如权利要求1或2所述的方法,其特征在于,所述确定所述待处理文本所属的目标行业类别,包括:
获取所述待处理文本的关键字;
基于所述关键字和预设对应关系,确定所述待处理文本所属的目标行业类别,其中,所述预设对应关系包括所述关键字与行业类别的对应关系。
7.如权利要求1或2所述的方法,其特征在于,所述将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,包括:
确定所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称的相似度;
将所述M个预设分类词库中词库名称与所述目标行业类别的类别名称的相似度最高的预设分类词库,确定为所述目标分类词库。
8.一种数据的处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标网页中的待处理文本,所述目标网页的类别为实例类;
分类模块,用于确定所述待处理文本所属的目标行业类别;
加载模块,用于将M个预设分类词库从数据库预加载到缓存中,所述M个预设分类词库对应M个行业类别,M为大于或等于2的整数;
匹配模块,用于将所述目标行业类别的类别名称与所述缓存中的所述M个预设分类词库的词库名称进行动态匹配,确定与所述目标行业类别匹配的目标分类词库,所述目标分类词库为所述缓存中的所述M个预设分类词库中的一个;
分词模块,用于将所述目标分类词库从所述缓存中动态加载到存储器,基于所述存储器中的所述目标分类词库对所述待处理文本进行分词处理,得到分词处理结果。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储计算机可执行指令的存储器,所述可执行指令在被处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,所述可执行指令被计算机执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433827.4A CN112069288A (zh) | 2019-05-23 | 2019-05-23 | 数据的处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433827.4A CN112069288A (zh) | 2019-05-23 | 2019-05-23 | 数据的处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069288A true CN112069288A (zh) | 2020-12-11 |
Family
ID=73658108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910433827.4A Pending CN112069288A (zh) | 2019-05-23 | 2019-05-23 | 数据的处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069288A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN107481132A (zh) * | 2017-08-02 | 2017-12-15 | 上海前隆信息科技有限公司 | 一种信用评估方法及系统、存储介质及终端设备 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
-
2019
- 2019-05-23 CN CN201910433827.4A patent/CN112069288A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN107481132A (zh) * | 2017-08-02 | 2017-12-15 | 上海前隆信息科技有限公司 | 一种信用评估方法及系统、存储介质及终端设备 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
CN109101477A (zh) * | 2018-06-04 | 2018-12-28 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN109190125A (zh) * | 2018-09-14 | 2019-01-11 | 广州达美智能科技有限公司 | 医学语言文本的处理方法、装置和存储介质 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
冉婕等: "语义检索中的词语相似度计算研究", 《计算机技术与发展》, vol. 21, no. 4, pages 94 - 97 * |
袁文生;王晓峰;: "基于朴素贝叶斯的中文海事文本多分类器研究", 计算机与现代化, no. 05, pages 154 - 157 * |
马天翼;张朋柱;刘景方;: "基于网络外包的专业技能关联知识库构建", 系统管理学报, no. 06, pages 10 - 17 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107341233B (zh) | 一种职位推荐方法及计算设备 | |
US8903837B2 (en) | Incorporating geographical locations in a search process | |
CN110377725B (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
CN109033075B (zh) | 意图匹配的方法、装置、存储介质和终端设备 | |
US20170270096A1 (en) | Method and system for generating large coded data set of text from textual documents using high resolution labeling | |
US10387550B2 (en) | Text restructuring | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN109344246B (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
JP2017220204A (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
CN112990887A (zh) | 一种简历和岗位匹配的方法及计算设备 | |
CN110765760A (zh) | 一种法律案件分配方法、装置、存储介质和服务器 | |
Kaur et al. | Semantic-based integrated plagiarism detection approach for english documents | |
JP2014102827A (ja) | 検索システム及びその検索方法 | |
CN113486182A (zh) | 一种意图识别的方法、系统、电子设备及可读存储介质 | |
CN116401466B (zh) | 一种图书分级分类推荐方法和系统 | |
CN110442674B (zh) | 标签传播的聚类方法、终端设备、存储介质及装置 | |
JP2020521246A (ja) | ネットワークアクセス可能なコンテンツの自動化された分類 | |
CN116028722B (zh) | 一种基于词向量的岗位推荐方法、装置及计算机设备 | |
CN112069288A (zh) | 数据的处理方法、装置和电子设备 | |
CN108073589A (zh) | 网页页面元素的获取方法及装置 | |
CN113515627B (zh) | 文档检测方法、装置、设备及存储介质 | |
Aouchiche et al. | Authorship attribution in twitter: a comparative study of machine learning and deep learning approaches | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
CN110851560B (zh) | 信息检索方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |