CN114398968B - 基于文件相似度对同类获客文件进行标注的方法和装置 - Google Patents

基于文件相似度对同类获客文件进行标注的方法和装置 Download PDF

Info

Publication number
CN114398968B
CN114398968B CN202210013831.7A CN202210013831A CN114398968B CN 114398968 B CN114398968 B CN 114398968B CN 202210013831 A CN202210013831 A CN 202210013831A CN 114398968 B CN114398968 B CN 114398968B
Authority
CN
China
Prior art keywords
data
similarity
vector
labeled
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210013831.7A
Other languages
English (en)
Other versions
CN114398968A (zh
Inventor
徐勇
胡鑫平
杜正平
陈钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui Tongyun Technology Co ltd
Original Assignee
Beijing Borui Tongyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui Tongyun Technology Co ltd filed Critical Beijing Borui Tongyun Technology Co ltd
Priority to CN202210013831.7A priority Critical patent/CN114398968B/zh
Publication of CN114398968A publication Critical patent/CN114398968A/zh
Application granted granted Critical
Publication of CN114398968B publication Critical patent/CN114398968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明实施例涉及一种基于文件相似度对同类获客文件进行标注的方法和装置,所述方法包括:获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;对第一已标注文本文件和第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;进行内容哈希向量相似度计算,生成对应的第二相似度数据;进行关键词向量相似度计算,生成对应的第三相似度数据;当第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用第一已标注文本文件的文本标注标签对第一待标注文本文件进行标注。通过本发明可以提高标注质量和标注效率。

Description

基于文件相似度对同类获客文件进行标注的方法和装置
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于文件相似度对同类获客文件进行标注的方法和装置。
背景技术
在销售端将与获客行为相关的文本文件都统称为获客文件,基于不同的获客行为其对应的获客文件的类型都有差异,需要对各类甚至各个获客文件的特征类型进行人工标注。随着大数据、人工智能技术的发展与应用,对海量获客文件进行特征标注的工作量越来越大。就目前而言,大部分文件标注工作还有赖于人工进行解决,这无论从标注效率还是标注质量上来说,都得不到较好的稳定性保证。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种基于文件相似度对同类获客文件进行标注的方法、装置、电子设备及计算机可读存储介质,使用已经完成标注的获客文件特征(关键词、文本哈希、标题)与待标注获客文件进行比较产生对应的相似度,基于相似度判定二者是否为同类文件,若为同类文件则使用已标注获客文件的标签对待标注获客文件进行标注。通过本发明,无需依赖人为因素,可以提高标注质量和标注效率。
为实现上述目的,本发明实施例第一方面提供了一种基于文件相似度对同类获客文件进行标注的方法,所述方法包括:
获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;
对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;
对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;
对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据;
当所述第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用所述第一已标注文本文件的文本标注标签对所述第一待标注文本文件进行标注。
优选的,所述第一已标注文本文件包括第一标题文本数据和第一内容文本数据;
所述第一待标注文本文件包括第二标题文本数据和第二内容文本数据。
优选的,所述对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据,具体包括:
对所述第一已标注文本文件的所述第一标题文本数据以及所述第一待标注文本文件的所述第二标题文本数据分别进行分词处理,生成对应的第一分词数据序列和第二分词数据序列;所述第一分词数据序列包括多个第一分词数据;所述第二分词数据序列包括多个所述第二分词数据;
基于预设的word2vec模型,分别对各个所述第一分词数据和各个所述第二分词数据进行词向量转换,生成对应的第一分词向量和第二分词向量;
对得到的所有所述第一分词向量进行向量求和处理,生成对应的第一标题句向量;并对得到的所有所述第二分词向量进行向量求和处理,生成对应的第二标题句向量;
基于预设的第一向量相似度算法,对所述第一标题句向量和所述第二标题句向量的向量相似度进行计算,生成对应的所述第一相似度数据。
优选的,所述对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据,具体包括:
基于预设的哈希算法,对所述第一已标注文本文件的所述第一内容文本数据以及所述第一待标注文本文件的所述第二内容文本数据分别进行文本哈希计算,生成对应的第一内容哈希向量和第二内容哈希向量;所述哈希算法至少包括LSH算法、minhash算法和simhash算法;
基于预设的第二向量相似度算法,对所述第一内容哈希向量和所述第二内容哈希向量的向量相似度进行计算,生成对应的所述第二相似度数据;所述第二向量相似度算法至少包括杰卡德距离相似度算法。
优选的,所述对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据,具体包括:
对所述第一已标注文本文件进行分词处理,生成对应的第三分词数据序列;所述第三分词数据序列包括多个第三分词数据;
基于预设词典,对各个所述第三分词数据进行词性识别,生成对应的第一词性数据;
对所述第三分词数据序列中所述第一词性数据不满足预设的关键词词性标签的所述第三分词数据进行删除处理;并对完成删除处理的所述第三分词数据序列中重复的第三分词数据进行聚类生成多个聚类集合;并对每个所述聚类集合的第三分词数据数量进行统计生成对应的聚类数量;并按所述聚类数量从大小的顺序对对应的所述第三分词数据进行排序生成第四分词数据序列;并从所述第四分词数据序列中提取靠前的指定数量的所述第三分词数据构成第一关键词数据序列;所述第一关键词数据序列包括多个第一关键词数据;
根据所述第一关键词数据序列,分别对所述第一已标注文本文件和所述第一待标注文本文件进行关键词数量统计,并根据关键词数量统计结果构建对应的第一关键词向量和第二关键词向量;
基于预设的第一向量相似度算法,对所述第一关键词向量和所述第二关键词向量进行向量相似度计算,生成对应的所述第三相似度数据。
进一步的,所述根据所述第一关键词数据序列,分别对所述第一已标注文本文件和所述第一待标注文本文件进行关键词数量统计,并根据关键词数量统计结果构建对应的第一关键词向量和第二关键词向量,具体包括:
为所述第一已标注文本文件构建并初始化对应的所述第一关键词向量;所述第一关键词向量包括多个第一向量数据;所述第一向量数据与所述第一关键词数据序列的所述第一关键词数据一一对应;
统计每个所述第一关键词数据在所述第一已标注文本文件中的出现次数生成对应的第一关键词数量,并根据所述第一关键词数量设置对应的所述第一向量数据;
为所述第一待标注文本文件构建并初始化对应的所述第二关键词向量;所述第二关键词向量包括多个第二向量数据;所述第二向量数据与所述第一关键词数据序列的所述第一关键词数据一一对应;
统计每个所述第一关键词数据在所述第一待标注文本文件中的出现次数生成对应的第二关键词数量,并根据所述第二关键词数量设置对应的所述第二向量数据。
优选的,所述第一向量相似度算法至少包括欧式距离相似度算法、余弦距离相似度算法、汉明距离相似度算法和杰卡德距离相似度算法。
本发明实施例第二方面提供了一种基于文件相似度对同类获客文件进行标注的装置,包括:获取模块、相似度处理模块和同类文件标注模块;
所述获取模块用于获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;
所述相似度处理模块用于对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;并对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;并对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据;
所述同类文件标注模块用于当所述第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用所述第一已标注文本文件的文本标注标签对所述第一待标注文本文件进行标注。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种基于文件相似度对同类获客文件进行标注的方法、装置、电子设备及计算机可读存储介质,使用已经完成标注的获客文件特征(关键词、文本哈希、标题)与待标注获客文件进行比较产生对应的相似度,基于相似度判定二者是否为同类文件,若为同类文件则使用已标注获客文件的标签对待标注获客文件进行标注。通过本发明,不再依赖人为因素,提高了标注质量和标注效率。
附图说明
图1为本发明实施例一提供的一种基于文件相似度对同类获客文件进行标注的方法示意图;
图2为本发明实施例二提供的一种基于文件相似度对同类获客文件进行标注的装置的模块结构图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种基于文件相似度对同类获客文件进行标注的方法,对已标注获客文件和待标注获客文件的标题文本相似度、内容哈希字符串相似度、关键词向量相似度分别进行计算,并在上述三个相似度均满足指定阈值的情况下,将待标注获客文件视作为已标注获客文件的同类文件,并使用已标注获客文件的标签对待标注获客文件进行自动标注;通过本方法可以基于极少数的已标注获客文件实现对海量待标注获客文件的自动同类识别和标注,摆脱了人力限制,提高了标注质量和标注效率;图1为本发明实施例一提供的一种基于文件相似度对同类获客文件进行标注的方法示意图,如图1所示,本方法主要包括如下步骤:
步骤1,获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;
其中,第一已标注文本文件包括第一标题文本数据和第一内容文本数据;第一待标注文本文件包括第二标题文本数据和第二内容文本数据。
这里,已标注获客文件和待标注获客文件也就是第一已标注文本文件和第一待标注文本文件均为纯文本文件,文件数据结构由标题(第一标题文本数据、第二标题文本数据)和内容(第一内容文本数据、第二内容文本数据)两部分组成;第一已标注文本文件是已经完成标注的文本文件,可对应一个或多个文本标注标签;第一待标注文本文件是尚未进行标注或尚未进行与第一已标注文本文件同类型标签标注的文本文件。
步骤2,对第一已标注文本文件和第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;
这里,是对已标注获客文件和待标注获客文件的标题文本相似度进行计算,第一相似度数据越高则二者为同类文件的几率越高;
具体包括:步骤21,对第一已标注文本文件的第一标题文本数据以及第一待标注文本文件的第二标题文本数据分别进行分词处理,生成对应的第一分词数据序列和第二分词数据序列;
其中,第一分词数据序列包括多个第一分词数据;第二分词数据序列包括多个第二分词数据;
这里,本发明实施例基于自然语言处理(Natural Language Processing,NLP)技术分词算法搭建对应的人工智能分词模型,并基于该人工智能分词模型对第一已标注文本文件的第一标题文本数据以及第一待标注文本文件的第二标题文本数据分别进行分词处理;在进行分词处理时,人工智能分词模型对输入的第一标题文本数据(或第二标题文本数据)进行字词识别,并根据前后字词语义进行字词切分处理从而得到多个第一分词数据(或第二分词数据),再按对应文本顺序对多个第一分词数据(或第二分词数据)进行排序就可得到对应的第一分词数据序列(或第二分词数据序列);
需要说明的是,本发明实施例的人工智能分词模型包括基于结巴(jieba)算法搭建的分词模型、基于隐马尔可夫(Hidden Markov Model,HMM)算法搭建的分词模型、基于条件随机场(Conditional Random Field,CRF)算法搭建的分词模型和基于长短期记忆网络(Long Short-Term Memory,LSTM)算法搭建的分词模型;
步骤22,基于预设的word2vec模型,分别对各个第一分词数据和各个第二分词数据进行词向量转换,生成对应的第一分词向量和第二分词向量;
其中,第一分词向量包括多个第一分词向量数据;第二分词向量包括多个第二分词向量数据;第一分词向量数据与第二分词向量数据的数量保持一致;
这里,word2vec(word to vector)模型是NLP技术领域常见的人工智能词向量转换模型,通过word2vec模型可对输入的单字/单词进行字/词特征语义识别,从而输出带有多个语义特征权值的数据向量;第一、第二分词向量中的每个第一、第二分词向量数据实际就是一个语义特征权值;
步骤23,对得到的所有第一分词向量进行向量求和处理,生成对应的第一标题句向量;并对得到的所有第二分词向量进行向量求和处理,生成对应的第二标题句向量;
其中,第一标题句向量包括多个第一句向量数据;第二标题句向量包括多个第二句向量数据;
这里,每个第一句向量数据即为所有第一分词向量相同索引位置的第一分词向量数据的总和;每个第二句向量数据即为所有第二分词向量相同索引位置的第二分词向量数据的总和;
例如,第一分词数据序列为{第一分词数据1,第一分词数据2},第二分词数据序列为{第二分词数据1,第二分词数据2};第一分词数据1的第一分词向量1为[11,12,13,14],第一分词数据2的第一分词向量2为[15,16,17,18];第二分词数据1的第二分词向量1为[21,22,23,24],第二分词数据2的第二分词向量2为[25,26,27,28];
那么,第一标题句向量应为[11+15,12+16,13+17,14+18],第二标题句向量应为[21+25,22+26,23+27,24+28];
需要说明的是,第一标题句向量用以标识第一已标注文本文件的第一标题文本数据的整体语义特征,第二标题句向量用以标识第二已标注文本文件的第二标题文本数据的整体语义特征;本发明实施例通过上述步骤21-23通过相同的文本语义特征提取流程将两个标题文本数据的语义特征分别提取出来形成对应的特征向量也就是第一、第二标题句向量,继而就可通过后续步骤的特征向量相似度计算来实现对两个标题文本数据的相似度评估;
步骤24,基于预设的第一向量相似度算法,对第一标题句向量和第二标题句向量的向量相似度进行计算,生成对应的第一相似度数据;
其中,第一向量相似度算法至少包括欧式距离相似度算法、余弦距离相似度算法、汉明距离相似度算法和杰卡德(Jacard)距离相似度算法;
这里,本发明实施例基于预先设定的第一向量相似度算法,对第一、第二标题句向量的特征向量相似度进行计算产生第一相似度数据,该相似度用于对两个标题文本数据的相似度进行评估;
具体包括:步骤241,当第一向量相似度算法为欧式距离相似度算法时,根据公知的向量欧氏距离计算方法计算出第一标题句向量和第二标题句向量的欧式距离参数,再将欧式距离相似度=1/(欧式距离相似度+1),作为对应的第一相似度数据;
步骤242,当第一向量相似度算法为余弦距离相似度算法时,根据公知的向量余弦距离计算方法计算出第一标题句向量和第二标题句向量的余弦距离参数,再将余弦距离相似度=1-余弦距离参数,作为对应的第一相似度数据;
步骤243,当第一向量相似度算法为汉明距离相似度算法时,根据公知的汉明距离计算方法,计算出第一标题句向量和第二标题句向量的汉明距离参数,再将汉明距离相似度=汉明距离参数,作为对应的第一相似度数据;
步骤244,当第一向量相似度算法为杰卡德距离相似度算法时,根据公知的杰卡德距离计算方法,计算出第一标题句向量和第二标题句向量的杰卡德距离参数,再将杰卡德距离相似度=1/杰卡德距离参数,作为对应的第一相似度数据。
步骤3,对第一已标注文本文件和第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;
这里,本发明实施例对第一已标注文本文件和第一待标注文本文件的内容部分也就是第一、第二内容文本数据进行哈希计算得到对应的内容哈希向量,对第一、第二内容哈希向量的相似度进行计算产生第二相似度数据,该相似度数据可作为评估参数之一对两个内容文本数据的相似度进行评估;
具体包括:步骤31,基于预设的哈希算法,对第一已标注文本文件的第一内容文本数据以及第一待标注文本文件的第二内容文本数据分别进行文本哈希计算,生成对应的第一内容哈希向量和第二内容哈希向量;
其中,哈希算法至少包括局部敏感哈希(Locality-Sensitive Hashing,LSH)算法、minhash算法和simhash算法;
这里,LSH算法、minhash算法或simhash算法的具体计算过程,可通过查询相关技术方案获得,在此不做进一步赘述;
步骤32,基于预设的第二向量相似度算法,对第一内容哈希向量和第二内容哈希向量的向量相似度进行计算,生成对应的第二相似度数据;
其中,第二向量相似度算法至少包括杰卡德距离相似度算法。
这里,因为LSH算法、minhash算法或simhash算法常规都会用于杰卡德距离相似度计算,所以在哈希算法为LSH算法、minhash算法或simhash算法时,对应的第二向量相似度算法应为杰卡德距离相似度算法;那么,基于杰卡德距离相似度算法计算第一内容哈希向量和第二内容哈希向量的向量相似度的处理过程就与前述步骤244类似,在此不做进一步赘述。
步骤4,对第一已标注文本文件和第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据;
这里,本发明实施例对第一已标注文本文件和第一待标注文本文件的内容部分也就是第一、第二内容文本数据进行关键词特征向量提取到对应的关键词向量,对第一、第二关键词向量的相似度进行计算产生第三相似度数据,该相似度数据可作为评估参数之一对两个内容文本数据的相似度进行评估;
具体包括:步骤41,对第一已标注文本文件进行分词处理,生成对应的第三分词数据序列;
其中,第三分词数据序列包括多个第三分词数据;
这里,分词处理与前述步骤21类似,在此不做进一步赘述;
步骤42,基于预设词典,对各个第三分词数据进行词性识别,生成对应的第一词性数据;
这里,预设词典为一种字词信息数据库,词典中存储了多个单字/单词的数据信息,每个单字/单词的数据信息中除了字/词本身的音标信息、文本信息、注释信息之外还包括词性信息诸如动词、名词、代词、形容词、副词等;基于预设词典可以查到每个第三分词数据对应的词性信息也就是第一词性数据;
步骤43,对第三分词数据序列中第一词性数据不满足预设的关键词词性标签的第三分词数据进行删除处理;并对完成删除处理的第三分词数据序列中重复的第三分词数据进行聚类生成多个聚类集合;并对每个聚类集合的第三分词数据数量进行统计生成对应的聚类数量;并按聚类数量从大小的顺序对对应的第三分词数据进行排序生成第四分词数据序列;并从第四分词数据序列中提取靠前的指定数量的第三分词数据构成第一关键词数据序列;
其中,第一关键词数据序列包括多个第一关键词数据;
这里,首先第三分词数据序列中不是每个分词都是关键词,要对其中非关键词进行滤除;在滤除非关键词时,本发明实施例基于预先设定的关键词词性标签对每个第三分词数据进行审查,若该第三分词数据对应的第一词性数据与关键词词性标签中的一个或多个词性标签都不匹配,则说明该第三分词数据为非关键词需要被删除;
然后,要对完成非关键词滤除的第三分词数据序列中的内容相同分词数据进行聚类,并统计每个聚类集合中相同分词数据的总数也就是聚类数量,聚类数量越大则说明对应分词的词频(termfrequency,TF)越高;
然后,按对应频率越高由高到低也就是聚类数量从大到小的顺序,对对应分词进行排序就可得到第四分词数据序列;该第四分词数据序列的分词数据排序顺序体现了各分词词频的高低顺序;
然后,根据预设的指定数量,从第四分词数据序列中提取排序靠前的多个第三分词数据生成第一关键词数据序列;例如,指定数量为N,则第一关键词数据序列由第四分词数据序列中第1-N个第三分词数据组成,每个第一关键词数据实际对应一个第三分词数据;
步骤44,根据第一关键词数据序列,分别对第一已标注文本文件和第一待标注文本文件进行关键词数量统计,并根据关键词数量统计结果构建对应的第一关键词向量和第二关键词向量;
这里,以第一关键词数据序列为关键词参考,统计两个文本文件中各关键词出现的次数也就是关键词数量来确认每个关键词的词频,并由各关键词词频组成对应的文本特征向量也就是第一、第二关键词向量;
具体包括:步骤441,为第一已标注文本文件构建并初始化对应的第一关键词向量;
其中,第一关键词向量包括多个第一向量数据;第一向量数据与第一关键词数据序列的第一关键词数据一一对应;
这里,在对第一关键词向量进行初始化时将各个第一向量数据初始为空;
例如,第一关键词数据序列为[第一关键词数据1,第一关键词数据2,第一关键词数据3];那么,第一关键词向量就应包括3个第一向量数据:[第一向量数据1,第一向量数据2,第一向量数据3];其中,第一向量数据1对应第一关键词数据1,第一向量数据2对应第一关键词数据2,第一向量数据3对应第一关键词数据3;
步骤442,统计每个第一关键词数据在第一已标注文本文件中的出现次数生成对应的第一关键词数量,并根据第一关键词数量设置对应的第一向量数据;
例如,第一关键词数据序列为[第一关键词数据1,第一关键词数据2,第一关键词数据3],第一关键词向量为[第一向量数据1,第一向量数据2,第一向量数据3],统计出的第一关键词数据1在第一已标注文本文件中的出现次数也就是第一关键词数量1为3,第一关键词数据2在第一已标注文本文件中的出现次数也就是第一关键词数量2为4,第一关键词数据3在第一已标注文本文件中的出现次数也就是第一关键词数量3为5;那么,设置完成后的第一关键词向量应为[第一向量数据1=第一关键词数量1=3,第一向量数据2=第一关键词数量2=4,第一向量数据3=第一关键词数量3=5];
步骤443,为第一待标注文本文件构建并初始化对应的第二关键词向量;
其中,第二关键词向量包括多个第二向量数据;第二向量数据与第一关键词数据序列的第一关键词数据一一对应;
这里,与前述步骤441类似,在对第二关键词向量进行初始化时将各个第二向量数据初始为空;
步骤444,统计每个第一关键词数据在第一待标注文本文件中的出现次数生成对应的第二关键词数量,并根据第二关键词数量设置对应的第二向量数据;
这里,与步骤442类似,不做进一步赘述;
步骤45,基于预设的第一向量相似度算法,对第一关键词向量和第二关键词向量进行向量相似度计算,生成对应的第三相似度数据。
这里,与前述步骤24类似,第一向量相似度算法至少包括欧式距离相似度算法、余弦距离相似度算法、汉明距离相似度算法和杰卡德距离相似度算法;具体实施过程不做进一步赘述。
步骤5,当第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用第一已标注文本文件的文本标注标签对第一待标注文本文件进行标注。
这里,当第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时说明第一待标注文本文件无论在标题相似度上、还是内容相似度上都与第一已标注文本文件近似,也就是说可将二者认定为同类文件,因此就可以使用第一已标注文本文件的文本标注标签对第一待标注文本文件进行标注。
在对第一待标注文本文件完成标注以后即可将其转换成为另一个已标注文本文件记为第二已标注文本文件,从而沉淀2个已标注文本文件;再由第一、第二已标注文本文件分别对其他待标注文本文件进行标注得到第三、第四已标注文本文件,从而沉淀4个已标注文本文件;再由第一、第二、第三、第四已标注文本文件对其他待标注文本文件进行标注,从而沉淀8个已标注文本文件;以此类推,每批次标注都能产生2P(P为批次号)的已标注文本文件沉淀效果,这无疑是人工操作所不能达到的标注效率,因而使用本发明实施例提供的方法不仅可以提高每次标注的标注质量,还能大大提高标注效率。
图2为本发明实施例二提供的一种基于文件相似度对同类获客文件进行标注的装置的模块结构图,该装置可以为实现本发明实施例方法的终端设备或者服务器,也可以为与上述终端设备或者服务器连接的实现本发明实施例方法的装置,例如该装置可以是上述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、相似度处理模块202和同类文件标注模块203。
获取模块201用于获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件。
相似度处理模块202用于对第一已标注文本文件和第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;并对第一已标注文本文件和第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;并对第一已标注文本文件和第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据。
同类文件标注模块203用于当第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用第一已标注文本文件的文本标注标签对第一待标注文本文件进行标注。
本发明实施例提供的一种基于文件相似度对同类获客文件进行标注的装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本发明实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路(Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器31(例如CPU)、存储器32、收发器33;收发器33耦合至处理器31,处理器31控制收发器33的收发动作。存储器32中可以存储各种指令,以用于完成各种处理功能以及实现本发明上述实施例中提供的方法和处理过程。优选的,本发明实施例涉及的电子设备还包括:电源34、系统总线35以及通信端口36。系统总线35用于实现元件之间的通信连接。上述通信端口36用于电子设备与其他外设之间进行连接通信。
在图3中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中提供的方法和处理过程。
本发明实施例提供了一种基于文件相似度对同类获客文件进行标注的方法、装置、电子设备及计算机可读存储介质,使用已经完成标注的获客文件特征(关键词、文本哈希、标题)与待标注获客文件进行比较产生对应的相似度,基于相似度判定二者是否为同类文件,若为同类文件则使用已标注获客文件的标签对待标注获客文件进行标注。通过本发明,不再依赖人为因素,提高了标注质量和标注效率。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于文件相似度对同类获客文件进行标注的方法,其特征在于,所述方法包括:
获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;
对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;
对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;
对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据;
当所述第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用所述第一已标注文本文件的文本标注标签对所述第一待标注文本文件进行标注;
其中,所述对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据,具体包括:
对所述第一已标注文本文件进行分词处理,生成对应的第三分词数据序列;所述第三分词数据序列包括多个第三分词数据;
基于预设词典,对各个所述第三分词数据进行词性识别,生成对应的第一词性数据;
对所述第三分词数据序列中所述第一词性数据不满足预设的关键词词性标签的所述第三分词数据进行删除处理;并对完成删除处理的所述第三分词数据序列中重复的第三分词数据进行聚类生成多个聚类集合;并对每个所述聚类集合的第三分词数据数量进行统计生成对应的聚类数量;并按所述聚类数量从大小的顺序对对应的所述第三分词数据进行排序生成第四分词数据序列;并从所述第四分词数据序列中提取靠前的指定数量的所述第三分词数据构成第一关键词数据序列;所述第一关键词数据序列包括多个第一关键词数据;
根据所述第一关键词数据序列,分别对所述第一已标注文本文件和所述第一待标注文本文件进行关键词数量统计,并根据关键词数量统计结果构建对应的第一关键词向量和第二关键词向量;
基于预设的第一向量相似度算法,对所述第一关键词向量和所述第二关键词向量进行向量相似度计算,生成对应的所述第三相似度数据。
2.根据权利要求1所述的基于文件相似度对同类获客文件进行标注的方法,其特征在于,
所述第一已标注文本文件包括第一标题文本数据和第一内容文本数据;
所述第一待标注文本文件包括第二标题文本数据和第二内容文本数据。
3.根据权利要求2所述的基于文件相似度对同类获客文件进行标注的方法,其特征在于,所述对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据,具体包括:
对所述第一已标注文本文件的所述第一标题文本数据以及所述第一待标注文本文件的所述第二标题文本数据分别进行分词处理,生成对应的第一分词数据序列和第二分词数据序列;所述第一分词数据序列包括多个第一分词数据;所述第二分词数据序列包括多个所述第二分词数据;
基于预设的word2vec模型,分别对各个所述第一分词数据和各个所述第二分词数据进行词向量转换,生成对应的第一分词向量和第二分词向量;
对得到的所有所述第一分词向量进行向量求和处理,生成对应的第一标题句向量;并对得到的所有所述第二分词向量进行向量求和处理,生成对应的第二标题句向量;
基于预设的第一向量相似度算法,对所述第一标题句向量和所述第二标题句向量的向量相似度进行计算,生成对应的所述第一相似度数据。
4.根据权利要求2所述的基于文件相似度对同类获客文件进行标注的方法,其特征在于,所述对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据,具体包括:
基于预设的哈希算法,对所述第一已标注文本文件的所述第一内容文本数据以及所述第一待标注文本文件的所述第二内容文本数据分别进行文本哈希计算,生成对应的第一内容哈希向量和第二内容哈希向量;所述哈希算法至少包括LSH算法、minhash算法和simhash算法;
基于预设的第二向量相似度算法,对所述第一内容哈希向量和所述第二内容哈希向量的向量相似度进行计算,生成对应的所述第二相似度数据;所述第二向量相似度算法至少包括杰卡德距离相似度算法。
5.根据权利要求1所述的基于文件相似度对同类获客文件进行标注的方法,其特征在于,所述根据所述第一关键词数据序列,分别对所述第一已标注文本文件和所述第一待标注文本文件进行关键词数量统计,并根据关键词数量统计结果构建对应的第一关键词向量和第二关键词向量,具体包括:
为所述第一已标注文本文件构建并初始化对应的所述第一关键词向量;所述第一关键词向量包括多个第一向量数据;所述第一向量数据与所述第一关键词数据序列的所述第一关键词数据一一对应;
统计每个所述第一关键词数据在所述第一已标注文本文件中的出现次数生成对应的第一关键词数量,并根据所述第一关键词数量设置对应的所述第一向量数据;
为所述第一待标注文本文件构建并初始化对应的所述第二关键词向量;所述第二关键词向量包括多个第二向量数据;所述第二向量数据与所述第一关键词数据序列的所述第一关键词数据一一对应;
统计每个所述第一关键词数据在所述第一待标注文本文件中的出现次数生成对应的第二关键词数量,并根据所述第二关键词数量设置对应的所述第二向量数据。
6.根据权利要求1或3所述的基于文件相似度对同类获客文件进行标注的方法,其特征在于,
所述第一向量相似度算法至少包括欧式距离相似度算法、余弦距离相似度算法、汉明距离相似度算法和杰卡德距离相似度算法。
7.一种用于实现权利要求1-6任一项所述的基于文件相似度对同类获客文件进行标注的方法步骤的装置,其特征在于,所述装置包括:获取模块、相似度处理模块和同类文件标注模块;
所述获取模块用于获取已标注获客文件和待标注获客文件作为对应的第一已标注文本文件和第一待标注文本文件;
所述相似度处理模块用于对所述第一已标注文本文件和所述第一待标注文本文件进行标题文本相似度计算,生成对应的第一相似度数据;并对所述第一已标注文本文件和所述第一待标注文本文件进行内容哈希向量相似度计算,生成对应的第二相似度数据;并对所述第一已标注文本文件和所述第一待标注文本文件进行关键词向量相似度计算,生成对应的第三相似度数据;
所述同类文件标注模块用于当所述第一、第二和第三相似度数据都超过对应的第一、第二和第三预设相似度阈值时,使用所述第一已标注文本文件的文本标注标签对所述第一待标注文本文件进行标注。
8.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-6任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-6任一项所述的方法的指令。
CN202210013831.7A 2022-01-06 2022-01-06 基于文件相似度对同类获客文件进行标注的方法和装置 Active CN114398968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210013831.7A CN114398968B (zh) 2022-01-06 2022-01-06 基于文件相似度对同类获客文件进行标注的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210013831.7A CN114398968B (zh) 2022-01-06 2022-01-06 基于文件相似度对同类获客文件进行标注的方法和装置

Publications (2)

Publication Number Publication Date
CN114398968A CN114398968A (zh) 2022-04-26
CN114398968B true CN114398968B (zh) 2022-09-20

Family

ID=81229499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210013831.7A Active CN114398968B (zh) 2022-01-06 2022-01-06 基于文件相似度对同类获客文件进行标注的方法和装置

Country Status (1)

Country Link
CN (1) CN114398968B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391577B (zh) * 2022-09-29 2023-06-23 浙江星汉信息技术股份有限公司 一种基于机器学习算法的电子档案管理方法与系统
CN116704522B (zh) * 2023-08-02 2023-11-24 京华信息科技股份有限公司 一种辅助公文分办的方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2635965A4 (en) * 2010-11-05 2016-08-10 Rakuten Inc SYSTEMS AND METHODS RELATING TO KEYWORD EXTRACTION
CN107644010B (zh) * 2016-07-20 2021-05-25 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN108345586B (zh) * 2018-02-09 2021-04-02 重庆电信系统集成有限公司 一种文本去重方法及系统
CN108595517B (zh) * 2018-03-26 2021-03-09 南京邮电大学 一种大规模文档相似性检测方法
CN108804641B (zh) * 2018-06-05 2021-11-09 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109614625B (zh) * 2018-12-17 2022-06-17 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
WO2020133360A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 问句文本的匹配方法、装置、计算机设备和存储介质
CN110147440A (zh) * 2019-04-15 2019-08-20 深圳壹账通智能科技有限公司 消息推送方法、装置、计算机设备及存储介质
CN112560444A (zh) * 2019-09-26 2021-03-26 北京国双科技有限公司 文本处理方法、装置、计算机设备和存储介质
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112182166B (zh) * 2020-10-29 2023-03-10 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN113011172B (zh) * 2021-03-15 2023-08-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113239666B (zh) * 2021-05-13 2023-09-29 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
CN113342968A (zh) * 2021-05-21 2021-09-03 中国石油天然气股份有限公司 文本摘要提取方法及装置
CN113407679B (zh) * 2021-06-30 2023-10-03 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114398968A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN114398968B (zh) 基于文件相似度对同类获客文件进行标注的方法和装置
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
US20220179892A1 (en) Methods, systems and computer program products for implementing neural network based optimization of database search functionality
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110990532A (zh) 一种处理文本的方法和装置
CN112836039B (zh) 基于深度学习的语音数据处理方法和装置
CN111177375A (zh) 一种电子文档分类方法及装置
US20180365223A1 (en) Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN112541357B (zh) 实体识别方法、装置及智能设备
CN112528653B (zh) 短文本实体识别方法和系统
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN114398486B (zh) 一种智能定制获客宣传语的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant