CN114818986A - 一种文本相似度计算去重方法、系统、介质及设备 - Google Patents

一种文本相似度计算去重方法、系统、介质及设备 Download PDF

Info

Publication number
CN114818986A
CN114818986A CN202210612069.4A CN202210612069A CN114818986A CN 114818986 A CN114818986 A CN 114818986A CN 202210612069 A CN202210612069 A CN 202210612069A CN 114818986 A CN114818986 A CN 114818986A
Authority
CN
China
Prior art keywords
text
data
hot
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210612069.4A
Other languages
English (en)
Other versions
CN114818986B (zh
Inventor
韩召宁
赵国帅
罗一玲
钱学明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Jinxun Software Technology Co ltd
Original Assignee
Xi'an Jinxun Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Jinxun Software Technology Co ltd filed Critical Xi'an Jinxun Software Technology Co ltd
Priority to CN202210612069.4A priority Critical patent/CN114818986B/zh
Publication of CN114818986A publication Critical patent/CN114818986A/zh
Application granted granted Critical
Publication of CN114818986B publication Critical patent/CN114818986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相似度计算去重方法、系统、介质及设备,将热线文本数据集导入数据库,并输入训练好的模型中进行特征提取,特征融合和特征增强,得到数据的最终特征并序列化保存;输入待计算数据到模型中提取最终特征;与相应日期内的热线文本数据进行余弦相似度计算,得到相似度结果;输出排名top50的相似度结果,进行去重。本发明面向政务服务便民热线,通过模型将热线文本内容的最终句子特征提取出来进行相似度计算去重,还提供了外界调用的途径,可通过四个接口操作模型实现不同的模型功能,便于操作,实用性强,适用于热线领域。

Description

一种文本相似度计算去重方法、系统、介质及设备
技术领域
本发明属于文本相似度技术领域,具体涉及一种文本相似度计算去重方法、系统、介质及设备。
背景技术
在智能化时代,自然语言处理技术快速发展并得到了广泛的应用,在应用领域中,经常会涉及到如何去度量以及计算两个文本之间的相似度问题,文本相似度被广泛应用于许多领域,比如知识检索,文本的查重检测,文本摘要的自动生成,推荐系统,文本分类,机器翻译等。文本相似度是自然语言处理中非常重要的,必不可少的技术。
文本相似度,是指两个文本之间的相似度,文本处于一种高维的语义空间,需要对其进行抽象分解才能够在数学的角度上去量化它们之间的相似度。现今,文本相似度的度量主要包括三种方法:一是基于关键词匹配的传统方法,比如N-gram相似度;二是将文本降维映射到向量空间,再利用欧几里得距离,余弦相似度等方法进行计算;三是基于深度学习的方法,比如基于卷积神经网络的ConvNet,DSSM双塔模型等方法。目前随着深度学习的快速发展,度量文本相似度的方法中已经逐渐不再使用基于关键词匹配的传统方法,而基本转向基于深度学习的方法并且结合向量表示。
在上述方法中,文本相似度的应用范围过于广泛,不具有针对性,目前市场已有的文本相似度计算产品中,没有一项针对于政务服务便民热线的文本相似度计算方法,而在热线领域中,文本相似度技术发挥着巨大的作用,热线领域中每天都会涌入大量的新数据,在记录的大量热线文本数据中,可能会发生事件不断重复的现象,应用于热线领域的文本相似度技术可以计算热线文本的相似度,并根据相似度结果进行判断去重检测。
近年来,文本相似度计算方法不断被提出,但是这些方法中,大多都是广泛应用于各个领域,精准度不足,缺乏针对性,对于热线领域来说,这些方法会引入过多的噪声,效果不是很理想,并且,在文本相似度起着非常重要作用的热线领域中,目前并没有什么效果比较理想的文本相似度计算方法被应用,达不到良好的去重效果。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种文本相似度计算去重方法、系统、介质及设备,能够针对热线领域提供的热线文本数据集计算热线文本的文本相似度并达到良好的去重检测效果。
本发明采用以下技术方案:
一种文本相似度计算去重方法,包括以下步骤:
S1、对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
S2、将步骤S1得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
S3、提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
S4、从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
S5、基于步骤S4得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
具体的,步骤S1中,数据集格式为utf-8编码的csv文件,工单编号和热线文本内容为必填属性。
具体的,步骤S2中,输入sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中,sbert模型使用平均池化策略,将均值后的向量作为句向量Vs,得到全局特征,word2vec模型获得名词词向量Vn,通过TFIDF算法获得关键词词向量Vk,得到局部特征,将名词词向量Vn和关键词词向量Vk进行平均,再和句向量Vs进行平均,得到最后的句向量Vn×d,n为热线文本数据集中的数据量,d为向量维度,将所有热线文本数据的特征向量进行序列化保存,使用pickle模块dump序列化数据所有热线文本的特征向量,将特征向量的结果数据流写入文件对象,使用load反序列化对象,还原得到每一条热线文本数据的文本特征向量。
具体的,步骤S2中,对文本数据进行名词实体抽取具体为:
使用命名实体识别识别出热线文本中的所有实体,通过自定义词典可识别出正确的实体,并抽取出所有名词实体,实现特征增强。
具体的,步骤S2中,对文本数据进行关键词抽取具体为:
使用TF-IDF算法进行关键词提取,通过语料库得出逆文档频率IDF值,使用热线文本语料库对逆文档频率IDF的文本语料库进行训练,得到每个词的IDF值,输入待提取关键词的文本,计算得到词频TF,得到最终的TF-IDF值,将所有词排序得到关键词集合并返回10个TFIDF权重最大的关键词,实现热线文本的特征增强。
进一步的,词频TF和逆文档频率IDF具体为:
Figure BDA0003673308820000031
Figure BDA0003673308820000032
具体的,步骤S4中,两个文本间的余弦相似度similarity计算如下:
Figure BDA0003673308820000041
其中,A为文本1的特征向量,B为文本2的特征向量,n为特征向量的维度,Ai为向量A的第i个元素,Bi为向量B的第i个元素,θ为两个向量间的夹角。
第二方面,本发明实施例提供了一种文本相似度计算去重系统,包括:
数据模块,对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
第一特征模块,将数据模块得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
第二特征模块,提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
计算模块,从第一特征模块得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将第二特征模块得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
相似度模块,基于计算模块得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本相似度计算去重方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述文本相似度计算去重方法的步骤。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种文本相似度计算去重方法,面向政务服务便民热线,通过模型将热线文本内容的句子特征,名词特征和关键词特征提取出来,实现文本内容的特征融合和特征增强,并可以根据设置的开始日期和结束日期对热线数据进行筛选,与所需要的热线文本进行余弦相似度计算,并得到top50的热线数据,兼顾了整体语义特征和名词关键词等局部特征,实现全局特征和局部特征的结合,增强了文本内容的特征,使得相似度计算结果更为准确,以便能够达到更好的去重效果。
进一步的,统一数据集编码为utf8编码,utf8编码是世界通用的语言编码,统一文件格式为csv文件,制定数据集格式要求以达到统一格式的目的,工单编号和热线文本内容设置为必填属性,以便进行相似度计算并返回工单编号。
进一步的,输入句子到sbert+名词实体识别+关键词提取+word2vec模型中,通过特征融合增强,提取出最终的句子语义特征,便于准确计算相似度。
进一步的,通过对文本数据进行名词实体抽取,得到名词实体的特征,在文本数据的整体全局特征的基础上实现特征增强,更准确地获得语义特征。
进一步的,通过对文本数据进行关键词抽取,得到关键词的特征,在整体全局特征和名词特征的基础上再次进行特征融合实现特征的进一步细化增强,更好的融合文本数据的语义信息,并强调了关键语义信息。
进一步的,根据TF-IDF算法,计算词频TF和逆文档频率IDF,得到文本数据里面的每个词的TFIDF值,将所有词根据TF-IDF值排序得到关键词集合并返回至多10个TFIDF权重最大的关键词,来抽取出合适的关键词,以便进行语义特征增强。
进一步的,使用余弦相似度对热线文本数据进行相似度计算得到相似度结果,计算简单且准确度高,以便得到较好的相似度结果进行去重。
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
综上所述,本发明统一了数据集格式要求,通过对输入的文本数据进行整体全局特征提取得到包含基础语义信息的特征,再提取名词特征和关键词特征此局部特征,来进行特征的融合增强,兼顾了全局特征和局部特征,得到更多更丰富更关键的语义信息,以达到更准确的相似度结果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法流程示意图;
图2为本发明模型结构示意图;
图3为本发明系统结构示意图;
图4为本发明一实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种面向政务服务便民热线的文本相似度计算去重方法,获取并处理热线文本数据集;将所述的热线文本数据集导入到数据库中进行存储,并输入训练好的模型中进行特征提取,进行特征融合和特征增强,得到数据的最终特征并序列化保存;输入待计算数据到模型中提取到最终特征;与相应日期内的热线文本数据进行余弦相似度计算,得到相似度结果;输出排名top50的相似度结果,便于进行去重。本发明创新性地提出了一种针对于热线领域的热线文本相似度计算去重方法及系统,面向政务服务便民热线,通过模型将热线文本内容的最终句子特征提取出来进行相似度计算去重,还提供了外界调用的途径,可通过四个接口操作模型实现不同的模型功能,便于操作,实用性强,适用于热线领域。
请参阅图1,本发明一种面向政务服务便民热线的文本相似度计算去重方法,对热线文本数据集进行预处理,得到所需要的格式正确的数据集,然后存储到数据库中;将热线文本数据输入到模型中,使用模型对数据集里面的数据进行特征提取,并且实现特征序列化存储;对特征做相似度计算,得到数据间的相似度结果并返回;用于面向政务服务便民热线的数据集更新操作,增加一条新数据操作和删除一条数据操作;具体步骤如下:
S1、数据准备和预处理
获取热线领域各种类型的文本数据,做成所需要的数据集,其中包括工单编号,人物,地点,日期,手机号码,文本内容六列,用此数据集来作为特征向量提取模型sbert+名词实体识别+关键词提取+word2vec模型的输入;
数据集要求格式为utf-8编码的csv文件,工单编号和热线文本内容是必填属性,人物,地点,手机号码可以为空值,日期为空值时默认为0000-00-00。文本内容里面不要有英文逗号‘,’使用中文逗号‘,’文本内容里面不要换行,不要有换行符\n,空值使用None填充,日期使用YYYY-MM-DD格式或者YYYYMMDD格式。
S2、数据输入初始化
将上述热线文本数据集导入到mysql数据库中,并输入到预训练好的模型中,结合去停用词和自定义词库进行初始化,提取特征,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,实现特征增强和特征融合,得到每一条热线文本数据的文本特征向量并保存起来;
mysql数据库的表设计为六个字段,对应数据集的六个属性,ORDER_NO字段限制最大长度为30个字符,PERSON字段限制最大长度为10个字符,S_DATE格式为YYYY-MM-DD或者YYYYMMDD,LOCATION字段限制最大长度为70个字符,PHONE字段限制最大长度为2个字符,CALLER_CONTENT字段限制最大长度为1000个字符。
传入数据集所在路径,自动登入数据库并存储热线数据,所有数据的存储完成后,会将所有热线数据的文本内容输入到预训练好的特征向量提取模型sbert+名词实体识别+关键词提取+word2vec模型中进行初始化得到文本的最终特征向量并将所有热线文本的特征向量实现序列化保存。
预训练好的模型为sbert+名词实体识别+关键词提取+word2vec,对word2vec模型使用热线文本数据集进行训练得到词向量的embedding,去停用词和自定义词库可自行修改,具有热线领域中较好的可拓展性,能够进行泛化。
请参阅图1和图2,输入sentence句子到模型中,对于热线文本数据集,sbert模型使用平均池化策略,将均值后的向量作为sentence embedding句向量Vs,得到全局特征,word2vec获得名词的词向量Noun embeddingVn,TFIDF算法获得关键词的词向量KeywordembeddingVk,得到局部特征,将名词词向量Vn和关键词词向量Vk进行平均,再和句向量Vs进行平均,实现特征融合与特征增强,得到最后的句向量final embeddingVn×d,其中,n为热线文本数据集中的数据量,d为向量维度,设置为512,并将所有热线文本数据的句向量都进行序列化保存。
对所有特征向量进行序列化保存,使用pickle模块dump序列化所有计算出来的文本数据的特征向量,将结果数据流写入到文件对象中并以二进制的形式序列化进行长期存储,使用load反序列化对象,还原所有文本的特征向量。
使用命名实体识别识别出热线文本中的所有实体,通过自定义词典可识别出正确的实体,并抽取出所有名词实体,进行特征增强。
使用TF-IDF算法进行关键词提取,TF(词频)和IDF(逆文档频率)计算公式如下:
Figure BDA0003673308820000091
Figure BDA0003673308820000092
其中,IDF值的计算通过语料库得出,IDF的文本语料库使用热线文本语料库进行训练,得到每个词的IDF值,输入待提取关键词的文本,计算得到词频TF,得到最终的TF-IDF值。
TF-IDF值具体为:
TF-IDF=TF×IDF
将所有词排序得到关键词集合并返回10个TFIDF权重最大的关键词,实现热线文本的再一次特征增强。
S3、提取新文本的特征,输入一条新的热线文本,用训练好的模型获得文本的最终特征向量;
通过相似度计算接口,从外界向模型内传入一条新的热线文本数据,提取新热线文本的特征,具体提取方法如图2所示,得到新热线文本的最终特征向量Vnew
S4、文本相似度计算
将新文本的最终特征向量与限定日期内的所有热线文本的特征向量进行余弦相似度计算,得到文本相似度结果;
通过相似度计算,不仅从外界向特征向量提取模型sbert+名词实体识别+关键词提取+word2vec模型内传入一条新热线文本数据,也能传入开始日期和截止日期,筛选数据库中处于日期内的数据,得到待比较的数据量Ndate,将新热线文本的最终特征向量Vnew与筛选出来的数据量Ndate的特征向量
Figure BDA0003673308820000102
两两进行余弦相似度计算,得到相似度结果。
余弦相似度的计算如下:
Figure BDA0003673308820000101
其中,A为文本1的特征向量,B为文本2的特征向量,n为特征向量的维度,Ai为向量A的第i个元素,Bi为向量B的第i个元素,θ为两个向量间的夹角。
S5、Top50的相似度输出。
基于步骤S4得到的文本相似度的计算结果,将相似度排名前50的热线文本数据的工单编号和文本内容进行输出,以达到去重要求。
请参阅图3,本发明再一个实施例中,提供一种面向政务服务便民热线的文本相似度计算去重系统,该系统能够用于实现上述面向政务服务便民热线的文本相似度计算去重方法,具体的,该面向政务服务便民热线的文本相似度计算去重系统包括数据模块、第一特征模块、第二特征模块、计算模块以及相似度模块。
其中,数据模块,对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
第一特征模块,将数据模块得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
第二特征模块,提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
计算模块,从第一特征模块得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将第二特征模块得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
相似度模块,基于计算模块得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
本系统提供四个接口,包括:
数据集更新接口,用于更新热线文本数据集,传入新的热线文本数据集的路径进行更新;
相似度计算接口,用于计算一条待计算热线文本与限定日期内的所有热线文本的相似度并输出相似度排名前50的热线文本,传入一条待计算的热线文本和开始日期截止日期进行计算;
增加一条新数据接口,用于向数据库中增加一条新数据并进行特征的提取得到其特征向量序列化保存,传入一条新的热线文本,包括工单编号,人物,地点,日期,手机号码,文本内容六个属性,实现数据的增加;
删除一条数据接口,用于从数据库中删除一条数据并删除此条数据的特征向量,传入需要删除的数据的工单编号,实现数据的删除。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于文本相似度计算去重方法的操作,包括:
对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;将数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;从每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关文本相似度计算去重方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;将数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;从每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
请参阅图4,该实施例的计算机设备60包括:处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63,该计算机程序63被处理器61执行时实现实施例中的文本相似度计算去重方法,为避免重复,此处不一一赘述。或者,该计算机程序63被处理器61执行时实现实施例文本相似度计算去重系统中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备60可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图4仅仅是计算机设备60的示例,并不构成对计算机设备60的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器62可以是计算机设备60的内部存储单元,例如计算机设备60的硬盘或内存。存储器62也可以是计算机设备60的外部存储设备,例如计算机设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器62还可以既包括计算机设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实验验证
因为没有有标签的热线文本数据,所以人工标了9组groundtruth作为小部分基准热线文本数据集,用于进行模型方法的比较验证,并且对结果进行量化。具体量化方法为:在一组数据里面,选择一句热线文本作为基准,去算这组数据里面其他热线文本和这个热线文本的相似度,并且进行量化表示,表达的意思完全一样的热线文本标签设置为1,地点或者事件相似的热线文本设置为0.5,完全不相似的设置为0,排序的权重设置为,表达的意思完全一样的为0.9,比较相似的为0.5或0.3,完全不相似的为0.1,最终去计算排名中的标签和相应位置的权重的加权来量化模型,进行方法的比较,比较结果如表1所示。
表1方法对比实验量化结果
Figure BDA0003673308820000151
Figure BDA0003673308820000161
表1中每一组的量化总分是9.2分,为了更清楚的表示量化结果,用分数除以9.2得到百分比,并继续与其他模型进行对比,得到的不同模型方法的对比结果如表2所示.
表2不同模型方法的对比结果
Figure BDA0003673308820000162
本发明采用Sbert+特征+关键词(后俩平均再和sbert平均)的模型方法,表2中的实验结果表明,Sbert+特征+关键词(后俩平均再和sbert平均)的方法在热线文本数据集上表现相较于其他实验方法是最优的。
综上所述,本发明一种一种文本相似度计算去重方法、系统、介质及设备,采用了全局特征和局部特征提取出文本的语义特征,并对特征进行融合增强,加强关键语义信息,通过上述的实验表明,基于sbert的全局特征和基于名词关键词的局部特征方法相对于其他方法计算出来的文本准确度更高,表现更好。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种文本相似度计算去重方法,其特征在于,包括以下步骤:
S1、对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
S2、将步骤S1得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
S3、提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
S4、从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
S5、基于步骤S4得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
2.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S1中,数据集格式为utf-8编码的csv文件,工单编号和热线文本内容为必填属性。
3.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,输入sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中,sbert模型使用平均池化策略,将均值后的向量作为句向量Vs,得到全局特征,word2vec模型获得名词词向量Vn,通过TFIDF算法获得关键词词向量Vk,得到局部特征,将名词词向量Vn和关键词词向量Vk进行平均,再和句向量Vs进行平均,得到最后的句向量Vn×d,n为热线文本数据集中的数据量,d为向量维度,将所有热线文本数据的特征向量进行序列化保存,使用pickle模块dump序列化数据所有热线文本的特征向量,将特征向量的结果数据流写入文件对象,使用load反序列化对象,还原得到每一条热线文本数据的文本特征向量。
4.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,对文本数据进行名词实体抽取具体为:
使用命名实体识别识别出热线文本中的所有实体,通过自定义词典可识别出正确的实体,并抽取出所有名词实体,实现特征增强。
5.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,对文本数据进行关键词抽取具体为:
使用TF-IDF算法进行关键词提取,通过语料库得出逆文档频率IDF值,使用热线文本语料库对逆文档频率IDF的文本语料库进行训练,得到每个词的IDF值,输入待提取关键词的文本,计算得到词频TF,得到最终的TF-IDF值,将所有词排序得到关键词集合并返回10个TFIDF权重最大的关键词,实现热线文本的特征增强。
6.根据权利要求5所述的文本相似度计算去重方法,其特征在于,词频TF和逆文档频率IDF具体为:
Figure FDA0003673308810000021
Figure FDA0003673308810000022
7.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S4中,两个文本间的余弦相似度similarity计算如下:
Figure FDA0003673308810000023
其中,A为文本1的特征向量,B为文本2的特征向量,n为特征向量的维度,Ai为向量A的第i个元素,Bi为向量B的第i个元素,θ为两个向量间的夹角。
8.一种文本相似度计算去重系统,其特征在于,包括:
数据模块,对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
第一特征模块,将数据模块得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
第二特征模块,提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
计算模块,从第一特征模块得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将第二特征模块得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
相似度模块,基于计算模块得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
CN202210612069.4A 2022-05-31 2022-05-31 一种文本相似度计算去重方法、系统、介质及设备 Active CN114818986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612069.4A CN114818986B (zh) 2022-05-31 2022-05-31 一种文本相似度计算去重方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612069.4A CN114818986B (zh) 2022-05-31 2022-05-31 一种文本相似度计算去重方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN114818986A true CN114818986A (zh) 2022-07-29
CN114818986B CN114818986B (zh) 2024-09-17

Family

ID=82519143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612069.4A Active CN114818986B (zh) 2022-05-31 2022-05-31 一种文本相似度计算去重方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN114818986B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689503A (zh) * 2022-08-15 2023-02-03 江苏北辰知识产权事务所有限公司 多端项目协作系统及其信息共建方法
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
WO2021169186A1 (zh) * 2020-02-29 2021-09-02 上海爱数信息技术股份有限公司 文本查重方法、电子设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376352A (zh) * 2018-08-28 2019-02-22 中山大学 一种基于word2vec和语义相似度的专利文本建模方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
WO2021169186A1 (zh) * 2020-02-29 2021-09-02 上海爱数信息技术股份有限公司 文本查重方法、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李凡;白尚旺;党伟超;潘理虎;: "基于Do-Bi-LSTM模型的电子政务文本相似度评估模型", 计算机与现代化, no. 07, 15 July 2020 (2020-07-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689503A (zh) * 2022-08-15 2023-02-03 江苏北辰知识产权事务所有限公司 多端项目协作系统及其信息共建方法
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN116167455B (zh) * 2022-12-27 2023-12-22 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114818986B (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN105095204B (zh) 同义词的获取方法及装置
CN114818986A (zh) 一种文本相似度计算去重方法、系统、介质及设备
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN112183111B (zh) 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN111444712B (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN110738059A (zh) 一种文本相似度计算方法及系统
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
WO2022095370A1 (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN110362656A (zh) 一种语义要素提取方法及装置
CN111401034A (zh) 文本的语义分析方法、语义分析装置及终端
CN117828042A (zh) 用于金融服务的问答处理方法、装置、设备及介质
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112749256A (zh) 文本处理方法、装置、设备及存储介质
CN114462378A (zh) 科技项目查重方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant