CN116932735A - 一种文本比对方法、装置、介质和设备 - Google Patents
一种文本比对方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN116932735A CN116932735A CN202310821566.XA CN202310821566A CN116932735A CN 116932735 A CN116932735 A CN 116932735A CN 202310821566 A CN202310821566 A CN 202310821566A CN 116932735 A CN116932735 A CN 116932735A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- database
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims description 89
- 238000013507 mapping Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供一种文本比对方法、装置、介质和设备,所述方法包括:根据待查重的第一文本,从数据库中获取第二文本集合;基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本。基于上述方法,能够在保证文本比对精度的同时,提高文本比对效率。
Description
技术领域
本说明书涉及电数字数据处理技术领域,尤其涉及一种文本比对方法、装置、介质和设备。
背景技术
现如今,当用户存在内容比对需求(例如查询某些内容、或者进行论文查重时,均需要将文本与数据库中的存储的文本内容进行比对)时。为了保证比对结果的精确度,现有技术中通常是将文本与数据库中的每个文本进行比对,来得到比对结果。
然而,当数据库中的文本较多时,现有技术中与每个文本进行比对的方式显然比较缓慢,因此,需要一种在保证比对结果的精确度的同时,能够提高文本比对效率的方案。
发明内容
为克服相关技术中存在的问题,本说明书提供了一种文本比对方法、装置、介质和设备。
根据本说明书实施例的第一方面,提供一种文本比对方法,包括:
根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
根据本说明书实施例的第二方面,提供一种文本比对装置,所述装置包括:
获取模块,用于根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
匹配模块,用于基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
根据本说明书实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面提供的实施例中任一所述文本比对方法的步骤。
根据本说明书实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器被配置为执行如第一方面提供的实施例中任一所述文本比对方法的步骤。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,通过待查重的第一文本,能够对数据库中的文本进行初步筛选,得到与第一文本的相似度满足预设相似条件的第二文本。通过第一神经网络将第一文本与第二文本进行语义匹配的方式,得到目标第二文本。通过上述方式,一方面在比对时仅需要将第一文本与第二文本比对即可,不需要与数据库中的所有文本进行比对,另一方面基于神经网络进行比对时能够提高比对精度,有助于在保证比对精度的同时,提高比对效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1示出了本说明书实施例提供的一种文本比对方法的流程图。
图2示出了本说明书实施例提供的另一种文本比对方法的流程图。
图3示出了本说明书实施例提供的一种文本比对装置的结构示意图。
图4是本说明书根据一示例性实施例示出的一种文本比对装置所在计算机设备的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
互联网技术的发展伴随着大量文本信息的产生,互联网用户通过文本数据进行信息的传递与获取。然而,这些文本中常常存在大量重复内容,为文本信息平台(如社区、论坛等)的发展带来不良影响,文本查重技术应运而生。
以汽车论坛为例,汽车论坛为用户提供信息交互的平台,用户在汽车论坛上分享对某个车型的分析、汽车技术讨论、购买指南等若干帖子。有的用户为了提高自己账号和文章的曝光度,会复制、盗用别的用户的高质量文章重新发布到汽车论坛中。这就会导致被盗用文章的用户不喜欢在该汽车论坛继续发帖,其他用户在汽车论坛中反复看到相同的内容,这会降低汽车论坛中的用户活跃度。
为了避免上述问题,需要对汽车论坛中的文章进行查重处理。现有技术中:通常是判断不同文本片段之间字符序列的一致性,来达到查重的目的,如论文查重等场景。
然而,当数据库中的文本较多时,对文本进行查重时需要将数据库中的每个文本进行比对,导致目标文本的查重效率将会极低;并且,如果想要提高文本的比对精度的话,会进一步降低查重效率。因此,需要一种在保证比对结果的精确度的同时,能够提高文本比对效率的方案。
接下来对本说明书实施例进行详细说明。
图1示出了本说明书实施例提供的一种文本比对方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101,根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
待查重的第一文本可以是用户在数据库中指定的文本,也可以是按照特定查重顺序或者查重方案自动确定的,还可以是新传输到数据库中的文本。
从数据库中获取满足预设相似条件的第二文本,得到第二文本集合。预设相似条件可以是:两个文本的文字重合度达到第一阈值,或者两个文本的关键词相同、两个文本的文字序列的重合度达到第二阈值,或者两个文本的相似度达到第三阈值等等。
示例性的,获取方法包括:
步骤1011,根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本。
确定出第一文本之后,自动确定第一文本对应的第一类别,第一类别可以是第一文本中的关键词,也可以是预先为第一文本设置的标签,第一类别可以是一个、也可以是多个。例如当第一文本是汽车相关的文本时,第一类别可以是:“提车”、“商城”、“充电”、“指南”、“车型选择”、“新能源”等等。
通过第一类别,能够从数据库中查询得到同样归属于第一类别的至少一个第三文本,从而完成对数据库中文本的初步筛选,这样不需要将第一文本与数据库中的每个文本进行比对。
其中,所述数据库中存储有预先生成的若干个文本类别,所述若干个文本类别中至少包括所述第一类别。在执行步骤1011中根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本之前,所述方法还包括:
基于第二神经网络确定所述数据库中的每个文本对应的至少一个文本类别;在所述数据库中存储每个所述文本与所述文本类别之间的第一映射关系。
其中,数据库中存储的若干个文本类别,可以是工作人员经过人工观察、基于业务场景对文本类型划分得到的,也可以是基于数据库中存储的若干文本自动提取文本特征、关键词得到的。第二神经网络是预先训练的用于自动确定每个文本的文本类别的神经网络,能够根据预先存储的文本类别自动为数据库中的每个文本确定出文本类别。另外,由于预先存储的若干个文本类别可能是有限的,因此第二神经网络可以自动生成其他的文本类别,例如,如果文本的文本类别并不是预先存储的若干个文本类别(认为这个文本的文本类别不能识别),可以自动生成一个“其他类别”,并将不能识别的文本的文本类别确定为“其他类别”。或者,还可以提取关键词、或者文本特征作为这个不能识别的文本的文本类别。
此处,确定若干个文本类别的方式还可以是:基于分类、聚类技术将数据库中的文本归类到多个文本类别;或者是基于主题词抽取技术辅助构建关键词库,从而根据关键词库中的关键词生成文本类别。
第一映射关系如表1所示:
表1:
第一类别 | 第二类别 | 第三类别 | 第四类别 |
文本一 | 文本四 | 文本一 | 文本二 |
文本二 | 文本五 | 文本四 | 文本七 |
文本三 | 文本六 | 文本六 | 文本八 |
步骤1012,将所述第一文本与所述至少一个第三文本进行相似度计算,从所述至少一个第三文本中确定所述第二文本,得到所述第二文本集合。
在根据步骤1011确定出至少一个第三文本之后,计算第一文本与各个第三文本之间的相似度,从而根据计算的相似度结果确定出相似度数值高的前K个第三文本(K是是预先设置的正整数),作为第二文本,得到包含K个第二文本的第二文本集合。
步骤102,基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
第一神经网络可以是用于进行语义相似度计算的模型,从而针对每个第二文本,都能够对第一文本和第二文本进行语义匹配,得到语义匹配结果,根据语义匹配结果的数值高低,确定前M个语义匹配结果高的目标第二文本(M是预先设置的正整数)。这样,能够得到与第一文本的相似度较高的目标第二文本,从而完成查重。
本说明书实施例中,通过待查重的第一文本,能够对数据库中的文本进行初步筛选,得到与第一文本的相似度满足预设相似条件的第二文本。通过第一神经网络将第一文本与第二文本进行语义匹配的方式,得到目标第二文本。通过上述方式,一方面在比对时仅需要将第一文本与第二文本比对即可,不需要与数据库中的所有文本进行比对,另一方面基于神经网络进行比对时能够提高比对精度,有助于在保证比对精度的同时,提高比对效率。
在一个可行的实施方案中,在执行步骤1012将所述第一文本与所述至少一个第三文本进行相似度计算时,包括:
步骤1021,获取所述第一文本与所述第三文本对应的若干第一向量特征;计算所述第一文本的第一向量特征与每个所述第三文本的第一向量特征之间的差异程度。
数据库中预先存储有第一文本和第三文本分别对应的第一向量特征,通过计算第一文本的第一向量特征与每个第三文本的第一向量特征之间的差异程度,能够确定出第一文本与每个第三文本之间的相似度。
例如,可以计算第一文本的第一向量特征与第三文本的第一向量特征之间的欧式距离(L2距离),公式如下:
上述公式(1)中,xi、xj分别代表第一文本的第一向量特征、以及其中一个第三文本的第一向量特征;n是第一向量特征的总维度数量(每个第一向量特征的维度数量相同);l是n个总维度数量中的其中一个维度;分别是第一文本的第l个维度的第一向量特征、以及第三文本的第l个维度的第一向量特征。
在执行步骤102基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配时,包括:
步骤1022,获取基于所述第一神经网络转换得到的若干第二向量特征;所述若干第二向量特征分别与所述第一文本和所述第二文本对应;基于所述第一文本的第二向量特征与所述第二文本的第二向量特征,计算所述第一文本与每个所述第二文本之间的语义相似度。
其中,第一神经网络例如可以是:SimCSE模型(Simple Contrastive Learning ofSentence Embeddings,一种无监督文本向量抽取模型)。第一神经网络将数据库中的文本分别转换为第二向量特征,得到至少包括第一文本的第二向量特征,以及第二文本对应的第二向量特征。
示例性的,计算语义相似度的方法可以是余弦相似度计算,公式如下:
上述公式(2)中,similarity是语义匹配结果的数值,θ是两个第二向量特征之间的夹角(第一文本的第二向量特征A与第二文本的第二向量特征B之间的夹角),m是第二向量特征的总维度数量(每个第二向量特征的总维度数量相同),r是指第二向量特征的m个总维度数量中的其中一个维度。Ar、Br分别是第一文本的第r维度的第二向量特征、以及第二文本的第r个维度的第二向量特征。
通过上述方式,能够先通过第三神经网络计算第一文本与第三文本对应的第一向量特征之间的差异程度,来进行模糊相似度匹配;然后再通过第一神经网络计算第一文本与第二文本对应的第二向量特征之间的语义匹配的结果,来进行精确的语义相似度匹配。
在一个可行的实施方案中,所述若干第一向量特征是基于第三神经网络转换得到的。例如,第三神经网络例如可以是word2vec模型(一群用来产生词向量的相关模型)。
所述方法还包括以下步骤:
步骤1031,按照预设周期将更新的文本存储到所述数据库中。
预设周期例如可以设定为:一天、一周、一个月、两个月等等。更新的文本可以是从一些公共平台(例如汽车论坛、交友论坛、信息分享平台)中收集到的,例如可以是从汽车论坛中收集的此次预设周期内的所有文本,作为更新的文本。
步骤1032,基于所述更新的文本对所述第一神经网络和/或第三神经网络进行优化训练。
当检测到数据库中有更新的文本时,基于这些更新的文本对第一神经网络和/或第三神经网络进行一些优化训练。例如可以是根据更新的文本对第一神经网络和/或第三神经网络进行增量式训练,从而能够根据更新的文本中的文本特征适应性的优化神经网络的结构和网络参数等。
通过上述方法,尤其是数据库与某个业务平台关联时,业务平台中产生的参数会定期更新到数据库中,从而保证神经网络的网络参数是能够与业务平台中的数据逐步更新和优化的,使得神经网络更加贴合、熟悉该业务平台的文本风格,能够更好满足来自于这个业务平台的待查重文本的文本比对需求。
需要注意的是,在对第一神经网络和/或第三神经网络进行增量式训练时,可以采用参数搜索的方式进行自动训练,也即预先设定多个不同的超参数(例如超参数1、超参数2、超参数3等),并为每个超参数设置多个不同的值,将这些超参数按照排列组合的方式生成多种组合方式,基于这多种组合方式对神经网络进行训练,进行超参数搜索,最终保留最优的一种组合方式中的超参数的数值,作为训练结果。
在一个可行的实施方案中,图2示出了本说明书实施例提供的另一种文本比对方法的流程图,如图2所示,在执行步骤1021:获取所述第一文本与所述第三文本对应的若干第一向量特征之前,所述方法还包括:
步骤201,基于所述第三神经网络,将所述数据库中的文本分别转换为对应的第一向量特征;建立所述第一向量特征与所述第一向量特征对应的文本之间的第二映射关系。
其中,当第三神经网络是word2vec模型时,第三神经网络在将数据库中的文本转换成对应的第一向量特征之前,为了提高向量特征的转换精度,可以对文本进行分词处理,并使用word2vec模型获取每个词的向量表征,采用mean-pooling(平均池化)的方式得到这个文本的第一向量特征。
得到第一向量特征之后,为每个文本建立文本与第一向量特征之间的第二映射关系。
在执行步骤1022:获取基于所述第一神经网络转换得到的若干第二向量特征之前,所述方法还包括:
步骤202,基于所述第一神经网络,将所述数据库中的文本分别转换为对应的第二向量特征;建立所述第二向量特征与所述第二向量特征对应的文本之间的第三映射关系。
其中,当第一神经网络是SimCSE模型时,第一神经网络是通过无监督学习的方式训练得到的(根据数据库中的文本,为第一神经网络构建正负训练样本,正负样本的数量比例可以根据用户的需求设置)训练成功后第一神经网络能够将数据库中的文本分别转换为对应的第二向量特征(也即SimCSE模型抽取得到的语义向量表征)。
得到第二向量特征之后,为每个文本建立文本与第二向量特征之间的第三映射关系。
步骤203,将所述第二映射关系与所述第三映射关系保存到所述数据库中。
通过预先将第二映射关系和第三映射关系保存到数据库中,能够在想要进行相似度计算时直接调用第二映射关系中每个文本对应的第一向量特征,以及调用第三映射关系中每个文本对应的第二向量特征,不需要在文本比对时进行向量特征的转换,有助于提高比对效率。
需要注意的是,为了提高转换得到的第一向量特征和第二向量特征的的精度,还可以在转换之前,对文本进行预处理,包括但不限于:去除文本中的图片、视频超链接、表情符号等噪声、对文本进行校正、过滤掉字符过少(例如20个字符)的文本等等。
还需要注意的是,第三神经网络还可以是使用多层感知机对计算复杂度低的模型进行训练得到的,用来对第一文本和第三文本之间进行模糊匹配。
在一个可行的实施方案中,在执行步骤102从所述各个第二文本中确定出目标第二文本之后,所述方法还包括:
将所述目标第二文本按照所述语义匹配的结果进行排序,得到相似度序列;所述相似度序列用于表示每个所述目标第二文本的顺序、以及所述目标第二文本与所述第一文本之间的语义匹配的相似度数值;向显示终端发送所述相似度序列。
其中,在根据步骤102获取到目标第二文本之后,每个目标第二文本与第一文本之间的语义匹配的结果是确定的。
例如,语义匹配结果为如表2所示:
表2:
目标第二文本一 | 语义匹配结果:90 |
目标第二文本二 | 语义匹配结果:99 |
目标第二文本三 | 语义匹配结果:87 |
其中,语义匹配结果用于表好似第一文本与目标第二文本之间进行语义匹配的相似度数值。那么,得到的相似度序列如表3所示:
表3:
1 | 目标第二文本二 | 语义匹配结果:99 |
2 | 目标第二文本一 | 语义匹配结果:90 |
3 | 目标第二文本三 | 语义匹配结果:87 |
将表3中示出的相似度序列发送给显示终端,以便让用户在显示终端中看到与待查重的第一文本最相似的目标第二文本。
在一个可行的实施方案中,图3示出了本说明书实施例提供的一种文本比对装置的结构示意图,如图3所示,所述装置包括:
获取模块301,用于根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
匹配模块302,用于基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
在一个可行的实施方案中,所述获取模块301在用于根据待查重的第一文本,从数据库中获取第二文本集合时,用于:
根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本。
将所述第一文本与所述至少一个第三文本进行相似度计算,从所述至少一个第三文本中确定所述第二文本,得到所述第二文本集合。
在一个可行的实施方案中,所述获取模块301在用于将所述第一文本与所述至少一个第三文本进行相似度计算时,用于:
获取所述第一文本与所述第三文本对应的若干第一向量特征。
计算所述第一文本的第一向量特征与每个所述第三文本的第一向量特征之间的差异程度。
所述匹配模块302在用于基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配时,包括:
获取基于所述第一神经网络转换得到的若干第二向量特征;所述若干第二向量特征分别与所述第一文本和所述第二文本对应。
基于所述第一文本的第二向量特征与所述第二文本的第二向量特征,计算所述第一文本与每个所述第二文本之间的语义相似度。
在一个可行的实施方案中,所述数据库中存储有预先生成的若干个文本类别,所述若干个文本类别中至少包括所述第一类别;所述装置还包括:
类别确定模块,用于在所述根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本之前,基于第二神经网络确定所述数据库中的每个文本对应的至少一个文本类别。
第一映射模块,用于在所述数据库中存储每个所述文本与所述文本类别之间的第一映射关系。
在一个可行的实施方案中,所述若干第一向量特征是基于第三神经网络转换得到的;所述装置还包括:
更新模块,用于按照预设周期将更新的文本存储到所述数据库中。
训练模块,用于基于所述更新的文本对所述第一神经网络和/或第三神经网络进行优化训练。
在一个可行的实施方案中,所述装置还包括:
第一转换模块,用于在所述获取所述第一文本与所述第三文本对应的若干第一向量特征之前,基于所述第三神经网络,将所述数据库中的文本分别转换为对应的第一向量特征。
第二映射模块,用于建立所述第一向量特征与所述第一向量特征对应的文本之间的第二映射关系。
第二转换模块,用于在所述获取基于所述第一神经网络转换得到的若干第二向量特征之前,基于所述第一神经网络,将所述数据库中的文本分别转换为对应的第二向量特征。
第三映射模块,用于建立所述第二向量特征与所述第二向量特征对应的文本之间的第三映射关系。
存储模块,用于将所述第二映射关系与所述第三映射关系保存到所述数据库中。
在一个可行的实施方案中,所述装置还包括:
数值确定模块,用于在所述从所述各个第二文本中确定出目标第二文本之后,将所述目标第二文本按照所述语义匹配的结果进行排序,得到相似度序列;所述相似度序列用于表示每个所述目标第二文本的顺序、以及所述目标第二文本与所述第一文本之间的语义匹配的相似度数值。
发送模块,用于向显示终端发送所述相似度序列。
本说明书实施例中,通过待查重的第一文本,能够对数据库中的文本进行初步筛选,得到与第一文本的相似度满足预设相似条件的第二文本。通过第一神经网络将第一文本与第二文本进行语义匹配的方式,得到目标第二文本。通过上述方式,一方面在比对时仅需要将第一文本与第二文本比对即可,不需要与数据库中的所有文本进行比对,另一方面基于神经网络进行比对时能够提高比对精度,有助于在保证比对精度的同时,提高比对效率。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图4是本说明书根据一示例性实施例示出的一种文本比对装置所在计算机设备的一种硬件结构图,该设备可以包括:处理器401、存储器402、输入/输出接口403、通信接口404和总线405。其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。
处理器401可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的文本比对方法。
存储器402可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器402可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器402中,并由处理器401来调用执行。
输入/输出接口403用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口404用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线405包括一通路,在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器401、存储器402、输入/输出接口403、通信接口404以及总线405,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本说明书实施例提供的任一所述的文本比对方法的步骤。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
Claims (10)
1.一种文本比对方法,其特征在于,包括:
根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件;
基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
2.根据权利要求1所述的方法,其特征在于,所述根据待查重的第一文本,从数据库中获取第二文本集合,包括:
根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本;
将所述第一文本与所述至少一个第三文本进行相似度计算,从所述至少一个第三文本中确定所述第二文本,得到所述第二文本集合。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本与所述至少一个第三文本进行相似度计算,包括:
获取所述第一文本与所述第三文本对应的若干第一向量特征;
计算所述第一文本的第一向量特征与每个所述第三文本的第一向量特征之间的差异程度;
所述基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,包括:
获取基于所述第一神经网络转换得到的若干第二向量特征;所述若干第二向量特征分别与所述第一文本和所述第二文本对应;
基于所述第一文本的第二向量特征与所述第二文本的第二向量特征,计算所述第一文本与每个所述第二文本之间的语义相似度。
4.根据权利要求2所述的方法,其特征在于,所述数据库中存储有预先生成的若干个文本类别,所述若干个文本类别中至少包括所述第一类别;
在所述根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本之前,所述方法还包括:
基于第二神经网络确定所述数据库中的每个文本对应的至少一个文本类别;
在所述数据库中存储每个所述文本与所述文本类别之间的第一映射关系。
5.根据权利要求3所述的方法,其特征在于,所述若干第一向量特征是基于第三神经网络转换得到的,所述方法还包括:
按照预设周期将更新的文本存储到所述数据库中;
基于所述更新的文本对所述第一神经网络和/或第三神经网络进行优化训练。
6.根据权利要求5所述的方法,其特征在于,在所述获取所述第一文本与所述第三文本对应的若干第一向量特征之前,所述方法还包括:
基于所述第三神经网络,将所述数据库中的文本分别转换为对应的第一向量特征;
建立所述第一向量特征与所述第一向量特征对应的文本之间的第二映射关系;
在所述获取基于所述第一神经网络转换得到的若干第二向量特征之前,所述方法还包括:
基于所述第一神经网络,将所述数据库中的文本分别转换为对应的第二向量特征;
建立所述第二向量特征与所述第二向量特征对应的文本之间的第三映射关系;
将所述第二映射关系与所述第三映射关系保存到所述数据库中。
7.根据权利要求1所述的方法,其特征在于,在所述从所述各个第二文本中确定出目标第二文本之后,所述方法还包括:
将所述目标第二文本按照所述语义匹配的结果进行排序,得到相似度序列;所述相似度序列用于表示每个所述目标第二文本的顺序、以及所述目标第二文本与所述第一文本之间的语义匹配的相似度数值;
向显示终端发送所述相似度序列。
8.一种文本比对装置,其特征在于,所述装置包括:
获取模块,用于根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件;
匹配模块,用于基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任一所述方法的步骤。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1-7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310821566.XA CN116932735A (zh) | 2023-07-05 | 2023-07-05 | 一种文本比对方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310821566.XA CN116932735A (zh) | 2023-07-05 | 2023-07-05 | 一种文本比对方法、装置、介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932735A true CN116932735A (zh) | 2023-10-24 |
Family
ID=88379885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310821566.XA Pending CN116932735A (zh) | 2023-07-05 | 2023-07-05 | 一种文本比对方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932735A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172220A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
-
2023
- 2023-07-05 CN CN202310821566.XA patent/CN116932735A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172220A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
CN117172220B (zh) * | 2023-11-02 | 2024-02-02 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN108536807B (zh) | 一种信息处理方法及装置 | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN116932735A (zh) | 一种文本比对方法、装置、介质和设备 | |
CN114782054A (zh) | 基于深度学习算法的客服服务质量检测方法及相关设备 | |
CN115273815A (zh) | 语音关键词检测的方法、装置、设备及存储介质 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN110929285B (zh) | 一种隐私数据的处理方法及装置 | |
CN116645956A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115455142A (zh) | 文本检索方法、计算机设备和存储介质 | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
CN112131409A (zh) | 核保方法、装置、设备、系统及存储介质 | |
CN111950615A (zh) | 一种基于树种优化算法的网络故障特征选择方法 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN112396078A (zh) | 一种服务分类方法、装置、设备及计算机可读存储介质 | |
JP7367139B2 (ja) | データ検索方法及びシステム | |
CN113836289B (zh) | 一种实体演进规律推荐方法及装置 | |
CN111191034B (zh) | 人机交互方法、相关设备及可读存储介质 | |
US20220156618A1 (en) | Ensemble classification algorithms having subclass resolution | |
CN118444931A (zh) | 模型部署方法、电子设备及可读存储介质 | |
CN118132690A (zh) | 虚假新闻检测方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |