CN112560444A - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112560444A CN112560444A CN201910918594.7A CN201910918594A CN112560444A CN 112560444 A CN112560444 A CN 112560444A CN 201910918594 A CN201910918594 A CN 201910918594A CN 112560444 A CN112560444 A CN 112560444A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- similarity
- processed
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取待处理的文本集合,从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。基于标题相似度和正文相似度两个方面对两个文本是否相似进行判定,这样可以提高文本相似判定的准确度。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展与广泛传播,数据呈爆炸式增长。数据分析师工作时,需要阅读大量文本。这些文本爬取于网络,而对于同样的事情,不同人有不同的描述方法。因此,这些文本中,有些文本之间仅有一些词语不同,但是内容是相似的。而阅读文本时,大量相似但不相同的内容给用户造成时间和精力的损耗。
因此,需要对杂乱的海量文本基于相似度进行排序,以节省用户的时间,从而提高阅读效率。而传统的文本处理方法,一般通过人工快速粗略阅读文本进行相似判别,存在文本相似判定准确度低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确度的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取待处理的文本集合;
从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
在一个实施例中,所述方法还包括:
在当前选取的两个文本未携带标题文本的情况下,获取当前选取的两个文本中正文文本之间的正文相似度,当所述正文相似度大于预设第三阈值时,判定当前选取的两个文本相似;
将相似的文本标记为同一类别的文本。
在一个实施例中,所述获取当前选取的两个文本中标题文本之间的标题相似度,包括:
对对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;
根据所述词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个标题文本之间的标题相似度。
在一个实施例中,所述获取当前选择的两个文本中正文文本之间的正文相似度,包括:
对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;
根据所述关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个正文文本之间的正文相似度。
在一个实施例中,所述对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典包括:
对所述待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;
提取所述多个语句中的关键词,并将提取的关键词合并,获得与所述文本对应的关键词列表;
统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
在一个实施例中,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合;
当所述原始待处理的文本集合的数据量大于预设阈值时,对所述原始待处理的文本集合进行数据块划分,获得多个数据块,以一个所述数据块作为一个待处理文本集合。
在一个实施例中,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合以及品牌词列表;
当所述品牌词列表为空时,将所述原始待处理的文本集合分组至同一预设类别;
当所述品牌词列表不为空时,根据标题文本包含的品牌词,对所述原始待处理的文本集合进行分组;
以一个分组对应的文本集合作为一个待处理的文本集合。
在一个实施例中,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合以及相似度计算区域,所述相似度计算区域用于指示对所述原始待处理的文本集合进行相似度计算的范围;
根据所述相似度计算区域对所述原始待处理文本集合进行筛选,获得待处理的文本集合。
一种文本处理装置,所述装置包括:
文本集合获取模块,用于获取待处理的文本集合;
文本选取模块,用于从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
相似度获取模块,用于在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
相似判定模块,用于当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的文本集合;
从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理的文本集合;
从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
上述文本处理方法、装置、计算机设备和存储介质,通过获取待处理的文本集合,从文本集合中每次选取两个文本,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似,基于标题相似度和正文相似度两个方面对两个文本是否相似进行判定,这样可以提高文本相似判定的准确度。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为另一个实施例中文本处理方法的流程示意图;
图4为一个实施例中标题相似度计算步骤的流程示意图;
图5为一个实施例中正文相似度计算步骤的流程示意图;
图6为一个实施例中文本处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。用户输入待处理的文本集合,数据处理终端获取待处理的文本集合从文本集合中每次选取两个文本,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。其中,数据处理终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的数据处理终端为例进行说明,包括以下步骤:
步骤202,获取待处理的文本集合。
待处理的文本集合是指杂乱无序的文本集合,比如从网络上爬取到的微信文章、微博文本等。
步骤204,从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对。
步骤206,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度。
在当前选取的两个文本携带标题文本的情况下,比如微信文章包含标题文本和正文文本,计算两个文本中标题文本之间的标题相似度以及两个文本中正文文本之间的正文相似度。以待处理文的本集合包括文本1、文本2和文本3为例,文本1包括标题1和正文1,文本2包括标题2和正文2,文本3包括标题3和正文3。分别计算三个文本两两之间的相似度,即计算得到的标题相似度包括标题1与标题2之间的相似度、标题1与标题3之间的相似度,标题2与标题3之间的相似度;计算得到的正文相似度包括正文1与正文2之间的相似度,正文1与正文3之间的相似度,正文2与正文3之间的相似度。
步骤208,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
对于文本1和文本2是否相似的判断:当标题1与标题2之间的相似度大于预设第一阈值、且正文1与正文2之间的相似度大于预设第二阈值,判定文本1与文本2相似;否则,文本1和文本2不相似。对于文本1和文本3是否相似的判断:当标题1与标题3之间的相似度大于预设第一阈值、且正文1与正文3之间的相似度大于预设第二阈值,判定文本1与文本3相似;否则,文本1和文本3不相似。对于文本2和文本3是否相似的判断:当标题2与标题3之间的相似度大于预设第一阈值、且正文2与正文3之间的相似度大于预设第二阈值,判定文本2与文本3相似;否则,文本2和文本3不相似。具体地,预设第一阈值为0.7,预设第二阈值为0.5。
上述文本处理方法,通过获取待处理的文本集合,从文本集合中每次选取两个文本,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似,基于标题相似度和正文相似度两个方面对两个文本是否相似进行判定,这样可以提高文本相似判定的准确度。
在一个实施例中,如图3所示,文本处理方法还包括:在当前选取的两个文本未携带标题文本的情况下,步骤306,获取当前选取的两个文本中正文文本之间的正文相似度,当正文相似度大于预设第三阈值时,判定当前选取的两个文本相似;步骤308,将相似的文本标记为同一类别的文本。在当前选取的两个文本未携带标题文本的情况下,比如只包含正文文本、不包含标题文本的微博文本,计算两个文本的正文文本之间的正文相似度。以待处理的文本集合包括文本A、文本B、文本C为例,文本A包括正文A,文本B包括正文B,文C包括正文C。分别计算三个文本两两之间的相似度,即计算得到的正文相似度包括正文A与正文B之间的相似度,正文A与正文B之间的相似度,正文B与正文C之间的相似度。
对于文本A和文本B是否相似的判断:当正文A与正文B之间的相似度大于预设第三阈值,判定文本A与文本B相似;否则,文本A和文本B不相似。对于文本A和文本C是否相似的判断:当正文A与正文C之间的相似度大于预设第三阈值,判定文本A与文本C相似;否则,文本A和文本C不相似。对于文本B和文本C是否相似的判断:当正文B与正文C之间的相似度大于预设第三阈值,判定文本B与文本C相似;否则,文本B和文本C不相似。具体地,预设第三阈值为0.65。
待处理的文本集合中每一个文本属于独立的一个类,通过相似度计算文本之间的相似度,将相似的文本划分至同一类中。以待处理文本集合包括文本1、文本2、文本3为例,通过相似度计算得到文本1与文本2相似,文本1与文本3不相似,文本2与文本3不相似,此时,将文本1和文本2标记为同一类,而文本3则标记为另一类。
上述文本集合处理方法,在当前选取的两个文本携带标题文本的情况下,获取两个文本中标题文本之间的标题相似度以及两个文本中正文文本之间的正文相似度;当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本集合相似;在当前选取的两个文本未携带标题文本的情况下,获取两个文本中正文文本之间的正文相似度;当正文相似度大于预设第三阈值时,判定当前选取的两个文本集合相似;将相似的文本集合标记为同一类别的文本集合;这样实现了从不同的角度进行文本相似的判别,能够根据需求处理不同类型的文本。
本发明的文本相似度判断在文本检索和文本推荐等领域都有很大的应用价值。确定文本之间的相似度是这些领域中的上游任务,其对于下游的文本处理任务提供数据支持,如果文本相似度判断不准确,则会进一步影响文本处理效果。例如,在文本推荐的领域中,用户阅读某篇文本后,可以为其推荐内容相似的其他文本。根据用户所阅读的文本,在海量文本中查找相似的目标文本,将该目标文本推荐给用户。本发明能够让对用户推送的文本更加准确,符合用户的偏好。再例如,在论文网站也可以根据文本相似度对论文进行聚类和管理,相似度的判断不准确,就会导致论文的分类存在偏差,进而影响整体管理工作,本发明的方案具有较好的准确性,并且能够避免因为人工判定相似度而导致占用人力物力的问题。需要说明的是,此应用场景仅仅是示例说明,本发明提供的文本处理方案还可以应用于其他场景中。
在一个实施例中,如图4所示,获取当前选取的两个文本中标题文本之间的标题相似度,包括:步骤402,对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;步骤404,根据词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;步骤406,采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个标题文本之间的标题相似度。可以采用开源的jieba工具包对标题文本进行分词处理,收集所有标题文本的分词结果,构建词语字典。然后基于已构建的词语字典,采用one-hot编码方式将标题文本表示成向量形式。one-hot编码方式需要提供一个固定顺序的字典和一个待处理文本对应的词语列表,创建一个和字典维度相同的零向量,遍历待处理词语列表,如果待处理词语列表中的某个词语出现在字典中,则将该向量对应的索引置为1,由此实现对所有标题文本的向量化处理,这样可以确保所有的标题文本都被表示为相同维度的向量。采用余弦相似度对相似程度进行度量,余弦相似度是通过计算两个向量在空间中的夹角余弦来评估相似程度的一种方法,其取值范围在[-1,1]之间,值越大表示两个向量越相似。两个向量的余弦相似度similarity的计算公式如下:
上式中A和B表示两个向量,角标表示该向量对应的索引的值。
如果按照循环的方式计算两两向量之间的相似度,将造成极大时间和空间上的开销,因此将各个向量拼接为矩阵进行相似度计算。假设矩阵A为m*n维的矩阵,其表示m个标题文本集合,每个标题文本集合用n维向量表示。通过进行如下计算,得到相似度矩阵:
通过上式计算得到的结果即为相似度矩阵,假设aij是相似度矩阵中某值,则aij表示标题文本i与标题文本j相似度的数值。
上述文本集合处理方法,在当前选取的两个文本携带标题文本的情况下,获取两个文本中标题文本之间的标题相似度以及两个文本中正文文本之间的正文相似度;当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本集合相似,采用余弦相似度对基于文本构建的矩阵进行计算,得到相似度矩阵,基于文本自身特征采用无监督的方法进行相似度判别,不引入训练的过程,从而不需要依赖训练模型,因此,普适于各领域文本,具有较好的普适性。
在一个实施例中,如图5所示,获取当前选取的两个文本中正文文本之间的正文相似度,包括:步骤502,对待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;步骤504,根据关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;步骤506,采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个正文文本之间的正文相似度。具体地,对待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典包括:对待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;提取多个语句中的关键词,并将提取的关键词合并,获得与文本对应的关键词列表;统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
可以采用textrank的方法提取正文文本的关键词,对待处理文本按照一定规则切分为句子,对每句提取n个关键词,由此每个文本集合可以得到[句子数*n]个关键词,将一个文本集合的关键词合并,得到一个关键词列表,统计所有关键词列表中每个词语的词频,保留词频前预设名次的词语,具体比如前50000的词语,由词频前50000的词语构成关键词词典。如果将所有文本集合的关键词列表拼凑成字典,将导致字典过大,不利于计算,所以采用统计词频的方法删减,以确保字典大小。然后基于已构建的关键词字典,采用one-hot编码方式将正文文本表示成向量形式。one-hot编码方式需要提供一个固定顺序的字典和一个待处理文本对应的词语列表,创建一个和字典维度相同的零向量,遍历待处理词语列表,如果待处理词语列表中的某个词语出现在字典中,则将该向量对应的索引置为1,由此实现对所有正文文本的向量化处理,这样可以确保所有的正文文本都被表示为相同维度的向量。采用余弦相似度对相似程度进行度量,余弦相似度是通过计算两个向量在空间中的夹角余弦来评估相似程度的一种方法,其取值范围在[-1,1]之间,值越大表示两个向量越相似。两个向量的余弦相似度similarity的计算公式如下:
上式中A和B表示两个向量,角标表示该向量对应的索引的值。
如果按照循环的方式计算两两向量之间的相似度,将造成极大时间和空间上的开销,因此将各个向量拼接为矩阵进行相似度计算。假设矩阵A为m*n维的矩阵,其表示m个正文文本集合,每个正文文本集合用n维向量表示。通过进行如下计算,得到相似度矩阵:
通过上式计算得到的结果即为相似度矩阵,假设aij是相似度矩阵中某值,则aij表示正文文本i与正文文本j相似度的数值。
上述文本集合处理方法,在当前选取的两个文本携带标题文本的情况下,获取两个文本中标题文本之间的标题相似度以及两个文本中正文文本之间的正文相似度;当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本集合相似,采用余弦相似度对基于文本构建的矩阵进行计算,得到相似度矩阵,基于文本自身特征采用无监督的方法进行相似度判别,不引入训练的过程,从而不需要依赖训练模型,因此,普适于各领域文本,具有较好的普适性。
在一个实施例中,获取待处理的文本集合包括:获取原始待处理的文本集合;当原始待处理的文本集合的数据量大于预设阈值时,对原始待处理的文本集合进行数据块划分,获得多个数据块,以一个数据块作为一个待处理的文本集合。将待处理的文本集合划分为包含预设数量的多个数据块部分,比如单个数据块包含3000条文本集合,允许最后一个数据块的数据量不足3000条。通过划分数据块,在后续进行矩阵计算时,可以避免几万乘以几万的矩阵计算,保证计算速度。将文本集合分为多个数据块并行处理,可以减少运行开销,确保后续计算的开销不过大,提高执行速度。
在一个实施例中,获取待处理的文本集合,包括:获取原始待处理的文本集合以及品牌词列表;当品牌词列表为空时,将原始待处理的文本集合分组至同一预设类别;当品牌词列表不为空时,根据标题文本包含的品牌词,对原始待处理的文本集合进行分组;以一个分组对应的文本集合作为一个待处理的文本集合。读取输入的文件内容,比如读取到用户输入两个Excel表,其中一个为待处理的文本集合,另一个为品牌词列表。根据品牌词列表中的品牌词对待处理的文本集合进行分组,一个品牌词可以对应多条文本集合。如果品牌词列表为空,则所有待处理的文本集合分组至一个默认品牌。如果品牌词列表不为空,则根据品牌词以及待处理文本集合中标题进行分组,具体地,如果某个文本集合的标题文本中出现了某个品牌词,那么将该文本集合分组至该类品牌;如果某个文本集合的标题文本中包含多个品牌词,那么将该文本集合同时分组至多个品牌中。完成分组处理后,对每个品牌分组下的文本集合分别进行相似度计算。
在一个实施例中,获取待处理的文本集合,包括:获取原始待处理的文本集合以及相似度计算区域,相似度计算区域用于指示对原始待处理的文本集合进行相似度计算的范围;根据相似度计算区域对原始待处理的文本集合进行筛选,获得待处理文本集合。根据用户输入的相似度计算区域,具体可以是布尔值的形式,布尔值用于指示使用“标题+正文”还是“正文”进行文本相似度计算。如果输入的布尔值表征使用“标题文本”,那么将对标题文本进行分词处理,再构成向量的形式,计算每两个标题文本之间间的相似度,再进行正文文本的相似度计算;如果输入的布尔值表示“不使用标题文本”,那么将不执行标题文本的相似度计算,直接进行正文文本的相似度计算。这样处理便于集中计算,也即便于后续使用矩阵进行相似度计算,提高运算速度。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种文本处理装置,包括:文本集合获取模块602、文本选取模块604、相似度获取模块606和相似判定模块608。文本集合获取模块,用于获取待处理的文本集合。文本选取模块,用于从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对。相似度获取模块,用于在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度。相似判定模块,用于当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
在一个实施例中,相似度获取模块还用于对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;根据词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个标题文本之间的标题相似度。
在一个实施例中,相似度获取模块还用于对待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;根据关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个正文文本之间的正文相似度。
在一个实施例中,相似度获取模块还用于对待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;提取多个语句中的关键词,并将提取的关键词合并,获得与文本对应的关键词列表;统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
在一个实施例中,文本集合获取模块还用于获取原始待处理的文本集合;当原始待处理的文本集合的数据量大于预设阈值时,对原始待处理的文本集合进行数据块划分,获得多个数据块,以一个数据块作为一个待处理的文本集合。
在一个实施例中,文本集合获取模块还用于获取原始待处理的文本集合以及品牌词列表;当品牌词列表为空时,将原始待处理的文本集合分组至同一预设类别;当品牌词列表不为空时,根据标题文本包含的品牌词,对原始待处理的文本集合进行分组;以一个分组对应的文本集合作为一个待处理的文本集合。
在一个实施例中,文本集合获取模块还用于获取原始待处理的文本集合以及相似度计算区域,相似度计算区域用于指示对原始待处理的文本集合进行相似度计算的范围;根据相似度计算区域对原始待处理的文本集合进行筛选,获得待处理文本集合。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理的文本集合、标题相似度、正文相似度等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待处理的文本集合;从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;根据词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个标题文本之间的标题相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;根据关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个正文文本之间的正文相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;提取多个语句中的关键词,并将提取的关键词合并,获得与文本对应的关键词列表;统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始待处理的文本集合;当原始待处理的文本集合的数据量大于预设阈值时,对原始待处理的文本集合进行数据块划分,获得多个数据块,以一个数据块作为一个待处理的文本集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始待处理的文本集合以及品牌词列表;当品牌词列表为空时,将原始待处理的文本集合分组至同一预设类别;当品牌词列表不为空时,根据标题文本包含的品牌词,对原始待处理的文本集合进行分组;以一个分组对应的文本集合作为一个待处理的文本集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始待处理的文本集合以及相似度计算区域,相似度计算区域用于指示对原始待处理的文本集合进行相似度计算的范围;根据相似度计算区域对原始待处理的文本集合进行筛选,获得待处理的文本集合。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理的文本集合;从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;根据词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个标题文本之间的标题相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;根据关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;采用余弦相似度对矩阵进行计算,得到相似度矩阵,根据相似度矩阵获得两个正文文本之间的正文相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;提取多个语句中的关键词,并将提取的关键词合并,获得与文本对应的关键词列表;统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始待处理的文本集合;当原始待处理的文本集合的数据量大于预设阈值时,对原始待处理的文本集合进行数据块划分,获得多个数据块,以一个数据块作为一个待处理的文本集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始待处理的文本集合以及品牌词列表;当品牌词列表为空时,将原始待处理的文本集合分组至同一预设类别;当品牌词列表不为空时,根据标题文本包含的品牌词,对原始待处理的文本集合进行分组;以一个分组对应的文本集合作为一个待处理的文本集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始待处理的文本集合以及相似度计算区域,相似度计算区域用于指示对原始待处理的文本集合进行相似度计算的范围;根据相似度计算区域对原始待处理的文本集合进行筛选,获得待处理的文本集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本处理方法,所述方法包括:
获取待处理的文本集合;
从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
2.根据权利要求1所述的方法,其特征在于,获取当前选取的两个文本中标题文本之间的标题相似度,包括:
对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;
根据所述词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个标题文本之间的标题相似度。
3.根据权利要求1所述的方法,其特征在于,所述获取当前选择的两个文本中正文文本之间的正文相似度,包括:
对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;
根据所述关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个正文文本之间的正文相似度。
4.根据权利要求3所述的方法,其特征在于,所述对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典包括:
对所述待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;
提取所述多个语句中的关键词,并将提取的关键词合并,获得与所述文本对应的关键词列表;
统计各个文本对应的关键词列表中每个词语的词频,基于词频大于预设值的词语构建关键词字典。
5.根据权利要求1所述的方法,其特征在于,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合;
当所述原始待处理的文本集合的数据量大于预设阈值时,对所述原始待处理的文本集合进行数据块划分,获得多个数据块,以一个所述数据块作为一个待处理的文本集合。
6.根据权利要求1所述的方法,其特征在于,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合以及品牌词列表;
当所述品牌词列表为空时,将所述原始待处理的文本集合分组至同一预设类别;
当所述品牌词列表不为空时,根据标题文本包含的品牌词,对所述原始待处理的文本集合进行分组;
以一个分组对应的文本集合作为一个待处理的文本集合。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理的文本集合,包括:
获取原始待处理的文本集合以及相似度计算区域,所述相似度计算区域用于指示对所述原始待处理的文本集合进行相似度计算的范围;
根据所述相似度计算区域对所述原始待处理的文本集合进行筛选,获得待处理的文本集合。
8.一种文本处理装置,其特征在于,所述装置包括:
文本集合获取模块,用于获取待处理的文本集合;
文本选取模块,用于从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
相似度获取模块,用于在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
相似判定模块,用于当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910918594.7A CN112560444A (zh) | 2019-09-26 | 2019-09-26 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910918594.7A CN112560444A (zh) | 2019-09-26 | 2019-09-26 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112560444A true CN112560444A (zh) | 2021-03-26 |
Family
ID=75029963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910918594.7A Pending CN112560444A (zh) | 2019-09-26 | 2019-09-26 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560444A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408660A (zh) * | 2021-07-15 | 2021-09-17 | 北京百度网讯科技有限公司 | 图书聚类方法、装置、设备和存储介质 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113836906A (zh) * | 2021-09-26 | 2021-12-24 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
CN114117237A (zh) * | 2021-12-08 | 2022-03-01 | 中国科学院计算机网络信息中心 | 一种文章推荐方法及电子设备 |
CN114398968A (zh) * | 2022-01-06 | 2022-04-26 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
US20120284275A1 (en) * | 2011-05-02 | 2012-11-08 | Srinivas Vadrevu | Utilizing offline clusters for realtime clustering of search results |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN106021383A (zh) * | 2016-05-11 | 2016-10-12 | 乐视控股(北京)有限公司 | 网页相似度计算方法及装置 |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
-
2019
- 2019-09-26 CN CN201910918594.7A patent/CN112560444A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284275A1 (en) * | 2011-05-02 | 2012-11-08 | Srinivas Vadrevu | Utilizing offline clusters for realtime clustering of search results |
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN106021383A (zh) * | 2016-05-11 | 2016-10-12 | 乐视控股(北京)有限公司 | 网页相似度计算方法及装置 |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113408660A (zh) * | 2021-07-15 | 2021-09-17 | 北京百度网讯科技有限公司 | 图书聚类方法、装置、设备和存储介质 |
CN113836906A (zh) * | 2021-09-26 | 2021-12-24 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
CN113836906B (zh) * | 2021-09-26 | 2023-06-06 | 中国联合网络通信集团有限公司 | 标书生成方法、装置及服务器 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
CN114117237A (zh) * | 2021-12-08 | 2022-03-01 | 中国科学院计算机网络信息中心 | 一种文章推荐方法及电子设备 |
CN114398968A (zh) * | 2022-01-06 | 2022-04-26 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN109634698B (zh) | 菜单显示方法、装置、计算机设备及存储介质 | |
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
KR102371437B1 (ko) | 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN112434216A (zh) | 一种投资项目的智能推介方法、装置、存储介质和计算机设备 | |
CN112070550A (zh) | 基于搜索平台的关键词确定方法、装置、设备及存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN109656947B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN111209929A (zh) | 访问数据处理方法、装置、计算机设备及存储介质 | |
CN117076652B (zh) | 一种用于中短句的语义文本检索方法、系统及存储介质 | |
CN110598194B (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN112732927A (zh) | 基于知识图谱的内容相似性分析方法和装置 | |
CN111368061B (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN111651666A (zh) | 用户主题推荐方法、装置、计算机设备及存储介质 | |
CN109325119B (zh) | 新闻情感分析的方法、装置、计算机设备和存储介质 | |
US11709798B2 (en) | Hash suppression | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN114003685A (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN114491038A (zh) | 一种基于会话场景的流程挖掘方法、装置及设备 | |
CN111737461A (zh) | 文本的处理方法、装置、电子设备及计算机可读存储介质 | |
CN112579769A (zh) | 关键词的聚类方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |