CN108984556B - 用于数据处理的方法、装置及计算机可读存储介质 - Google Patents
用于数据处理的方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108984556B CN108984556B CN201710403975.2A CN201710403975A CN108984556B CN 108984556 B CN108984556 B CN 108984556B CN 201710403975 A CN201710403975 A CN 201710403975A CN 108984556 B CN108984556 B CN 108984556B
- Authority
- CN
- China
- Prior art keywords
- text
- variables
- similarity
- variable
- structural block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例中,通过获取多个文本变量;根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;生成各个文本变量组的标准文本值,能够克服现有技术中计算相似度时对文本变量字符数的要求,而且,能够生成每组内的文本变量的标准文本值,实现了对每组内的文本变量的统一管理。
Description
技术领域
本发明涉及数据统计领域,具体而言,涉及一种用于数据处理的方法、装置及计算机可读存储介质。
背景技术
如今是信息爆炸的时代,各种各样的信息通过报纸、电视、手机、网络等现代传媒进入我们的视野。
在生活中,人们经常需要对信息进行统计和处理,以筛选出内容有重复的信息,从而避免重复浏览或者统一处理。
例如,表1为一种信息的统计表:
表1
由表1可知,通过对同一个事物的不同属性进行定义,得到的信息差异很大,不利于信息的统一管理。
现有技术中提出了一计算文本相似度的方法,从文本中抽取一批能代表该文档的特征,利用一个哈希函数将每个特征映射成固定长度的二进制表示,既定为6比特的二进制向量及其权值,将权值融入向量形成一个实数向量,然后将这些向量进行进行简单的相加。分别将大于0的值记录为1,将小于0的部分记录为0,则上述的数据就变成了由0和1组成的二进制数值,成为文档的指纹。该指纹与另外一段文档的二进制数值对应位置的相同的0或1越少,文档相似度越高。如果两者对应位置相同的0或1小于等于3,则可以认为是近似相同文本。
在实现本申请的过程中,发现人发现上述计算文本相似度的方法,至少存在以下问题:
上述算法直接应用于多来源文本原始数据的验证,适用于文本字符基数较大的情况,对于文本字符数小于500,以及原始数据结构区块差异较大的文本变量的相似度计算不准确,而且无法得到近似相同的文本的标准文本值。
因此,需要一种新的用于数据处理的方法、装置及计算机可读存储介质。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于数据处理的方法、装置及计算机可读存储介质,能够根据文本变量之间的相似度生成每个文本变量的标准文本值。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种用于数据处理的方法,所述方法包括:
获取多个文本变量;
根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;
生成各个文本变量组的标准文本值。
根据一些实施例,每个文本变量中包括属性信息;
所述方法还包括:
基于文本变量的属性信息生成与属性信息对应的结构区块;
设置各个结构区块的权重;
基于文本变量的属性信息将文本变量与各个结构区块进行匹配获得文本变量在各个结构区块的匹配结果;
根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度。
根据一些实施例,根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度,包括:
从所述多个文本变量中选择一个文本变量作为基础文本;
计算出所述基础文本中的各个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度;
根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度;
对所述多个文本变量的其他文本变量中的每个文本变量与所述基础文本中的所有结构区块的第二相似度进行求平均处理,获得所选择的基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度。
根据一些实施例,通过以下公式,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度:
Pαβ=simHash(Tμβ,Tαβ)
其中,Pαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第一相似度;Tμβ表示基础文本的第β个结构区块的文本;Tαβ表示第α个文本变量的第β个结构区块的文本。
根据一些实施例,通过以下公式,根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度:
Rαβ=Pαβ*δβ
其中,Rαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第二相似度,Pαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第一相似度;δβ表示第β个结构区块的权重。
根据一些实施例,从所述多个文本变量中选择一个文本变量作为基础文本,包括:从所述多个文本变量轮询选择每个文本变量作为所述基础文本;
所述根据文本变量之间的相似度对所述多个文本变量进行分组,包括:
将每次轮询中的其他文本变量中与所述基础文本的相似度小于或者等于阈值的文本变量分为一组。
根据一些实施例,从所述多个文本变量中选择一个文本变量作为基础文本,包括:从所述多个文本变量中任意选择一个文本变量作为所述基础文本;
所述根据文本变量之间的相似度对所述多个文本变量进行分组,包括:
将所述基础文本与所述多个文本变量中的每个文本变量的相似度小于或者等于阈值的文本变量与所述基础文本分为一组。
根据一些实施例,在每次将所述相似度小于或者等于阈值的文本变量与所选择的基础文本分为一组之后,所述方法还包括:
判断是否存在所述相似度大于所述阈值的至少一个文本变量;
当存在相似度大于所述阈值的至少一个文本变量时,从所述至少一个文本变量中任意选择一个文本变量作为所述基础文本;
计算所述基础文本与所述至少一个文本变量的相似度;
将所述相似度小于或者等于所述阈值的文本变量与所述基础文本分为一组。
根据一些实施例,所述生成各个文本变量组的标准文本值,包括:
对每个文本变量组中的各个文本变量中的各个对应的结构区块内的文本的文本长度进行比较,根据比较结果,生成各个文本变量组的标准文本值。
根据本发明的另一方面,提供一种用于数据处理的装置,所述装置包括:
获取单元,用于获取多个文本变量;
分组单元,用于根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;
生成单元,用于生成各个文本变量组的标准文本值。
本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述的方法步骤。
本发明的再一方面,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述第一方面提供的用于数据处理的方法方法步骤。
本发明实施例中,通过获取多个文本变量;根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;生成各个文本变量组的标准文本值,能够克服现有技术中计算相似度时对文本变量字符数的要求,而且,能够生成每组内的文本变量的标准文本值,实现了对每组内的文本变量的统一管理。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。
图1是根据一示例性实施例示出的一种用于数据处理的方法的流程图。
图2是根据一示例性实施例示出的一种计算文本变量之间的相似度的方法的流程图。
图3是根据S240示出的一种计算文本变量之间的相似度的方法的流程图。
图4是根据一示例性实施例示出的一种用于数据处理的装置的结构图。
图5是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1是根据一示例性实施例示出的一种用于数据处理的方法的流程图。
如图1所示,在S110中,获取多个文本变量。
上述多个文本变量可以是多个来源的文本变量,文本变量的属性信息可以用来描述文本变量。本发明实施例中,文本变量可以商品的信息。文本变量的属性信息例如可以是:名称信息、业务信息、金额信息、地址信息等。每个文本变量包括至少一个属性信息。
在S120中,根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组。
需要说明的是,在对多个文本变量进行分组时,需要计算出文本变量之间的相似度。进一步,将相似度大于阈值的文本变量分为一组,进而获得文本变量组。
在S130中,生成各个文本变量组的标准文本值。
需要说明的是,标准文本值是指一个组内的各个文本变量均可以表示的值。
本发明实施例中,通过获取多个文本变量;根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;生成各个文本变量组的标准文本值,能够克服现有技术中计算相似度时对文本变量字符数的要求,而且,能够生成每组内的文本变量的标准文本值,实现了对每组内的文本变量的统一管理。
下面结合具体的实施例,详细说明计算文本变量之间的相似度的方法。
图2是根据一示例性实施例示出的一种计算文本变量之间的相似度的方法的流程图。
在S210中,基于文本变量的属性信息生成与属性信息对应的结构区块。
根据示例实施例,在获取到多个文本变量之后,可以将所有的文本变量的属性信息进行综合,得到包括所有文本变量的属性信息,生成这些属性信息对应的结构区块。
例如,文本变量T1包括属性X和属性Y,文本变量T2包括属性Y和属性Z,基于A和B两个文本变量的属性信息,可以生成这些属性信息对应的结构区块X、Y和Z。
在S220中,设置每个结构区块的权重。
根据示例实施例,在设置权重时,可以对于某些有统一的、固定的表述的结构区块设置较高的权重,对某些不固定的、有多种表述的结构区块设置较低的权重。例如,对电话信息和地址信息对应的结构区块设置较高的权重,当两个文本变量的这两个结构区块的相似度高时,即使这两个文本变量的其他属性信息对应的结构区块的相似度不高,则计算出的相似度依然较高,其他属性信息对应的结构区块的相似度对计算出的文本变量之间的相似度影响较小。
在S230中,基于文本变量的属性信息将文本变量与各个结构区块进行匹配获得文本变量在各个结构区块的匹配结果。
例如,表2为上述例子中文本变量T1和文本变量T2与各个结构区块进行匹配获得的文本变量T1和文本变量T2在各个结构区块的匹配结果:
结构区块X | 结构区块Y | 结构区块Z | |
T<sub>1</sub> | …… | …… | |
T<sub>2</sub> | …… | …… |
表2
由表2可知,文本变量T1的结构区块Z中为空,文本变量T2的结构区块X中为空。
在S240中,根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度。
上述实施例中,通过对不同的结构区块设置权重,调整了各个结构区块在文本变量的整体的相似度的权重,从而可以增加有统一的、固定的表述的结构区块的相似度在文本变量整体的相似度的权重,降低有不确定、不固定的表述的结构区块的相似度在文本变量整体的相似度的权重,提高了文本变量之间的相似度计算的准确性。
下面结合具体的实施例,对在S240中根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度的方法进行详细的说明。
图3是根据S240示出的一种计算文本变量之间的相似度的方法的流程图。
如图3所示,在S242中,从上述获取的多个文本变量中选择一个文本变量作为基础文本。
需要说明的是,基础文本是用来比较其他文本与该基础文本的相似度的指定的一个文本变量。
例如,获取了n个文本变量,分别为T1、T2…Tn。根据这n个文本变量的属性信息,生成属性信息对应的结构区块。假设一共生成了m个结构区块,则这n个文本变量可以生成如下的矩阵:
假设Tμ为选择的基础文本,其中n>μ≥1。
在S244中,计算出该基础文本中的各个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度。
本发明实施例中,可以通过如下的公式计算第一相似度:
Pαβ=simHash(Tμβ,Tαβ)
其中,Pαβ表示第α个文本变量的第β个结构区块与基础文本Tμ的第β个结构区块的第一相似度;Tμβ表示基础文本Tμ的第β个结构区块的文本;Tαβ表示第α个文本变量的第β个结构区块的文本。其中,n≥α≥1,且,α不等于μ,m≥β≥1。
需说明的是,simHash是指哈希算法。
在S246中,根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度。
设结构区块的权重用δ表示,则m个结构区块中的每个结构区块的权重分别为δ1、δ2…δm。则可以通过如下的公式计算第二相似度:
Rαβ=Pαβ*δβ
其中,Rαβ表示第α个文本变量的第β个结构区块与基础文本Tμ的第β个结构区块的第二相似度,Pαβ表示第α个文本变量的第β个结构区块与基础文本Tμ的第β个结构区块的第一相似度;δβ表示第β个结构区块的权重。
在S248中,对所述多个文本变量的其他文本变量中的每个文本变量与所述基础文本中的所有结构区块的第二相似度进行求平均处理,获得所选择的基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度。
其中,可以通过如下的公式计算出基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度:
其中,Rα表示第α个文本变量与基础文本Tμ的相似度,Pα表示第α个文本变量的1至m个结构区块分别与基础文本的第1至m个结构区块的第二相似度之和。
下面结合两种基础文本的选择方式,对根据文本变量之间的相似度对所述多个文本变量进行分组的方法进行详细的说明。
方式一、从上述多个文本变量轮询选择每个文本变量作为所述基础文本。
例如,可以首先选择第一个文本变量T1作为基础文本时,分别计算出其他文本变量T2至Tn与文本变量T1的相似度,之后选择第二个文本变量T2作为基础文本时,分别计算出其他文本变量T1以及T3-至Tn与文本变量T2的相似度……依次选择每个文本变量作为基础文本,分别计算出其他文本变量与每次选择的基础文本的相似度。
通过以上的方式,能够计算出任意一个文本变量与其他每个文本变量的相似度,进而将每次轮询中的其他文本变量中与所述基础文本的相似度小于或者等于阈值的文本变量分为一组。
需要说明的是,本发明实施例中由于利用哈希算法计算相似度,计算出的相似度实际上是相似度的差值,因此,相似度小于或者等于阈值时,两个文本变量更相似。
例如,当选择T1作为基础文本时,T2与T1的相似度小于或者等于阈值,则将T1和T2分为一组。在选择T2作为基础文本时,依然能够计算出T1与T2的相似度小于或者等于阈值,则依然将T1和T2分为一组。
需要说明的是,该方式中也可以不按照顺序依次选择文本变量作为基础文本,只要满足每个文本变量均会作为基础文本的选择方式均在本发明的保护范围之内,
上述实施例中,每个文本变量均会作为基础文本,全面计算了每两个文本变量之间的相似度,使得相似度计算更加准确。
方式二、从所述多个文本变量中任意选择一个文本变量作为所述基础文本时,将所述基础文本与所述多个文本变量中的每个文本变量的相似度小于或者等于阈值的文本变量与所述基础文本分为一组。
例如,选择第μ个文本变量作为基础文本,则可以计算出其他文本变量与Tμ的相似度。假设T1和T2与Tμ的相似度小于或者等于阈值,则将T1、T2和Tμ分为一组。其中,Tμ不等于T1,且Tμ不等于T2,μ小于等于N。
进一步的,在每次将所述相似度小于或者等于阈值的文本变量与所选择的基础文本分为一组之后,判断是否存在所述相似度大于所述阈值的至少一个文本变量,当存在相似度大于所述阈值的至少一个文本变量时,从所述至少一个文本变量中任意选择一个文本变量作为所述基础文本,计算所述基础文本与所述至少一个文本变量的相似度,将所述相似度小于或者等于所述阈值的文本变量与所述基础文本分为一组。
例如,上述例子中,在将T1、T2和Tμ分为一组后,从剩下的文本变量中(T3至Tn中除去Tμ的文本变量)中选择一个文本变量作为基础文本,例如选择T4作为基础文本,并计算剩下的文本变量中除去T4后的每个文本变量与T4的相似度,将所述相似度小于或者等于所述阈值的文本变量与T4分为一组……直至不存在相似度大于所述阈值的文本变量。
上述实施例中,在计算相似度时,不涉及已经被确认相似的文本变量,即已确认相似的文本变量不会再成为基础文本,因此可以提高相似度的计算效率。
进一步的,在获得文本变量组之后,对每个文本变量组中的各个文本变量中的各个对应的结构区块内的文本的文本长度进行比较,根据比较结果,生成各个文本变量组的标准文本值。
例如,用K来表示各结构区块的长度,则根据n个文本变量可以生成如下的矩阵:
假设根据上面的实施例,获取到T1和T2为一个文本变量组,则比较K11与K21,如果K11大于K21,则用K11内的文本表示T1和T2的第一个结构区块的内容…直至比较出K1m与K2m后,确定了T1和T2的每个结构区块的文本,这m个结构区块的文本即为T1和T2的一个文本变量组的标准文本值。
本发明实施例中,通过获取多个文本变量;根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;生成各个文本变量组的标准文本值,能够克服现有技术中计算相似度时对文本变量字符数的要求,而且,能够生成每组内的文本变量的标准文本值,实现了对每组内的文本变量的统一管理。
图4是根据一示例性实施例示出的一种用于数据处理的装置的结构图。
如图4所示,该装置400包括:
获取单元410,用于获取多个文本变量;
分组单元420,用于根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;
生成单元430,用于生成各个文本变量组的标准文本值。
根据一些实施例,每个文本变量中包括属性信息;
所述装置还包括:
区块生成单元440,用于基于文本变量的属性信息生成与属性信息对应的结构区块;
设置单元450,用于设置各个结构区块的权重;
匹配单元460,用于基于文本变量的属性信息将文本变量与各个结构区块进行匹配获得文本变量在各个结构区块的匹配结果;
计算单元470,用于根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度。
根据一些实施例,所述计算单元470,包括:
选择子单元472,用于从所述多个文本变量中选择一个文本变量作为基础文本;
第一计算子单元474,用于计算出所述基础文本中的各个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度;
第二计算子单元476,用于根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度;
第三计算子单元478,用于对所述多个文本变量的其他文本变量中的每个文本变量与所述基础文本中的所有结构区块的第二相似度进行求平均处理,获得所选择的基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度。
根据一些实施例,所述选择子单元472,用于从所述多个文本变量中任意选择一个文本变量作为所述基础文本;
所述分组单元420,配置为将所述基础文本与所述多个文本变量中的每个文本变量的相似度小于或者等于阈值的文本变量与所述基础文本分为一组。
根据一些实施例,在每次所述分组单元将所述相似度小于或者等于阈值的文本变量与所选择的基础文本分为一组之后,所述装置还包括:
判断单元480,用于判断是否存在所述相似度大于所述阈值的至少一个文本变量;
所述选择子单元472,还用于当所述判断单元判断存在相似度大于所述阈值的至少一个文本变量时,从所述至少一个文本变量中任意选择一个文本变量作为所述基础文本;
所述分组单元420,还用于将所述基础文本与所述至少一个文本变量中的每个文本变量的相似度小于或者等于所述阈值的文本变量与所述基础文本分为一组。
本发明实施例中,通过获取多个文本变量;根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;生成各个文本变量组的标准文本值,能够克服现有技术中计算相似度时对文本变量字符数的要求,而且,能够生成每组内的文本变量的标准文本值,实现了对每组内的文本变量的统一管理。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可以执行:获取多个文本变量,根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组,以及生成各个文本变量组的标准文本值。
图5是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是,图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、分组单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取多个文本变量的单元”。
以上具体示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种用于数据处理的方法,其特征在于,所述方法包括:
获取多个文本变量;
根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;
生成各个文本变量组的标准文本值;
其中,每个文本变量中包括属性信息;
所述方法还包括:
基于文本变量的属性信息生成与属性信息对应的结构区块;
设置各个结构区块的权重;
基于文本变量的属性信息将文本变量与各个结构区块进行匹配获得文本变量在各个结构区块的匹配结果;
根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度;
其中,根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度,包括:
从所述多个文本变量中选择一个文本变量作为基础文本;
计算出所述基础文本中的各个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度;
根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度;
对所述多个文本变量的其他文本变量中的每个文本变量与所述基础文本中的所有结构区块的第二相似度进行求平均处理,获得所选择的基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度。
2.如权利要求1所述的方法,其特征在于,通过以下公式,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度:
Pαβ=simHash(Tμβ,Tαβ)
其中,Pαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第一相似度;Tμβ表示基础文本的第β个结构区块的文本;Tαβ表示第α个文本变量的第β个结构区块的文本。
3.如权利要求2所述的方法,其特征在于,通过以下公式,根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度:
Rαβ=Pαβ*δβ
其中,Rαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第二相似度,Pαβ表示第α个文本变量的第β个结构区块与基础文本的第β个结构区块的第一相似度;δβ表示第β个结构区块的权重。
4.如权利要求1所述的方法,其特征在于,从所述多个文本变量中选择一个文本变量作为基础文本,包括:从所述多个文本变量轮询选择每个文本变量作为所述基础文本;
所述根据文本变量之间的相似度对所述多个文本变量进行分组,包括:
将每次轮询中的其他文本变量中与所述基础文本的相似度小于或者等于阈值的文本变量分为一组。
5.如权利要求1所述的方法,其特征在于,从所述多个文本变量中选择一个文本变量作为基础文本,包括:从所述多个文本变量中任意选择一个文本变量作为所述基础文本;
所述根据文本变量之间的相似度对所述多个文本变量进行分组,包括:
将所述基础文本与所述多个文本变量中的每个文本变量的相似度小于或者等于阈值的文本变量与所述基础文本分为一组。
6.如权利要求5所述的方法,其特征在于,在每次将所述相似度小于或者等于阈值的文本变量与所选择的基础文本分为一组之后,所述方法还包括:
判断是否存在所述相似度大于所述阈值的至少一个文本变量;
当存在相似度大于所述阈值的至少一个文本变量时,从所述至少一个文本变量中任意选择一个文本变量作为所述基础文本;
计算所述基础文本与所述至少一个文本变量的相似度;
将所述相似度小于或者等于所述阈值的文本变量与所述基础文本分为一组。
7.如权利要求1所述的方法,其特征在于,所述生成各个文本变量组的标准文本值,包括:
对每个文本变量组中的各个文本变量中的各个对应的结构区块内的文本的文本长度进行比较,根据比较结果,生成各个文本变量组的标准文本值。
8.一种用于数据处理的装置,其特征在于,所述装置包括:
获取单元,用于获取多个文本变量;
分组单元,用于根据文本变量之间的相似度对所述多个文本变量进行分组,获得文本变量组;
生成单元,用于生成各个文本变量组的标准文本值;
其中,每个文本变量中包括属性信息;
所述装置还包括:
区块生成单元,用于基于文本变量的属性信息生成与属性信息对应的结构区块;
设置单元,用于设置各个结构区块的权重;
匹配单元,用于基于文本变量的属性信息将文本变量与各个结构区块进行匹配获得文本变量在各个结构区块的匹配结果;
计算单元,用于根据每个文本变量在各个结构区块的匹配结果和各个结构区块的权重,计算出各个文本变量之间的相似度;
所述计算单元,包括:
选择子单元,用于从所述多个文本变量中选择一个文本变量作为基础文本;
第一计算子单元,用于计算出所述基础文本中的各个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第一相似度;
第二计算子单元,用于根据所述各个结构区块的权重以及所述第一相似度,计算出所述基础文本中的每个结构区块与所述多个文本变量的其他文本变量中的每个文本变量的对应的结构区块的第二相似度;
第三计算子单元,用于对所述多个文本变量的其他文本变量中的每个文本变量与所述基础文本中的所有结构区块的第二相似度进行求平均处理,获得所选择的基础文本与所述多个文本变量的其他文本变量中的每个文本变量的相似度。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403975.2A CN108984556B (zh) | 2017-06-01 | 2017-06-01 | 用于数据处理的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403975.2A CN108984556B (zh) | 2017-06-01 | 2017-06-01 | 用于数据处理的方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984556A CN108984556A (zh) | 2018-12-11 |
CN108984556B true CN108984556B (zh) | 2021-02-26 |
Family
ID=64501731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710403975.2A Active CN108984556B (zh) | 2017-06-01 | 2017-06-01 | 用于数据处理的方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984556B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026B (zh) * | 2007-07-02 | 2011-01-26 | 蒙圣光 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN102033964B (zh) * | 2011-01-13 | 2012-05-09 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN102654881B (zh) * | 2011-03-03 | 2014-10-22 | 富士通株式会社 | 用于名称消岐聚类的装置和方法 |
EP3144822A1 (en) * | 2015-09-21 | 2017-03-22 | Tata Consultancy Services Limited | Tagging text snippets |
CN106611041A (zh) * | 2016-09-29 | 2017-05-03 | 四川用联信息技术有限公司 | 一种新的文本相似度求解方法 |
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
-
2017
- 2017-06-01 CN CN201710403975.2A patent/CN108984556B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108984556A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109976999B (zh) | 测试用例覆盖率的度量方法和度量装置 | |
CN111209347B (zh) | 一种混合属性数据聚类的方法和装置 | |
CN108320026B (zh) | 机器学习模型训练方法和装置 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
WO2019001463A1 (zh) | 数据处理方法及装置 | |
CN110888972A (zh) | 一种基于Spark Streaming的敏感内容识别方法及装置 | |
CN107342857B (zh) | 分组方法及装置 | |
CN111667018B (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN108984556B (zh) | 用于数据处理的方法、装置及计算机可读存储介质 | |
CN113761565A (zh) | 数据脱敏方法和装置 | |
CN116089367A (zh) | 动态分桶方法、装置、电子设备和介质 | |
CN111079185B (zh) | 数据库信息处理的方法、装置、存储介质及电子设备 | |
CN113657552A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN107368597B (zh) | 信息输出方法和装置 | |
CN113869904A (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN111382244B (zh) | 一种深度检索匹配分类方法、装置及终端设备 | |
CN113094415A (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN110889462B (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN111897910A (zh) | 信息推送方法和装置 | |
CN111753111A (zh) | 图片搜索方法和装置 | |
CN111858917A (zh) | 文本分类方法和装置 | |
CN111274383A (zh) | 一种应用于报价的分类对象方法和装置 | |
CN110297974B (zh) | 排序处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |