CN110110035A - 数据处理方法和装置以及计算机可读存储介质 - Google Patents
数据处理方法和装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110110035A CN110110035A CN201810067143.2A CN201810067143A CN110110035A CN 110110035 A CN110110035 A CN 110110035A CN 201810067143 A CN201810067143 A CN 201810067143A CN 110110035 A CN110110035 A CN 110110035A
- Authority
- CN
- China
- Prior art keywords
- text
- matched
- feature words
- type
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 112
- 239000013598 vector Substances 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 7
- 239000012141 concentrate Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000002453 shampoo Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种数据处理方法和装置以及计算机可读存储介质,涉及数据处理领域。数据处理方法包括:提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据相似度匹配待匹配文本和目标文本。本发明能够使得计算的相似度更准确,提高了数据匹配的准确性。并且,这种方法的计算量小、计算效率高、适用范围广。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种数据处理方法和装置以及计算机可读存储介质。
背景技术
目前,在搜索、推荐、数据分析等多个领域,需要对一些备选对象进行分析,以获得与目标对象相匹配的备选对象。例如,在电子商务领域,为了确保自己的商品在其他具有相同属性的商品中更具竞争力,在分析具体的热卖因素之前,首先要能够找到这些相似的商品。
在一些相关技术中,可以基于特征工程进行数据匹配。这种方案将例如商品属性等对象属性作为特征,并训练分类模型,然后根据分类模型的预测结果确定对象是否匹配。这种方案需要归一化的对象属性信息,因此对数据质量的依赖程度较高。而且数据中的通用特征不多,从而通用分类器不容易达到较好的效果,匹配的准确性较低。并且,工作难度较大。
在一些相关技术中,还可以采用基于神经网络的数据匹配算法。这种方法将标题等于对象相关的文本转化为句向量,再将两个标题句向量的其中之一转置,然后将两个向量做矩阵乘法获得矩阵以作为神经网络的输入。然而,这种算法无法利用商品的属性特征,并且需要依赖大量的训练数据。从而,在没有足够的匹配数据的条件下,这种算法的准确性也比较低。
发明内容
本发明实施例所要解决的一个技术问题是:如何提高数据匹配的准确性。
根据本发明一些实施例的第一个方面,提供一种数据处理方法,包括:提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据相似度匹配待匹配文本和目标文本。
在一些实施例中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度包括:采用逻辑回归模型计算待匹配文本与目标文本的相似度,在逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。
在一些实施例中,数据处理方法还包括:根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量,并计算待匹配文本的句向量和目标文本的句向量的句相似度;其中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及句相似度,计算待匹配文本与目标文本的相似度。
在一些实施例中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度包括采用以下公式计算待匹配文本与目标文本的相似度sim:
其中,e为自然常数;ssim为句相似度,a、b为预设参数;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
在一些实施例中,数据处理方法还包括:根据相似度对待匹配文本进行排序。
在一些实施例中,数据处理方法还包括:根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词;根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度;根据待匹配训练文本与目标训练文本的实际相似度以及计算相似度之差,计算每个匹配训练文本的相似度损失;调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
在一些实施例中,调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化包括采用以下公式多次更新第i种特征词的权重、直到满足预设条件:
其中,wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量;j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
根据本发明实施例的第二个方面,提供一种数据处理装置,包括:特征词提取模块,被配置为提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;特征词标记模块,被配置为根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;相似度计算模块,被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据相似度匹配待匹配文本和目标文本。
在一些实施例中,相似度计算模块进一步被配置为采用逻辑回归模型计算待匹配文本与目标文本的相似度,在逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。
在一些实施例中,数据处理装置还包括:句相似度计算模块,被配置为根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量,并计算待匹配文本的句向量和目标文本的句向量的句相似度;相似度计算模块进一步被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及句相似度,计算待匹配文本与目标文本的相似度。
在一些实施例中,相似度计算模块进一步被配置为采用以下公式计算待匹配文本与目标文本的相似度sim:
其中,e为自然常数;ssim为句相似度,a、b为预设参数;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
在一些实施例中,数据处理装置还包括:排序模块,被配置为根据相似度对待匹配文本进行排序。
在一些实施例中,数据处理装置还包括:权重训练模块,被配置为根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词;根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度;根据待匹配训练文本与目标训练文本的实际相似度以及计算相似度之差,计算每个匹配训练文本的相似度损失;调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
在一些实施例中,权重训练模块进一步被配置为采用以下公式多次更新第i种特征词的权重、直到满足预设条件:
其中,Wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量;j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
根据本发明一些实施例的第三个方面,提供一种数据处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任意一种数据处理方法。
根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种数据处理方法。
上述发明中的一些实施例具有如下优点或有益效果:本发明能够结合每个种类的特征词的权重综合地衡量每个种类的特征词对整个文本的相似性的影响程度,从而计算出的相似度更准确,提高了数据匹配的准确性。并且,这种方法的计算量小、计算效率高,适用范围广。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明一些实施例的数据处理方法的示例性流程图。
图2为根据本发明另一些实施例的数据处理方法的示例性流程图。
图3为根据本发明又一些实施例的数据处理方法的示例性流程图。
图4为根据本发明一些实施例的特征词权重训练方法的示例性流程图。
图5为根据本发明一些实施例的数据处理装置的示例性结构图。
图6为根据本发明一些实施例的数据处理装置的示例性结构图。
图7为根据本发明又一些实施例的数据处理装置的示例性结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为根据本发明一些实施例的数据处理方法的示例性流程图。如图1所示,该实施例的数据处理方法包括步骤S102~S106。
在步骤S102中,提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重。
待匹配文本和目标文本可以是商品标题、新闻标题、机构名称等短文本,也可以是其他类型的文本。例如,商品标题包含的特征词种类可以为品牌词、产品词、规格词、型号词等等;又例如,新闻标题包含的特征词种类可以为时间词、地点词、人名等等。
在提取特征词时,可以首先将待匹配文本进行分词处理,再确定每个词所属的特征词类别。在确定类别时,例如可以查看待确定类别的词语是否在某个特征词类别的词库中。
每个种类的特征词对应的权重可以是根据训练数据确定的。例如,通过分析训练数据发现,商品标题中的型号词对商品相似性的影响并不大,则型号词对应的权重可以较低。
在步骤S104中,根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词。
表1为示例性的待匹配文本和目标文本的分词结果。
表1
品牌词 | 产品词 | 规格词 | 型号词 | |
待匹配文本 | AAA | 洗发水 | 500ml | 花香型 |
目标文本 | AAA | 洗发露 | 500毫升 | 果香型 |
在一些实施例中,可以比较待匹配文本中的某种特征词与目标文本中的同一种类的特征词是否相同。例如,在采用这种匹配方式时,表1中的品牌词是匹配的、其他种类的特征词均不匹配。
在一些实施例中,还可以对一些词语进行同义词分析。这样,即使两个词语并不相同,但是表达的含义是相同或相近的,则可以认定二者匹配。例如,表1中的“500ml”和“500毫升”在一些实施例中可以是匹配的;“洗发水”和“洗发露”在一些实施例中也可以是匹配的。
在确定待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词是否匹配后,可以采用数值对待匹配文本中的每个种类的特征词进行标记。
在一些实施例中,可以生成匹配结果向量,向量中的每个元素表示每个种类的特征词的匹配结果。例如,表1中待匹配文本在一些实施例中的标记结果可以采用[1,1,1,0]来表示,其中,1代表匹配、0代表不匹配。
在一些实施例中,还可以令向量中的一个元素表示整个文本的匹配结果,其他的元素表示每个种类的特征词的匹配结果。例如,表1中待匹配文本的标记结果例如可以采用[1,1,1,0,0]来表示,其中,1代表匹配、0代表不匹配。前4个元素表示特征词的匹配结果,第5个元素表示整个文本的匹配结果。由于特征词中出现了不匹配的情况,因此整个文本的匹配结果为0。
根据需要,本领域技术人员还可以对上述匹配结果的表示方式进行调整,或者采用其他的匹配方式,这里不再赘述。
在步骤S106中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据相似度匹配待匹配文本和目标文本。例如,可以根据设定的相似度阈值判定是否匹配、或者根据相似度排序的结果决定哪些是与目标文本匹配的待匹配文本等等。
在计算相似度时,可以将每个种类的特征词的标记值和每个种类的特征词的权重代入到预设的模型中,例如逻辑回归模型、线性回归模型等等。相似度可以根据每个种类的特征词的权重和标记值的加权和确定。
在一些实施例中,可以采用逻辑回归模型计算待匹配文本与目标文本的相似度,在逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。一些实施例例如可以参考公式(1)的计算方法。
在公式(1)中,e为自然常数,μ为参数,n为特征词的种类数,i为特征词的种类标识,wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。μ可以是预设的固定值,也可以是根据待匹配文本的其他特征计算的值。
通过上述实施例的方法,能够结合每个种类的特征词的权重综合地衡量每个种类的特征词对整个文本的相似性的影响程度,从而计算出的相似度更准确,提高了数据匹配的准确性。并且,这种方法的计算量小、计算效率高,适用范围广。
本发明除了可以根据每个特征词的匹配结果作为计算整个文本的相似度的特征以外,还可以提取能够描述整个文本的特征并参与相似度的计算。下面参考图2描述本发明数据处理方法的实施例。
图2为根据本发明另一些实施例的数据处理方法的示例性流程图。如图2所示,该实施例的数据处理方法包括步骤S202~S210。
在步骤S202中,提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重。
在步骤S204中,根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词。
在步骤S206中,根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量。
在一些实施例中,可以采用连续词袋(Continuous Bag-of-Words,简称:CBOW)模型来确定文本中每个词的词向量,再根据每个词的词向量确定文本的句向量。例如,可以将文本中所有词向量之和作为文本的句向量。根据需要,本领域技术人员还可以采用其他的句向量确定方法,这里不再赘述。
在步骤S208中,计算待匹配文本的句向量和目标文本的句向量的句相似度。
在一些实施例中,句相似度可以是余弦相似度。余弦相似度的计算方法可以参考公式(2)。
在公式(2)中,cossim表示余弦相似度、即句相似度,A、B表示待计算相似度的两个文本的句向量。根据需要,本领域技术人员还可以采用其他的句相似度确定方法,这里不再赘述。
在步骤S210中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及句相似度,计算待匹配文本与目标文本的相似度,以便根据相似度匹配待匹配文本和目标文本。
句相似度可以作为特征词的标记值和权重的计算结果的加性因子或者乘性因子参与计算。在一些实施例中,待匹配文本与目标文本的相似度例如可以采用公式(3)计算。
在公式(3)中,e为自然常数;ssim为句相似度,a、b为预设参数,在一些实施例中,a、b的值可以分别为1和2;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
本发明的实施例可以应用于多种应用场景。下面结合图3描述一种示例性的应用场景。
图3为根据本发明又一些实施例的数据处理方法的示例性流程图。如图3所示,该实施例的数据处理方法包括步骤S302~S318。
在步骤S302中,获取待匹配商品标题集合,集合中包括N个待匹配商品标题。
在步骤S304中,将待匹配商品标题的标识i初始化为1。
在步骤S306中,标记第i个待匹配商品标题中的每个种类的特征词。
在步骤S308中,计算第i个待匹配商品标题的句向量和目标商品标题的句向量的余弦相似度。
在步骤S310中,将第i个待匹配商品标题中每个种类的特征词的标记值以及计算的余弦相似度输入到预先训练的逻辑回归模型中,计算待匹配商品标题和目标商品标题的相似度。
在步骤S312中,判断i是否大于N。如果不是,执行步骤S314;如果是,执行步骤S316。
在步骤S314中,将i的值更新为i+1,并回到步骤S306。
在步骤S316中,根据步骤S310计算的相似度对集合中的待匹配商品标题进行排序。
在步骤S318中,输出前M个商品标题。
通过上述实施例的方法,能够从多个商品标题中挑选与目标商品标题最相似的M个商品标题,从而可以高效地完成相似商品的搜索和推荐。
本发明还可以根据训练数据确定每个种类的特征词的权重。下面参考图4描述本发明特征词权重训练方法的实施例。
图4为根据本发明一些实施例的特征词权重训练方法的示例性流程图。如图4所示,该实施例的特征词权重训练方法包括步骤S402~S408。
在步骤S402中,根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词。
在步骤S404中,根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度。
步骤S402~S404的具体实施方式与图1实施例中步骤S102~S104的具体实施方式类似,这里不再赘述。
在步骤S406中,根据待匹配训练文本与目标训练文本的实际相似度以及计算相似度之差,计算每个匹配训练文本的相似度损失。
实际相似度是指预先设置的、体现两个文本实际上是否匹配的数值。实际相似度可以是二值化的数值,例如采用1代表匹配、采用0代表不匹配。根据需要,实际相似度也可以是若干个离散的数值,这里不再赘述。
在步骤S408中,调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
进行训练的目标是使得根据特征词的权重计算出的相似度与实际两个文本的相似度接近。因此,可以以相似度损失的总和最小化为训练目标,不断调整每个种类的特征词的权重以不断地逼近目标。
通过上述实施例的方法,能够根据训练数据来确定特征词的权重,从而使得特征词的权重能够更准确地反映不同类别的特征词的重要程度,进而提高了匹配时的准确度。
上述实施例在求解时,可以采用梯度下降法等方式进行推导。
在一些实施例中,可以采用公式(4)多次更新第i种特征词的权重、直到满足预设条件。在一些实施例中,预设条件可以为更新预设次数,或者是相邻或相近的几次更新后的结果的差距小于预设值等等。
在公式(4)中,wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量;j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,例如可以采用公式(1)或公式(3),x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
根据需要,本领域技术人员还可以采用其他求解方式,这里不再赘述。
下面参考图5描述本发明数据处理装置的实施例。
图5为根据本发明一些实施例的数据处理装置的示例性结构图。如图5所示,该实施例的数据处理装置50包括:特征词提取模块510,被配置为提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;特征词标记模块520,被配置为根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;相似度计算模块530,被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据所述相似度匹配待匹配文本和目标文本。
在一些实施例中,相似度计算模块530可以进一步被配置为采用逻辑回归模型计算待匹配文本与目标文本的相似度,在逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。
在一些实施例中,数据处理装置50还可以包括:句相似度计算模块540,被配置为根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量,并计算待匹配文本的句向量和目标文本的句向量的句相似度;相似度计算模块530可以进一步被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及句相似度,计算待匹配文本与目标文本的相似度。
在一些实施例中,相似度计算模块530可以进一步被配置为采用以下公式计算待匹配文本与目标文本的相似度sim:
其中,e为自然常数;ssim为句相似度,a、b为预设参数;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
在一些实施例中,数据处理装置50还可以包括:排序模块550,被配置为根据相似度对待匹配文本进行排序。
在一些实施例中,数据处理装置50还可以包括:权重训练模块560,被配置为根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词;根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度;根据待匹配训练文本与目标训练文本的实际相似度以及计算相似度之差,计算每个匹配训练文本的相似度损失;调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
在一些实施例中,权重训练模块560可以进一步被配置为采用以下公式多次更新第i种特征词的权重、直到满足预设条件:
其中,wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量;j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
图6为根据本发明一些实施例的数据处理装置的示例性结构图。如图6所示,该实施例的数据处理装置600包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的数据处理方法。
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图7为根据本发明又一些实施例的数据处理装置的示例性结构图。如图7所示,该实施例的数据处理装置700包括:存储器710以及处理器720,还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种数据处理方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种数据处理方法,包括:
提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;
根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;
根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据所述相似度匹配待匹配文本和目标文本。
2.根据权利要求1所述的数据处理方法,其中,所述根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度包括:
采用逻辑回归模型计算待匹配文本与目标文本的相似度,在所述逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。
3.根据权利要求1所述的数据处理方法,
还包括:根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量,并计算待匹配文本的句向量和目标文本的句向量的句相似度;
其中,根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及所述句相似度,计算待匹配文本与目标文本的相似度。
4.根据权利要求3所述的数据处理方法,其中,所述根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度包括采用以下公式计算待匹配文本与目标文本的相似度sim:
其中,e为自然常数;ssim为句相似度,a、b为预设参数;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
5.根据权利要求1所述的数据处理方法,还包括:
根据所述相似度对待匹配文本进行排序。
6.根据权利要求1~5中任一项所述的数据处理方法,还包括:
根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词;
根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度;
根据待匹配训练文本与目标训练文本的实际相似度以及所述计算相似度之差,计算每个匹配训练文本的相似度损失;
调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
7.根据权利要求6所述的数据处理方法,其中,所述调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化包括采用以下公式多次更新第i种特征词的权重、直到满足预设条件:
其中,wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量,j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
8.一种数据处理装置,包括:
特征词提取模块,被配置为提取待匹配文本中的预设种类的特征词,其中,每个种类的特征词对应一个预先计算的权重;
特征词标记模块,被配置为根据待匹配文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配文本中的每个种类的特征词;
相似度计算模块,被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配文本与目标文本的相似度,以便根据所述相似度匹配待匹配文本和目标文本。
9.根据权利要求8所述的数据处理装置,其中,所述相似度计算模块进一步被配置为采用逻辑回归模型计算待匹配文本与目标文本的相似度,在所述逻辑回归模型中,自然常数的指数根据每个种类的特征词的权重和标记值的加权和确定。
10.根据权利要求8所述的数据处理装置,
还包括:句相似度计算模块,被配置为根据待匹配文本和目标文本中每个词的词向量分别计算待匹配文本和目标文本的句向量,并计算待匹配文本的句向量和目标文本的句向量的句相似度;
所述相似度计算模块进一步被配置为根据待匹配文本的每个种类的特征词的标记值和每个种类的特征词的权重以及所述句相似度,计算待匹配文本与目标文本的相似度。
11.根据权利要求10所述的数据处理装置,其中,所述相似度计算模块进一步被配置为采用以下公式计算待匹配文本与目标文本的相似度sim:
其中,e为自然常数;Ssim为句相似度,a、b为预设参数;n为特征词的种类数,i为特征词的种类标识;wi为第i种特征词的权重,xi为待匹配文本的第i种特征词的标记值。
12.根据权利要求8所述的数据处理装置,还包括:
排序模块,被配置为根据所述相似度对待匹配文本进行排序。
13.根据权利要求8~12中任一项所述的数据处理装置,还包括:
权重训练模块,被配置为根据待匹配训练文本中的每个种类的特征词与目标文本中的相应种类的特征词的匹配结果标记待匹配训练文本中的每个种类的特征词;根据待匹配训练文本的每个种类的特征词的标记值和每个种类的特征词的权重,计算待匹配训练文本与目标训练文本的计算相似度;根据待匹配训练文本与目标训练文本的实际相似度以及所述计算相似度之差,计算每个匹配训练文本的相似度损失;调整每个种类的特征词的权重,使得训练文本集中每个待匹配训练文本的相似度损失的总和最小化。
14.根据权利要求13所述的数据处理装置,其中,所述权重训练模块进一步被配置为采用以下公式多次更新第i种特征词的权重、直到满足预设条件:
其中,wi′为本次更新后的第i种特征词的权重,wi为上一次更新后的第i种特征词的权重;α为更新步长,ssim为句相似度,m为训练文本集中的待匹配训练文本的数量;j为待匹配训练文本的标识;hw(x(j),w)为第j个待匹配文本与目标文本的相似度的计算公式,x(j)包括第j个待匹配训练文本的每个种类的特征词的标记值,w包括每个种类的特征词的权重;y(j)为第j个待匹配训练文本与目标训练文本的实际相似度;为第j个待匹配文本中第i个特征的标记值。
15.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~7中任一项所述的数据处理方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067143.2A CN110110035A (zh) | 2018-01-24 | 2018-01-24 | 数据处理方法和装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067143.2A CN110110035A (zh) | 2018-01-24 | 2018-01-24 | 数据处理方法和装置以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110035A true CN110110035A (zh) | 2019-08-09 |
Family
ID=67483488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810067143.2A Pending CN110110035A (zh) | 2018-01-24 | 2018-01-24 | 数据处理方法和装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110035A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633304A (zh) * | 2019-08-15 | 2019-12-31 | 中国平安人寿保险股份有限公司 | 组合特征筛选方法、装置、计算机设备及存储介质 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN112149414A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
CN112749252A (zh) * | 2020-07-14 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本匹配方法和相关装置 |
CN116188091A (zh) * | 2023-05-04 | 2023-05-30 | 品茗科技股份有限公司 | 造价清单自动匹配单价引用的方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131157A1 (en) * | 2009-11-28 | 2011-06-02 | Yahoo! Inc. | System and method for predicting context-dependent term importance of search queries |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN103365910A (zh) * | 2012-04-06 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种信息检索的方法和系统 |
CN106815226A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 文本匹配方法和装置 |
-
2018
- 2018-01-24 CN CN201810067143.2A patent/CN110110035A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131157A1 (en) * | 2009-11-28 | 2011-06-02 | Yahoo! Inc. | System and method for predicting context-dependent term importance of search queries |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN103365910A (zh) * | 2012-04-06 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种信息检索的方法和系统 |
CN106815226A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 文本匹配方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633304A (zh) * | 2019-08-15 | 2019-12-31 | 中国平安人寿保险股份有限公司 | 组合特征筛选方法、装置、计算机设备及存储介质 |
CN110633304B (zh) * | 2019-08-15 | 2023-08-22 | 中国平安人寿保险股份有限公司 | 组合特征筛选方法、装置、计算机设备及存储介质 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN110795482B (zh) * | 2019-10-16 | 2022-11-22 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN112749252A (zh) * | 2020-07-14 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本匹配方法和相关装置 |
CN112749252B (zh) * | 2020-07-14 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本匹配方法和相关装置 |
CN112149414A (zh) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
CN112149414B (zh) * | 2020-09-23 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
CN116188091A (zh) * | 2023-05-04 | 2023-05-30 | 品茗科技股份有限公司 | 造价清单自动匹配单价引用的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899304B (zh) | 命名实体识别方法及装置 | |
CN110110035A (zh) | 数据处理方法和装置以及计算机可读存储介质 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN110287312A (zh) | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 | |
CN103631874B (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN106970912A (zh) | 中文语句相似度计算方法、计算装置以及计算机存储介质 | |
WO2020238229A1 (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN105139041A (zh) | 基于图像的语种识别方法及装置 | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN106919575A (zh) | 应用程序搜索方法及装置 | |
CN110059156A (zh) | 基于关联词的协同检索方法、装置、设备及可读存储介质 | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
CN115392237A (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN107273546A (zh) | 仿冒应用检测方法以及系统 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN107133218A (zh) | 商品名称智能匹配方法、系统及计算机可读存储介质 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN110019653B (zh) | 一种融合文本和标签网络的社交内容表征方法和系统 | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |