CN112232069A

CN112232069A - 一种基于多模式数据的匹配处理方法及装置

Info

Publication number: CN112232069A
Application number: CN202011075872.6A
Authority: CN
Inventors: 潘建军; 方欢胜
Original assignee: Minorand Zhejiang Network Technology Co ltd
Current assignee: Minorand Zhejiang Network Technology Co ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-15
Anticipated expiration: 2040-10-10
Also published as: CN112232069B

Abstract

本申请公开了一种基于多模式数据的匹配处理方法及装置，所述方法包括获取麦克风接收的语音，判断所述语音中是否存在匹配指令；若存在匹配指令，则获取多条待匹配数据，每条所述待匹配数据都由多个子字符串串联得到；对所述多条待匹配数据进行匹配操作，得到匹配结果；输出所述匹配结果。本发明可以显著提升复杂对象匹配成功率。

Description

一种基于多模式数据的匹配处理方法及装置

技术领域

本申请涉及计算机领域，尤其涉及一种基于多模式数据的匹配处理方法及装置。

背景技术

在数据处理领域，复杂数据的快速匹配一直是个难点，复杂数据具备多个维度，而如何将这些多维度数据进行整合，并使得整合结果能够有利于加速匹配速度和提升精准度的问题一直没有得到解决。

发明内容

本发明实施例提供了一种基于多模式数据的匹配处理方法及装置。

一种基于多模式数据的匹配处理方法，包括：

获取麦克风接收的语音，判断所述语音中是否存在匹配指令；

若存在匹配指令，则获取多条待匹配数据，每条所述待匹配数据都由多个子字符串串联得到；

对所述多条待匹配数据进行匹配操作，得到匹配结果；

输出所述匹配结果。

优选的，每个子字符串具备相同长度，每个子字符串中的字段都具备相同长度，并且每个子字符串唯一对应一个维度的信息；各条所述待匹配数据具备相同长度。

优选的，各个维度可以包括但不限于不动产信息维度，经营范围信息维度，分销途径信息维度，经营状况信息维度，关联合作对象信息维度，物流信息维度，用户画像信息维度，经营产品信息维度，相关舆情信息维度以及相关主要事件维度。

优选的，还包括生成待匹配数据，所述生成方法如下：

获取待匹配数据的特征数据描述集合，所述特征数据描述集合由特征数据描述子集构成，每个特征描述子集对应一个一级匹配重要度，每个特征数据描述子集包括至少一个字段，每个字段长度相等并且唯一对应一个二级匹配重要度，每个特征描述子集描述一个维度的信息；

根据各个特征数据描述子集生成对应的子字符串，所述子字符串中每个字段只出现一次，并且所述子字符串中各个字段按照其对应的二级匹配重要度被降序排列；

根据各个子字符串生成一条待匹配数据，所述待匹配数据中各个子字符串只出现一次，并且所述待匹配数据中中各个子字符串按照其对应的特征描述子集对应的一级匹配重要度被降序排列。

优选的，若子字符串中各个字段总长度达不到所述字符串的预设长度，则空余字段置空；若待匹配数据中各个子字符串总长度达不到所述待匹配数据的预设长度，则空余字符串置空。

一种基于多模式数据的匹配处理装置，包括，匹配指令提取模块，用于获取麦克风接收的语音，判断所述语音中是否存在匹配指令；

待匹配数据获取模块，用于获取多条待匹配数据，每条所述待匹配数据都由多个子字符串串联得到；

匹配模块，用于对所述多条待匹配数据进行匹配操作，得到匹配结果；

匹配结果输出模块，用于输出所述匹配结果。

优选的，还包括待匹配数据生成模块，所述待匹配数据生成模块：

描述集合获取单元，用于获取待匹配数据的特征数据描述集合，所述特征数据描述集合由特征数据描述子集构成，每个特征描述子集对应一个一级匹配重要度，每个特征数据描述子集包括至少一个字段，每个字段长度相等并且唯一对应一个二级匹配重要度，每个特征描述子集描述一个维度的信息；

子字符串生成单元，用于根据各个特征数据描述子集生成对应的子字符串，所述子字符串中每个字段只出现一次，并且所述子字符串中各个字段按照其对应的二级匹配重要度被降序排列；

待匹配数据生成单元，用于根据各个子字符串生成一条待匹配数据，所述待匹配数据中各个子字符串只出现一次，并且所述待匹配数据中中各个子字符串按照其对应的特征描述子集对应的一级匹配重要度被降序排列。

本发明实施例提供一种基于多模式数据的匹配处理方法及装置，具备下述显著优势：

通过设计数据的结构使得数据本身即可反应其描述对象的全貌，并且数据中的字段的顺序也可以反应其描述对象的全貌中的不同维度信息的权重，以及相同维度中不同字段的权重，因此，通过设计数据结构极大地提升了数据对于其描述对象的表达能力，基于该数据结构设计的匹配方法可以快速高效的得到精准的匹配结果，本公开中的数据尤其适用于对于具有多个维度的复杂对象进行匹配的场景，可以显著提升复杂对象匹配成功率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种基于多模式数据的匹配处理方法流程图；

图2是本申请实施例提供的待匹配数据的生成方法流程图；

图3是本申请实施例提供的一个用于描述用户画像信息维度的子字符串示意图；

图4是本申请实施例提供的一个用于描述某个采购商的待匹配数据示意图；

图5是本申请实施例的对所述多条待匹配数据进行匹配操作，得到匹配结果流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，本发明实施例公开了一种基于多模式数据的匹配处理方法，如图1所示，所述方法包括：

S101.获取麦克风接收的语音，判断所述语音中是否存在匹配指令。

本公开中可以依托于人工智能，通过输入语音口令的方式触发数据匹配。因此步骤S101可以使用现有技术实现。

为了达到更好的匹配指令判断效果，本公开示出下述方案，可以基于训练好的机器模型进行语音识别，所述机器模型可以包括依次串联的第一网络、第二网络和比较器，在所述机器模型中第一网络和第二网络联合训练，在所述第一网络和所述第二网络联合进行训练时，可以以第j句话的前t句话和后t句话为输入，由所述第一网络对于这2t句话的每一句生成一个句向量，并将生成结果输入所述第二网路得到对应于所述第j句话的目标词集合。以所述目标词集合的似然概率表达作为目标函数

其中，

分别表示语料元素数量，某个语料元素中的语句数量，语句的词的数量，第i个语料元素中基于前t句话和后t句话生成第j句话的概率。通过最大化目标函数，使用梯度下降法调节所述第一网络和第二网络的参数，直至达到梯度下降法的收敛条件。

当联合训练结束后，将训练好的第二网络直接与所述比较器连接，所述比较器用于根据所述第二网络输出的目标词集合得到所述目标词集合命中的指令。根据该比较器输出的指令，可以判断所述语音中是否存在匹配指令。

本公开不限定第一网络和第二网络的具体结构，在一个可行的实施例中第二网络可以通过下述方法生成：在预设区域内等间距设置多个初始神经元，在所述预设区域内随机生成神经元，将所述神经元主动与关联神经元N_i按照概率N(new,i)＝δe^-αd(new,i)进行连接，本公开中与所述神经元中间不存在其它神经元的神经元即为关联神经元，其中δ,α分别为神经元密集程度参数和分布空间大小参数，可以根据实际需要进行设定，d(new,i)为神经元与关联神经元N_i之间的距离；该关联神经元N_i也同时按照相同概率与该神经元连接，若形成双向互连则保留该神经元，否则删除该神经元，重复执行随机生成神经元的步骤，直至所述预设区域内的全部神经元的数量达到预设阈值。通过上述方法形成的第一网络具备簇形态，在训练过程中更容易收敛，也具备更好的动力性能。

S102.若存在匹配指令，则获取多条待匹配数据，每条所述待匹配数据都由多个子字符串串联得到，每个子字符串具备相同长度，每个子字符串中的字段都具备相同长度，并且每个子字符串唯一对应一个维度的信息；各条所述待匹配数据具备相同长度。

本公开中，每个待匹配数据都可以包括多个子字符串，每个子字符串对应描述一个维度的信息，在一个可行的实施方式中，待匹配对象可以通过多个维度进行描述，示例性的，各个维度可以包括但不限于不动产信息维度，经营范围信息维度，分销途径信息维度，经营状况信息维度，关联合作对象信息维度，物流信息维度，用户画像信息维度，经营产品信息维度，相关舆情信息维度以及相关主要事件维度。本公开中待匹配对象的各个维度的数据可以通过多个途径获取，比如，可以通过调查问卷形式邀请相关人员填写，也可以基于大数据爬取来自动获取，本公开不限定各个维度的数据的获取途径。

为了便于提升匹配的速度，本公开中对于待匹配数据的生成方法进行设计，如图2所示，每一条待匹配数据都基于下述方法生成：

S1021.获取待匹配数据的特征数据描述集合，所述特征数据描述集合由特征数据描述子集构成，每个特征描述子集对应一个一级匹配重要度，每个特征数据描述子集包括至少一个字段，每个字段长度相等并且唯一对应一个二级匹配重要度，每个特征描述子集描述一个维度的信息。

S1022.根据各个特征数据描述子集生成对应的子字符串，所述子字符串中每个字段只出现一次，并且所述子字符串中各个字段按照其对应的二级匹配重要度被降序排列。

若子字符串中各个字段总长度达不到所述字符串的预设长度，则空余字段置空。

如图3所示，其示出了一个用于描述用户画像信息维度的子字符串示意图。子字符串按照二级匹配重要度在高位依次描述用户年龄层，用户消费力，用户分布区域三个字段，所述子字符串可以最多容纳7个字段，因此空余低位四个字段置空。

S1023.根据各个子字符串生成一条待匹配数据，所述待匹配数据中各个子字符串只出现一次，并且所述待匹配数据中中各个子字符串按照其对应的特征描述子集对应的一级匹配重要度被降序排列。

若待匹配数据中各个子字符串总长度达不到所述待匹配数据的预设长度，则空余字符串置空。

如图4所示，其示出了一个用于描述某个采购商的待匹配数据示意图。待匹配数据按照一级匹配重要度在高位依次描述四个子字符串，这四个子字符串依次对应用户画像维度、经营产品信息维度、相关舆情维度和不动产信息维度，所述待匹配数据最多容纳11个子字符串，因此空余的七个子字符串置空。

相应地，本公开示出两个待匹配数据之间的距离的计算方法，所述方法包括：

依次提取所述两个待匹配数据的字段的字段值计算字段值距离，将字段值距离的总和值确定为所述两个待匹配数据之间的距离。字段值距离通过下述方法计算：

(1)若两个字段的字段值所归属的字段相同，则直接计算字段值的文本距离。

比如若待匹配数据A的第一个字段为用于描述用户画像信息维度的子字符串中的用户年龄层字段，其字段值为“20-30”；待匹配数据B的第一个字段为用于描述用户画像信息维度的子字符串中的用户年龄层字段，其字段值为“30-50”，则，可以直接计算字段值的文本距离。

(2)若两个字段的字段值所归属的字段不同，但是字段所归属的子字符串对应相同维度，则直接将字段值距离确定为第一预设值，所述第一预设值大于步骤(1)中得到的任意文本距离。

比如若待匹配数据A的第一个字段为用于描述用户画像信息维度的子字符串中的用户年龄层字段，其字段值为“20-30”；待匹配数据B的第一个字段为用于描述用户画像信息维度的子字符串中的用户消费力字段，其字段值为“20W-50W”，则，直接将第一预设值作为这两个字段的字段值距离。

(3)若两个字段的字段值所归属的字段不同，并且字段所归属的子字符串对应不同维度，则直接将字段值距离确定为第二预设值。所述第二预设值大于第一预设值。

比如若待匹配数据A的第一个字段为用于描述用户画像信息维度的子字符串中的用户年龄层字段，其字段值为“20-30”；待匹配数据B的第一个字段为用于描述相关舆情维度的子字符串中的评价热度字段，其字段值为“3000-5000”，则，直接将第二预设值作为这两个字段的字段值距离。

S103.对所述多条待匹配数据进行匹配操作，得到匹配结果。

具体地，所述对所述多条待匹配数据进行匹配操作，得到匹配结果，如图5所示，包括：

S1031.计算每条待匹配数据在多条待匹配数据集合中对应权值，所述权值根据公式

计算，其中d_ij表示第i条待匹配数据和第j条待匹配数据之间的距离。

S1032.对各条待匹配数据案权值进行升序排列，选择前k个待匹配数据作为初始中心。

k可以根据实际需要进行设定，k与匹配精度有关，k值与高匹配精度越高，k值越低匹配精度越低。

S1033.将其它N-k个待匹配数据按照距离分配至距离最近的初始中心，得到k个簇。N是待匹配数据的总数量。

S1034.计算所述k个簇中每个簇的调节指数，所述调节指数根据公式

计算得到，其中r,Δ,t_ij,t分别表示预设参考值，所述簇的待匹配数据的个数，所述簇中第i个待匹配数据和第j个待匹配数据的距离，所述簇中各个待匹配数据之间的距离的均值。所述预设参考值可以根据实际需要进行设定，其与与匹配精度正相关。本公开中的可以预先设定的值都可以根据实际需要进行选择，并且可以通过有限次的实验使其数值更加合理，预先设定的值具体数据不影响本公开的实施。

S1035.调整所述k个簇的中心，以使得作为所述簇中心待匹配对象到所述簇的其它待匹配数据的距离的总和值最小。

S1036.对非中心的N-k个待匹配数据执行步骤S1033，直至在步骤S1034中k个簇的调节指数不再变动。

S104.输出所述匹配结果。

本公开中位于相同簇的待匹配数据均能够相互匹配，因此，可以将各个簇作为匹配结果进行输出。

本公开示出了一种基于多模式数据的匹配处理方法，通过设计数据的结构使得数据本身即可反应其描述对象的全貌，并且数据中的字段的顺序也可以反应其描述对象的全貌中的不同维度信息的权重，以及相同维度中不同字段的权重，因此，通过设计数据结构极大地提升了数据对于其描述对象的表达能力，基于该数据结构设计的匹配方法可以快速高效的得到精准的匹配结果，本公开中的数据尤其适用于对于具有多个维度的复杂对象进行匹配的场景，可以显著提升复杂对象匹配成功率。

本公开还示出一种基于多模式数据的匹配处理装置，包括，匹配指令提取模块，用于获取麦克风接收的语音，判断所述语音中是否存在匹配指令；

匹配结果输出模块，用于输出所述匹配结果。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模式数据的匹配处理方法，其特征在于，包括：

对所述多条待匹配数据进行匹配操作，得到匹配结果；

输出所述匹配结果。

2.根据权利要求1所述的方法，其特征在于：

每个子字符串具备相同长度，每个子字符串中的字段都具备相同长度，并且每个子字符串唯一对应一个维度的信息；各条所述待匹配数据具备相同长度。

3.根据权利要求2所述的方法，其特征在于：

各个维度可以包括但不限于不动产信息维度，经营范围信息维度，分销途径信息维度，经营状况信息维度，关联合作对象信息维度，物流信息维度，用户画像信息维度，经营产品信息维度，相关舆情信息维度以及相关主要事件维度。

4.根据权利要求3所述的方法，其特征在于，还包括生成待匹配数据，所述生成方法如下：

5.根据权利要求4所述的方法，其特征在于：

若子字符串中各个字段总长度达不到所述字符串的预设长度，则空余字段置空；若待匹配数据中各个子字符串总长度达不到所述待匹配数据的预设长度，则空余字符串置空。

6.一种基于多模式数据的匹配处理装置，其特征在于，包括：

匹配指令提取模块，用于获取麦克风接收的语音，判断所述语音中是否存在匹配指令；

匹配结果输出模块，用于输出所述匹配结果。

7.根据权利要求6所述的装置，其特征在于：

8.根据权利要求7所述的装置，其特征在于：

9.根据权利要求8所述的装置，其特征在于，还包括待匹配数据生成模块，所述待匹配数据生成模块：

10.根据权利要求9所述的装置，其特征在于：