CN111898380A

CN111898380A - 文本匹配方法、装置、电子设备及存储介质

Info

Publication number: CN111898380A
Application number: CN202010825560.6A
Authority: CN
Inventors: 丁子洋; 刘贺龙
Original assignee: Shanghai Ximan Network Technology Co ltd
Current assignee: Shanghai Ximan Network Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-06

Abstract

本申请实施例提供了一种文本匹配方法、装置、电子设备及存储介质，涉及文本识别技术领域。文本匹配方法包括接收用户端上传的第一文本；对第一文本进行分词处理，得到第一词向量矩阵；通过词频‑逆向文件频率算法对第一词向量矩阵中的每个词向量赋予权重，得到第一词频矩阵；将第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算，得到与第一词频矩阵相似度最高的目标词频矩阵；将与目标词频矩阵对应的目标文本发送给用户端。本申请实施例提供的文本匹配方法、装置、电子设备及存储介质能够匹配与第一文本关联度高的目标文本，降低产品文案撰写的时间和人力成本。

Description

文本匹配方法、装置、电子设备及存储介质

技术领域

本文件涉及文本识别技术领域，尤其涉及一种文本匹配方法、装置、电子设备及存储介质。

背景技术

产品文案的主要目的是为了让商家所经营的产品更有认知度，销售力，更好的获得目标受众的认知，更有效的把产品价值传达给目标受众。

目前，对于产品文案的制作，大都是根据对产品的理解并搜索关键词，然后花费大量大量时间阅读搜索出的文本内容，从中找出与产品关联度高的文本后再参考其中的内容进行文案的撰写。

然而，在此过程中由于需要大量的时间来进行文本的检索和文本内容的阅读理解，导致产品文案撰写需要耗费大量的时间和人力成本。

发明内容

本申请实施例提供一种文本匹配方法，用以解决现有技术中存在的产品文案撰写需要耗费大量时间和人力成本的问题。

本申请实施例提供一种文本匹配装置，用以解决现有技术中存在的产品文案撰写需要耗费大量时间和人力成本的问题。

本申请实施例还提供一种电子设备及计算机可读存储介质。

本申请实施例采用下述技术方案：

一种文本匹配方法，包括：

接收用户端上传的第一文本；

对所述第一文本进行分词处理，得到与所述第一文本对应的第一词向量矩阵；

通过词频-逆向文件频率算法对所述第一词向量矩阵中的每个词向量赋予权重，得到与所述第一词向量矩阵对应的第一词频矩阵，所述第一词频矩阵中包括所述第一词向量矩阵的所有词向量及与所述第一词向量矩阵中所有词向量一一对应的权重；

将所述第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算，得到与所述第一词频矩阵相似度最高的至少一个目标词频矩阵；

将与所述至少一个目标词频矩阵对应的目标文本发送给所述用户端。

可选的，所述方法还包括：

从目标网站获取多篇第二文本；

对所述多篇第二文本进行分词处理，得到与所述多篇第二文本一一对应的多个第二词向量矩阵；

通过词频-逆向文件频率算法对所述多个第二词向量矩阵中的每个词向量赋予权重，得到与所述多个第二词向量矩阵一一对应的所述多个第二词频矩阵。

可选的，所述从目标网站获取多篇第二文本，包括：

通过网络爬虫从目标网站获取多篇第二文本。

可选的，所述从目标网站获取多篇第二文本，包括：

从至少一个目标网站获取多篇第二文本。

可选的，所述方法还包括：

确定出所述第一词频矩阵中的关键向量；

所述将所述第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算，包括：

将所述第一词频矩阵中的关键向量与所述多个第二词频矩阵中的关键向量进行相似度计算；

其中，所述关键向量为词频矩阵中所对应的权重最大的至少一个词向量。

一种文本匹配装置，包括：

接收模块，用于接收用户端上传的第一文本；

分词处理模块，用于对所述第一文本进行分词处理，得到与所述第一文本对应的第一词向量矩阵；

权重模块，用于通过词频-逆向文件频率算法对所述第一词向量矩阵中的每个词向量赋予权重，得到与所述第一词向量矩阵对应的第一词频矩阵，所述第一词频矩阵中包括所述第一词向量矩阵的所有词向量及与所述第一词向量矩阵中所有词向量一一对应的权重；

运算模块，用于将所述第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算，得到与所述第一词频矩阵相似度最高的至少一个目标词频矩阵；

发送模块，用于将与所述至少一个目标词频矩阵对应的目标文本发送给所述用户端。

可选的，文本匹配装置还包括：

获取模块，用于从目标网站获取多篇第二文本；

分词处理模块还用于对所述多篇第二文本进行分词处理，得到与所述多篇第二文本一一对应的多个第二词向量矩阵；

权重模块还用于通过词频-逆向文件频率算法对所述多个第二词向量矩阵中的每个词向量赋予权重，得到与所述多个第二词向量矩阵一一对应的所述多个第二词频矩阵。

可选的，文本匹配装置还包括：

确定模块，用于确定出所述第一词频矩阵中的关键向量；

运算模块在用于将所述第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算时，具体用于：

一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

接收用户端上传的第一文本；

一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下流程：

接收用户端上传的第一文本；

本申请一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于对第一文本进行分词处理，并对分词处理得到的第一词向量矩阵进行加权得到第一词频矩阵，然后将第一词频矩阵与预存储的第二词频矩阵进行相似度计算，得到与第一词频矩阵相似度最高的目标词频矩阵，最后将与目标词频矩阵对应的目标文本发送给用户端。因此，客户端能够获取与第一文本关联度高的目标文本，以便于用户参考目标文本进行文案的撰写，降低产品文案撰写的时间和人力成本。

附图说明

此处所说明的附图用来提供对本文件的进一步理解，构成本文件的一部分，本文件的示意性实施例及其说明用于解释本文件，并不构成对本文件的不当限定。在附图中：

图1为本申请一个实施例提供的文本匹配方法、装置、电子设备及存储介质的应用环境示意图。

图2为本申请一个实施例提供的文本匹配方法的流程示意图。

图3为本申请一个实施例提供的确定多个第二词频矩阵的流程图。

图4为本申请一个实施例提供的电子设备的结构示意图。

图5为本申请一个实施例提供的文本匹配装置的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚，下面将结合本文件具体实施例及相应的附图对本文件技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本文件一部分实施例，而不是全部的实施例。基于本文件中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

为了方便产品文案的撰写，本申请实施例提供了一种文本匹配方法、装置、电子设备及存储介质，该文本匹配方法、装置、电子设备及存储介质能够十分方便快捷的匹配出与第一文本关联度高的目标文本，以便于用户参考目标文本进行文案的撰写，降低产品文案撰写的时间和人力成本。

首先，为了更直观地理解本申请实施例提供的方案，下面结合图1，对本申请实施例提供的文本匹配方法的系统架构进行说明。

如图1所示，是本申请一个或多个实施例提供的文本匹配方法、装置、电子设备及存储介质的应用环境示意图。如图1所示，服务端通过网络与一个或多个用户端通信连接，以进行数据通信或交互。所述用户端可以是智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)等。所述服务端可以是网络服务器、数据库服务器等。所述网络可以是有线或无线网络。

下面将对本申请实施例提供的文本匹配方法进行详细说明。

本申请实施例提供的文本匹配方法可应用于服务端，为了便于描述，除特别说明外，本申请实施例均以服务端为执行主体进行说明。

可以理解，所述执行主体并不构成对本申请实施例的限定。

具体的，该文本匹配方法的流程如图2所示，可以包括如下步骤：

步骤S201，接收用户端上传的第一文本。

第一文本是需要制作产品文案的产品的相关描述，可以是用户端的用户根据产品的一些特性归纳总结的内容，第一文本的数量可以是一个或多个。

第一文本的格式并不限定，例如其可以是doc格式的文本、也可以是txt格式的文本等。

步骤S202，对第一文本进行分词处理，得到与第一文本对应的第一词向量矩阵。

本申请实施例中的分词处理是指对文本进行分词，并将分词后得到的词转换为词向量的过程。其中，分词是中文文本处理的一个基础步骤，其可以采用，但不限于基于词典分词算法或基于统计的机械学习算法等。

通过对第一文本进行分词处理，可得到与第一文本对应的第一词向量矩阵。本申请实施例中，词向量采用独热编码(one-hot representation)。第一词向量矩阵中的每一行表示一个词向量，该词向量中仅一个元素为正整数，其余元素用0表示，该正整数表示对应词的出现次数。例如，一文本进行分词处理后得到“足球”、“篮球”、“排球”和“羽毛球”共计4个词，文本中“足球”现2次，“篮球”出现3次，“排球”出现4次，“羽毛球”出现1次，那么对应的第一词向量矩阵可以表示为

其中，第一行内容表示“足球”对应的向量词，其中的数字“2”表示文本中“足球”共出现了2次。第二行内容表示“篮球”对应的向量词，其中的数字“3”表示文本中“篮球”共出现了3次。第三行内容表示“排球”对应的向量词，其中的数字“4”表示文本中“排球球”共出现了4次。第四行内容表示“羽毛球”对应的向量词，其中的数字“1”表示文本中“羽毛球”共出现了4次。

步骤S203，通过词频-逆向文件频率算法对第一词向量矩阵中的每个词向量赋予权重，得到与第一词向量矩阵对应的第一词频矩阵。

其中，第一词频矩阵中包括第一词向量矩阵的所有词向量及与第一词向量矩阵中所有词向量一一对应的权重。

词频-逆向文件频率(term frequency–inverse document frequency，TF-IDF)是一种统计方法，用以评估一字词对于一个文件集中的其中一份文件的重要程度。其中TF为词频，其随着词在文件中出现的次数成正比增加，IDF为逆向文件词频，其会随着词在文件集中出现的频率成反比下降。

本申请实施例中，第一文本一般情况下为一个，因此在对第一词向量矩阵中的每个词向量赋予权重时，可以不考虑逆向文件词频。

步骤S204，将第一词频矩阵与预存储的多个第二词频矩阵进行相似度计算，得到与第一词频矩阵相似度最高的至少一个目标词频矩阵。

本申请实施例中，服务端存储有多个第二词频矩阵，该多个第二词频矩阵是服务端预先从与需要制作的产品文案相关的一些网站上获取了多篇第二文本，并进行分词处理以及对分词处理得到的每个词向量赋予权重后得到的。

在计算第一词频矩阵与多个第二词频矩阵的相似度时，服务端可以先确定出第一词频矩阵中的关键向量，然后计算第一词频矩阵中的关键向量与每个第二词频矩阵中的关键向量的相似度。然后找出其中关键向量与第一词频矩阵中的关键向量相似度最高的一个或多个第二词频矩阵，将其中关键向量与第一词频矩阵中的关键向量相似度最高的一个或多个第二词频矩阵作为目标词频矩阵。目标词频矩阵所对应的第二文本即为与第一文本相似度最高、关联度最大的文本。

本申请实施例中，确定第一词频矩阵中的关键向量，可以选择第一词频矩阵中所对应权重最大的一个或多个词向量作为其关键向量。同样的，确定第二词频矩阵中的关键向量，也可以选择第二词频矩阵中所对应权重最大的一个或多个词向量作为其关键向量。

本申请实施例中，确定多个第二词频矩阵的流程如图3所示，可以包括如下流程：

步骤S301，从目标网站获取多篇第二文本。

本申请实施例中，可以通过网络爬虫的方式从一个或多个目标网站获取多篇第二文本，目标网站是指与需要制作的产品文案相关的一些专业网站。

步骤S302，对多篇第二文本进行分词处理，得到与多篇第二文本一一对应的多个第二词向量矩阵。

对多篇第二文本进行分词处理得到多个第二词向量矩阵的过程，与对第一文本进行分词处理得到第一词向量矩阵的过程一致，本申请实施例中不再赘述。

步骤S303，通过词频-逆向文件频率算法对多个第二词向量矩阵中的每个词向量赋予权重，得到与多个第二词向量矩阵一一对应的多个第二词频矩。

同样的，通过赋予权重得到多个第二词频矩的过程，与通过TF-IDF算法对第一词向量矩阵中的每个词向量赋予权重得到第一词频矩阵的过程基本一致，本申请实施例中不再赘述。

与上述得到第一词频矩阵的过程不同的是，由于第二文本为多个，得到的第二词向量矩阵也为多个，因此在对第二词向量矩阵中的每个词向量赋予权重时，需要考虑逆向文件词频。

步骤S205，将与至少一个目标词频矩阵对应的目标文本发送给用户端。

在得到与第一词频矩阵相似度最高的至少一个目标词频矩阵，服务端可以将与至少一个目标词频矩阵对应的目标文本发送给用户端。

由于目标词频矩阵与第一词频矩阵的相似度最高，因此目标词频矩阵对应的目标文本与第一词频矩阵对应的第一文本之间的相似度高、关联度大。如此，客户端的用户能够方便快捷的获取到与第一文本关联度高的目标文本，以便于用户参考目标文本进行产品文案的撰写，降低产品文案撰写的时间和人力成本。

本申请实施例提供的技术方案，通过对第一文本进行分词处理，并对分词处理得到的第一词向量矩阵进行加权得到第一词频矩阵，然后将第一词频矩阵与预存储的第二词频矩阵进行相似度计算，得到与第一词频矩阵相似度最高的目标词频矩阵，最后将与目标词频矩阵对应的目标文本发送给用户端。如此，客户端的用户能够方便快捷的获取到与第一文本关联度高的目标文本，以便于用户参考目标文本进行产品文案的撰写，降低产品文案撰写的时间和人力成本。

图4是本申请的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本匹配装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

接收用户端上传的第一文本；

上述如本申请图4所示实施例揭示的文本匹配装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图2和图3的方法，并实现文本匹配装置在图4所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2和图3所示实施例的方法，并具体用于执行以下操作：

接收用户端上传的第一文本；

图5是本申请的一个实施例提供的文本匹配装置的结构示意图。请参考图5，在一种软件实施方式中，文本匹配装置可以包括：

接收模块，用于接收用户端上传的第一文本；

在一个可能的设计中，文本匹配装置还包括：

获取模块，用于从目标网站获取多篇第二文本；

在一个可能的设计中，文本匹配装置还包括：

确定模块，用于确定出所述第一词频矩阵中的关键向量；

采用上述装置，能够对第一文本进行分词处理，并对分词处理得到的第一词向量矩阵进行加权得到第一词频矩阵，然后将第一词频矩阵与预存储的第二词频矩阵进行相似度计算，得到与第一词频矩阵相似度最高的目标词频矩阵，最后将与目标词频矩阵对应的目标文本发送给用户端。如此，客户端的用户能够方便快捷的获取到与第一文本关联度高的目标文本，以便于用户参考目标文本进行产品文案的撰写，降低产品文案撰写的时间和人力成本。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本文件的较佳实施例而已，并非用于限定本文件的保护范围。凡在本文件的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本文件的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本文件中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种文本匹配方法，其特征在于，包括：

接收用户端上传的第一文本；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从目标网站获取多篇第二文本；

3.根据权利要求2所述的方法，其特征在于，所述从目标网站获取多篇第二文本，包括：

通过网络爬虫从目标网站获取多篇第二文本。

4.根据权利要求2所述的方法，其特征在于，所述从目标网站获取多篇第二文本，包括：

从至少一个目标网站获取多篇第二文本。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定出所述第一词频矩阵中的关键向量；

6.一种文本匹配装置，其特征在于，包括：

接收模块，用于接收用户端上传的第一文本；

7.根据权利要求6所述的文本匹配装置，其特征在于，还包括：

获取模块，用于从目标网站获取多篇第二文本；

8.根据权利要求6所述的文本匹配装置，其特征在于，还包括：

确定模块，用于确定出所述第一词频矩阵中的关键向量；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

接收用户端上传的第一文本；

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下流程：

接收用户端上传的第一文本；