CN110705248A

CN110705248A - 一种文本相似度计算方法、终端设备及存储介质

Info

Publication number: CN110705248A
Application number: CN201910954112.3A
Authority: CN
Inventors: 肖肇宇; 刘继明; 于敏敏; 高力伟
Original assignee: Xiamen Jincun Technology Co Ltd
Current assignee: Xiamen Jincun Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-17

Abstract

本发明涉及一种文本相似度计算方法、终端设备及存储介质，该方法中包括：S1：将待比对的两个文本数据进行预处理；S2：将预处理后的两个文本数据进行同义词归一化操作；S3：计算每个文本数据的文本向量；S4：将两个文本数据的文本向量共同组成文本矩阵X，对该文本矩阵X进行奇异值分解，并计算文本矩阵X中去除主要成分后的矩阵Y；S5：从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量，根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。本发明考虑了同一领域范围内，某一词出现的频率越高，则等同于其重要性越低的问题，且在去除无意义信息的同时，保持该领域内的关键词信息，从而提升相似度计算的准确度。

Description

一种文本相似度计算方法、终端设备及存储介质

技术领域

本发明涉及文本相似度领域，尤其涉及一种文本相似度计算方法、终端设备及存储介质。

背景技术

随着计算机对文本信息等各种自然语言处理应用的普及，人们需要一个有效且准确的方法来计算两个文本或句子之间的文本相似度，即计算机文本相似度计算方法。尤其，短文本相似度的计算具有十分重要的作用，它的应用能极大地提高系统自动问答的精度。

在通常的相似度算法思想中，一种主流的思想是，在语料库中出现次数越高的词，其含有的特征信息越少，因此在计算句子的句向量时，将会出现频率较高的词所占的权重下调。在未限定领域范围自动问答的环境下，这种操作能够去除一些文本中的噪声，从而提升相似度计算的准确度。然而，当处要求在领域范围内进行自动问答时，由于一些领域关键词的出现率也通常较高，因此这种操作反而降低了相似度算法准确性。

发明内容

为了解决上述文本，本发明提出了一种文本相似度计算方法、终端设备及存储介质。

具体方案如下：

一种文本相似度计算方法，包括以下步骤：

S1：将待比对的两个文本数据进行预处理，所述预处理包括分词和去除无意义词；

S2：将预处理后的两个文本数据中所有具有相同意义或相近意义的词均替换为一个相同的词，该相同的词为与被替换词具有相同意义或相近意义的词；

S3：计算每个文本数据的文本向量；

S4：将两个文本数据的文本向量共同组成文本矩阵X，对该文本矩阵X进行奇异值分解变换为三个矩阵U、∑、V^τ：

X＝U·∑·V^τ

并计算文本矩阵X中去除主要成分后的矩阵Y：

Y＝X-X·V·V^τ

其中，V为V^τ的转置矩阵；

S5：从矩阵Y中提取出两个文本数据对应的向量作为其优选文本向量，根据每个文本数据对应的优选文本向量计算两个文本数据之间的相似度。

进一步的，步骤S3中每个文本数据的文本向量的计算过程为：

S31：计算文本数据中每个词的词向量；

S32：计算该词在文本数据中的权重；

S33：根据文本数据中每个词的词向量和该词在文本数据中的权重，计算该文本数据的文本向量。

进一步的，步骤S32中每个词在文本数据中的权重为由词频权重、词性权重和领域调节权重三者构成，其中词频权重考虑该词在语料库中的频率；词性权重考虑该词的词性和其所在领域内所有关键词在语料库中的频率的平均值；领域调节权重考虑该词在对应领域内的重要程度。

进一步的，词频权重W_f的计算公式为：

其中，α为调节常数，P为该词在语料库中的词频。

进一步的，词性权重W_k的计算公式为：

其中，W_w为根据该词的词性和所在领域设定的基础权重，P为该词在语料库中的词频，

为对应领域的领域词典中包含的所有词在语料库中的词频的平均值。

进一步的，步骤S33中文本数据的文本向量的计算方法为：

其中，P_S表示文本数据S的文本向量，i表示文本数据中的第i个词，n表示文本数据中词的个数，W_i为文本数据中第i个词的权重，V_i表示文本数据中第i个词的词向量。

进一步的，步骤S5中两个文本数据之间的相似度_s的计算公式为：

其中，P_i、P_j分别表示两个文本数据的优选文本向量，||·||表示求模运算。

一种文本相似度计算终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，考虑了同一领域范围内，某一词出现的频率越高，则等同于其重要性越低的问题，且在去除无意义信息的同时，保持该领域内的关键词信息，从而提升相似度计算的准确度。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种文本相似度计算方法，如图1所示，包括以下步骤：

S1：对文本数据进行预处理。

该实施例中，所述预处理包括但不限于分词和去停用词。

所述分词即为将文本数据按照一定的规范重新组合成词的序列，分词采用现有的算法处理即可。

在分词之后的结果中，往往可能存在一些不具有具体含义的字符或词，比如语气词(啊、呀等)、标点符号(逗号、句号等)等，这些不具有具体含义的字符或词在文本实际内容的获取中起干扰作用，因此还需要将这些停用词去除。

该实施例中去停用词的方法为设置停用词词典，将常用的停用词添加至停用词词典内，在一些特别的应用场景下，可以手动对停用词词典中的内容进行增加或删除。在其他的实施例中，去停用词也可以采用其他的方法，在此不做限制。

S2：对预处理后的两个文本数据进行同义词归一化操作，所述同义词归一化操作为将具有相同意义或相近意义的词均替换为一个相同的词，该相同的词为与被替换词具有相同意义或相近意义的词。

该实施例中设置同义词词典，在同义词词典中，所有具有相同意思或相近意思的词全部与某一个与这些词具有相同意思或相近意思的词相对应，如电视、电视机、TV三个词全部指向同一个词即电视/电视机/TV，该指向的词为上述同意词或近义词中的任意一个。

通过同义词归一化操作，可以减小相似度计算过程中的误差。

S3：计算每个文本数据的文本向量。

该实施例中，步骤S3包括以下步骤：

S31：计算文本数据中每个词的词向量。

所述词向量可以根据具体的场景需求来选用集体的生成方法，如通过Word2Vec、FastText进行词向量的生成。

S32：计算该词在文本数据中的权重W。

该实施例中，所述权重W由三部分组成，分别为词频权重W_f、词性权重W_k和领域调节权重W_a，其中：

(1)词频权重W_f根据该词在语料库中出现的频率进行计算，具体计算公式为：

其中，α为调节常数，本领域技术人员根据经验进行设定；P为该词在语料库中出现的频率，即词的词频。

(2)词性权重W_k根据该词在领域词典中的词性(动词、名词等)和词频得到，其具体的计算公式为：

领域词典中包含的词为该领域内的关键词，其内容主要由本领域专家筛选设定。

(3)领域调节权重W_a表示在对应领域内该词的重要程度。

领域词典中包含的的词是根据分析该领域内的文本，统计出现的高频词，再由人工，通常是领域专家筛选设定的词典，不同的词在该领域内的权重不同，即为该领域调节权重W_a，该权重通常由人工(最好是领域专家)设定，该实施例中设定的范围为[1，2]，如该词在领域词典内不存在时，则其领域调节权重W_a设为默认值，该实施例中默认值为1。

因此，该词的权重W的计算公式为：

W＝W_fW_aW_k

S33：根据文本数据中每个词的词向量和该词在文本数据中的权重，计算该文本数据S的文本向量P_S。

其中，i表示文本数据中的第i个词，即词的序号，n表示文本数据中词的个数，W_i为文本数据中第i个词的权重，V_i表示文本数据中第i个词的词向量。

S4：将两个文本数据的文本向量共同组成文本矩阵X，对该文本矩阵X进行奇异值分解：

X＝U·∑·V^τ

其中，得到的矩阵V^τ为文本矩阵X的最大主成分，在文本矩阵X中文本的主题普遍相近的情况下，通过下式计算的文本矩阵X中去除主要成分后的矩阵Y，其通过去除主成分能够移除无意义的信息，即对相似度计算影响较小的信息，增大计算的准确度。

Y＝X-X·V·V^τ

其中，V为V^τ的转置矩阵，矩阵Y为文本矩阵X去主成分后的剩余部分形成的矩阵。

该实施例中采用的相似度计算公式为：

其中，s表示两个文本数据之间的相似度，P_i、P_j分别表示两个文本数据的优选文本向量，||·||表示求模运算。

本发明实施例一考虑了同一领域范围内，某一词出现的频率越高，则等同于其重要性越低的问题，且在去除无意义信息的同时，保持该领域内的关键词信息，从而提升相似度计算的准确度。该实施例中实现上述目的的主要手段就是系统中维护的领域词典，其记载了该领域内的关键词和相应的权重信息，通过多种权重的结合，来提升相似度计算的准确度。

实施例二：

本发明还提供一种文本相似度计算终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述文本相似度计算终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文本相似度计算终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述文本相似度计算终端设备的组成结构仅仅是文本相似度计算终端设备的示例，并不构成对文本相似度计算终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述文本相似度计算终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述文本相似度计算终端设备的控制中心，利用各种接口和线路连接整个文本相似度计算终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述文本相似度计算终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述文本相似度计算终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。