CN110852069A

CN110852069A - 一种文本相关性评分方法及系统

Info

Publication number: CN110852069A
Application number: CN201911017774.4A
Authority: CN
Inventors: 樊劲松; 孙绍利; 顾铭延
Original assignee: Datang Converged Communications Ltd By Share Ltd
Current assignee: Datang Converged Communications Ltd By Share Ltd; Datang Telecom Convergence Communications Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-28

Abstract

本发明公开一种文本相关性评分方法及系统，所述方法包括：接收待评分的第一文本和标准对照的第二文本；分别对所述第一文本以及第二文本进行分词处理；计算第一文本分词结果和第二文本分词结果之间的文本结构相关性评分以及文本语义相关性评分；对所述文本结构相关性评分以及文本语义相关性评分进行归一化处理，得到最终的文本相关性评分。本发明还公开一种与所述方法对应的文本相关性评分系统。本发明考虑到了多个维度的文本相关性信息，提高了相关性判断的准确率，降低了人工评分的成本，且不需要进行参数训练，节省了大量的人力物力。

Description

一种文本相关性评分方法及系统

技术领域

本发明属于计算机技术领域，特别是涉及一种文本相关性评分的方法和系统。

背景技术

随着当前经济的快速发展，通信、交通、金融等各行业所需要的就业人员不断增加，需要越来越多的拥有高水平、高素养的客服人员。

而目前存在的客服培训系统难以根据不同客服学员的学习程度来动态的调整学习任务，主要原因是在缺少对于客服学员学习的量化衡量指标，无法通过客服学员回答问题的答案来确定学习程度，导致出现了客服专业水平良莠不齐的问题。现有技术已公开了多种文本相关性评分方法，这些方法各有优劣，比如：

CN106776863A公开了一种文本相关度的确定方法、查询结果的推送方法及装置，该方法包括对查询词进行分词处理；对各所述查询结果进行分词处理，根据所述查询词的分词结果和所述查询结果的分词结果来计算相对应的编辑距离；根据各所述编辑距离确定所述查询词及各查询结果之间的文本相关度。缺点：仅使用两段文本之间的编辑距离来计算相关度，只考虑了文本间结构信息差异，没有考虑到文本本身的语义信息，导致得到相关度过于片面，难以准确描述文本之间的相关性。

CN109858012A公开了一种弹幕文本相似度计算方法、存储介质、设备及系统，该方法包括对文本A和文本B进行分词处理，得出文本A和文本B的相同词项，以及相同词项的最小词频；计算相同词项在文本A和文本B中的所占比例；计算基于相同词项词频的文本A和文本B的文本相似度；将文本A和文本B通过word2vec模型映射为空间向量，然后基于余弦相似度计算文本A和文本B在文本空间的文本相似度。对文本A和文本B基于相同词项词频的文本相关度，以及在文本空间的文本相似度进行权重计算，得到最终相似度。缺点：仅使用了相同词项词频信息以及词向量信息计算相似度，没有考虑到文本本身的结构信息，导致相关于过于片面，难以准确描述文本之间的相关性。

CN104424279公开了一种文本的相关性计算方法和装置，该方法包括接收文本A和文本B；计算文本A和文本B的文本语义相关性特征值，包括计算词频-逆文本频率TF-IDF特征的特征向量、构建行业类别特征词词典得到文本A和文本B分词，再计算余弦相似度。得到语义相关性特征值；计算文本A和文本B的文本相关性特征值，包括计算基于编辑距离的相关性特征值、基于最长公共子序列的相关性特征值。再基于逻辑回归模型将文本相关性特征值和语义相关性特征值拟合为文本A和文本B的相关性特征值。缺点：使用TF-IDF方法属于提取关键词的方法，严重依赖语料库，需要选取质量较高且和所处理文本相符的训练数据进行训练，并且得到的特征难以准确表达文本之间的语义相关性。使用编辑距离和最长公共子序列的方法没有考虑文本之间N元词组的相关性。使用逻辑回归模型得到评分同样也需要训练数据。

CN109753649A公开了一种基于细粒度匹配信号的文本相关性度量方法和系统，使用两段文段的每个词的相似度，集合成二维实数矩阵，再通过卷积神经网络，全连接网络和逻辑斯蒂函数处理，得到一个分数作为相关性。缺点是：需要大量标注数据进行训练，包括两段文本以及匹配分数，需要耗费大量的人力物力。

发明内容

针对上述的缺点，本发明提出了一种更好的兼顾了文本结构相关性信息、文本语义相关性信息以及不需要大规模标注训练数据的方法，旨在解决传统文本相关度计算方法精确度不够，难以获得一个准确的评分的问题。

本发明第一方面，公开一种文本相关性评分方法，所述方法包括：

S1、接收待评分的第一文本和标准对照的第二文本；

S2、分别对第一文本以及第二文本进行分词处理；

S3、计算第一文本分词结果和第二文本分词结果之间的文本结构相关性评分以及文本语义相关性评分；

S4、对所述文本结构相关性评分以及文本语义相关性评分进行归一化处理，得到最终的文本相关性评分。

优选地，所述步骤S3中，所述文本结构相关性评分包括：

计算第一文本分词结果和第二文本分词结果之间的编辑距离，获得第一文本结构评分；

计算第一文本分词结果和第二文本分词结果之间的杰卡德相关系数，获得第二文本结构评分；

计算第一文本分词结果和第二文本分词结果之间的词重叠率指标ROUGE，获得第三文本结构评分；

将所述第一、第二、第三文本结构评分做归一化处理，获得文本结构相关性评分。

优选地，所述步骤S3中，所述计算文本语义相关性评分包括：

将第一文本分词结果以及第二文本分词结果中的每一个词都通过word2vec模型映射到低维向量空间，分别得到第一文本空间向量表示和第二文本空间向量表示；

将第一文本向量表示的所有词向量求和再求平均，获得第一文本句子向量表示；

将第二文本向量表示的所有词向量求和再求平均，获得第二文本句子向量表示；

计算所述第一文本句子向量和第二文本句子向量之间的余弦相似度，获得文本语义相关性评分。

优选地，所述步骤S4中，所述归一化处理是根据实际使用场景，采用加权平均获得文本相关性评分、和/或自定义权重加权获得文本相关性评分；所述最终的文本相关性评分的数值在0-1之间。

本发明第二方面，公开一种文本相关性评分系统，所述系统包括：

接收模块：接收待评分的第一文本和标准对照的第二文本；

处理模块：分别对第一文本以及第二文本进行分词处理；

计算模块：计算第一文本分词结果和第二文本分词结果之间的文本结构相关性评分以及文本语义相关性评分；

评分模块：对所述文本结构相关性评分以及文本语义相关性评分进行归一化处理，得到最终的文本相关性评分。

优选地，所述计算模块包括文本结构相关性计算单元，用于：

将第一、第二、第三文本结构评分做归一化处理，获得文本结构相关性评分。

优选地，所述计算模块还包括文本语义相关性计算单元，用于：

将第一文本空间向量表示的所有词向量求和再求平均，获得第一文本句子向量表示；

将第二文本空间向量表示的所有词向量求和再求平均，获得第二文本句子向量表示；

本发明相对于现有技术的有益效果是：

1.采用了文本结构相关性，包括词重叠率ROUGE、编辑距离以及杰德卡相关系数，以及文本语义相关性，包括word2vec得到的向量空间相关性等多个维度的文本相关性信息来进行相关性评分，避免了只考虑某个维度从而导致评分过于片面化的问题，使得评分能更精确的表示文本之间的相关度；

2.采用了词重叠率指标ROUGE、编辑距离以及杰德卡相关系数来对文本结构相关性评分，其中使用词重叠率指标能够更好的获取文本之间的N元词组特征，在文本相关性评估方面非常高效；

3.采用了word2vec语言模型获得文本词向量有相比于TF-IDF更好的语义表示，同时采用所有词向量加和求平均得到句子向量，根据得到的两个句子向量计算余弦相似度，有效地获得文本之间的语义相关性表示。

4.不需要人工标注的训练数据，不需要进行参数训练，节省了大量的人力物力。同时由于本发明考虑到了多个维度的文本相关性信息，提高了相关性判断的准确率，降低了人工评分的成本。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文本相关性评分方法流程示意图；

图2为本发明提供的文本结构相关性评分流程示意图；

图3为本发明提供的文本语义相关性评分流程示意图；

图4为本发明提供的文本相关性评分系统结构示意图。

具体实施方式

本发明提出了一种更好的兼顾了文本结构相关性信息、文本语义相关性信息以及不需要大规模标注训练数据的文本相关度评分方法。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提出的一种文本相关性评分方法流程示意图，所述方法包括：

S1、接收待评分的第一文本和标准对照的第二文本；

本发明可以应用于客服培训系统，在客服培训这个背景下，所述待评分的第一文本可以是客服学员回答问题的答案，标准对照的第二文本可以是客服培训系统提供的对应问题的答案文本。

S2、分别对第一文本以及第二文本进行分词处理；

进一步地，请参阅图2，所述文本结构相关性评分包括：

S311、计算第一文本分词结果和第二文本分词结果之间的编辑距离，获得第一文本结构评分；

S312、计算第一文本分词结果和第二文本分词结果之间的杰卡德(Jaccard)相关系数，获得第二文本结构评分；

S313、计算第一文本分词结果和第二文本分词结果之间的词重叠率指标ROUGE(Recall-Oriented Understudy for Gisting Evaluation)，获得第三文本结构评分；

S314、将所述第一、第二、第三文本结构评分做归一化处理，获得文本结构相关性评分。采用了词重叠率指标ROUGE、编辑距离以及杰德卡相关系数来对文本结构相关性评分，其中使用词重叠率指标能够更好的获取文本之间的N元词组特征，在文本相关性评估方面非常高效。

进一步地，请参阅图3，所述计算文本语义相关性评分包括：

S321、将第一文本分词结果以及第二文本分词结果中的每一个词都通过word2vec模型映射到低维向量空间，分别得到第一文本空间向量表示和第二文本空间向量表示；

S322、将第一文本空间向量表示的所有词向量求和再求平均，获得第一文本句子向量表示；

S323、将第二文本空间向量表示的所有词向量求和再求平均，获得第二文本句子向量表示；

S324、计算所述第一文本句子向量和第二文本句子向量之间的余弦相似度，获得文本语义相关性评分。具体的，采用了word2vec语言模型获得文本词向量有相比于TF-IDF更好的语义表示，同时采用所有词向量加和求平均得到句子向量，根据得到的两个句子向量计算余弦相似度，有效地获得文本之间的语义相关性表示。

进一步地，根据实际使用场景，采用加权平均获得文本相关性评分、和/或自定义权重加权获得数值在0-1之间的最终文本相关性评分。

请参阅图4，本发明还提供一种文本相关性评分系统，所述系统包括：

接收模块410：接收待评分的第一文本和标准对照的第二文本；

处理模块420：分别对第一文本以及第二文本进行分词处理；

计算模块430：计算第一文本分词结果和第二文本分词结果之间的文本结构相关性评分以及文本语义相关性评分；

评分模块440：对所述文本结构相关性评分以及文本语义相关性评分进行归一化处理，得到最终的文本相关性评分。

进一步地，所述计算模块430包括文本结构相关性计算单元4301，用于：

进一步地，所述计算模块430还包括文本语义相关性计算单元4302，用于：

系统实施例与方法实施例是一一对应的，系统实施例简略之处，参见方法实施例即可。

本发明考虑了文本结构相关性、文本语义相关性，等多个维度的文本相关性信息来进行相关性评分，避免了只考虑某个维度从而导致评分过于片面化的问题，使得评分能更精确的表示文本之间的相关度；不需要大量文本训练，节省了时间，提高了效率。本发明提供的方法或系统可进一步应用于客服培训系统，准确地评判客服人员学习程度，提高客服人员专业水平。本发明提供的方法或系统也可进一步应用于其他需要进行文本相关度评分的领域，比如用于评判学习程度、答题准确率、文本管控、文本相似度量化评价等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本相关性评分方法，其特征在于，所述方法包括：

S1、接收待评分的第一文本和标准对照的第二文本；

S2、分别对所述第一文本以及第二文本进行分词处理；

2.根据权利要求1所述文本相关性评分方法，其特征在于，所述步骤S3中，所述步骤S3中，所述文本结构相关性评分包括：

3.根据权利要求1所述文本相关性评分方法，其特征在于，所述步骤S3中，所述步骤S3中，所述计算文本语义相关性评分包括：

4.根据权利要求1所述文本相关性评分方法，其特征在于，所述步骤S4中，根据实际使用场景，采用加权平均获得文本相关性评分、和/或自定义权重加权获得最终文本相关性评分；所述最终的文本相关性评分的数值在0-1之间。

5.一种文本相关性评分系统，其特征在于，所述系统包括：

接收模块：接收待评分的第一文本和标准对照的第二文本；

处理模块：分别对第一文本以及第二文本进行分词处理；

6.根据权利要求5所述文本相关性评分系统，其特征在于，所述计算模块包括文本结构相关性计算单元，用于：

7.根据权利要求6所述文本相关性评分系统，其特征在于，所述计算模块还包括文本语义相关性计算单元，用于：