CN113011153B - 文本相关性检测方法、装置、设备及存储介质 - Google Patents
文本相关性检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113011153B CN113011153B CN202110276395.8A CN202110276395A CN113011153B CN 113011153 B CN113011153 B CN 113011153B CN 202110276395 A CN202110276395 A CN 202110276395A CN 113011153 B CN113011153 B CN 113011153B
- Authority
- CN
- China
- Prior art keywords
- text
- theme
- keyword
- matching
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请涉及语音语义技术领域,公开了一种文本相关性检测方法、装置、设备及存储介质,所述方法包括:构成第一关键词向量和第二关键词向量,基于模糊均值算法对第一关键词向量和第二关键词向量进行聚类分析,得到主题向量;基于主题向量确定第一文本的第一主题和第二文本的第二主题,根据第一主题和第二主题构建主题图;基于预设的关键词匹配规则,对各个主题节点下的句子对构造第一匹配特征和第二匹配特征,将任意主题节点的第一匹配特征和第二匹配特征进行拼接,得到该主题节点的匹配特征;将匹配特征和领接矩阵输入图卷积模型进行分析,得到第一文本和第二文本的相关性。实现了文本间的全局匹配,提高了相关性匹配的灵活性和准确性。
Description
技术领域
本申请涉及语音语义技术领域,尤其涉及一种文本相关性检测方法、装置、设备及存储介质。
背景技术
文本匹配,就是计算两个文本之间的相关性。目前,文本匹配常用于将工作人员提供的业务文本与业内标准文本进行相关性检测,以确定对应工作人员的业务能力。例如常见的客服服务话术质量的检测过程,就是将客服与用户的通话文本与行业标准话术进行相关性检测的过程。传统的检测方法主要是基于规则的面签通知匹配或基于tf-idf的匹配,但是基于规则的面签通知匹配方法缺乏灵活度及不完整性,基于tf-idf的匹配算法只能做到精准匹配,对相似话术以及字形相差较大的文本,很难准确评估相似程度。
综上,现有的文本相关性匹配方法缺乏灵活性,存在无法进行全局匹配的问题。
发明内容
本申请提供了一种文本相关性检测方法、装置、设备及存储介质,能够提高相关性匹配方法的灵活性,实现文本间的全局匹配。
第一方面,本申请提供了一种文本相关性检测方法,所述方法包括:
分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;
基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
第二方面,本申请还提供了一种文本相关性检测装置,所述装置包括:
第一得到模块,用于分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
构造模块,用于基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
第二得到模块,用于基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;
第三得到模块,用于基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
第三方面,本申请还提供了一种文本相关性检测设备,所述文本相关性检测设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文本相关性检测方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文本相关性检测方法。
本申请公开了一种文本相关性检测方法、装置、设备及存储介质,首先通过构成第一文本中第一关键词的第一关键词向量和第二文本中第二关键词的第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量后,再基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图;在得到主题图后进一步基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征,基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征,针对所述主题图中的任意主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;最后基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。实现了文本间的全局匹配,提高了相关性匹配的灵活性和准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本相关性检测方法的示意流程图;
图2是本申请的实施例的提供一种文本相关性检测装置的示意性框图;
图3是本申请实施例提供的一种文本相关性检测设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种文本相关性检测方法、装置、计算机设备及存储介质。文本相关性检测方法可用于对待检测文本与行业内的标准文本进行相关性检测,通过构建待检测文本与标准文本之间的主题图,并为主题图中各个主题节点下的句子构造匹配特征,进而根据所述匹配特征和所述主题图实现对待检测文本和标注文本的全局匹配,提高了相关性匹配的灵活性和准确性。
例如,本申请的实施例提供的文本相关性检测方法,可应用于线上客服系统中,通过对服务过程中的聊天记录与标准服务文本进行相关性检测,可得知客服人员的服务态度,进而提高客服质量。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种文本相关性检测方法的示意流程图。该文本相关性检测方法通过对待检测文本与标准文本进行相关性分析,在实现文本全局匹配的同时,提高文本匹配的灵活性和准确率。
如图1所示,该文本相关性识别方法可用于文本相关性识别设备,所述文本相关性识别设备可以是终端或者服务器,所述终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。所述服务器可以是单个服务器或者服务器集群。具体包括:步骤S101至步骤S104。详述如下:
S101、分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题。
在本申请的实施例中,可以通过tf-idf算法对所述第一文本和所述第二文本进行关键词抽取,得到所述第一文本的第一关键词和所述第二文本的第二关键词。具体地,对所述第一文本和所述第二文本分别基于预设的分词规则以段落为单位进行分词处理,分别针对每个分词基于tf-idf算法计算每个分词各自对应的加权逆文本指数值;然后根据每个分词的所述加权逆文本指数值的大小,在所述第一文本和所述第二文本中分别选取预设数量的关键词(例如,按照加权逆文本指数值从大到小排列的前3个关键词),对选取的预设数量的关键词去重合之后得到所述第一关键词和所述第二关键词。
示例性地,基于所述第一关键词和所述第二关键词构建主题图,包括:基于模糊均值算法对所述第一关键词的词向量和所述第二关键词的词向量进行聚类分析,得到主题向量;基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题;根据所述第一主题和所述第二主题构建所述主题图。
示例性,分别获取所述第一关键词和所述第二关键词,包括:根据TF-IDF 算法分别对所述第一文本和所述第二文本进行关键词抽取,得到所述第一关键词和所述第二关键词。
在一实施例中,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,可以包括:根据模糊C均值聚类算法分别将预设数量的所述第一关键词和所述第二关键词组成一个主题;各个所述主题包含的所述第一关键词和所述第二关键词分别构成各个主题各自对应的所述主题向量。其中,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所述的主题。
示例性地,基于模糊均值算法对所述第一关键词的词向量和所述第二关键词的词向量进行聚类分析,得到主题向量,包括:基于模糊C均值聚类将预设数量的相关性很高的所述第一关键词和所述第二关键词组成一个主题,即可以将所述第一关键词和所述第二关键词的顶点图的所有结点分组成多个社区,一个社区中的若干个第一关键词和第二关键词为一个主题,每个第一关键词和第二关键词均可能出现在多个主题中。
具体地,基于模糊C均值聚类将预设数量的所述第一关键词和所述第二关键词组成一个主题,包括:为每个所述第一关键词和所述第二关键词分别赋予属于每个主题簇的隶属度函数;基于模糊不断迭代计算隶属度和主题簇中心,直至所述隶属度和主题簇中心均满足预设的条件;通过隶属度的大小将所述第一关键词和所述第二关键词进行归类,分别将预设数量的所述第一关键词和所述第二关键词归为同一类别的主题。例如,若某个第一关键词的隶属度大于预设的最小化目标函数的隶属度阈值,例如0.5,则该第一关键词属于该最小化目标函数对应的簇。其中,最小化目标函数可以表示为:
其中m是聚类的簇数;i,j是类标号;ui,j表示样本xi属于j类的隶属度。 i表示第i个样本,x是具有d维特征的一个样本。cj是j簇的中心,也具有d 维度。||xi-cj||可以是任意表示距离的度量。
S102、基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边。
在一可选的实现方式中,所述基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,包括:基于各个所述主题向量与所述第一文本中各个句子之间的相似度,确定所述第一文本中各个句子对应的所述第一主题;基于各个所述主题向量与所述第二文本中各个句子之间的相似度,确定所述第二文本中各个句子对应的所述第二主题。
此外,基于各个所述主题向量与所述第一文本中各个句子之间的相似度,确定所述第一文本中各个句子对应的所述第一主题,包括:分别对每段句子中包含的关键词进行向量化;计算每个句子与每个主题的余弦相似度,确定与每个句子的相似度阈值大于预设相似度阈值的主题;针对任意句子,与该句子的相似度阈值大于预设相似度阈值的主题为该句子对应的所述第一主题。可以理解地,每个主题可以附带有若干个句子。同理,基于各个所述主题向量与所述第二文本中各个句子之间的相似度,确定所述第二文本中各个句子对应的第二主题的过程与确定第一主题的过程相同,在此不再赘述。
其中,根据所述第一主题和所述第二主题构建所述主题图,包括:分别确定各个所述第一主题和各个所述第二主题之间的余弦相似度;若有第一主题与第二主题之间的余弦相似度大于预设相似度阈值,则确定所述第一主题和所述第二主题为所述主题图的主题节点,每两个主题节点之间的连接线构成所述主题边。
S103、基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征。
其中,基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征包括:分别将各个主题节点下两个句子集合中的每一个句子进行拼接,得到每一个主题节点分别对应的两个长文本;将每一个主题节点分别对应的两个长文本采用Avg-Pooling算法进行向量匹配,得到所述第一匹配特征。其中,各个所述主题节点下分别有两个句子集合,一个句子集合来自于第一文本A,一个句子集合来自于第二文本B,将每一个句子集合的句子进行拼接。则每一个主题结点将由第一文本中的一个句子和第二文本中的一个句子表示。其中,所述Avg-Pooling算法为基于孪生网络结构的模型算法。
所述基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征,包括:采用TF-IDF余弦相似度(也可以为BM25算法)计算各个主题节点下句子对之间的相关性,所述相关性作为各个主题结点的词频特征,例如所述词频特征表示为mv’;将每一个主题节点分别对应的两个长文本(上述第一关键词匹配过程中得到的第一文本中的一个句子和第二文本中的一个句子)分别用关键词词袋的向量表示。其中,关键词词袋的向量长度为词袋大小,如果词袋中某个关键词在这个句子中出现过s次,则该词对应位置为s,否则为 0;计算第一文本中的一个句子和第二文本中的一个句子的余弦相似度,得到所述第二匹配特征。
进一步地,将得到的第一匹配特征和第二匹配特征进行拼接,得到每个主题节点的所述匹配特征。
S104、基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
在一实施例中,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本和所述第二文本的相关性,包括:将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子与所述第二文本中各个句子之间的匹配向量;根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
示例性地,可以将每个主题节点的匹配特征和主题图的邻接矩阵(所述邻接矩阵为将每个主题节点的匹配特征和每个主题节点作为相邻元素构成的矩阵)作为图卷积模型的输入;其中,所述图卷积模型的隐藏层为2层,用GCN 的最后一层,得到每个主题节点新的表示(local matching features)。由于每一层GCN的更新是邻接矩阵A与特征矩阵(mv+mv')相乘再与权重矩阵相乘,而邻接矩阵A与特征H相乘,等价于令某节点的邻居节点的特征相加。其中,所述2层隐藏层,表示相近似2层GCN的信息,最后得到的每个主题节点新的特征。
在本申请的实施例中,把图卷积模型中得到的每个主题节点的新的特征合并成一个全局的(图层次的)向量,合并的方式是对所有主题节点新的特征基于句子粒度进行匹配。
此外,增加基于文章的全局信息,将两个文章基于xlnet网络再得到一个匹配向量作为另外的全局特征,将其和每个主题节点的新的特征合并成一个全局的(图层次的)向量进行拼接,得到一个新的全局匹配向量,最后考虑到时间复杂度,将其基于普通的分类模型MLP进行相关性分类匹配,得到所述第一文本和所述第二文本的相关性结果。
上述实施例提供的文本相关性检测方法,首先通过构成第一文本中第一关键词的第一关键词向量和第二文本中第二关键词的第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量后,再基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图;在得到主题图后进一步基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征,基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征,针对所述主题图中的任意主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;最后基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。实现了文本间的全局匹配,提高了相关性匹配的灵活性和准确性。
请参阅图2,图2是本申请的实施例的提供一种文本相关性检测装置的示意性框图,该文本相关性检测装置用于执行前述的文本相关性检测方法。其中,该文本相关性检测装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图2 所示,文本相关性检测装置200包括:第一得到模块201、构造模块 202、第二得到模块203和第三得到模块204。其中,
第一得到模块201,用于分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
构造模块202,用于基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
第二得到模块203,用于基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;
第三得到模块204,用于基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
可选地,所述第一得到模块201包括:
获取单元,用于根据TF-IDF算法分别对所述第一文本和所述第二文本进行关键词抽取,得到所述第一关键词和所述第二关键词。
可选地,所述第一得到模块201还包括:
得到单元,用于根据模糊C均值聚类算法分别将预设数量的所述第一关键词和所述第二关键词组成一个主题;各个所述主题包含的所述第一关键词和所述第二关键词分别构成各个主题各自对应的所述主题向量。
可选地,所述构造模块201包括:
确定单元,用于基于各个所述主题向量与所述第一文本中各个句子之间的相似度,确定所述第一文本中各个句子对应的所述第一主题;基于各个所述主题向量与所述第二文本中各个句子之间的相似度,确定所述第二文本中各个句子对应的所述第二主题。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的文本相关性检测装置和各模块的具体工作过程,可以参考前述文本相关性检测方法实施例中的对应过程,在此不再赘述。
上述的文本相关性检测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的文本相关性检测设备上运行。
请参阅图3,图3是本申请实施例提供的一种文本相关性检测设备的结构示意性框图。该文本相关性检测设备可以是服务器或终端。
参阅图3,该文本相关性检测设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本相关性检测方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本相关性检测方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的文本相关性检测设备的限定,具体的计文本相关性检测设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的所述匹配特征;
基于所述匹配特征得到所述主题图的领接矩阵,将所述匹配特征和所述领接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
在一实施例中,所述分别获取所述第一关键词和所述第二关键词,包括:
根据TF-IDF算法分别对所述第一文本和所述第二文本进行关键词抽取,得到所述第一关键词和所述第二关键词。
在一实施例中,所述基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,包括:
根据模糊C均值聚类算法分别将预设数量的所述第一关键词和所述第二关键词组成一个主题;
各个所述主题包含的所述第一关键词和所述第二关键词分别构成各个主题各自对应的所述主题向量。
在一实施例中,所述基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,包括:
基于各个所述主题向量与所述第一文本中各个句子之间的相似度,确定所述第一文本中各个句子对应的所述第一主题;
基于各个所述主题向量与所述第二文本中各个句子之间的相似度,确定所述第二文本中各个句子对应的所述第二主题。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项文本相关性检测方法。
其中,所述计算机可读存储介质可以是前述实施例所述的文本相关性检测设备的内部存储单元,例如所述文本相关性检测设备的硬盘或内存。所述计算机可读存储介质也可以是所述文本相关性检测设备的外部存储设备,例如所述文本相关性检测设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种文本相关性检测方法,其特征在于,包括:
分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的匹配特征;
基于所述匹配特征得到所述主题图的邻 接矩阵,将所述匹配特征和所述邻 接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
2.根据权利要求1所述的文本相关性检测方法,其特征在于,所述分别获取所述第一关键词和所述第二关键词,包括:
根据TF-IDF算法分别对所述第一文本和所述第二文本进行关键词抽取,得到所述第一关键词和所述第二关键词。
3.根据权利要求1所述的文本相关性检测方法,其特征在于,所述基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,包括:
根据模糊C均值聚类算法分别将预设数量的所述第一关键词和所述第二关键词组成一个主题;
各个所述主题包含的所述第一关键词和所述第二关键词分别构成各个主题各自对应的所述主题向量。
4.根据权利要求3所述的文本相关性检测方法,其特征在于,所述基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,包括:
基于各个所述主题向量与所述第一文本中各个句子之间的相似度,确定所述第一文本中各个句子对应的所述第一主题;
基于各个所述主题向量与所述第二文本中各个句子之间的相似度,确定所述第二文本中各个句子对应的所述第二主题。
5.一种文本相关性检测装置,其特征在于,包括:
第一得到模块,用于分别获取第一文本的第一关键词和第二文本的第二关键词,构成第一关键词向量和第二关键词向量,基于模糊均值算法对所述第一关键词向量和所述第二关键词向量进行聚类分析,得到主题向量,所述主题向量包括所述第一关键词向量中各个关键词所属的主题和所述第二关键词向量中各个关键词所属的主题;
构造模块,用于基于所述主题向量确定所述第一文本中各个句子对应的第一主题和所述第二文本中各个句子对应的第二主题,根据所述第一主题和所述第二主题构建主题图,所述第一文本为待检测文本,所述第二文本为标准文本,所述主题图包括由各个关键词所属的主题构成的主题节点和各个主题节点之间的主题边;
第二得到模块,用于基于预设的第一关键词匹配规则,对各个所述主题节点下的句子对构造第一匹配特征;基于预设的第二关键词匹配规则,对各个所述主题节点下的句子对构造第二匹配特征;针对任意所述主题节点,将该主题节点对应的所述第一匹配特征和所述第二匹配特征进行拼接,得到该主题节点的匹配特征;
第三得到模块,用于基于所述匹配特征得到所述主题图的邻 接矩阵,将所述匹配特征和所述邻 接矩阵输入图卷积模型进行分析,得到所述第一文本中各个句子和所述第二文本中各个句子之间的匹配向量,根据所述匹配向量得到所述第一文本和所述第二文本的相关性。
6.一种文本相关性检测设备,其特征在于,所述文本相关性检测设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至4中任一项所述的文本相关性检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至4中任一项所述的文本相关性检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276395.8A CN113011153B (zh) | 2021-03-15 | 2021-03-15 | 文本相关性检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276395.8A CN113011153B (zh) | 2021-03-15 | 2021-03-15 | 文本相关性检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011153A CN113011153A (zh) | 2021-06-22 |
CN113011153B true CN113011153B (zh) | 2022-03-29 |
Family
ID=76407248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110276395.8A Active CN113011153B (zh) | 2021-03-15 | 2021-03-15 | 文本相关性检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011153B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114166858B (zh) * | 2022-02-11 | 2022-04-12 | 海门市芳华纺织有限公司 | 基于人工智能的纺织毛刷辊划伤皮革区域检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110442853A (zh) * | 2019-08-09 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 文本定位方法、装置、终端及存储介质 |
CN111144112A (zh) * | 2019-12-30 | 2020-05-12 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
CN112100406A (zh) * | 2020-11-11 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
CN112182166A (zh) * | 2020-10-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、电子设备及存储介质 |
US10909317B2 (en) * | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
-
2021
- 2021-03-15 CN CN202110276395.8A patent/CN113011153B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804641A (zh) * | 2018-06-05 | 2018-11-13 | 鼎易创展咨询(北京)有限公司 | 一种文本相似度的计算方法、装置、设备和存储介质 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
US10909317B2 (en) * | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
CN110442853A (zh) * | 2019-08-09 | 2019-11-12 | 深圳前海微众银行股份有限公司 | 文本定位方法、装置、终端及存储介质 |
CN111144112A (zh) * | 2019-12-30 | 2020-05-12 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
CN112182166A (zh) * | 2020-10-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、电子设备及存储介质 |
CN112100406A (zh) * | 2020-11-11 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113011153A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
US9262438B2 (en) | Geotagging unstructured text | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
AlQahtani | Product sentiment analysis for amazon reviews | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN112256822A (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN112732870A (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN113011153B (zh) | 文本相关性检测方法、装置、设备及存储介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
Negaresh et al. | Gender identification of mobile phone users based on internet usage pattern | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN114817523A (zh) | 摘要生成方法、装置、计算机设备和存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |