CN110852097B

CN110852097B - 特征词提取方法、文本相似度计算方法、装置和设备

Info

Publication number: CN110852097B
Application number: CN201910978967.XA
Authority: CN
Inventors: 刘翔; 姚飞
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2022-02-01
Anticipated expiration: 2039-10-15
Also published as: CN110852097A; WO2021072850A1

Abstract

本发明公开了一种特征词提取方法，包括：响应于对目标文本的分词指令，对所述目标文本进行分词，得到分词集合；组合所述分词集合中的各个所述分词，得到若干词组，其中，每个所述词组包括若干所述分词；计算所述词组的第一TF值和TF‑IDF值；计算组合所述词组的每个所述分词的第二TF值，得到若干所述第二TF值；利用所述TF‑IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF‑IDF值；选取排列在预定位置之前的所述概率限定TF‑IDF值对应的所述词组作为所述目标文本的特征词。本公开还提供了一种文本相似度计算方法、一种特征词提取装置、一种文本相似度计算装置一种计算机设备和一种计算机可读存储介质。

Description

特征词提取方法、文本相似度计算方法、装置和设备

技术领域

本发明涉及计算机技术领域，具体涉及一种特征词提取方法、文本相似度计算方法、装置、计算机设备和计算机可读存储介质。

背景技术

特征词指的是最能代表文本的主题性和关键性内容的词或短语，其在很多领域都有着非常重要的应用。如，文本对比、文本分类、内容推送和搜索引擎等。但是，在大多数情况下，文本并没有直接给出其对应的特征词，因此提供一种特征词的提取方案非常必要。

然而，发明人在研究本发明的过程中发现，现有技术提供的特征词提取方案的准确性不高。

发明内容

本发明的目的在于提供一种特征词提取方法、文本相似度计算方法、装置、计算机设备和计算机可读存储介质，能够解决上述现有技术中的缺陷。

本发明的一个方面提供了一种特征词提取方法，包括：响应于对目标文本的分词指令，对所述目标文本进行分词，得到分词集合；组合所述分词集合中的各个所述分词，得到若干词组，其中，每个所述词组包括若干所述分词；计算所述词组的第一TF值和TF-IDF值；计算组合所述词组的每个所述分词的第二TF值，得到若干所述第二TF值；利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值；选取排列在预定位置之前的所述概率限定TF-IDF值对应的所述词组作为所述目标文本的特征词。

可选地，对所述目标文本进行分词，得到分词集合的步骤包括：对所述目标文本进行分词，得到组成所述目标文本的所有所述分词；清洗所有的所述分词，得到所述分词集合。

可选地，利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值的步骤包括：计算若干所述第二TF值的乘积，得到TF乘积；计算所述第一TF值和所述TF乘积的比值，得到词组概率值；利用所述TF-IDF值和所述词组概率值计算所述概率限定TF-IDF值。

本发明的另一个方面提供了一种文本相似性计算方法，包括：选取目标文本的特征词，其中，所述目标文本的所述特征词是通过上述任一项实施例所述的特征词提取方法选取的；将所述特征词输入第一文本检索库，得到若干第一文本；计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度；将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本。

可选地，在所述将所述特征词输入第一文本检索库，得到若干第一文本的步骤之后，所述方法还包括：对所述特征词进行扩展，得到扩展词组集合，其中，所述扩展词组集合包括所述特征词和所述特征词的近义词，将所述扩展词组集合输入所述第一文本检索库，得到若干第二文本，对若干所述第一文本和若干所述第二文本取并集，得到若干第三文本；所述计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度的步骤包括：计算所述目标文本和若干所述第三文本的第二相似度，得到若干所述第二相似度；所述将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本的步骤包括：将若干所述第二相似度中满足第二相似度阈值的第二相似度对应的第三文本作为与所述目标文本相似的文本。

可选地，在所述将所述特征词输入第一文本检索库，得到若干第一文本的步骤之后，所述方法还包括：获取预先建立的知识图谱，其中，针对每个所述第一文本，所述知识图谱包括：引用所述第一文本的若干第四文本、与所述第一文本同族的若干第五文本、以及若干第六文本和每个所述第六文本与所述第一文本的第三相似度；针对每个所述第一文本，从所述知识图谱中确定出若干所述第四文本、若干所述第五文本以及若干第七文本，其中，每个所述第七文本为若干所述第六文本中满足第三相似度阈值的第三相似度对应的文本；将若干所述第一文本、若干所述第四文本、若干所述第五文本和若干所述第七文本作为扩展文本集；所述计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度的步骤包括：计算所述目标文本和所述扩展文本集中每个文本的第四相似度，得到若干所述第四相似度；所述将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本的步骤包括：将扩展文本集中满足第四相似度阈值的第四相似度对应的文本作为与所述目标文本相似的文本。

可选地，在所述获取预先建立的知识图谱的步骤之前，所述方法还包括：构建所述知识图谱；其中，所述构建所述知识图谱的步骤包括：针对每个所述第一文本，获取若干所述第四文本，并将若干所述第四文本中每个所述第四文本和所述第一文本的关联关系构建在所述知识图谱中；针对每个所述第一文本，获取若干所述第五文本，并将若干所述第五文本中每个所述第五文本和所述第一文本的关联关系构建在所述知识图谱中；针对每个所述第一文本，提取所述第一文本的特征词输入第二文本检索库，得到若干所述第六文本，计算所述第一文本与若干所述第六文本中每个所述第六文本的第三相似度，并将所述第一文本、若干所述第六文本中的每个所述第六文本和所述第三相似度的关联关系构建在所述知识图谱中。

可选地，所述计算所述第一文本与若干所述第六文本中每个所述第六文本的第三相似度的步骤包括：计算所述第一文本的特征词和每个所述第六文本的特征词的相似度；和/或计算所述第一文本的文本词向量和每个所述第六文本的文本词向量的相似度；和/或计算所述第一文本的IPC分类号和每个所述第六文本的IPC分类号的相似度。

本发明的再一个方面提供了一种特征词提取装置，包括：分词模块，用于响应于对目标文本的分词指令，对所述目标文本进行分词，得到分词集合；组合模块，用于组合所述分词集合中的各个所述分词，得到若干词组，其中，每个所述词组包括若干所述分词；第一计算模块，用于计算所述词组的第一TF值和TF-IDF值；第二计算模块，用于计算组合所述词组的每个所述分词的第二TF值，得到若干所述第二TF值；第三计算模块，用于利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值；第一选取模块，用于选取排列在预定位置之前的所述概率限定TF-IDF值对应的所述词组作为所述目标文本的特征词。

本发明的又一个方面提供了一种文本相似性计算装置，包括：第二选取模块，用于选取目标文本的特征词，其中，所述目标文本的所述特征词是通过上述任一项实施例所述的特征词提取方法选取的；第一输入模块，用于将所述特征词输入第一文本检索库，得到若干第一文本；第四计算模块，用于计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度；第一确定模块，用于将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本。

本发明的又一个方面提供了一种计算机设备，该计算机设备包括：存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现上述任一实施例所述的特征词提取方法和/或上述任一实施例所述的文本相似度计算方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的特征词提取方法和/或上述任一实施例所述的文本相似度计算方法。

本发明提供了一种特征词提取方法，通过将分词组合成词组，再利用改进的TF-IDF算法计算词组的概率限定TF-IDF值，不仅考虑了词组的关联度，该考虑了词组与组成该词组的分词之间的关联度，进一步，由于长词的表达能力大于短词的表达能力，选取排列靠前的词组作为特征词，使得选取的词组代表性够强，也即提高了选取特征词的准确度。

本发明提供了一种文本相似度计算方法，通过上述特征词提取方法选取出目标文本的特征词，然后基于特征词检索出若干第一文本，对于检索出若干第一文本以及从若干第一文本中确定出与目标文本相似的文本这一过程，由于选取的特征词具有足够的代表性，因此利用这些词组检索出若干第一文本也与目标文本足够相似，进而从这些第一文本中确定出的与目标文本相似的文本也足够准确。

进一步，由于相似的文字表达意义也十分近似，因此可以利用预先构建的知识图谱扩充选取的特征词，将特征词或者与特征词中的分词近似的词补充进来，形成扩展词组集合，再利用扩展词组集合检索出若干第二文本，可以扩大筛选的范围。同时，由于这些第二文本和上述第一文本之间可能存在重叠，因此可以取二者的并集，得到若干第三文本，进而从这些第三文本中确定出与目标文本相似的文本，进一步提高了确定相似文本的准确度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明实施例一的特征词提取方法的流程图；

图2示意性示出了根据本发明实施例二的文本相似度计算方法的流程图；

图3示意性示出了根据本发明实施例三的文本相似度计算方法的流程图；

图4示意性示出了根据本发明实施例四的文本相似度计算方法的流程图；

图5示意性示出了根据本发明实施例五的特征词提取装置的框图；

图6示意性示出了根据本发明实施例六的文本相似度计算装置的框图；

图7示意性示出了根据本发明实施例七的适于实现的特征词提取方法和/或文本相似度计算方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

实施例一

本发明的实施例一提供了一种特征词提取方法，该特征词提取方法用于利用改进的TF-IDF算法提取目标文本的特征词。具体地，图1示意性示出了根据本发明实施例一的特征词提取方法的流程图。如图1所示，该特征词提取方法可以包括步骤S101～步骤S106，其中：

步骤S101，响应于对目标文本的分词指令，对目标文本进行分词，得到分词集合。

其中，目标文本可以是任意文本，如论文、专利或技术文章等。一个分词可以是一个字或一个词语，比如一个分词为“最”，再比如一个分词为“相似”。

一个方案为：分词集合包括组成目标文本的所有分词。

例如，目标文本为“北京欢迎你的到来”，通过执行步骤S101可以得到分词集合为“北京欢迎你的到来”。

另一个方案为：分词集合包括组成目标文本的部分分词。如，步骤S101可以包括步骤S1011和步骤S1012，其中：

步骤S1011，对目标文本进行分词，得到组成目标文本的所有分词；

步骤S1012，清洗所有的分词，得到分词集合。

具体地，在对该目标文本进行分词处理以得到组成该目标文本的所有分词之后，可以进一步的清洗这些分词，以去除无用的分词，如去除“你”、“我”、“他”、“它”、“的”等词，进而将清洗后剩余的分词作为分词集合。

例如，结合上述示例，对目标文本进行分词后得到“北京欢迎你的到来”，清洗这些分词去除“北京”，则可以得到分词集合为“欢迎你的到来”。

需要说明的是，为了保证分词之间的连贯性，在执行步骤S1012时，优选去除位于句首和句尾的分词，对于位于句子中间的分词不做清洗处理。

步骤S102，组合分词集合中的各个分词，得到若干词组，其中，每个词组包括若干分词。

其中，可以通过n-gram算法对分词集合中的各个分词进行组合，且相邻的两个词组包括的若干分词之间有重叠。

例如，结合上述示例，若n-gram算法为2-gram算法，则执行步骤S102可以得到“北京欢迎欢迎你的你的到来”；若n-gram算法为3-gram算法，则执行步骤S102可以得到“北京欢迎你的欢迎你的到来”。

在得到词组之后，需要利用改进的TF-IDF(term frequency–inverse documentfrequency，词频-逆文本频率)算法计算每一个词组的概率限定TF-IDF值，其中，下述步骤S103～步骤S105针对的是利用改进的TF-IDF算法计算其中一个词组的概率限定TF-IDF值的过程，利用改进的TF-IDF算法计算其他词组的概率限定TF-IDF值的过程相同，本实施例不再赘述。

步骤S103，计算词组的第一TF值和TF-IDF值。

其中，TF-IDF算法的核心思想为：如果某个词语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为该词语具有很好的类别区分能力，适合用来表征该篇文章。本实施例中，计算任一词组的TF-IDF值的公式如下：

其中，W_i，j表征第i个词组在目标文本j中的TF-IDF值，

表征第i个词组在目标文本j中的第一TF(term frequency，词频)值，n_i表征第i个词组在目标文本j中出现的次数，n_j表征目标文本j中分词和词组的总个数，

表征第i个词组在文本集合中的IDF(inverse document frequency，逆文本频率)值，N表征文本集合中的文本总个数，d f_i表征文本集合中出现第i个词组的文本个数。此处需要说明的是，在本实施例中，文本集合可以组成一个文本检索库，用于后续检索出与目标文本的相似文本。

步骤S104，计算组合词组的每个分词的第二TF值，得到若干第二TF值。

本实施例中，需要计算组成该词组的每个分词的第二TF值，其中，本实施例针对的是计算其中一个分词的TF值的过程，计算其他分词的TF值的过程相同，本实施例不再赘述。具体地，可以确定目标文本包括的分词和词组的总个数，确定该分词在目标文本中出现次数，将分词在目标文本中出现次数与分词和词组的总个数的比值作为第二TF值。

例如，第i个词组包括两个分词，第i个词组中第一个分词在目标文本j中的第二TF值可以为

其中，

表征第i个词组中第一个分词在目标文本j中出现的次数；第i个词组中第二个分词在目标文本j中的第二TF值可以为

其中，

表征第i个词组中第二个分词在目标文本j中出现的次数。

需要说明的是，为了满足归一化，无论是计算词组的第一TF值，还是计算分词的第二TF值，TF值中的分母n_j均相同，如可以表示为目标文本j中分词和词组的总个数。

步骤S105，利用TF-IDF值、第一TF值和若干第二TF值计算词组的概率限定TF-IDF值。

具体地，步骤S105可以包括步骤S1051～步骤S1053，其中：

步骤S1051，计算若干第二TF值的乘积，得到TF乘积；

步骤S1052，计算第一TF值和TF乘积的比值，得到词组概率值；

步骤S1053，利用TF-IDF值和词组概率值计算概率限定TF-IDF值。

本实施例中，可以将第一TF值和TF乘积的比值作为词组概率值，其中，词组概率值越大表明该词组的代表性越强。进一步，执行步骤S1053，得到词组的概率限定TF-IDF值，其中，概率限定TF-IDF值越大，表明该词组分类能力越强。

可选地，步骤S1053可以包括如下方案：

方案一：对TF-IDF值和词组概率值的求和结果作为概率限定TF-IDF值。

方案二：将TF-IDF值和词组概率值的乘积作为概率限定TF-IDF值。如，结合上述示例，假设词组包括两个分词，则方案二的公式为：

其中，W′_i，j表征第i个词组在目标文本j中的概率限定TF-IDF值，nf_i，j表征第i个词组在目标文本j中的词组概率值。

步骤S106，选取排列在预定位置之前的概率限定TF-IDF值对应的词组作为目标文本的特征词。

在计算完所有词组在目标文本的概率限定TF-IDF值之后，将这些概率限定TF-IDF值排序，确定排列在预定位置之前的概率限定TF-IDF值，从所有的词组中选取与上一步确定的概率限定TF-IDF值对应的词组作为特征词，例如选取TOP50的概率限定TF-IDF值对应的词组作为特征词。

实施例二

本发明的实施例二提供了一种文本相似度计算方法，该文本相似度计算方法的部分步骤与上述实施例一中的步骤对应相同，这部分步骤在本实施例二中不再赘述，具体可参考上述实施例一。具体地，图2示意性示出了根据本发明实施例二的文本相似度计算方法的流程图。如图2所示，该文本相似度计算方法可以包括步骤S201～步骤S204，其中：

步骤S201，选取目标文本的特征词，其中，目标文本的特征词是通过实施例一所述的方法选取的。

步骤S202，将特征词输入第一文本检索库，得到若干第一文本。

本实施例中，第一文本检索库通过文本集合构成，且第一文本检索库具备检索功能，通过将特征词输入第一文本检索库，可以检索出涵盖全部或部分特征词的若干第一文本，其中，文本集合包括这些第一文本。

步骤S203，计算目标文本和若干第一文本的第一相似度，得到若干第一相似度。

本实施例中，计算目标文本和每一个第一文本的第一相似度，其中，第一相似度的计算方式不做限定，如可以采用现有技术中的欧氏距离和或者余弦相似得到。

步骤S204，将若干第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与目标文本相似的文本。

预先设定相似度阈值，从若干第一相似度中确定出满足第一相似度阈值的第一相似度，进一步，将若干第一文本中与确定的第一相似度对应的第一文本作为与目标文本相似的文本，其中，存在一个或多个与目标文本相似的第三文本。

实施例三

本发明的实施例三提供了一种文本相似度计算方法，该文本相似度计算方法的部分步骤与上述实施例一和实施例二中的步骤对应相同，这部分步骤在本实施例三中不再赘述，具体可参考上述实施例一和实施例二。具体地，图3示意性示出了根据本发明实施例三的文本相似度计算方法的流程图。如图3所示，该文本相似度计算方法可以包括步骤S301～步骤S307，其中：

步骤S301，选取目标文本的特征词，其中，目标文本的特征词是通过实施例一所述的方法选取的。

步骤S302，将特征词输入第一文本检索库，得到若干第一文本。

步骤S303，对特征词进行扩展，得到扩展词组集合，其中，扩展词组集合包括特征词和特征词的近义词。

具体地，可以预先构建近义词库，该近义词库中包括多关联关系，每条关联关系包括多个意思相近的词语。如，某条关联关系为：识别、检测、获取。通过近义词库对特征词进行扩展，可以得到扩展词组集合。

步骤S304，将扩展词组集合输入第一文本检索库，得到若干第二文本。

在本实施例中，通过将扩展词组集合输入第一文本检索库，可以检索出涵盖全部或部分扩展词组集合的若干第二文本，其中，文本集合还包括这些第二文本。

步骤S305，对若干第一文本和若干第二文本取并集，得到若干第三文本。

为了保证能够准确确定出与目标文本相似的文本，希望与目标文本进行相似度比较的文本越多越好，因此，对于检索出的所有第一文本和所有第二文本，可以取二者的并集，得到若干第三文本。

步骤S306，计算目标文本和若干第三文本的第二相似度，得到若干第二相似度。

本实施例，计算目标文本和每一个第三文本的第二相似度，其中，第二相似度的计算方式不做限定，如可以采用现有技术中的欧氏距离和或者余弦相似得到。

步骤S307，将若干第二相似度中满足第二相似度阈值的第二相似度对应的第三文本作为与目标文本相似的文本。

从若干第二相似度中确定出满足第二相似度阈值的第二相似度，进一步，将若干第三文本中与确定的第二相似度对应的第三文本作为与目标文本相似的文本，其中，存在一个或多个与目标文本相似的第三文本。

实施例四

本发明的实施例四提供了一种文本相似度计算方法，该文本相似度计算方法的部分步骤与上述实施例一和实施例二中的步骤对应相同，这部分步骤在本实施例四中不再赘述，具体可参考上述实施例一和实施例二。具体地，图4示意性示出了根据本发明实施例四的文本相似度计算方法的流程图。如图4所示，该文本相似度计算方法可以包括步骤S401～步骤S407，其中：

步骤S401，选取目标文本的特征词，其中，目标文本的特征词是通过实施例一所述的方法选取的。

步骤S402，将特征词输入第一文本检索库，得到若干第一文本。

步骤S403，获取预先建立的知识图谱，其中，针对每个第一文本，知识图谱包括：引用第一文本的若干第四文本、与第一文本同族的若干第五文本、以及若干第六文本和每个第六文本与第一文本的第三相似度。

其中，针对每一个第一文本，若干第六文本可以是将该第一文本的特征词输入第二文本检索库中得到的，提取第一文本的特征词的方法可以与提取目标文本的方法一致，此处不再赘述。

需要说明的时是，在应用本实施例的方案之前，该文本相似度计算方法还包括：

构建知识图谱；

其中，构建知识图谱的步骤包括：

针对每个第一文本，获取若干第四文本，并将若干第四文本中每个第四文本和第一文本的关联关系构建在知识图谱中；

针对每个第一文本，获取若干第五文本，并将若干第五文本中每个第五文本和第一文本的关联关系构建在知识图谱中；

针对每个第一文本，提取第一文本的特征词输入第二文本检索库，得到若干第六文本，计算第一文本与若干第六文本中每个第六文本的第三相似度，并将第一文本、若干第六文本中的每个第六文本和第三相似度的关联关系构建在知识图谱中。

例如，本实施例中的文本为专利文本，对于每个第一文本，可能存在引用该第一文本的若干第四文本，也可能存在以该第一文本属于同族的若干第五文本，可以将每个第四文本和第一文本的关联关系，以及每个第五文本和第一文本的关联关系构建在知识图谱中；另外，对于每个第一文本，还可以通过第二检索库得到若干第六文本，并计算每个第六文本与第一文本的第三相似度，然后将每个第一文本、每个第六文本和第三相似度的关联关系构建在知识图谱中。即，针对每个第一文本而言，知识图谱中包括：若干第四文本、若干第五文本、以及若干第六文本和每个第六文本与第一文本的第三相似度。需要说明的是，知识图谱中可以包括所有第一文本对应的上述关联关系。

可选地，计算第一文本与若干第六文本中每个第六文本的第三相似度的步骤包括：计算第一文本的特征词和每个第六文本的特征词的相似度；和/或计算第一文本的文本词向量和每个第六文本的文本词向量的相似度；和/或计算第一文本的IPC分类号和每个第六文本的IPC分类号的相似度。

方案一，计算第一文本的特征词和每个第六文本的特征词的相似度。具体地，利用改进的TF-IDF算法提取第一文本的特征词，利用改进的TF-IDF算法提取第六文本的特征词，计算特征词的相似度。

方案二，计算第一文本的文本词向量和每个第六文本的文本词向量的相似度。具体地，可以利用gensim工具计算文本词向量的相似度。

方案三，计算第一文本的IPC分类号和每个第六文本的IPC分类号的相似度。具体地，可以是统计第一文本的IPC分类号和第六文本的IPC分类号相同序号的数量，将相同序号的数量除以所有序号的数量作为IPC分类号的相似度。

其中，在计算第一文本与若干第六文本中每个第六文本的第三相似度的步骤只包括上述任意一种方案时，每种方案计算出的相似度即为第三相似度。在计算第一文本与若干第六文本中每个第六文本的第三相似度的步骤包括上述任意两种或三种方案时，对每个方案的相似度设置权重，根据权重和每个方案的相似度计算出第三相似度。

如，在计算第一文本与若干第六文本中每个第六文本的第三相似度的步骤包括方案一、方案二和方案三，其中，方案一的权重为Q1，以及相似度为S1，方案二的权重为Q2，以及相似度为S2，方案三的权重为Q3，以及相似度为S3，则第三相似度为Q1*S1+Q2*S2+Q3*S3。

步骤S404，针对每个第一文本，从知识图谱中确定出若干第四文本、若干第五文本以及若干第七文本，其中，每个第七文本为若干第六文本中满足第三相似度阈值的第三相似度对应的文本。

步骤S405，将若干第一文本、若干第四文本、若干第五文本和若干第七文本作为扩展文本集。

为了避免通过第一文本检索库检索到的文本可能不全面的情况，本实施例对检索到的若干第一文本进行扩展，得到扩展文本集，然后执行步骤S406。

步骤S406，计算目标文本和扩展文本集中每个文本的第四相似度，得到若干第四相似度。

具体地，可以计算目标文本和扩展文本集中除所有第七文本之外的每个文本的第四相似度，其中，第四相似度的计算方式不做限定，如可以采用现有技术中的欧氏距离和或者余弦相似得到，然后可以将每一个第七文本的第三相似度在此步骤也称为第四相似度。

步骤S407，将扩展文本集中满足第四相似度阈值的第四相似度对应的文本作为与目标文本相似的文本。

从所有的第四相似度中确定出满足第四相似度阈值的第四相似度，进一步，将扩展文本集中与确定的第四似度对应的文本作为与目标文本相似的文本，其中，存在一个或多个与目标文本相似的文本，每个与目标文本相似的文本可能为第四文本、第五文本或者第七文本。

实施例五

本发明的实施例五还提供了一种特征词提取装置，该特征词提取装置与上述实施例一提供的特征词提取方法相对应，相应的技术特征和技术效果在本实施例五中不再详述，相关之处可参考上述实施例。具体地，图5示意性示出了根据本发明实施例五的特征词提取装置的框图。如图5所示，该特征词提取装置可以包括分词模块501、组合模块502、第一计算模块503、第二计算模块504、第三计算模块505和第一选取模块506，其中：

分词模块501，用于响应于对目标文本的分词指令，对目标文本进行分词，得到分词集合；

组合模块502，用于组合分词集合中的各个分词，得到若干词组，其中，每个词组包括若干分词；

第一计算模块503，用于计算词组的第一TF值和TF-IDF值；

第二计算模块504，用于计算组合词组的每个分词的第二TF值，得到若干第二TF值；

第三计算模块505，用于利用TF-IDF值、第一TF值和若干第二TF值计算词组的概率限定TF-IDF值；

第一选取模块506，用于选取排列在预定位置之前的概率限定TF-IDF值对应的词组作为目标文本的特征词。

可选地，分词模块还用于：对目标文本进行分词，得到组成目标文本的所有分词；清洗所有的分词，得到分词集合。

可选地，第三计算模块还用于：计算若干第二TF值的乘积，得到TF乘积；计算第一TF值和TF乘积的比值，得到词组概率值；利用TF-IDF值和词组概率值计算概率限定TF-IDF值。

实施例六

本发明的实施例六提供了一种文本相似度计算装置，该文本相似度计算装置与上述实施例二提供的文本相似度计算方法相对应，相应的技术特征和技术效果在本实施例六中不再详述，相关之处可参考上述实施例。具体地，图6示意性示出了根据本发明实施例六的文本相似度计算装置的框图。如图6所示，该文本相似度计算装置可以包括第二选取模块601、第一输入模块602、第四计算模块603和第一确定模块604，其中：

第二选取模块601，用于选取目标文本的特征词，其中，目标文本的特征词是通过实施例一所述的方法选取的；

第一输入模块602，用于将特征词输入第一文本检索库，得到若干第一文本；

第四计算模块603，用于计算目标文本和若干第一文本的第一相似度，得到若干第一相似度；

第一确定模块604，用于将若干第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与目标文本相似的文本。

可选地，文本相似度计算装置还包括：扩展模块，用于在将特征词输入第一文本检索库，得到若干第一文本的步骤之后，对特征词进行扩展，得到扩展词组集合，其中，扩展词组集合包括特征词和特征词的近义词；第二输入模块，用于将扩展词组集合输入第一文本检索库，得到若干第二文本；处理模块，用于对若干第一文本和若干第二文本取并集，得到若干第三文本；第四计算模块还用于：计算目标文本和若干第三文本的第二相似度，得到若干第二相似度；第一确定模块还用于：将若干第二相似度中满足第二相似度阈值的第二相似度对应的第三文本作为与目标文本相似的文本。

可选地，文本相似度计算装置还包括：获取模块，用于在将特征词输入第一文本检索库，得到若干第一文本的步骤之后，获取预先建立的知识图谱，其中，针对每个第一文本，知识图谱包括：引用第一文本的若干第四文本、与第一文本同族的若干第五文本、以及若干第六文本和每个第六文本与第一文本的第三相似度；第二确定模块，用于针对每个第一文本，从知识图谱中确定出若干第四文本、若干第五文本以及若干第七文本，其中，每个第七文本为若干第六文本中满足第三相似度阈值的第三相似度对应的文本；第三确定模块，用于将若干第一文本、若干第四文本、若干第五文本和若干第七文本作为扩展文本集；第四计算模块还用于：计算目标文本和扩展文本集中每个文本的第四相似度，得到若干第四相似度；第一确定模块还用于：将扩展文本集中满足第四相似度阈值的第四相似度对应的文本作为与目标文本相似的文本。

可选地，文本相似度计算装置还包括：构建模块，用于在获取预先建立的知识图谱的步骤之前，构建知识图谱；其中，构建模块还用于：针对每个第一文本，获取若干第四文本，并将若干第四文本中每个第四文本和第一文本的关联关系构建在知识图谱中；针对每个第一文本，获取若干第五文本，并将若干第五文本中每个第五文本和第一文本的关联关系构建在知识图谱中；针对每个第一文本，提取第一文本的特征词输入第二文本检索库，得到若干第六文本，计算第一文本与若干第六文本中每个第六文本的第三相似度，并将第一文本、若干第六文本中的每个第六文本和第三相似度的关联关系构建在知识图谱中。

可选地，构建模块在计算第一文本与若干第六文本中每个第六文本的第三相似度时，还用于：计算第一文本的特征词和每个第六文本的特征词的相似度；和/或计算第一文本的文本词向量和每个第六文本的文本词向量的相似度；和/或计算第一文本的IPC分类号和每个第六文本的IPC分类号的相似度。

实施例七

图7示意性示出了根据本发明实施例七的适于实现的特征词提取方法和/或文本相似度计算方法的计算机设备的框图。本实施例中，计算机设备700可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图7所示，本实施例的计算机设备700至少包括但不限于：可通过系统总线相互通信连接的存储器701、处理器702、网络接口703。需要指出的是，图7仅示出了具有组件701-703的计算机设备700，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器703至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器701可以是计算机设备700的内部存储单元，例如该计算机设备700的硬盘或内存。在另一些实施例中，存储器701也可以是计算机设备700的外部存储设备，例如该计算机设备700上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器701还可以既包括计算机设备700的内部存储单元也包括其外部存储设备。在本实施例中，存储器701通常用于存储安装于计算机设备700的操作系统和各类应用软件，例如特征词提取方法的程序代码和/或文本相似度计算方法的程序代码等。此外，存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器702在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制计算机设备700的总体操作。例如执行与计算机设备700进行数据交互或者通信相关的控制和处理等的特征词提取方法的程序代码和/或文本相似度计算方法的程序代码。

在本实施例中，存储于存储器701中的特征词提取方法和/或文本相似度计算方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器702)所执行，以完成本发明。

网络接口703可包括无线网络接口或有线网络接口，该网络接口703通常用于在计算机设备700与其他计算机设备之间建立通信链接。例如，网络接口703用于通过网络将计算机设备700与外部终端相连，在计算机设备700与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

实施例八

本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现特征词提取方法和/或文本相似度计算方法。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征词提取方法，其特征在于，包括：

响应于对目标文本的分词指令，对所述目标文本进行分词，得到分词集合；

组合所述分词集合中的各个所述分词，得到若干词组，其中，每个所述词组包括若干所述分词；

计算所述词组的第一TF值和TF-IDF值；

计算组合所述词组的每个所述分词的第二TF值，得到若干所述第二TF值；

利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值；

选取排列在预定位置之前的所述概率限定TF-IDF值对应的所述词组作为所述目标文本的特征词；

其中，所述利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值的步骤包括：

计算若干所述第二TF值的乘积，得到TF乘积；

计算所述第一TF值和所述TF乘积的比值，得到词组概率值；

利用所述TF-IDF值和所述词组概率值计算所述概率限定TF-IDF值。

2.一种文本相似度计算方法，其特征在于，包括：

选取目标文本的特征词，其中，所述目标文本的所述特征词是通过权利要求1所述方法选取的；

将所述特征词输入第一文本检索库，得到若干第一文本；

计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度；

将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本。

3.根据权利要求2所述的方法，其特征在于，在所述将所述特征词输入第一文本检索库，得到若干第一文本的步骤之后，所述方法还包括：

对所述特征词进行扩展，得到扩展词组集合，其中，所述扩展词组集合包括所述特征词和所述特征词的近义词；

将所述扩展词组集合输入所述第一文本检索库，得到若干第二文本；

对若干所述第一文本和若干所述第二文本取并集，得到若干第三文本；

所述计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度的步骤包括：计算所述目标文本和若干所述第三文本的第二相似度，得到若干所述第二相似度；

所述将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本的步骤包括：将若干所述第二相似度中满足第二相似度阈值的第二相似度对应的第三文本作为与所述目标文本相似的文本。

4.根据权利要求2所述的方法，其特征在于，在所述将所述特征词输入第一文本检索库，得到若干第一文本的步骤之后，所述方法还包括：

获取预先建立的知识图谱，其中，针对每个所述第一文本，所述知识图谱包括：引用所述第一文本的若干第四文本、与所述第一文本同族的若干第五文本、以及若干第六文本和每个所述第六文本与所述第一文本的第三相似度，其中，所述第一文本为专利文本；

针对每个所述第一文本，从所述知识图谱中确定出若干所述第四文本、若干所述第五文本以及若干第七文本，其中，每个所述第七文本为若干所述第六文本中满足第三相似度阈值的第三相似度对应的文本；

将若干所述第一文本、若干所述第四文本、若干所述第五文本和若干所述第七文本作为扩展文本集；

所述计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度的步骤包括：计算所述目标文本和所述扩展文本集中每个文本的第四相似度，得到若干所述第四相似度；

所述将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本的步骤包括：将扩展文本集中满足第四相似度阈值的第四相似度对应的文本作为与所述目标文本相似的文本。

5.根据权利要求4所述的方法，其特征在于，在所述获取预先建立的知识图谱的步骤之前，所述方法还包括：

构建所述知识图谱；

其中，所述构建所述知识图谱的步骤包括：

针对每个所述第一文本，获取若干所述第四文本，并将若干所述第四文本中每个所述第四文本和所述第一文本的关联关系构建在所述知识图谱中；

针对每个所述第一文本，获取若干所述第五文本，并将若干所述第五文本中每个所述第五文本和所述第一文本的关联关系构建在所述知识图谱中；

针对每个所述第一文本，提取所述第一文本的特征词输入第二文本检索库，得到若干所述第六文本，计算所述第一文本与若干所述第六文本中每个所述第六文本的第三相似度，并将所述第一文本、若干所述第六文本中的每个所述第六文本和所述第三相似度的关联关系构建在所述知识图谱中。

6.根据权利要求5所述的方法，其特征在于，所述计算所述第一文本与若干所述第六文本中每个所述第六文本的第三相似度的步骤包括：

计算所述第一文本的特征词和每个所述第六文本的特征词的相似度；和/或

计算所述第一文本的文本词向量和每个所述第六文本的文本词向量的相似度；和/或

计算所述第一文本的IPC分类号和每个所述第六文本的IPC分类号的相似度。

7.一种特征词提取装置，其特征在于，包括：

分词模块，用于响应于对目标文本的分词指令，对所述目标文本进行分词，得到分词集合；

组合模块，用于组合所述分词集合中的各个所述分词，得到若干词组，其中，每个所述词组包括若干所述分词；

第一计算模块，用于计算所述词组的第一TF值和TF-IDF值；

第二计算模块，用于计算组合所述词组的每个所述分词的第二TF值，得到若干所述第二TF值；

第三计算模块，用于利用所述TF-IDF值、所述第一TF值和若干所述第二TF值计算所述词组的概率限定TF-IDF值；

第一选取模块，用于选取排列在预定位置之前的所述概率限定TF-IDF值对应的所述词组作为所述目标文本的特征词；

其中，所述第三计算模块还用于：计算若干第二TF值的乘积，得到TF乘积；计算第一TF值和TF乘积的比值，得到词组概率值；利用TF-IDF值和词组概率值计算概率限定TF-IDF值。

8.一种文本相似度计算装置，其特征在于，包括：

第二选取模块，用于选取目标文本的特征词，其中，所述目标文本的所述特征词是通过权利要求1所述方法选取的；

第一输入模块，用于将所述特征词输入第一文本检索库，得到若干第一文本；

第四计算模块，用于计算所述目标文本和若干所述第一文本的第一相似度，得到若干所述第一相似度；

第一确定模块，用于将若干所述第一相似度中满足第一相似度阈值的第一相似度对应的第一文本作为与所述目标文本相似的文本。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述的方法和/或权利要求2至6任一项所述的方法。