CN111831804B

CN111831804B - 一种关键短语的提取方法、装置、终端设备及存储介质

Info

Publication number: CN111831804B
Application number: CN202010604682.2A
Authority: CN
Inventors: 赵洋; 包荣鑫; 魏世胜; 王超
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-04-26
Anticipated expiration: 2040-06-29
Also published as: CN111831804A

Abstract

本申请适用于文本处理技术领域，提供了一种关键短语的提取方法、装置、终端设备及存储介质，该方法包括：获取待确定关键短语的文本和所述文本的关键词；基于所述文本和所述关键词，确定各个所述关键词在所述文本中的位置；基于各个关键词在所述文本中的位置，组合所述关键词得到所述文本的关键短语；本申请通过对利用文本的关键词以及关键词在文本中的位置，将关键词组合成关键短语，可以有效提取文本的关键短语，并且提取的关键短语的准确度高，使用本申请提取的关键短语检索或查询文本，可以提高检索效率。

Description

一种关键短语的提取方法、装置、终端设备及存储介质

技术领域

本申请属于文本处理技术领域，尤其涉及一种关键短语的提取方法、装置、终端设备及存储介质。

背景技术

随着数据时代的发展，文本的数量呈几何级增长，对文本的检索和查询越来越困难，为了提高文本查询速度和查询准确度，需要将文本中的关键信息提取出来，通过关键信息查询文本。

对文本的查询多使用关键词查询，但是关键词包括的语义单一，不能全面概括文本内容，有时即使有多个关键词，也无法准确检索到需要的文本，因此，关键短语的检索得到越来越多的应用。目前提取关键短语的方法所提取的关键短语不够准确，造成检索文本效率低，因此，关键短语的有效提取是目前需要解决的问题。

发明内容

本申请实施例提供了一种关键短语的提取方法、装置、终端设备及存储介质，可以解决目前关键短语提取不准确的问题。

第一方面，本申请实施例提供了一种关键短语的提取方法，包括：

获取待确定关键短语的文本和所述文本的关键词；

确定所述关键词在所述文本中的位置；

基于所述关键词在所述文本中的位置组合所述关键词，得到所述文本的关键短语。

第二方面，本申请实施例提供了一种关键短语的提取装置，包括：

信息获取模块，用于获取待确定关键短语的文本和所述文本的关键词；

位置确定模块，用于确定所述关键词在所述文本中的位置；

短语确定模块，用于基于所述关键词在所述文本中的位置组合所述关键词，得到所述文本的关键短语。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的关键短语的提取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的关键短语的提取方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的关键短语的提取方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：本申请首先获取待确定关键短语的文本和文本的关键词，然后确定各个所述关键词在所述文本中的位置，最后基于各个关键词在文本中的位置，组合关键词得到文本的关键短语；本申请通过对利用文本的关键词以及关键词在文本中的位置，将关键词组合成关键短语，可以有效提取文本的关键短语，并且提取的关键短语的准确度高，使用本申请提取的关键短语检索或查询文本，可以提高检索效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的关键短语的提取方法的应用场景示意图；

图2是本申请一实施例提供的关键短语的提取方法的流程示意图；

图3是本申请一实施例提供的去重处理方法的流程示意图；

图4是本申请一实施例提供的去重处理中冗余程度的计算方法的流程示意图；

图5是本申请一实施例提供的关键词提取方法的流程示意图；

图6是本申请一实施例提供的关键短语的提取装置的结构示意图；

图7是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

目前，在对文本进行检索或查询时多使用关键词查询，关键词可以有效对文本内容进行概括，可以辅助用户检索感兴趣的内容，节省浏览时间，但是关键词的概括性不强，一个关键词会在许多文本中出现，设置是在许多文本中会多次出现，即使使用多个关键词，也不能有效组合出文本的主要内容，所以使用关键词检索文本时，往往会检索出许多不需要的文本，需要用户再次进行筛选得到需要的文本，这无疑增加了用户的工作量，降低了检索效率。

本申请基于文本的关键词及关键词在文本中的位置创建文本的关键短语，可以有效提取文本的关键短语，且提取的关键短语准确度高。

图1为本申请实施例提供的关键短语的提取方法的应用场景示意图，上述关键短语的提取方法可以用于提取文本的关键短语。其中，存储设备10用于存储文本和文本的关键词，处理器20用于从存储设备10中获取文本和文本的关键词，并基于文本和文本的关键词构建关键短语。

以下结合图1对本申请实施例的关键短语的提取方法进行详细说明。

图2示出了本申请提供的关键短语的提取方法的示意性流程图，参照图2，对该方法的详述如下：

S101，获取待确定关键短语的文本和所述文本的关键词。

在本实施例中，获取文本，可以从存储有文本的外部设备中获得，例如，处理器、U盘或光盘等，也可以是用户输入的文本。文本可以是一个句子、一个段落、一片文章、多个句子、多个段落或多篇文章，例如，1个段落、10个句子、100篇文章或1000个段落等。

在本实施例中，关键词是一个文本中用于检索的关键的词语，例如，暴雨、直播、购房节等，关键词可以是预先提取好的，也可以是在获取到文本之后进行提取，具体的，关键词的提取方法可以包括以下步骤S201-S204，在此不再赘述。本申请获取的关键词是一个关键词集合，关键词的个数大于1。

在本实施例中，关键短语是在关键词的基础上进行组合的结果，关键短语可以是名词短语，也可以是主谓短语等，例如，连续暴雨、直播购房节、促销产品等。

S102，确定关键词在文本中的位置。

在本实施例中，每个关键词都是从文本中提取出来的，一个关键词可能同时存在于两个或多个文本中，所以每个关键词在文本中应该有对应的位置，关键词在文本中的位置可能是一个或多个，也就是一个关键词可能在文本出现多次。查找各个关键词在文本中的位置，查找出来后可以对在文本中进行关键词标记，例如，在文本中关键词的下方划线、或对关键词标记颜色，或者记录关键词在文中的位置，例如，关键词A是文本1中的第15-16个字符，通过上述方式可以得到每个关键词在文本中的位置。

作为举例，文本1为“开展防疫工作”，关键词为开展、防疫和工作，防疫在文本1中的位置为第3-4个字符，工作在文本1中的位置为第5-6个字符；文本2为“各地开展防疫”，关键词为各地、开展和防疫，防疫在文本2中的位置为第5-6个字符。

S103，基于所述关键词在所述文本中的位置组合所述关键词，得到所述文本的关键短语。

在本实施例中，由于关键短语是由关键词组合而来的，每个关键词在文本中有对应的位置，得到关键词在文本中的位置后，可以找到相邻的，也就是连续的关键词，将连续的关键词组合成关键短语。另外，在得到关键词在文本中的位置之后，可以确定关键词与关键词之间的距离，将距离最近的关键词进行组合得到关键短语，距离最近可以设置阈值，例如阈值可以是0，也就是相邻的关键词，阈值为1，两个关键词之间间隔一个字符。

需要说明的是，在对关键词进行组合时，必须是来自同一个文本中的关键词进行组合，不可以将来自不同文本的关键词进行组合。

作为举例，文本1的关键词是各地和美食节，文本2的关键词是连续和暴雨，在进行关键词组合时，将各地和美食节组合成关键短语“各地美食节”，将连续和暴雨组合成关键短语“连续暴雨”，不可以将各地和暴雨进行组合，当然也不可以将连续和美食节进行组合。

本申请实施例中，首先获取待确定关键短语的文本和文本的关键词，然后确定各个所述关键词在所述文本中的位置，最后基于各个关键词在文本中的位置，组合关键词得到文本的关键短语；本申请通过对利用文本的关键词以及关键词在文本中的位置，将关键词组合成关键短语，可以有效提取文本的关键短语，并且提取的关键短语的准确度高，使用本申请提取的关键短语检索或查询文本，可以提高检索效率。

在一种可能的实现方式中，步骤S103的实现过程可以包括：

组合所述文本中处于相邻位置的关键词，并将组合后的关键词作为所述关键短语，其中，所述关键短语中包括至少两个所述关键词。

在本实施例中，如果存在多个关键词的位置相连，可以将多个关键词组合在一起，例如，有三个关键词的位置是相连的，可以将三个关键词组合成一个关键短语。

作为举例，如果文本内容为“世卫组织：团结是新冠病毒的解药”，关键词为[“世卫”，“组织”,“新冠”,“解药”]四个，根据关键词在文本中的位置可以得到，关键词世卫和组织处于相邻位置，所以可以将世卫和组织组合成关键短语“世卫组织”，新冠和解药的位置不相邻，且没有与之相连的关键词，所以新冠和解药是不能和任何关键词进行组合的。

如果文本内容为“世卫组织：团结是新冠病毒解药”，关键词为[“世卫”，“新冠”,“病毒”,“解药”]四个，从关键词在文本中的位置可以得到，关键词“新冠”和“解药”均处于“病毒”相邻位置，所以可以将“新冠”,“病毒”和“解药”组合成关键短语“新冠病毒解药”。

本申请实施例中，根据关键词在文本中出现的位置，对关键词进行组合，将相邻位置的关键词进行组合，可以得到一个完整的关键短语，将相邻的关键词进行组合可以使语义更清楚准确，更通顺，不会造成语义偏差，同时还可以更准确的反应文本的内容。

在一种可能的实现方式中，在步骤S103之后，上述方法还可以包括：

S104，对所述关键短语进行筛选处理，得到目标关键短语，其中，所述筛选处理包括：出现频率筛选处理、长度筛选处理、去重处理、黑名单筛选处理和重要程度筛选处理中的至少一个。

在本实施例中，根据步骤S101-S103得到的关键短语中可能存在长度较长、重复、互相包含或者出现频率不高等关键短语，如果存在上述关键短语则会使得提取的关键短语复杂或较多，为了提高关键短语的准确度、降低关键短语的复杂度，需要对关键短语进一步筛选，得到准确且简练的关键短语。对关键短语进行出现频率筛选处理、长度筛选处理、去重处理、黑名单筛选处理和重要程度筛选处理，对上述5中筛选处理中可以只选择其中一项或几项对关键短语进行筛选，也可以对关键短语进行上述5项处理，对关键短语进行5项筛选处理可以得到更准确、更精炼的关键短语。

在本实施例中，对关键短语进行出现频率筛选处理，是为了去除在文本中出现频率不高的关键短语，因为如果关键短语在文本中出现频率不高，则说明该关键短语不具有代表性，不能作为文本的关键短语。

对关键短语进行长度筛选处理，是为了将长度较长的关键短语进行缩减，如果关键短语的长度较长，则说明关键短语较复杂，不利于后续使用，将较复杂的关键短语精简化，可以得到准确且简练的关键短语，有利于后续使用。

对关键短语进行去重处理，是为了去除重复的关键短语，在组合得到的关键短语中很可能存在语义相同或相近的关键短语，例如，包含个被包含关系的关键短语，需要将重复的关键短语去除，只保留其中一个，保证筛选的关键短语的可读性强。

对关键短语进行黑名单筛选处理，去除黑名单中的关键短语，因为在一些领域中某些关键短语可能出现频率较高，但是不具有代表性，所以可以将其去除，以保证关键短语均是有用信息。

对关键短语进行重要程度筛选处理，在提取的关键短语中可能存在对文本不重要的信息，所以可以保留对文本比较重要的关键短语，去除不重要的关键短语，可以使提取的关键短语更精炼。

在一种可能的实现方式中，步骤S104中的出现频率筛选处理，具体可以包括：

S1041，获取所述关键短语在所述文本中出现的次数。

在本实施例中，由于关键短语是由相连的关键词组成的，所以从文本中搜索关键短语，可以得到一个关键短语在文本中一共出现了多少次。

S1042，将在所述文本中出现的次数大于第一预设阈值的关键短语作为第一目标关键短语。

在本实施例中，第一预设阈值可以根据需要自己设置，例如，第一预设阈值可以设置为20、30等。如果一个关键短语在文本中出现的次数大于第一预设阈值，则可以将该关键短语保留，则该关键短语为第一目标关键短语。相反的，如果一个关键短语在文本中出现的次数小于或等于第一预设阈值，则说明该关键短语在文本中出现的次数不多，则不保留该关键短语，可以将该关键短语去除。

作为举例，如果关键短语为“大美中华”在文本中出现的次数为30，第一预设阈值为20，则30＞20，则可以保留“大美中华”作为第一目标关键短语。

需要说明的是，如果对所述关键短语进行筛选处理时，只进行了出现频率筛选处理这一种筛选方式，则第一目标关键短语为需要获得的目标关键短语。

在一种可能的实现方式中，步骤S104中的长度筛选处理，具体可以包括：

S1043，获取所述关键短语中包含的关键词的个数。

在本实施例中，通过关键短语及关键词可以确定每个关键短语中包括的关键词的个数。

S1044，在所述关键短语包含的关键词的个数大于第二预设阈值时，基于所述关键短语中所述关键词的排列顺序和删减规则删减所述关键短语中的至少一个关键词，得到第二目标关键短语。

在本实施例中，第二预设阈值为根据需要设置的数值，在关键短语包含的关键词的个数大于预设阈值时，说明关键短语的长度比较长，可以对关键短语进行删减，例如，第二预设阈值为5，关键短语中包括7个关键词，则7＞5，需要对关键短语中的关键词进行删减，可以删除一个或两个关键词，使关键词的个数小于或等于5。

在对关键短语进行删减时，不可以改变关键词的先后顺序，以及关键词前后连接的关键词，所以需要基于关键词的排列顺序进行删减，将删减后的关键短语记为第二目标关键短语。删减规则可以包括删减前几个关键词，删减后几个关键词，或只保留中间几个关键词，由于不可以改变关键词前后连接的关键词，所以删减规则不可以是删减中间几个关键词，或删除几个不连续的关键词。

需要说明的是，如果对所述关键短语进行筛选处理时，只进行了长度筛选处理这一种筛选方式，则第二目标关键短语为需要获得的目标关键短语。

具体的，步骤S1044的实现过程可以包括：

将所述关键短语中的第n个关键词至第m个关键词作为第二目标关键短语，其中，n≥1，m＞n，且在n＝1时，m不是最后一个关键词。

在本实施例中，将关键短语中连续的几个关键词作为第二目标关键短语。在实际应用中，一般取最后几个连续的关键词作为第二目标关键短语，也就是将第n个关键词至最后一个关键词作为第二目标关键短语。

作为举例，如果一个关键短语为“官宣苹果官网降价”，关键词包括“官宣”、“苹果”、“官网”、“降价”，删减规则为保留后三个关键词，则删减后的关键短语为“苹果官网降价”。

如果一个关键短语为“人口老龄化加速增长”，关键词包括“人口”、“老龄化”、“加速”、“增长”，删减规则为保留前三个关键词，则删减后的关键短语为“人口老龄化加速”。

如果一个关键短语为“人口老龄化加速增长”，关键词包括“人口”、“老龄化”、“加速”、“增长”，删减规则为删除第一个和最后一个关键词，则删减后的关键短语为“老龄化加速”。

如图3所示，在一种可能的实现方式中，步骤S104中的去重处理，具体可以包括：

S1045，选取任意两个关键短语，分别作为第一关键短语和第二关键短语。

在本实施例中，去重处理也就是通过查找相似的两个关键短语，去除其中一个，保留一个关键短语，在查找过程中，需要两个关键短语进行比较，并且要把全部的关键短语中任一两个均做比较。

选出来两个用于比较的关键短语中一个可以记为第一关键短语，另一个记为第二关键短语，用第一和第二只是为了区分两个关键短语，不具有其他实际排序的意义。

在选择关键短语时，还可以先将所有的关键短语进行排序，排序规则可以不做限定，任何规则均可，或者可以为每个关键短语编号，在选取的时候根据编号选取，例如，选择第i个关键短语和第j个关键短语，其中，i≠j，i≥1，j≥1。

S1046，基于所述第一关键短语、所述第二关键短语、第一关键短语的第一长度和第二关键短语的第二长度，得到所述第一关键短语和所述第二关键短语的冗余程度。

在本实施例中，第一关键短语的第一长度指的是第一关键短语中的字符的个数，例如，如果第一关键短语为“连续暴雨”，则第一关键短语的长度为4。第二关键短语的第二长度指的是第二关键短语中的字符的个数。

在本实施例中，冗余程度指的是两个关键短语的不重合程度，冗余程度越高则表示两个关键短语越不重合，也就是不相似。冗余程度可以基于第一长度和第二长度获得。

如图4所示，具体的，步骤S1046的实现过程可以包括：

S10461，确定第一关键短语和第二关键短语的字符中，不相同的字符的第一个数，以及相同的字符的第二个数。

在本实施例中，第一关键短语和第二关键短语的字符中不相同的字符指的是一个字符只存在于第一关键短语或只存在于第二关键短语中，第一关键短语和第二关键短语的字符中相同的字符指的是一个字符既存在于第一关键短语又存在于第二关键短语中。

作为举例，如果第一关键短语为“全国人民代表”，第二关键短语为“人民代表大会”，“人民代表”这四个字符是第一关键短语和第二关键短语中相同的字符，“全国大会”这四个字符是第一关键短语和第二关键短语中不相同的字符，则第一关键短语和第二关键短语的字符中不相同的字符个数为4，相同的字符个数为4。

S10462，计算所述第一个数与所述第二个数的个数和，将所述个数和与目标值的比值作为所述第一关键短语和所述第二关键短语的冗余程度，其中，所述目标值为所述第一长度和所述第二长度中的最小值。

具体的，冗余程度可以根据以下公式进行计算：

其中，sim为冗余程度；S₁为第一字符个数；S₂为第二字符个数；min(L₁,L₂)为第一长度和第二长度中的最小值；L₁为第一长度；L₂为第二长度。

作为举例，第一关键短语的第一长度为5，第二关键短语的第二长度为3，第一字符个数为8，第二字符个数为0，则第一关键短语和第二关键短语的冗余程度为

如果第一关键短语为“全国人民代表”，第二关键短语为“人民代表大会”，则第一关键短语的第一长度为6，第二关键短语的第二长度为6，第一字符个数为4，第二字符个数为4，则冗余程度为

S1047，在所述冗余程度小于第三预设阈值时，将第一关键短语或第二关键短语作为第三目标关键短语。

在本实施例中，可以设置一个第三预设阈值，如果冗余程度大于第三预设阈值，则说明第一关键短语和第二关键短语不冗余，也就是不是相似的关键短语，所以需要将两个关键短语均保留，两个关键短语均为第三目标关键短语；如果冗余程度小于第三预设阈值，则说明第一关键短语和第二关键短语冗余，也就是两个关键短语相似，需要删除一个，只保留其中一个关键短语，其中，可以保留第一关键短语，也可以保留第二关键短语，保留的关键短语为第三目标关键短语。

第三预设阈值是根据需要设定的，可以设定为2、3、4等。

作为举例，如果第一关键短语和第二关键短语的冗余程度为2.7，第三预设阈值为2，则2.7＞2，则第一关键短语和第二关键短语不冗余，第一关键短语和第二关键短语均为第三目标关键短语；

如果第一关键短语和第二关键短语的冗余程度为1.5，第三预设阈值为2，则1.5＜2，则第一关键短语和第二关键短语冗余，选择第一关键短语和第二关键短语中的一个记为第三目标关键短语。

需要说明的是，如果对所述关键短语进行筛选处理时，只进行了去重处理这一种筛选方式，则第三目标关键短语为需要获得的目标关键短语。

在一种可能的实现方式中，步骤S104中的黑名单筛选处理，具体可以包括：

S1048，将不在黑名单中的关键短语作为第四目标关键短语。

在本实施例中，将领域中出现频率较高且没有代表性的短语放入黑名单中，将于黑名单中的短语相同的关键短语删除，保留下来的关键短语为第四目标关键短语。

作为举例，如果黑名单设定为[利润增长，上市公司，由盈转亏，有限公司，股东大会]，如果一个关键短语为上市公司，上市公司在黑名单中，则删除该关键短语，该关键短语不是第四目标关键短语。

需要说明的是，如果对所述关键短语进行筛选处理时，只进行了黑名单筛选处理这一种筛选方式，则第四目标关键短语为需要获得的目标关键短语。

在一种可能的实现方式中，步骤S104中的重要程度筛选处理，具体可以包括：

S1049，计算所述关键短语的TF-IDF值。

在本实施例中，由于TF-IDF值反应的是词汇对于文本中的重要程度，因此可以通过对TF-IDF值的筛选完成重要程度的筛选处理。

具体的，步骤S1049中计算关键短语的TF-IDF值可以包括：

先计算关键短语中各个关键词的TF-IDF值，基于各个关键词的TF-IDF值，计算关键短语的TF-IDF值。

关键词的TF-IDF值包括词频和逆文档频率的计算，词频的计算可以通过公式计算，其中，tf₁为词频，N为关键词在文本中出现的次数，M为文本中词语的总个数。

逆文档频率可以通过其中，idf₁为逆文档频率，H为文本总数，G为包括关键词的文本的数量。

关键词的TF-IDF值为TF-IDF₁＝tf₁×idf₁，其中，TF-IDF₁为关键词的TF-IDF值，tf₁为词频，idf₁为逆文档频率。

关键短语的TF-IDF值可以通过其中，TF-IDF₂为关键短语的TF-IDF值，J为关键短语中关键词的个数，TF-IDF_1k为第k个关键词的TF-IDF值，为关键短语中所有关键词的TF-IDF值的和。

需要说明的是，如果关键词有对应的权重，则关键词出现的次数要乘以权重，然后再计算词频，例如，名词的权重为2，一个关键词为公司名，公司名在文本中出现了5词，则公司名出现的总次数为5×2＝10次。

S10410，基于所述关键短语的TF-IDF值，得到第五目标关键短语。

在本实施例中，计算得到关键短语的TF-IDF值后，可以选取关键短语的TF-IDF值大于第四预设阈值的关键短语作为第五目标关键短语，或者将所有的关键短语按照关键短语的TF-IDF值从大到小的顺序排列，选取序号小于第四预设阈值的关键短语作为第五目标关键短语。

需要说明的是，如果对所述关键短语进行筛选处理时，只进行了重要程度筛选处理这一种筛选方式，则第四目标关键短语为需要获得的目标关键短语。

需要说明的是，如果对所述关键短语进行筛选处理时，存在多种筛选处理，且筛选处理间存在串联关系，则第a个筛选处理的关键短语来自于第a－1个筛选处理得到的关键短语，并将最后一种筛选处理得到的结果作为目标关键短语。

作为举例，对所述关键短语进行筛选处理依次为出现频率筛选处理、长度筛选处理和去重处理，则对关键短语进行出现频率筛选处理后得到第一目标关键短语；接着对第一目标关键短语进行长度筛选处理，得到第二目标关键短语；最后对第二目标关键短语进行去重处理，得到第三目标关键短语；第三目标关键短语为需要的目标关键短语。

如图5所示，在一种可能的实现方式中，在步骤101之前，上述方法还可以包括：提取文本的关键词的过程，具体的提取关键词的方法包括以下步骤：

S201，对所述文本进行分词处理，得到所述文本的初始词语，并获取所述初始词语的词性和所述初始词语的长度。

在本实施例中，每个词语均有词性，可以先将文本中的词语分解出来，然后确定各个初始词语的词性和长度，其中，词性可以包括名词，动词或副词等。

在本实施例中，可以使用jieba库进行分词操作，jieba库具有分词和词性标注的功能。jieba的词性标注模块提供了包括人名，地名，机构团体及专有名词的提取。

S202，基于所述初始词语的词性和长度，对所述初始词语进行筛选得到候选词语。

在本实施例中，基于初始词语的词性筛选初始词语，将符合规定的初始词语筛选出来，符合规定可以设置为将词性为[‘ns’(地名)，‘n’(名词)，‘v’(动词)，‘nr’(人名)，‘nt’(机构团体)，‘nz’(专有名词)，‘vn’(名动词)，‘a’(形容词)，‘j’(简称略语)]的初始词语查找出来。

基于初始词语的长度筛选初始词语，是因为长度为1的词在不同的语境下的语义相差较大，容易造成混淆，因此如果初始词语的长度为1，且初始词语为动词词性，则可以保留，其余词性的长度为1的初始词语均删除。

最后将满足词性且满足长度的初始词语提取出来作为候选词语。

S203，计算所述候选词语的TF-IDF值。

在本实施例中，计算候选词语的TF-IDF值的方法与计算关键词的TF-IDF值的方法相同，请参照上述步骤S1049，在此不再赘述。

S204，基于所述候选词语的TF-IDF值，确定所述关键词。

在本实施例中，可以将候选词语按照候选词语的TF-IDF值从大到小进行排列，选取候选词语的序号小于第五预设阈值的候选词语作为关键词。还可以选取候选词语的TF-IDF值大于第五预设阈值的候选词语作为关键词。

第五预设阈值可以设置为表示序号的数字，还可以设置为表示TF-IDF值大小的数字。

本申请实施例中，首先对文本进行分词，得到初始词语的词性和长度，然后基于初始词语的词性和长度，对所述初始词语进行筛选得到候选词语，基于所述初始词语的词性和长度，对所述初始词语进行筛选得到候选词语，最后基于所述候选词语的TF-IDF值和第五预设阈值，确定所述关键词，本方法经过多次筛选得到关键词，提取的关键词更准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的关键短语的提取方法，图6示出了本申请实施例提供的关键短语的提取装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置300可以包括：信息获取模块310、位置确定模块320和短语确定模块330。

其中，信息获取模块310，用于获取待确定关键短语的文本和所述文本的关键词；

位置确定模块320，用于确定所述关键词在所述文本中的位置；

短语确定模块330，用于基于所述关键词在所述文本中的位置组合所述关键词，得到所述文本的关键短语。

在一种可能的实现方式中，短语确定模块330具体可以用于：

在一种可能的实现方式中，与短语确定模块330相连的还包括：

筛选模块，用于对所述关键短语进行筛选处理，得到目标关键短语，其中，所述筛选处理包括：出现频率筛选处理、长度筛选处理、去重处理、黑名单筛选处理和重要程度筛选处理中的至少一个。

在一种可能的实现方式中，筛选模块具体可以用于：所述出现频率筛选处理，包括：

获取所述关键短语在所述文本中出现的次数；

将在所述文本中出现的次数大于第一预设阈值的关键短语作为第一目标关键短语；

所述长度筛选处理，包括：

获取所述关键短语中包含的关键词的个数；

在所述关键短语包含的关键词的个数大于第二预设阈值时，基于所述关键短语中所述关键词的排列顺序和删减规则删减所述关键短语中的至少一个关键词，得到第二目标关键短语；

所述去重处理，包括：

选取任意两个关键短语，分别作为第一关键短语和第二关键短语；

基于所述第一关键短语、所述第二关键短语、第一关键短语的第一长度和第二关键短语的第二长度，得到所述第一关键短语和所述第二关键短语的冗余程度；

在所述冗余程度小于第三预设阈值时，将第一关键短语或第二关键短语作为第三目标关键短语；

所述黑名单筛选处理，包括：

将不在黑名单中的关键短语作为第四目标关键短语；

重要程度筛选处理，包括：

计算所述关键短语的TF-IDF值；

基于所述关键短语的TF-IDF值，得到第五目标关键短语。

在一种可能的实现方式中，长度筛选处理具体可以用于：

在一种可能的实现方式中，去重处理具体可以用于：

确定第一关键短语和第二关键短语的字符中，不相同的字符的第一个数，以及相同的字符的第二个数；

计算所述第一个数与所述第二个数的个数和，将所述个数和与目标值的比值作为所述第一关键短语和所述第二关键短语的冗余程度，其中，所述目标值为所述第一长度和所述第二长度中的最小值。

在一种可能的实现方式中，与信息获取模块310相连的还包括：

分词模块，用于对所述文本进行分词处理，得到所述文本的初始词语，并获取所述初始词语的词性和所述初始词语的长度；

选择模块，用于基于所述初始词语的词性和长度，对所述初始词语进行筛选得到候选词语；

计算模块，用于计算所述候选词语的TF-IDF值；

确定模块，用于基于所述候选词语的TF-IDF值，确定所述关键词。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图7，该终端设备400可以包括：至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序，所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤S101至步骤S103。或者，处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块310至330的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器420中，并由处理器410执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备400中的执行过程。

本领域技术人员可以理解，图7仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器410可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器420可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的关键短语的提取方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述关键短语的提取方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述关键短语的提取方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种关键短语的提取方法，其特征在于，包括：

获取待确定关键短语的文本和所述文本的关键词；

确定所述关键词在所述文本中的位置；

基于所述关键词在所述文本中的位置确定的所述关键词之间的距离组合所述关键词，得到所述文本的关键短语；

对所述关键短语进行筛选处理，得到目标关键短语，所述筛选处理包括去重处理，所述去重处理，包括：选取任意两个关键短语，分别作为第一关键短语和第二关键短语；基于所述第一关键短语、所述第二关键短语、第一关键短语的第一长度和第二关键短语的第二长度，得到所述第一关键短语和所述第二关键短语的冗余程度；在所述冗余程度小于第三预设阈值时，将第一关键短语或第二关键短语作为第三目标关键短语；

所述冗余程度根据以下公式进行计算：

其中，sim为冗余程度；S₁为第一字符个数；S₂为第二字符个数；min(L₁,L₂)为第一长度和第二长度中的最小值；L₁为第一长度；L₂为第二长度；

其中，在所述获取待确定关键短语的文本和所述文本的关键词之前，还包括：

对所述文本进行分词处理，得到所述文本的初始词语，并获取所述初始词语的词性和所述初始词语的长度；

基于所述初始词语的词性和长度，对所述初始词语进行筛选得到候选词语；

计算所述候选词语的TF-IDF值；

基于所述候选词语的TF-IDF值，确定所述关键词。

2.如权利要求1所述的关键短语的提取方法，其特征在于，所述基于所述关键词在所述文本中的位置组合所述关键词，得到所述文本的关键短语，包括：

3.如权利要求1或2所述的关键短语的提取方法，其特征在于，所述筛选处理还包括：出现频率筛选处理、长度筛选处理、黑名单筛选处理和重要程度筛选处理中的至少一个。

4.如权利要求3所述的关键短语的提取方法，其特征在于，所述出现频率筛选处理，包括：

获取所述关键短语在所述文本中出现的次数；

所述长度筛选处理，包括：

获取所述关键短语中包含的关键词的个数；

所述黑名单筛选处理，包括：

将不在黑名单中的关键短语作为第四目标关键短语；

重要程度筛选处理，包括：

计算所述关键短语的TF-IDF值；

基于所述关键短语的TF-IDF值，得到第五目标关键短语。

5.如权利要求4所述的关键短语的提取方法，其特征在于，所述基于所述关键短语中所述关键词的排列顺序和删减规则删减所述关键短语中的至少一个关键词，得到第二目标关键短语，包括：

6.如权利要求4所述的关键短语的提取方法，其特征在于，所述基于所述第一关键短语、所述第二关键短语、第一关键短语的第一长度和第二关键短语的第二长度，得到所述第一关键短语和所述第二关键短语的冗余程度，包括：

7.一种关键短语的提取装置，其特征在于，包括：

位置确定模块，用于确定所述关键词在所述文本中的位置；

短语确定模块，用于基于所述关键词在所述文本中的位置确定的所述关键词之间的距离组合所述关键词，得到所述文本的关键短语；

与所述短语确定模块相连的还包括：筛选模块，用于对所述关键短语进行筛选处理，得到目标关键短语，其中，所述筛选处理包括去重处理，所述去重处理，包括：选取任意两个关键短语，分别作为第一关键短语和第二关键短语；基于所述第一关键短语、所述第二关键短语、第一关键短语的第一长度和第二关键短语的第二长度，得到所述第一关键短语和所述第二关键短语的冗余程度；在所述冗余程度小于第三预设阈值时，将第一关键短语或第二关键短语作为第三目标关键短语；

所述冗余程度根据以下公式进行计算：

其中，与所述信息获取模块相连的还包括：

计算模块，用于计算所述候选词语的TF-IDF值；

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的关键短语的提取方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的关键短语的提取方法。