CN111274428B

CN111274428B - 一种关键词的提取方法及装置、电子设备、存储介质

Info

Publication number: CN111274428B
Application number: CN201911324095.1A
Authority: CN
Inventors: 乔利娜
Original assignee: Beijing Chuangxin Journey Network Technology Co ltd
Current assignee: Beijing Chuangxin Journey Network Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-06-30
Anticipated expiration: 2039-12-19
Also published as: CN111274428A

Abstract

本公开涉及一种关键词的提取方法，所述方法包括：获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息；对所述文本信息中的所述图像信息进行过滤和加权处理，选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词；对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集；根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量；计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

Description

一种关键词的提取方法及装置、电子设备、存储介质

技术领域

本公开涉及计算机技术领域，具体是涉及一种关键词的提取方法及装置、电子设备、存储介质。

背景技术

笔记文本是旅游垂直领域下的一种产物，提取笔记文本的关键词可以帮助我们给笔记打标签，更好的做分发。同时提取关键词还可以帮助更好的理解笔记内容；根据关键词的权重，可以更好的获取其他信息，例如： “北京。。。真好啊，就像上海一样”。结合关键词的权重，我们可以知道主要讲解的是北京，而不会因为同时出现了“北京”，“上海”，而产生疑惑。提取的关键词还可以应用于抽摘，提取标题等其他相关任务。

人们通常更关注于景点，美食，玩乐体验等方面的信息，但是因为笔记内容过于发散，基于词频或者语义相关的方法，很难提取出关键词。笔记发布的时候，除了文本内容，还包含了多张图像和poi信息。图像含有的信息量巨大且较为客观，poi信息为用户自己关联的信息，图像中信息和poi信息可以作为外部补充信息帮助我们快速的提取关键词。

发明内容

为了克服现有技术中存在的问题，本公开提供一种关键词的提取方法及装置、电子设备、存储介质，能够帮助我们快速的通过关键词搜索到旅游攻略文本。

第一方面，本公开实施例提供一种关键词的提取方法，该方法包括：

获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息；对所述文本信息中的所述图像信息进行过滤和加权处理，选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词；对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集；根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量；计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

一示例中，所述对所述文本信息中的所述图像信息进行过滤和加权处理，选择图像中占比大于第一阈值或重复率大于第二阈值的图像生成图像信息词，包括：过滤所述图像信息中的自拍照图像；根据像素占比对所述图像信息评分，对分数进行归一化加权处理，分数限制在0-1之间。

又一示例中，所述对所述文本信息中的所述图像信息进行过滤和加权处理，选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词，包括：预先设置第一阈值，选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词；或者，预先设置第二阈值，选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。

又一示例中，所述计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，包括：分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度，得到图像相似度、兴趣点相似度；对于所述文本信息中的每个词语，计算所述图像相似度和所述兴趣点相似度的综合相似度，作为词语与所述文本语义向量的相似度；结合每个词语的综合相似度，以及文本语义向量的相似度，获得每个关键词的权值。

又一示例中，所述结合每个词语的综合相似度，以及文本语义向量的相似度分值，获得每个关键词的权值，包括：将每个词语的综合相似度进行归一化转变为0-1之间的分值，得到综合相似度分值；对所述文本信息中的每个词语的文本语义向量的相似度进行归一化处理，计算每个词语与所述文本语义向量的相似度，并归一化转变为0-1之间的分值，得到所述文本语义向量的相似度分值；结合所述综合相似度分值和所述文本语义向量的相似度分值，获得每个关键词的权值。

又一示例中，所述文本信息为旅游攻略文本信息或者景点介绍信息。

又一示例中，所述对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，包括：查找并获取所述文字信息中的非文字信息；删除所述非文字信息中的所述停用词和所述分词；过滤所述非文字信息中的所述表情符号。

第二方面，本公开实施例提供一种关键词的提取装置，所述装置包括：获取单元，用于获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息；图像单元，用于对所述文本信息中的所述图像信息进行过滤和加权处理，选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词；文字单元，用于对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集；向量单元，用于根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量；提取单元，用于计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

第三方面，本公开实施例提供一种电子设备，所述电子设备包括：存储器，用于存储指令；以及处理器，用于调用所述存储器存储的指令执行所述的关键词的提取方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行所述的一种关键词的提取方法。

本公开提供的一种关键词的提取方法及装置，通过图像中物体识别技术提取图像中的信息，经过过滤规则，选择出合理的图像信息，使用图像信息、兴趣点信息与文本语义向量的相似度作为提取文本信息中的关键词的因子。本公开更倾向于提取兴趣点信息，结合图像相似度和兴趣点相似度的综合相似度、以及文本语义向量的相似度加权结合的方法，提取关键词信息，以便我们快速的通过关键词搜索到文本。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的实施方式，其中：

图1示出了本公开实施例提供的一种关键词的提取方法的示意图；

图2示出了本公开又一实施例提供的一种关键词的提取方法的示意图；

图3示出了本公开又一实施例提供的一种关键词的权值的获取方法的示意图；

图4示出了本公开又一实施例提供的一种关键词的提取装置的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本公开实施例所述的一种关键词的提取方法，可由关键词的提取装置执行。该关键词的提取装置可以是前端提取装置，也可以是前端提取装置中的某个部件，本公开实施例不做限定。其中，前端提取装置可以是手机、平板、电脑等。

笔记文本具有发散性，一篇笔记文本会从多个方面描述用户的体会，具有很强的主观性，印象深刻的地方会大肆描述，其余的地方会一笔带过。传统使用基于词频或者语义相关的方法提取关键词，很难反应笔记中景点，美食，玩乐等关键信息。

本发明的主要应用场景是为旅游垂直领域的笔记文本内容提取关键词，首先提取用户发布图像中的信息，经过一些方法，进行计算，得到加权的图像信息。使用word2vec方法对图像信息、poi信息、文本信息进行语义向量的表达，然后通过计算文本信息和图像信息的相似度、文本信息和poi信息的相似度，经过加权获得文本信息外部信息的权重。结合文本信息对整个内容的反应能力，获得文本内部信息的权重，通过文本外部信息和内部信息加权平均，获得每个文本信息的整体权重值，根据权重值，提取权重较高的词语作为关键词。

图1为本公开实施例提供的一种关键词的提取方法的示意图。如图1 所示，本公开实施例提供的关键词的提取方法10包括步骤S110-S150。

S110：获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息。

此处的文本信息可以是旅游领域中的笔记数据，例如马蜂窝旅游攻略文本信息，通常包含图像，文字，兴趣点(point of interest，简称英文poi)，目的地等关键信息，这些信息都是用户自己产生的原始数据，没有经过任何处理。文本信息通常会包含多张与该文本信息相关的图像信息，一段描述性文字信息，标注的多个相关的兴趣点信息，及目的地信息等。

所述文本信息为旅游攻略文本信息或者景点介绍信息。

在一实施例中，旅游攻略文本信息为“成都「INNS·饮时」威士忌酒吧--目前很火的“洞穴酒吧”随便拍都特别高级，还能为小姐姐特调无酒精的软饮，非常贴心”。文字信息为上述文本信息中的文字，图像信息为洞穴酒吧的图像，兴趣点信息为“成都、酒吧、软饮”，目的地信息为成都威士忌酒吧。

S120：对所述文本信息中的所述图像信息进行过滤和加权处理，选择图像中占比大于第一阈值或重复率大于第二阈值的图像生成图像信息词。

通过深度卷积神经网络的物体识别技术，提取图像中的信息生成信息词，如该信息是：故宫，亭子，塔，广场，人等信息；但并不是所有的图像信息都是可以使用的，如果全部使用，还会增加噪音，所以对文本信息中的图像信息进行过滤和加权处理。

在一实施例中，针对图像信息得到的TF-IDF，TF-IDF(term frequency- inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术，获得图像信息词的对应分数，对分数进行归一化，限制在0-1之间；或者过滤掉一些自拍照等照片之后，选择在图像中占比较高的信息，可以预先设置第一阈值，选择图像中占比大于第一阈值的图像生成图像信息词，例如，旅游攻略文本信息中很多故宫的图像，故宫图像占比大于预设的第一阈值，生成图像信息词故宫，也可以根据像素占比作为评分，归一化，分数限制在0-1之间；或者选择图像中重复率较高的图像，重复率＝重复的次数/图像个数，旅游攻略文本信息中很多张故宫的图像，选择重复率大于第二阈值的图像生成图像信息词故宫。通过图像中物体识别技术提取图像中的信息，经过过滤规则，选择出合理的图像信息，使用图像信息与文本词语的语义相似度作为提取笔记文本的外部知识补充。

S130：对文本信息中的文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集。

例如：文本信息中的文字信息为“成都「INNS·饮时」威士忌酒吧-- 目前很火的“洞穴酒吧”随便拍都特别高级，还能为小姐姐特调无酒精的软饮，非常贴心”，预处理操作后得到文字词语集：[‘成都’，’威士忌’，’酒吧’，’火’，...]。

一示例，查找并获取所述文字信息中的非文字信息；删除所述非文字信息中的所述停用词和所述分词；过滤所述非文字信息中的所述表情符号。

S140：根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量。

对图像信息词、兴趣点信息、目的地信息及文字词语集，使用word2vec 方法表示成对应的文本语义向量。

根据兴趣点poi信息与文本语义相似度作为提取笔记文本的外部知识补充，使其更倾向于提取兴趣点poi相关信息。

分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度，得到图像相似度Sim_img、兴趣点相似度 Sim_poi。

一示例，计算文本信息中的每个词语与所述图像信息词的加权平均语义相似度，得到图像相似度Sim_img；对于文字词语集中的第i个词，图像相似度为：

其中k为所述图像信息词的个数，Weight_img_j为第j个图像信息词的权重，V_imgj为第j个图像信息词的语义向量，V_wordi.为第i个词的语义向量。其中相似度函数Sim取向量点积。

一示例，计算文本中的每个词与所述兴趣点信息的平均语义相似度 Sim_poi，语义相似度的计算可以使用点积的方式，对于笔记文字词语集的第i个词，兴趣点poi相似度为：

其中m为poi的个数，V_poij为第j个poi的语义向量，V_texti为第i个笔记数据中对应的词，相似度函数Sim取向量点积。

一示例，对于文本中的每个词，计算图像相似度和poi相似度的综合相似度Sim_img_and_poi。公式如下：

Sim_img-poi＝α·Sim_img+β·Sim_poi

之后将所有词的综合相似度进行归一化转变为0-1之间的分值 Score_img_poi。其中α，β根据具体效果，调节之后确定。

一示例，对所述文本信息中的每个词语的语义向量进行归一化处理，所有向量相加除以词的个数，获得融合文本向量，计算每个词语与文本语义向量的语义相似度，归一化转变为0-1之间的分数Score_text。

S150：计算文本信息中每个词语与文本语义向量的相似度，获得每个关键词的权值，获取权值高的关键词。

一示例，结合图像相似度和poi相似度的综合相似度的分值 Score_img_poi和每个词语与文本向量的语义相似度分数Score_text，获得每个关键词的最终权值得分：

Score＝γ·Score_text+δ·Score_img_poi

对每个关键词的最终权值得分从高到低排序，提取权值从高到低指定数量的关键词。

其中权重值需要根据具体效果进行调节，一般文本分数占比较大，将分数进行从高到低的排序，获得需要的关键词。提出结合图像信息和poi 信息的外部相关性信息和笔记文本自身信息加权结合的方法，提取关键词信息。

本发明的主要应用场景是为旅游垂直领域的笔记文本内容提取关键词，首先提取用户发布图像中的信息，使用word2vec方法对图像信息、 poi信息、文本信息进行语义向量的表达，然后通过计算文本信息和图像信息的相似度、文本信息和poi信息的相似度，经过加权获得文本信息外部信息的权重。结合文本信息对整个内容的反应能力，获得文本内部信息的权重，通过文本外部信息和内部信息加权平均，获得每个文本信息的整体权重值，根据权重值，提取权重较高的词语作为关键词，以便我们快速的通过关键词搜索到旅游攻略文本。

图2为本公开又一实施例提供的一种关键词的提取方法的示意图。如图2所示，本公开实施例提供的关键词的提取方法20包括步骤S201-S210。

S201：获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息。

所述文本信息为旅游攻略文本信息或者景点介绍信息。

S202：过滤所述图像信息中的自拍照图像。

S203：根据像素占比对所述图像信息评分，对分数进行归一化加权处理，分数限制在0-1之间。

S204：预先设置第一阈值，选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词。

或者，预先设置第二阈值，选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。

S205：查找并获取所述文字信息中的非文字信息。

S206：删除所述非文字信息中的所述停用词和所述分词。

S207：过滤所述非文字信息中的所述表情符号。

S208：生成文字词语集。

对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理后，生成文字词语集。

S209：根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量。

S210：计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

图3为本公开又一实施例提供的一种关键词的权值的获取方法的示意图。如图3所示，本公开实施例提供的关键词的权值的获取方法30包括步骤S301-S305。

S301：分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度，得到图像相似度、兴趣点相似度。

S302：对于所述文本信息中的每个词语，计算所述图像相似度和所述兴趣点相似度的综合相似度，作为词语与所述文本语义向量的相似度。

S303：将每个词语的综合相似度进行归一化转变为0-1之间的分值，得到综合相似度分值。

S304：对所述文本信息中的每个词语的文本语义向量的相似度进行归一化处理，计算每个词语与所述文本语义向量的相似度，并归一化转变为 0-1之间的分值，得到所述文本语义向量的相似度分值。

一示例，对所述文本信息中的每个词语的文本语义向量进行归一化处理，所有向量相加除以词的个数，获得融合文本向量，计算每个词语与文本语义向量的语义相似度，归一化转变为0-1之间的分数Score_text。

S305：结合所述综合相似度分值和所述文本语义向量的相似度分值，获得每个关键词的权值。

图4为本公开实施例提供的一种关键词的提取装置的示意图。如图4 所示，所述装置包括：

获取单元401，用于获取文本信息，所述文本信息包括图像、文字、兴趣点、目的地信息。

图像单元402，用于对所述文本信息中的所述图像信息进行过滤和加权处理，选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词。

文字单元403，用于对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集。

向量单元404，用于根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量。

提取单元405，用于计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

图像单元402还用于过滤所述图像信息中的自拍照图像；根据像素占比对所述图像信息评分，对分数进行归一化加权处理，分数限制在0-1之间。

图像单元402还用于预先设置第一阈值，选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词；或者，预先设置第二阈值，选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。

提取单元405还用于分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度，得到图像相似度、兴趣点相似度；对于所述文本信息中的每个词语，计算所述图像相似度和所述兴趣点相似度的综合相似度，作为词语与所述文本语义向量的相似度；结合每个词语的综合相似度，以及文本语义向量的相似度，获得每个关键词的权值。

提取单元405还用于将每个词语的综合相似度进行归一化转变为0-1 之间的分值，得到综合相似度分值；对所述文本信息中的每个词语的文本语义向量的相似度进行归一化处理，计算每个词语与所述文本语义向量的相似度，并归一化转变为0-1之间的分值，得到所述文本语义向量的相似度分值；结合所述综合相似度分值和所述文本语义向量的相似度分值，获得每个关键词的权值。

文字单元403还用于查找并获取所述文字信息中的非文字信息；删除所述非文字信息中的所述停用词和所述分词；过滤所述非文字信息中的所述表情符号。

一示例，所述向量单元404具体用于：

计算所述文本信息中的每个词与所有图像信息词的加权平均语义相似度Sim_img；对于文字词语集中的第i个词，图像相似度为：

其中k为图像信息的个数，Weight_img_j为第j个图像信息的权重，V_imgj为第j个图像信息的语义向量，V_wordi.为第i个词的语义向量，其中相似度函数Sim取向量点积。

一示例，所述向量单元404具体用于：

计算所述文本信息中的每个词与多个兴趣点信息词的平均语义相似度Sim_poi，语义相似度的计算可以使用点积的方式，对于所述文字词语集的第i个词，poi相似度为：

其中m为poi的个数，V_poij为第j个poi的语义向量，V_toxti为第i个所述文本信息中对应的词，相似度函数Sim取向量点积。

一示例，所述向量单元404具体用于：

对于所述文本信息中的每个词，计算所述图像相似度和所述poi相似度的综合相似度Sim_{img_poi}，公式如下：

Sim_img-poi＝α·Sim_img+β·Sim_poi

之后将所有词的综合相似度进行归一化转变为0-1之间的分值 Score_img_poi。

一示例，所述向量单元404具体用于：

对所有的文本信息中的词语的语义向量进行归一化处理，所有向量相加除以词的个数，获得融合文本向量，计算每个词语与所述文本向量的语义相似度，归一化转变为0-1之间的分数Score_text。

一示例，所述向量单元404具体用于：

结合所述综合相似度的分值Score_img_poi和词语与所述文本向量的语义相似度分数Score_text，获得每个关键词的最终权值得分：

Score＝γ·Score_text+δ·Score_img_poi；

对每个关键词的最终权值得分从高到低排序，提取权值高的关键词。

本公开的一个实施方式提供的一种电子设备，其中，该电子设备包括存储器、处理器、输入/输出(Input/Output，I/O)接口。其中，存储器，用于存储指令。处理器，用于调用存储器存储的指令执行本公开实施例的用于目的地信息的展示方法。其中，处理器分别与存储器、I/O接口连接，例如可通过总线系统和/或其他形式的连接机构进行连接。存储器可用于存储程序和数据，包括本公开实施例中涉及的用于目的地信息的展示的程序，处理器通过运行存储在存储器的程序从而执行电子设备的各种功能应用以及数据处理。

本公开实施例中处理器可以采用数字信号处理器(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array， FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本公开实施例中，I/O接口可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种关键词的提取方法，其特征在于，所述方法包括：

获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息；

过滤所述图像信息中的自拍照图像；

根据像素占比对所述图像信息评分，对分数进行归一化加权处理，分数限制在0-1之间；

选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词；

对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集；

根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量；

计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

2.根据权利要求1所述的方法，其特征在于，所述选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词，包括：

预先设置第一阈值，选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词；

3.根据权利要求1所述的方法，其特征在于，所述计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，包括：

分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度，得到图像相似度、兴趣点相似度；

对于所述文本信息中的每个词语，计算所述图像相似度和所述兴趣点相似度的综合相似度，作为词语与所述文本语义向量的相似度；

结合每个词语的综合相似度，以及文本语义向量的相似度，获得每个关键词的权值。

4.根据权利要求3所述的方法，其特征在于，所述结合每个词语的综合相似度，以及文本语义向量的相似度分值，获得每个关键词的权值，包括：

将每个词语的综合相似度进行归一化转变为0-1之间的分值，得到综合相似度分值；

对所述文本信息中的每个词语的文本语义向量的相似度进行归一化处理，计算每个词语与所述文本语义向量的相似度，并归一化转变为0-1之间的分值，得到所述文本语义向量的相似度分值；

结合所述综合相似度分值和所述文本语义向量的相似度分值，获得每个关键词的权值。

5.根据权利要求1所述的方法，其特征在于，所述文本信息为旅游攻略文本信息或者景点介绍信息。

6.根据权利要求1所述的方法，其特征在于，所述对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，包括：

查找并获取所述文字信息中的非文字信息；

删除所述非文字信息中的所述停用词和所述分词；

过滤所述非文字信息中的所述表情符号。

7.一种关键词的提取装置，其特征在于，所述装置包括：

获取单元，用于获取文本信息，所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息；

图像单元，用于过滤所述图像信息中的自拍照图像；根据像素占比对所述图像信息评分，对分数进行归一化加权处理，分数限制在0-1之间；选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词；

文字单元，用于对所述文本信息中的所述文字信息进行过滤表情符号和分词，以及去除停用词处理，生成文字词语集；

向量单元，用于根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集，生成文本语义向量；

提取单元，用于计算所述文本信息中每个词语与所述文本语义向量的相似度，获得每个关键词的权值，按照权值从高到低提取指定数量的关键词。

8.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-6中任一项所述的关键词的提取方法。

9.一种计算机可读存储介质，其中，

所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-6中任一项所述的一种关键词的提取方法。