CN111274428B - 一种关键词的提取方法及装置、电子设备、存储介质 - Google Patents

一种关键词的提取方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111274428B
CN111274428B CN201911324095.1A CN201911324095A CN111274428B CN 111274428 B CN111274428 B CN 111274428B CN 201911324095 A CN201911324095 A CN 201911324095A CN 111274428 B CN111274428 B CN 111274428B
Authority
CN
China
Prior art keywords
information
text
word
similarity
image information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911324095.1A
Other languages
English (en)
Other versions
CN111274428A (zh
Inventor
乔利娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangxin Journey Network Technology Co ltd
Original Assignee
Beijing Chuangxin Journey Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangxin Journey Network Technology Co ltd filed Critical Beijing Chuangxin Journey Network Technology Co ltd
Priority to CN201911324095.1A priority Critical patent/CN111274428B/zh
Publication of CN111274428A publication Critical patent/CN111274428A/zh
Application granted granted Critical
Publication of CN111274428B publication Critical patent/CN111274428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种关键词的提取方法,所述方法包括:获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息;对所述文本信息中的所述图像信息进行过滤和加权处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词;对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,生成文字词语集;根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量;计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。

Description

一种关键词的提取方法及装置、电子设备、存储介质
技术领域
本公开涉及计算机技术领域,具体是涉及一种关键词的提取方法及装 置、电子设备、存储介质。
背景技术
笔记文本是旅游垂直领域下的一种产物,提取笔记文本的关键词可以 帮助我们给笔记打标签,更好的做分发。同时提取关键词还可以帮助更好 的理解笔记内容;根据关键词的权重,可以更好的获取其他信息,例如: “北京。。。真好啊,就像上海一样”。结合关键词的权重,我们可以知 道主要讲解的是北京,而不会因为同时出现了“北京”,“上海”,而产生疑惑。提取的关键词还可以应用于抽摘,提取标题等其他相关任务。
人们通常更关注于景点,美食,玩乐体验等方面的信息,但是因为笔 记内容过于发散,基于词频或者语义相关的方法,很难提取出关键词。笔 记发布的时候,除了文本内容,还包含了多张图像和poi信息。图像含有 的信息量巨大且较为客观,poi信息为用户自己关联的信息,图像中信息 和poi信息可以作为外部补充信息帮助我们快速的提取关键词。
发明内容
为了克服现有技术中存在的问题,本公开提供一种关键词的提取方法 及装置、电子设备、存储介质,能够帮助我们快速的通过关键词搜索到旅 游攻略文本。
第一方面,本公开实施例提供一种关键词的提取方法,该方法包括:
获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、 目的地信息;对所述文本信息中的所述图像信息进行过滤和加权处理,选 择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息 生成图像信息词;对所述文本信息中的所述文字信息进行过滤表情符号和 分词,以及去除停用词处理,生成文字词语集;根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量; 计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关 键词的权值,按照权值从高到低提取指定数量的关键词。
一示例中,所述对所述文本信息中的所述图像信息进行过滤和加权处 理,选择图像中占比大于第一阈值或重复率大于第二阈值的图像生成图像 信息词,包括:过滤所述图像信息中的自拍照图像;根据像素占比对所述 图像信息评分,对分数进行归一化加权处理,分数限制在0-1之间。
又一示例中,所述对所述文本信息中的所述图像信息进行过滤和加权 处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图 像信息生成图像信息词,包括:预先设置第一阈值,选择所述图像信息中 占比大于所述第一阈值的图像信息生成图像信息词;或者,预先设置第二 阈值,选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。
又一示例中,所述计算所述文本信息中每个词语与所述文本语义向量 的相似度,获得每个关键词的权值,包括:分别计算所述文本信息中的每 个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度,得到 图像相似度、兴趣点相似度;对于所述文本信息中的每个词语,计算所述 图像相似度和所述兴趣点相似度的综合相似度,作为词语与所述文本语义向量的相似度;结合每个词语的综合相似度,以及文本语义向量的相似度,获得每个关键词的权值。
又一示例中,所述结合每个词语的综合相似度,以及文本语义向量的 相似度分值,获得每个关键词的权值,包括:将每个词语的综合相似度进 行归一化转变为0-1之间的分值,得到综合相似度分值;对所述文本信息 中的每个词语的文本语义向量的相似度进行归一化处理,计算每个词语与所述文本语义向量的相似度,并归一化转变为0-1之间的分值,得到所述 文本语义向量的相似度分值;结合所述综合相似度分值和所述文本语义向量的相似度分值,获得每个关键词的权值。
又一示例中,所述文本信息为旅游攻略文本信息或者景点介绍信息。
又一示例中,所述对所述文本信息中的所述文字信息进行过滤表情符 号和分词,以及去除停用词处理,包括:查找并获取所述文字信息中的非 文字信息;删除所述非文字信息中的所述停用词和所述分词;过滤所述非 文字信息中的所述表情符号。
第二方面,本公开实施例提供一种关键词的提取装置,所述装置包括: 获取单元,用于获取文本信息,所述文本信息包括图像信息、文字信息、 兴趣点信息、目的地信息;图像单元,用于对所述文本信息中的所述图像 信息进行过滤和加权处理,选择所述图像信息中占比大于第一阈值或重复 率大于第二阈值的图像信息生成图像信息词;文字单元,用于对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理, 生成文字词语集;向量单元,用于根据所述图像信息词、所述兴趣点信息、 所述目的地信息及所述文字词语集,生成文本语义向量;提取单元,用于 计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关 键词的权值,按照权值从高到低提取指定数量的关键词。
第三方面,本公开实施例提供一种电子设备,所述电子设备包括:存 储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行 所述的关键词的提取方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其中,所述 计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在 由处理器执行时,执行所述的一种关键词的提取方法。
本公开提供的一种关键词的提取方法及装置,通过图像中物体识别技 术提取图像中的信息,经过过滤规则,选择出合理的图像信息,使用图像 信息、兴趣点信息与文本语义向量的相似度作为提取文本信息中的关键词 的因子。本公开更倾向于提取兴趣点信息,结合图像相似度和兴趣点相似 度的综合相似度、以及文本语义向量的相似度加权结合的方法,提取关键词信息,以便我们快速的通过关键词搜索到文本。
附图说明
通过参考附图阅读下文的详细描述,本公开实施方式的上述以及其他 目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方 式示出了本公开的实施方式,其中:
图1示出了本公开实施例提供的一种关键词的提取方法的示意图;
图2示出了本公开又一实施例提供的一种关键词的提取方法的示意图;
图3示出了本公开又一实施例提供的一种关键词的权值的获取方法的示意图;
图4示出了本公开又一实施例提供的一种关键词的提取装置的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理 解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而 实现本公开,而并非以任何方式限制本公开的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本公开 的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述 仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的 顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使 用。
本公开实施例所述的一种关键词的提取方法,可由关键词的提取装置 执行。该关键词的提取装置可以是前端提取装置,也可以是前端提取装置 中的某个部件,本公开实施例不做限定。其中,前端提取装置可以是手机、 平板、电脑等。
笔记文本具有发散性,一篇笔记文本会从多个方面描述用户的体会, 具有很强的主观性,印象深刻的地方会大肆描述,其余的地方会一笔带过。 传统使用基于词频或者语义相关的方法提取关键词,很难反应笔记中景点, 美食,玩乐等关键信息。
本发明的主要应用场景是为旅游垂直领域的笔记文本内容提取关键 词,首先提取用户发布图像中的信息,经过一些方法,进行计算,得到加 权的图像信息。使用word2vec方法对图像信息、poi信息、文本信息进行语义向量的表达,然后通过计算文本信息和图像信息的相似度、文本信息 和poi信息的相似度,经过加权获得文本信息外部信息的权重。结合文本 信息对整个内容的反应能力,获得文本内部信息的权重,通过文本外部信 息和内部信息加权平均,获得每个文本信息的整体权重值,根据权重值, 提取权重较高的词语作为关键词。
图1为本公开实施例提供的一种关键词的提取方法的示意图。如图1 所示,本公开实施例提供的关键词的提取方法10包括步骤S110-S150。
S110:获取文本信息,所述文本信息包括图像信息、文字信息、兴趣 点信息、目的地信息。
此处的文本信息可以是旅游领域中的笔记数据,例如马蜂窝旅游攻略 文本信息,通常包含图像,文字,兴趣点(point of interest,简称英文poi), 目的地等关键信息,这些信息都是用户自己产生的原始数据,没有经过任 何处理。文本信息通常会包含多张与该文本信息相关的图像信息,一段描 述性文字信息,标注的多个相关的兴趣点信息,及目的地信息等。
所述文本信息为旅游攻略文本信息或者景点介绍信息。
在一实施例中,旅游攻略文本信息为“成都「INNS·饮时」威士忌酒 吧--目前很火的“洞穴酒吧”随便拍都特别高级,还能为小姐姐特调无酒精 的软饮,非常贴心”。文字信息为上述文本信息中的文字,图像信息为洞 穴酒吧的图像,兴趣点信息为“成都、酒吧、软饮”,目的地信息为成都 威士忌酒吧。
S120:对所述文本信息中的所述图像信息进行过滤和加权处理,选择 图像中占比大于第一阈值或重复率大于第二阈值的图像生成图像信息词。
通过深度卷积神经网络的物体识别技术,提取图像中的信息生成信息 词,如该信息是:故宫,亭子,塔,广场,人等信息;但并不是所有的图 像信息都是可以使用的,如果全部使用,还会增加噪音,所以对文本信息 中的图像信息进行过滤和加权处理。
在一实施例中,针对图像信息得到的TF-IDF,TF-IDF(term frequency- inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技 术,获得图像信息词的对应分数,对分数进行归一化,限制在0-1之间; 或者过滤掉一些自拍照等照片之后,选择在图像中占比较高的信息,可以预先设置第一阈值,选择图像中占比大于第一阈值的图像生成图像信息词, 例如,旅游攻略文本信息中很多故宫的图像,故宫图像占比大于预设的第 一阈值,生成图像信息词故宫,也可以根据像素占比作为评分,归一化, 分数限制在0-1之间;或者选择图像中重复率较高的图像,重复率=重复 的次数/图像个数,旅游攻略文本信息中很多张故宫的图像,选择重复率大 于第二阈值的图像生成图像信息词故宫。通过图像中物体识别技术提取图像中的信息,经过过滤规则,选择出合理的图像信息,使用图像信息与文 本词语的语义相似度作为提取笔记文本的外部知识补充。
S130:对文本信息中的文字信息进行过滤表情符号和分词,以及去除 停用词处理,生成文字词语集。
例如:文本信息中的文字信息为“成都「INNS·饮时」威士忌酒吧-- 目前很火的“洞穴酒吧”随便拍都特别高级,还能为小姐姐特调无酒精的软 饮,非常贴心”,预处理操作后得到文字词语集:[‘成都’,’威士忌’,’酒 吧’,’火’,...]。
一示例,查找并获取所述文字信息中的非文字信息;删除所述非文字 信息中的所述停用词和所述分词;过滤所述非文字信息中的所述表情符号。
S140:根据所述图像信息词、所述兴趣点信息、所述目的地信息及所 述文字词语集,生成文本语义向量。
对图像信息词、兴趣点信息、目的地信息及文字词语集,使用word2vec 方法表示成对应的文本语义向量。
根据兴趣点poi信息与文本语义相似度作为提取笔记文本的外部知识 补充,使其更倾向于提取兴趣点poi相关信息。
分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点 信息的加权平均语义相似度,得到图像相似度Sim_img、兴趣点相似度 Sim_poi。
一示例,计算文本信息中的每个词语与所述图像信息词的加权平均语 义相似度,得到图像相似度Sim_img;对于文字词语集中的第i个词,图 像相似度为:
Figure SMS_1
其中k为所述图像信息词的个数,Weight_imgj为第j个图像信息词的 权重,Vimgj为第j个图像信息词的语义向量,Vwordi.为第i个词的语义向量。 其中相似度函数Sim取向量点积。
一示例,计算文本中的每个词与所述兴趣点信息的平均语义相似度 Sim_poi,语义相似度的计算可以使用点积的方式,对于笔记文字词语集 的第i个词,兴趣点poi相似度为:
Figure SMS_2
其中m为poi的个数,Vpoij为第j个poi的语义向量,Vtexti为第i个笔 记数据中对应的词,相似度函数Sim取向量点积。
一示例,对于文本中的每个词,计算图像相似度和poi相似度的综合 相似度Sim_img_and_poi。公式如下:
Simimg-poi=α·Simimg+β·Simpoi
之后将所有词的综合相似度进行归一化转变为0-1之间的分值 Score_img_poi。其中α,β根据具体效果,调节之后确定。
一示例,对所述文本信息中的每个词语的语义向量进行归一化处理, 所有向量相加除以词的个数,获得融合文本向量,计算每个词语与文本语 义向量的语义相似度,归一化转变为0-1之间的分数Score_text。
S150:计算文本信息中每个词语与文本语义向量的相似度,获得每个 关键词的权值,获取权值高的关键词。
一示例,结合图像相似度和poi相似度的综合相似度的分值 Score_img_poi和每个词语与文本向量的语义相似度分数Score_text,获得 每个关键词的最终权值得分:
Score=γ·Score_text+δ·Score_img_poi
对每个关键词的最终权值得分从高到低排序,提取权值从高到低指定 数量的关键词。
其中权重值需要根据具体效果进行调节,一般文本分数占比较大,将 分数进行从高到低的排序,获得需要的关键词。提出结合图像信息和poi 信息的外部相关性信息和笔记文本自身信息加权结合的方法,提取关键词 信息。
本发明的主要应用场景是为旅游垂直领域的笔记文本内容提取关键 词,首先提取用户发布图像中的信息,使用word2vec方法对图像信息、 poi信息、文本信息进行语义向量的表达,然后通过计算文本信息和图像 信息的相似度、文本信息和poi信息的相似度,经过加权获得文本信息外 部信息的权重。结合文本信息对整个内容的反应能力,获得文本内部信息的权重,通过文本外部信息和内部信息加权平均,获得每个文本信息的整 体权重值,根据权重值,提取权重较高的词语作为关键词,以便我们快速 的通过关键词搜索到旅游攻略文本。
图2为本公开又一实施例提供的一种关键词的提取方法的示意图。如 图2所示,本公开实施例提供的关键词的提取方法20包括步骤S201-S210。
S201:获取文本信息,所述文本信息包括图像信息、文字信息、兴趣 点信息、目的地信息。
所述文本信息为旅游攻略文本信息或者景点介绍信息。
S202:过滤所述图像信息中的自拍照图像。
S203:根据像素占比对所述图像信息评分,对分数进行归一化加权处 理,分数限制在0-1之间。
S204:预先设置第一阈值,选择所述图像信息中占比大于所述第一阈 值的图像信息生成图像信息词。
或者,预先设置第二阈值,选择所述图像信息中重复率大于所述第二 阈值的图像信息生成图像信息词。
S205:查找并获取所述文字信息中的非文字信息。
S206:删除所述非文字信息中的所述停用词和所述分词。
S207:过滤所述非文字信息中的所述表情符号。
S208:生成文字词语集。
对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去 除停用词处理后,生成文字词语集。
S209:根据所述图像信息词、所述兴趣点信息、所述目的地信息及所 述文字词语集,生成文本语义向量。
S210:计算所述文本信息中每个词语与所述文本语义向量的相似度, 获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。
对每个关键词的最终权值得分从高到低排序,提取权值从高到低指定 数量的关键词。
图3为本公开又一实施例提供的一种关键词的权值的获取方法的示意 图。如图3所示,本公开实施例提供的关键词的权值的获取方法30包括步骤S301-S305。
S301:分别计算所述文本信息中的每个词语与所述图像信息词、所述 兴趣点信息的加权平均语义相似度,得到图像相似度、兴趣点相似度。
S302:对于所述文本信息中的每个词语,计算所述图像相似度和所述 兴趣点相似度的综合相似度,作为词语与所述文本语义向量的相似度。
S303:将每个词语的综合相似度进行归一化转变为0-1之间的分值, 得到综合相似度分值。
S304:对所述文本信息中的每个词语的文本语义向量的相似度进行归 一化处理,计算每个词语与所述文本语义向量的相似度,并归一化转变为 0-1之间的分值,得到所述文本语义向量的相似度分值。
一示例,对所述文本信息中的每个词语的文本语义向量进行归一化处 理,所有向量相加除以词的个数,获得融合文本向量,计算每个词语与文 本语义向量的语义相似度,归一化转变为0-1之间的分数Score_text。
S305:结合所述综合相似度分值和所述文本语义向量的相似度分值, 获得每个关键词的权值。
图4为本公开实施例提供的一种关键词的提取装置的示意图。如图4 所示,所述装置包括:
获取单元401,用于获取文本信息,所述文本信息包括图像、文字、 兴趣点、目的地信息。
图像单元402,用于对所述文本信息中的所述图像信息进行过滤和加 权处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的 图像信息生成图像信息词。
文字单元403,用于对所述文本信息中的所述文字信息进行过滤表情 符号和分词,以及去除停用词处理,生成文字词语集。
向量单元404,用于根据所述图像信息词、所述兴趣点信息、所述目 的地信息及所述文字词语集,生成文本语义向量。
提取单元405,用于计算所述文本信息中每个词语与所述文本语义向 量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的 关键词。
图像单元402还用于过滤所述图像信息中的自拍照图像;根据像素占 比对所述图像信息评分,对分数进行归一化加权处理,分数限制在0-1之 间。
图像单元402还用于预先设置第一阈值,选择所述图像信息中占比大 于所述第一阈值的图像信息生成图像信息词;或者,预先设置第二阈值, 选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息 词。
提取单元405还用于分别计算所述文本信息中的每个词语与所述图像 信息词、所述兴趣点信息的加权平均语义相似度,得到图像相似度、兴趣点相似度;对于所述文本信息中的每个词语,计算所述图像相似度和所述 兴趣点相似度的综合相似度,作为词语与所述文本语义向量的相似度;结 合每个词语的综合相似度,以及文本语义向量的相似度,获得每个关键词 的权值。
提取单元405还用于将每个词语的综合相似度进行归一化转变为0-1 之间的分值,得到综合相似度分值;对所述文本信息中的每个词语的文本 语义向量的相似度进行归一化处理,计算每个词语与所述文本语义向量的 相似度,并归一化转变为0-1之间的分值,得到所述文本语义向量的相似 度分值;结合所述综合相似度分值和所述文本语义向量的相似度分值,获得每个关键词的权值。
文字单元403还用于查找并获取所述文字信息中的非文字信息;删除 所述非文字信息中的所述停用词和所述分词;过滤所述非文字信息中的所 述表情符号。
一示例,所述向量单元404具体用于:
计算所述文本信息中的每个词与所有图像信息词的加权平均语义相 似度Sim_img;对于文字词语集中的第i个词,图像相似度为:
Figure SMS_3
其中k为图像信息的个数,Weight_imgj为第j个图像信息的权重,Vimgj为第j个图像信息的语义向量,Vwordi.为第i个词的语义向量,其中相似度 函数Sim取向量点积。
一示例,所述向量单元404具体用于:
计算所述文本信息中的每个词与多个兴趣点信息词的平均语义相似 度Sim_poi,语义相似度的计算可以使用点积的方式,对于所述文字词语 集的第i个词,poi相似度为:
Figure SMS_4
其中m为poi的个数,Vpoij为第j个poi的语义向量,Vtoxti为第i个所 述文本信息中对应的词,相似度函数Sim取向量点积。
一示例,所述向量单元404具体用于:
对于所述文本信息中的每个词,计算所述图像相似度和所述poi相似 度的综合相似度Simimg_poi,公式如下:
Simimg-poi=α·Simimg+β·Simpoi
之后将所有词的综合相似度进行归一化转变为0-1之间的分值 Score_img_poi。
一示例,所述向量单元404具体用于:
对所有的文本信息中的词语的语义向量进行归一化处理,所有向量相 加除以词的个数,获得融合文本向量,计算每个词语与所述文本向量的语 义相似度,归一化转变为0-1之间的分数Score_text。
一示例,所述向量单元404具体用于:
结合所述综合相似度的分值Score_img_poi和词语与所述文本向量的 语义相似度分数Score_text,获得每个关键词的最终权值得分:
Score=γ·Score_text+δ·Score_img_poi;
对每个关键词的最终权值得分从高到低排序,提取权值高的关键词。
本公开的一个实施方式提供的一种电子设备,其中,该电子设备包括 存储器、处理器、输入/输出(Input/Output,I/O)接口。其中,存储器, 用于存储指令。处理器,用于调用存储器存储的指令执行本公开实施例的 用于目的地信息的展示方法。其中,处理器分别与存储器、I/O接口连接,例如可通过总线系统和/或其他形式的连接机构进行连接。存储器可用于存 储程序和数据,包括本公开实施例中涉及的用于目的地信息的展示的程序, 处理器通过运行存储在存储器的程序从而执行电子设备的各种功能应用 以及数据处理。
本公开实施例中处理器可以采用数字信号处理器(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种 硬件形式来实现,所述处理器可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本公开实施例中的存储器可以包括一个或多个计算机程序产品,所述 计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存 储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储 器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、 快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬 盘(Solid-State Drive,SSD)等。
本公开实施例中,I/O接口可用于接收输入的指令(例如数字或字符 信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入 等),也可向外部输出各种信息(例如,图像或声音等)。本公开实施例 中I/O接口可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、 鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
在一些实施方式中,本公开提供了一种计算机可读存储介质,该计算 机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器 执行时,执行上文所述的任何方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照 所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的 操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本公开的方法和装置能够利用标准编程技术来完成,利用基于规则的 逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利 要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件 代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合 的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模 块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实 现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操 作或程序。
出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说 明并非是穷举性的也并非要将本公开限制到所公开的确切形式,根据上述 教导还可能存在各种变形和修改,或者是可能从本公开的实践中得到各种 变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应 用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施 方式和各种修改而利用本公开。

Claims (9)

1.一种关键词的提取方法,其特征在于,所述方法包括:
获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息;
过滤所述图像信息中的自拍照图像;
根据像素占比对所述图像信息评分,对分数进行归一化加权处理,分数限制在0-1之间;
选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词;
对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,生成文字词语集;
根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量;
计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。
2.根据权利要求1所述的方法,其特征在于,所述选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词,包括:
预先设置第一阈值,选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词;
或者,预先设置第二阈值,选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。
3.根据权利要求1所述的方法,其特征在于,所述计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,包括:
分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度,得到图像相似度、兴趣点相似度;
对于所述文本信息中的每个词语,计算所述图像相似度和所述兴趣点相似度的综合相似度,作为词语与所述文本语义向量的相似度;
结合每个词语的综合相似度,以及文本语义向量的相似度,获得每个关键词的权值。
4.根据权利要求3所述的方法,其特征在于,所述结合每个词语的综合相似度,以及文本语义向量的相似度分值,获得每个关键词的权值,包括:
将每个词语的综合相似度进行归一化转变为0-1之间的分值,得到综合相似度分值;
对所述文本信息中的每个词语的文本语义向量的相似度进行归一化处理,计算每个词语与所述文本语义向量的相似度,并归一化转变为0-1之间的分值,得到所述文本语义向量的相似度分值;
结合所述综合相似度分值和所述文本语义向量的相似度分值,获得每个关键词的权值。
5.根据权利要求1所述的方法,其特征在于,所述文本信息为旅游攻略文本信息或者景点介绍信息。
6.根据权利要求1所述的方法,其特征在于,所述对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,包括:
查找并获取所述文字信息中的非文字信息;
删除所述非文字信息中的所述停用词和所述分词;
过滤所述非文字信息中的所述表情符号。
7.一种关键词的提取装置,其特征在于,所述装置包括:
获取单元,用于获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息;
图像单元,用于过滤所述图像信息中的自拍照图像;根据像素占比对所述图像信息评分,对分数进行归一化加权处理,分数限制在0-1之间;选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词;
文字单元,用于对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,生成文字词语集;
向量单元,用于根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量;
提取单元,用于计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。
8.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-6中任一项所述的关键词的提取方法。
9.一种计算机可读存储介质,其中,
所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-6中任一项所述的一种关键词的提取方法。
CN201911324095.1A 2019-12-19 2019-12-19 一种关键词的提取方法及装置、电子设备、存储介质 Active CN111274428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911324095.1A CN111274428B (zh) 2019-12-19 2019-12-19 一种关键词的提取方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911324095.1A CN111274428B (zh) 2019-12-19 2019-12-19 一种关键词的提取方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111274428A CN111274428A (zh) 2020-06-12
CN111274428B true CN111274428B (zh) 2023-06-30

Family

ID=70996923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911324095.1A Active CN111274428B (zh) 2019-12-19 2019-12-19 一种关键词的提取方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111274428B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782977B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 兴趣点处理方法、装置、设备及计算机可读存储介质
CN113177994B (zh) * 2021-03-25 2022-09-06 云南大学 基于图文语义的网络社交表情包合成方法、电子设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN109492168A (zh) * 2018-11-13 2019-03-19 钟栎娜 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
CN109543058A (zh) * 2018-11-23 2019-03-29 连尚(新昌)网络科技有限公司 用于检测图像的方法、电子设备和计算机可读介质
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110287791A (zh) * 2019-05-23 2019-09-27 罗普特科技集团股份有限公司 一种用于人脸图片的筛选方法和系统
CN110532431A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 短视频关键词提取方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140040297A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Keyword extraction
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108197117A (zh) * 2018-01-31 2018-06-22 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN109492168A (zh) * 2018-11-13 2019-03-19 钟栎娜 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
CN109543058A (zh) * 2018-11-23 2019-03-29 连尚(新昌)网络科技有限公司 用于检测图像的方法、电子设备和计算机可读介质
CN110287791A (zh) * 2019-05-23 2019-09-27 罗普特科技集团股份有限公司 一种用于人脸图片的筛选方法和系统
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110532431A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 短视频关键词提取方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Xinggao Cai et al ; .A Keyword Extraction Method Based on Learning to Rank.2017 3th International Conference on Semantics, Knowledge and Grids(SKG).2018,全文. *
聂卉 ; .结合词向量和词图算法的用户兴趣建模研究.数据分析与知识发现.2019,(第undefined期),全文. *
蒋建洪 ; 马瑞云 ; .基于文本挖掘的个性化旅游偏好特征属性分析.《企业经济》.2017,(第12期),全文. *
邱明涛 ; 马静 ; 张磊 ; 姚兆旭 ; .基于可扩展LDA模型的微博话题特征抽取研究.情报科学.2017,(第04期),全文. *

Also Published As

Publication number Publication date
CN111274428A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
Park et al. One-step and two-step classification for abusive language detection on twitter
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN105824959B (zh) 舆情监控方法及系统
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
WO2016037519A1 (zh) 一种输入方法、装置及电子设备
CN107025239B (zh) 敏感词过滤的方法和装置
JP6122499B2 (ja) 特徴に基づく候補選択
CN105931644A (zh) 一种语音识别方法及移动终端
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
Man Feature extension for short text categorization using frequent term sets
CN107948730B (zh) 基于图片生成视频的方法、装置、设备及存储介质
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN111274428B (zh) 一种关键词的提取方法及装置、电子设备、存储介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN104572717A (zh) 信息搜索方法和装置
CN104182381A (zh) 文字输入用方法和系统
WO2016041428A1 (zh) 一种英文的输入方法和装置
JP2008203933A (ja) カテゴリ作成方法および装置、文書分類方法および装置
Boishakhi et al. Multi-modal hate speech detection using machine learning
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant