CN106021532B - 关键词的显示方法和装置 - Google Patents

关键词的显示方法和装置 Download PDF

Info

Publication number
CN106021532B
CN106021532B CN201610355808.0A CN201610355808A CN106021532B CN 106021532 B CN106021532 B CN 106021532B CN 201610355808 A CN201610355808 A CN 201610355808A CN 106021532 B CN106021532 B CN 106021532B
Authority
CN
China
Prior art keywords
keyword
sentence
name
person
target article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610355808.0A
Other languages
English (en)
Other versions
CN106021532A (zh
Inventor
王磊
麦涛
张旭
朱志华
白杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201610355808.0A priority Critical patent/CN106021532B/zh
Publication of CN106021532A publication Critical patent/CN106021532A/zh
Application granted granted Critical
Publication of CN106021532B publication Critical patent/CN106021532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词的显示方法和装置,该方法包括:在确定输入的信息为人名时,查找与该人名对应的语句;将查找到的语句作为目标语句进行分词处理,得到目标语句分词后的词汇;在目标语句分词后的词汇中确定关键词;获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;根据每个关键词的词频和权重值获取每个关键词的排列顺序;将查找到的语句和已确定的关键词进行显示,其中每个关键词是按照该排列顺序显示的。能够在输入指定的人名后自动显示与该人名对应的语句以及关键词,能够解决通过人工总结语录关键词的工作效率低以及准确性低的问题,达到提高工作效率低以及准确性的效果。

Description

关键词的显示方法和装置
技术领域
本发明涉及文字处理技术领域,涉及一种关键词的显示方法和关键词的显示装置。
背景技术
随着互联网的普及和发展,越来越多的新鲜词汇也在不断的产生。很多名人说过的经典语录也会在互联网上广为流传。每到年末的时候也会有各种各样的机构或媒体对今年的热点语录做总结。
目前,统计人员在制作类似的总结时,需要对检索结果进行人工浏览,总结内容后才能得到某位名人说了那些热度词汇或经常提到的词汇。但是这种人工总结的方式不但工作效率低下,总结出的结果的准确性也较低。
发明内容
本发明提供一种关键词的显示方法和装置,用于解决人工总结方式的工作效率低以及准确性低的问题。
为了实现上述目的,本发明提供一种关键词的显示方法,所述方法包括:
当确定输入的信息为人名时,查找与所述人名对应的语句;
将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇;
在所述目标语句分词后的词汇中确定关键词;
获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;
根据每个关键词的词频和权重值获取每个关键词的排列顺序;
将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。
可选的,在所述当确定输入的信息为人名时,查找与所述人名对应的语句的步骤之前,所述方法还包括:
接收输入的目标文章;
对所述目标文章进行分词处理,得到所述目标文章分词后的词汇;
确定所述目标文章分词后的词汇中是否存在人名;
当所述目标文章分词后的词汇中存在至少一个人名时,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录;
当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名;
将所述第一人名以及所述任一人名对应的语句进行存储。
可选的,所述获取已确定的关键词中的每个关键词的关键词属性,其中所述每个关键词的关键词属性包括每个关键词的词频和权重值的步骤包括:
统计每个关键词的词频;以及,
根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值。
可选的,所述社会影响指数包括被引用次数或评论数量,所述根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值包括:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理;
其中,所述第一关键词为所述已确定的关键词中的任意一个关键词。
可选的,所述确定所述目标文章分词后的词汇中是否存在人名包括:
获取所述目标文章分词后的词汇中的每个词汇的词性;
根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;
利用自然语言处理技术识别所述名词中是否存在人名。
可选的,所述将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的包括:
将包括所述已确定的关键词的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照所述排列顺序显示的;
将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
可选的,所述人名对应的语句包括:与所述人名对应的人物语录,或者包含所述人物语录的语句或文章。
本发明还提供一种关键词的显示装置,所述装置包括:
人名识别模块,用于当确定输入的信息为人名时,查找与所述人名对应的语句;
分词模块,用于将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇;
关键词提取模块,用于在所述目标语句分词后的词汇中确定关键词;
属性确定模块,用于获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;
排序模块,用于根据每个关键词的词频和权重值获取每个关键词的排列顺序;
显示模块,用于将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。
可选的,所述装置还包括:输入模块,语录识别模块,语句抽取模块以及存储模块;
所述输入模块,用于在所述当确定输入的信息为人名时,查找与所述人名对应的语句的步骤之前,接收输入的目标文章;
所述分词模块,用于对所述目标文章进行分词处理,得到所述目标文章分词后的词汇;
所述人名识别模块,用于确定所述目标文章分词后的词汇中是否存在人名;
所述语录识别模块,用于当所述目标文章分词后的词汇中存在至少一个人名时,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录;
所述语句抽取模块,用于当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名;
所述存储模块,用于将所述第一人名以及所述任一人名对应的语句进行存储。
可选的,所述属性确定模块包括:
词频统计子模块,用于统计每个关键词的词频;以及,
权重确定子模块,根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值。
可选的,所述社会影响指数包括被引用次数或评论数量,所述权重确定子模块用于:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理;
其中,所述第一关键词为所述已确定的关键词中的任意一个关键词。
可选的,所述人名识别模块用于:
获取所述目标文章分词后的词汇中的每个词汇的词性;
根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;
利用自然语言处理技术识别所述名词中是否存在人名。
可选的,所述显示模块用于:
将包括所述已确定的关键词的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照所述排列顺序显示的;
将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
可选的,所述人名对应的语句包括:与所述人名对应的人物语录,或者包含所述人物语录的语句或文章。
本发明实施例提供的关键词的显示方法和装置,通过在确定输入的信息为人名时,查找与所述人名对应的语句,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇,而后在所述目标语句分词后的词汇中确定关键词,并获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值,而后根据每个关键词的词频和权重值获取每个关键词的排列顺序,最后将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。通过上述技术方案,提供了一种人物热点词汇的显示机制,能够在输入指定的人名后自动显示与该人名对应的语句以及关键词,能够解决现有的通过人工总结语录关键词的工作效率低以及准确性低的问题,达到提高工作效率低以及准确性的效果。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明一实施例提供一种关键词的显示方法的流程图;
图2是本发明一实施例提供一种关键词的显示方法的流程图;
图3是本发明一实施例提供的一种显示界面的示意图;
图4是本发明一实施例提供一种关键词的显示装置的框图;
图5是本发明一实施例提供另一种关键词的显示装置的框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一实施例提供一种关键词的显示方法的流程图,参见图1,该方法可以包括以下步骤。
步骤101,当确定输入的信息为人名时,查找与所述人名对应的语句。
其中,与所述人名对应的语句可以是与该人名对应的人物语录,或者包含人物语录的语句或文章。查找与所述人名对应的语句,可以是在预先建立好的数据库中查找,在该数据库中可以包括多个人名对应的语句,其中每个人名可以对应多个语句,这些与人名对应的语句也是预先获取并存储在数据库中的,其获取方法可以参照图2所示的实施例。
在查找到与所述人名对应的语句后可以进行步骤102。
步骤102,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇。
其中,以中文为例,该分词处理即为中文分词处理,包括词汇拆分、标点符号过滤、停止词过滤等。
步骤103,在所述目标语句分词后的词汇中确定关键词。其中,确定关键词可以通过语义分析以及关键词库匹配两种处理技术来实现。
步骤104,获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值。
步骤105,根据每个关键词的词频和权重值获取每个关键词的排列顺序。
步骤106,将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。
综上,本发明实施例提供的关键词的显示方法,通过在确定输入的信息为人名时,查找与所述人名对应的语句,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇,而后在所述目标语句分词后的词汇中确定关键词,并获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值,而后根据每个关键词的词频和权重值获取每个关键词的排列顺序,最后将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。通过上述技术方案,提供了一种人物热点词汇的显示机制,能够在输入指定的人名后自动显示与该人名对应的语句以及关键词,能够解决现有的通过人工总结语录关键词的工作效率低以及准确性低的问题,达到提高工作效率低以及准确性的效果。
图2是本发明另一实施例提供一种关键词的显示方法的流程图,参见图2,该方法可以包括以下步骤。
步骤201,接收输入的目标文章。
示例地,目标文章可以是记录某一新闻的文章。
步骤202,对所述目标文章进行分词处理,得到所述目标文章分词后的词汇。
其中,以中文为例,该分词处理即为中文分词处理,包括词汇拆分、标点符号过滤、停止词(例如“的”)过滤等。
步骤203,确定所述目标文章分词后的词汇中是否存在人名。示例地,可以通过以下步骤:
首先,获取所述目标文章分词后的词汇中的每个词汇的词性;其次,根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;最后,利用自然语言处理(NaturalLanguage Processing,简称NLP)技术识别所述名词中是否存在人名。当所述目标文章分词后的词汇中存在至少一个人名时,进行步骤204。
步骤204,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录。
示例地,指定关键词例如可以包括但不限于:讲话、提到、指出、强调、说等用于表示“说”的动词,这些词后面的内容通常是人物所说的话,因此可以作为用于判断是否存在语录的关键词。例如可以通过遍历该目标文章的文章内容来检测目标文章中是否有上述的指定关键词,当在所述目标文章中在某一人名之后检测到上述的指定关键词中的任一个时,可以确定目标文章中存在语录。反之,当在所述目标文章中检测不到上述的指定关键词中的任一个时,可以确定目标文章中不存在语录。
或者,对于指定标点符号(或者标点符号组合),例如冒号和双引号的组合:“”,其中双引号中的内容也可以确定为语录。因此,通过遍历该目标文章的文章内容来检测目标文章中是否有上述的指定标点符号,当在所述目标文章中在某一人名之后检测到上述的指定标点符号时,可以确定目标文章中存在语录。反之,当在所述目标文章中检测不到上述的指定关键词或者指定标点符号时,可以确定目标文章中不存在语录。
示例地,假设目标文章中的一段内容为“XXXXXXX,ABC进行了重要讲话XXXXX,提到XXXX,指出XXXX,强调XXXX,说XXX。XXXXXXXXXXXXXXX。”其中ABC为人名,则在检测到ABC后可以确定该目标文章中存在人名,而后利用上述的指定关键词可以确定这段内容中包括指定关键词“讲话、提到、指出、强调、说”,因此可以可以确定该目标文章中存在语录。
步骤205,当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名。
示例地,这里获取包含所述第一人名对应的语录的语句可以理解为从目标文章中仅抽取出所述第一人名对应的语录,或者抽取出包含所述第一人名对应的语录的句子、段落等等。并且,从所述目标文章获取包含所述第一人名对应的语录的语句可以利用NLP技术实现,该NLP技术包括:分析目标文章中每个句子的上下文关系,并且可以配合上述的指定关键词以及标点符号进行语句的识别以及获取。
示例地,当在某一人名之后发现某一指定关键词时,可以将从该人名的所在位置起往后的一定范围内的文章内容抽取出来作为与人名对应的语句,这里的一定范围可以根据需要来设置,比如可以是从该人名的所在位置起至出现句号为止。或者,当在某一人名之后发现某一标点符号时,可以将从该人名开始至该指定标点符号所包含的内容结束所包含的内容作为与该人名对应的语句。例如,双引号中的内容。以步骤204中所示的目标文章中的一段内容“XXXXXXX,ABC进行了重要讲话XXXXX,提到XXXX,指出XXXX,强调XXXX,说XXX。XXXXXXXXXXXXXXX。”为例,通过以上方法,获取的与人名ABC对应的语句可以是“ABC进行了重要讲话XXXXX,提到XXXX,指出XXXX,强调XXXX,说XXX。”
步骤206,将所述第一人名以及所述任一人名对应的语句进行存储。
在获取的目标文章中的所有人名对应的语句后,存储至数据库中。并且每当有新的新闻或者其他热点消息需要进行分析时,可以对该新闻或者消息进行上述步骤201-206,从而不断的更新数据库中的人名以及其对应的语句。当需要检索某一人物的语录以及关键词时,可以进行以下步骤。
步骤207,当接收到输入的信息时,判断输入的信息是否为人名。
当确定输入的信息为人名时,进行步骤208,如果输入的不是人名,则不进行后续步骤。
步骤208,查找与所述人名对应的语句。
步骤209,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇。
其中,以中文为例,该分词处理即为中文分词处理,包括词汇拆分、标点符号过滤、停止词(例如“的”)过滤等。
步骤210,在所述目标语句分词后的词汇中确定关键词。
示例地,在所述目标语句分词后的词汇中确定关键词,可以对分词后的词汇进行语义分析和关键词库匹配,得到相关语句中的关键词。其中,关键词库匹配是用于辅助语义分析的技术,在某一词语通过语义分析无法确定是否为关键词时,可以将该词语与关键词库中的词语进行匹配,以便识别该词语是否为关键词。
步骤211,获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值。
示例地,统计每个关键词的词频可以是统计每个关键词在该人名对应的所有语句中的出现的总次数。而关键词的权重值的获取可以通过:根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值。
示例地,某一语句的数据来源可是指提供该语句的网站(例如新华网)或者媒体(例如人民日报);内容来源可是指该语句的出处(例如该语句的内容是在某重大会议中指出的);社会影响指数例如可以是该语句(或者是该语句所在文章)的被引用次数或者评论数量。因此,以第一关键词为例(该第一关键词可以是任意一个关键词),上述的根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值的步骤可以包括:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理。
其中,上述每种情况中对第一关键词的权重值进行的加值处理所加的权重值与其他两种情况中对第一关键词的权重值进行的加值处理所加的权重值可以相同,也可以不同。另外,如果某一相关语句满足上述三种情况中的至少两种,则加值处理是可以叠加的。
其中,统计词频和计算关键词的权重值之间没有固定的执行顺序,可以先执行其中的任一个,也可以同时执行。
步骤212,根据每个关键词的词频和权重值获取每个关键词的排列顺序。
示例地,可以按照每个关键词的词频进行降序排列作为该至少一个关键词的排列顺序,即词频越高显示的位置越靠前。也可以将每个关键词的词频乘以该关键词的权重得到该关键词的热度指数,然后按照每个关键词的热度指数进行降序排列作为该至少一个关键词的排列顺序,即热度指数越高显示的位置越靠前。
步骤213,将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。
示例地,可以将包括所述已确定的关键词的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照步骤211中得到的排列顺序显示的;并将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
示例地,图3是本发明一实施例提供的一种显示界面的示意图,参见图3,该界面中包括显示界面30,该显示界面30中显示有搜索栏31,在搜索栏31中输入有人名ABC,该显示界面30中的右侧为上述的第一显示位置,显示有关键词列表32。该显示界面30中的左侧为上述的第二显示位置,显示有人名ABC对应的语句33。示例地,如图3所示,关键词列表32中显示有4个已确定的关键词,分别为“两学一做、APEC蓝、三严三实和供给侧改革”,这四个关键词的排序是根据每个关键词的词频和权重值确定的,其中每个关键词的一侧还显示有用于表示该关键词热度的长条,长条越长,表示该关键词的热度越高。
另外,可选的,可以在显示的相关语句中将该至少一个关键词突出显示,将关键词突出显示可以包括但不限于以下方式:将关键词加粗、加下划线、改变字体,改变底色(不同的关键词可以采用不同的底色)、改变字体颜色(不同的关键词可以采用不同的字体颜色)、字体放大等。
综上,本发明实施例提供的关键词的显示方法,通过在确定输入的信息为人名时,查找与所述人名对应的语句,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇,而后在所述目标语句分词后的词汇中确定关键词,并获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值,而后根据每个关键词的词频和权重值获取每个关键词的排列顺序,最后将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。通过上述技术方案,提供了一种人物热点词汇的显示机制,能够在输入指定的人名后自动显示与该人名对应的语句以及关键词,能够解决现有的通过人工总结语录关键词的工作效率低以及准确性低的问题,达到提高工作效率低以及准确性的效果。
图4是本发明一实施例提供一种关键词的显示装置的框图,该关键词的显示装置40可以用于执行上述的图2或图3所示的方法,参见该显示装置40可以包括:人名识别模块410,分词模块420,关键词提取模块430,属性确定模块440,排序模块450,显示模块460;其中:
人名识别模块410,用于当确定输入的信息为人名时,查找与所述人名对应的语句;
分词模块420,用于将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇;
关键词提取模块430,用于在所述目标语句分词后的词汇中确定关键词;
属性确定模块440,用于获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;
排序模块450,用于根据每个关键词的词频和权重值获取每个关键词的排列顺序;
显示模块460,用于将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。
可选的,图5是本发明一实施例提供另一种关键词的显示装置,参见图5,所述装置40还包括:输入模块470,语录识别模块480,语句抽取模块490以及存储模块400;
所述输入模块470,用于在所述当确定输入的信息为人名时,查找与所述人名对应的语句的步骤之前,接收输入的目标文章;
所述分词模块420,用于对所述目标文章进行分词处理,得到所述目标文章分词后的词汇;
所述人名识别模块410,用于确定所述目标文章分词后的词汇中是否存在人名;
所述语录识别模块480,用于当所述目标文章分词后的词汇中存在至少一个人名时,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录;
所述语句抽取模块490,用于当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名;
所述存储模块400,用于将所述第一人名以及所述任一人名对应的语句进行存储。
可选的,所述属性确定模块440,用于:
词频统计子模块441,用于统计每个关键词的词频;以及,
权重确定子模块442,用于根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值。
可选的,所述社会影响指数包括被引用次数或评论数量,所述权重确定子模块442用于:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理;
其中,所述第一关键词为所述已确定的关键词中的任意一个关键词。
可选的,所述人名识别模块410用于:
获取所述目标文章分词后的词汇中的每个词汇的词性;
根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;
利用自然语言处理技术识别所述名词中是否存在人名。
可选的,所述显示模块460用于:
将包括所述已确定的关键词的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照所述排列顺序显示的;
将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
可选的,所述人名对应的语句包括:与所述人名对应的人物语录,或者包含所述人物语录的语句或文章。
综上,本发明实施例提供的关键词的显示装置,通过在确定输入的信息为人名时,查找与所述人名对应的语句,将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇,而后在所述目标语句分词后的词汇中确定关键词,并获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值,而后根据每个关键词的词频和权重值获取每个关键词的排列顺序,最后将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的。通过上述技术方案,提供了一种人物热点词汇的显示机制,能够在输入指定的人名后自动显示与该人名对应的语句以及关键词,能够解决现有的通过人工总结语录关键词的工作效率低以及准确性低的问题,达到提高工作效率低以及准确性的效果。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (8)

1.一种关键词的显示方法,其特征在于,所述方法包括:
当确定输入的信息为人名时,查找与所述人名对应的语句;
将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇;
在所述目标语句分词后的词汇中确定关键词;
获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;
根据每个关键词的词频和权重值获取每个关键词的排列顺序;
将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的;
所述获取已确定的关键词中的每个关键词的关键词属性,其中所述每个关键词的关键词属性包括每个关键词的词频和权重值的步骤包括:
统计每个关键词的词频;以及,
根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值;
所述将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的包括:
将包括所述已确定的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照所述排列顺序显示的;
将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
2.根据权利要求1所述的方法,其特征在于,在所述当确定输入的信息为人名时,查找与所述人名对应的语句的步骤之前,所述方法还包括:
接收输入的目标文章;
对所述目标文章进行分词处理,得到所述目标文章分词后的词汇;
确定所述目标文章分词后的词汇中是否存在人名;
当所述目标文章分词后的词汇中存在至少一个人名时,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录;
当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名;
将所述第一人名以及所述任一人名对应的语句进行存储。
3.根据权利要求1所述的方法,其特征在于,所述社会影响指数包括被引用次数或评论数量,所述根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值包括:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理;
其中,所述第一关键词为所述已确定的关键词中的任意一个关键词。
4.根据权利要求2所述的方法,其特征在于,所述确定所述目标文章分词后的词汇中是否存在人名包括:
获取所述目标文章分词后的词汇中的每个词汇的词性;
根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;
利用自然语言处理技术识别所述名词中是否存在人名。
5.一种关键词的显示装置,其特征在于,所述装置包括:
人名识别模块,用于当确定输入的信息为人名时,查找与所述人名对应的语句;
分词模块,用于将查找到的语句作为目标语句进行分词处理,得到所述目标语句分词后的词汇;
关键词提取模块,用于在所述目标语句分词后的词汇中确定关键词;
属性确定模块,用于获取已确定的关键词中的每个关键词的关键词属性,其中每个关键词的关键词属性包括每个关键词的词频和权重值;
排序模块,用于根据每个关键词的词频和权重值获取每个关键词的排列顺序;
显示模块,用于将所述查找到的语句和所述已确定的关键词进行显示,其中每个关键词是按照所述排列顺序显示的;
所述属性确定模块包括:
词频统计子模块,用于统计每个关键词的词频;以及,
权重确定子模块,用于根据每个关键词所属语句的数据来源、内容来源以及社会影响指数中的至少一者确定每个关键词的权重值;
所述显示模块用于:
将包括所述已确定的关键词列表显示在显示界面的第一位置,并且在所述关键词列表中所述已确定的关键词是按照所述排列顺序显示的;
将所述查找到的语句显示在所述显示界面的第二位置,并在显示的语句中将所述已确定的关键词突出显示。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:输入模块,语录识别模块,语句抽取模块以及存储模块;
所述输入模块,用于在所述当确定输入的信息为人名时,查找与所述人名对应的语句的步骤之前,接收输入的目标文章;
所述分词模块,用于对所述目标文章进行分词处理,得到所述目标文章分词后的词汇;
所述人名识别模块,用于确定所述目标文章分词后的词汇中是否存在人名;
所述语录识别模块,用于当所述目标文章分词后的词汇中存在至少一个人名时,利用指定关键词或者指定标点符号判断所述目标文章中是否存在语录;
所述语句抽取模块,用于当确定所述目标文章中存在与第一人名对应的语录时,从所述目标文章获取包含所述第一人名对应的语录的语句,作为所述第一人名对应的语句;其中,所述第一人名为所述至少一个人名中的任一个人名;
所述存储模块,用于将所述第一人名以及所述任一人名对应的语句进行存储。
7.根据权利要求5所述的装置,其特征在于,所述社会影响指数包括被引用次数或评论数量,所述权重确定子模块用于:
当第一关键词所属语句的数据来源为指定网站或指定媒体时,对所述第一关键词的权重值进行加值处理;
当所述第一关键词所属语句的内容来源为指定场景时,对所述第一关键词的权重值进行加值处理;以及,
当所述第一关键词所属语句的被引用次数高于预设的引用次数阈值,或者当所述第一关键词所属语句的评论数量高于预设的评论数量时,对所述第一关键词的权重值进行加值处理;
其中,所述第一关键词为所述已确定的关键词中的任意一个关键词。
8.根据权利要求6所述的装置,其特征在于,所述人名识别模块用于:
获取所述目标文章分词后的词汇中的每个词汇的词性;
根据所述每个词汇的词性确定所述目标文章分词后的词汇中的名词;
利用自然语言处理技术识别所述名词中是否存在人名。
CN201610355808.0A 2016-05-25 2016-05-25 关键词的显示方法和装置 Active CN106021532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610355808.0A CN106021532B (zh) 2016-05-25 2016-05-25 关键词的显示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610355808.0A CN106021532B (zh) 2016-05-25 2016-05-25 关键词的显示方法和装置

Publications (2)

Publication Number Publication Date
CN106021532A CN106021532A (zh) 2016-10-12
CN106021532B true CN106021532B (zh) 2019-12-06

Family

ID=57093977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610355808.0A Active CN106021532B (zh) 2016-05-25 2016-05-25 关键词的显示方法和装置

Country Status (1)

Country Link
CN (1) CN106021532B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180027B (zh) * 2017-05-17 2020-05-05 海信集团有限公司 语音控制业务分类方法及装置
CN111241319B (zh) * 2020-01-22 2023-10-03 北京搜狐新媒体信息技术有限公司 一种图文转换的方法及系统
CN111339769A (zh) * 2020-02-14 2020-06-26 深圳市梦网科技发展有限公司 一种信息显示方法、装置及终端设备
CN111835925A (zh) * 2020-06-16 2020-10-27 杭州云嘉云计算有限公司 一种面向呼叫中心的离线语音质检及分析系统
CN113033163B (zh) * 2021-03-24 2024-08-06 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070168333A1 (en) * 2006-01-05 2007-07-19 Hung-Chih Yu Data processing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置

Also Published As

Publication number Publication date
CN106021532A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
WO2021051521A1 (zh) 获取应答信息的方法、装置、计算机设备及存储介质
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US9740677B2 (en) Methods and systems for analyzing communication situation based on dialogue act information
CN106021532B (zh) 关键词的显示方法和装置
CN105955976B (zh) 一种自动应答系统及方法
US8126897B2 (en) Unified inverted index for video passage retrieval
US20160162466A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN108538286A (zh) 一种语音识别的方法以及计算机
CN106649778B (zh) 基于深度问答的交互方法和装置
CN105912629A (zh) 一种智能问答方法及装置
US20210151038A1 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN109815396B (zh) 搜索词权重确定方法及装置
US20160140182A1 (en) Systems and methods for parsing search queries
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
EP2950223A1 (en) Method and apparatus for providing search engine tags
CN107967250A (zh) 一种信息处理方法及装置
US9904736B2 (en) Determining key ebook terms for presentation of additional information related thereto
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN110532569B (zh) 一种基于中文分词的数据碰撞方法及系统
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant