一种提取文本关键词的方法和装置
技术领域
本发明涉及一种电子数据处理加工方法,具体地说是一种提取文本关键词的方法和装置。
背景技术
随着电子信息化技术的不断发展,电子资源日益普及。电子资源的数据量也变得越来越大,为了从海量数据中寻找到需要的信息,对数据的分类和查找显得尤为重要。为了更好的数据进行分类,便于数据的查找和统计,一般会对文本提取标签或者索引词,将这些可以标识文本内容的词语称为关键词,这些关键词可以用于文本分类、统计以及查找。
由于对数字电子资源进行分类和查找相关资源,离不开关键词,关键词的准确与否决定了对资源分类是否正确和相关资源是否有用。只是对文本内容进行机器分析得出的关键词过于大众化,并不能反映资源在特定用户群的作用,根据这样的关键词获得的相关资源,其可利用率也不是很高。
目前,为了方便用户记录阅读电子资源时的想法,电子资源一般允许用户添加笔记、评语、用户身份以及用户所属领域等内容。用户给博客、新闻文章等内容发布评语已经是常见的功能,阅读电子书做笔记在Apabi Reader等电子书阅读器中也早已实现。这说明现有技术中已经能够获取用户笔记以及评语等用户的反馈信息。
综合以上分析可以看出,根据文本内容提取关键词的机器学习已经广泛使用,但是这样得到的关键词过于宽泛,代表性较差,而现有技术中已经可以方便的获取用户的评语、评论、笔记等反馈信息,如何将用户的反馈信息应用于提取关键词的过程中,亟待实现。
发明内容
为此,本发明所要解决的技术问题在于现有技术中提取文本关键词的方法通过机器简单获得,关键词的代表性不强,从而提出一种结合用户反馈、更好的体现文本内容的提取关键词的方法和装置。
本发明提供一种提取文本关键词的方法,包括如下步骤:
根据文本内容确定第一关键词;
提取该文本内容的用户反馈信息;
根据所述反馈信息确定第二关键词;
根据所述第一关键词和所述第二关键词确定该文本的关键词。
优选地,根据所述反馈信息确定第二关键词的步骤,包括:
提取所述反馈信息的文字,得到反馈文本;
根据所述反馈文本的内容提取第二关键词。
优选地,根据所述反馈文本的内容提取第二关键词的过程,包括:
获取反馈文本对应的用户属性信息;
根据所述用户属性信息,对所述反馈文本分类;
针对相同类型的所述反馈文本提取关键词。
优选地,所述用户属性信息包括用户领域、用户身份、用户来源,所述根据所述用户属性信息对所述反馈文本分类的过程中,判断所述用户领域、用户身份、用户来源中的一个或多个是否相同,将相同用户的反馈文本划分为同一类。
优选地,根据所述反馈信息确定第二关键词的步骤,还包括:
获取请求用户的用户属性信息;
获取与请求用户具有相同属性的用户反馈的信息,作为反馈文本;
根据该反馈文本确定第二关键词。
优选地,根据所述第一关键词和所述第二关键词确定该文本的关键词的过程,包括:
将第一关键词和第二关键词取并集作为文本的关键词;和/或
将第一关键词和第二关键词取交集作为文本的关键词。
优选地,根据所述第一关键词和所述第二关键词确定该文本的关键词的过程,包括:
将所述第一关键词与第二关键词合并,并将其中相同的关键词的权重求和;
然后将所有关键词按照权重降序排列;
选择排序在前的所需数量的关键词作为该文本的关键词。
优选地,根据所述第一关键词和所述第二关键词确定该文本的关键词的过程,还包括:
将所述第一关键词和第二关键词与领域词库中的领域关键词进行比较,将与领域关键词相同的词语作为文本的关键词。
优选地,用户的所述反馈信息包括评论、笔记。
本发明还提供一种提取文本关键词的装置,包括:
第一关键词提取单元:根据文本内容确定第一关键词;
反馈信息提取单元:提取该文本内容的用户反馈信息;
第二关键词提取单元:根据所述反馈信息确定第二关键词;
综合单元:根据所述第一关键词和所述第二关键词确定该文本的关键词。
优选地,第二关键词提取单元包括:
反馈子单元:提取所述反馈信息的文字,得到反馈文本;
提取子单元:根据所述反馈文本的内容提取第二关键词。
优选地,所述提取子单元包括:
第一获取模块:获取反馈文本对应的用户属性信息;
分类模块:根据所述用户属性信息,对所述反馈文本分类;
提取模块:针对相同类型的所述反馈文本提取关键词。
优选地,第二关键词提取单元还包括:
第二获取模块:获取请求用户的用户属性信息;
反馈模块:获取与请求用户具有相同属性的用户反馈的信息,作为反馈文本;
确定模块:根据该反馈文本确定第二关键词。
优选地,所述综合单元包括:
取并集子单元:将第一关键词和第二关键词取并集作为文本的关键词;和/或
取交集子单元:将第一关键词和第二关键词取交集作为文本的关键词。
优选地,所述综合单元包括:
权重子单元:将所述第一关键词与第二关键词合并,并将其中相同的关键词的权重求和;
排序子单元:然后将所有关键词按照权重降序排列;
选择子单元:选择排序在前的所需数量的关键词作为该文本的关键词。
优选地,综合单元还包括:
比较子单元:将所述第一关键词和第二关键词与领域词库中的领域关键词进行比较,将与领域关键词相同的词语作为文本的关键词。
为解决上述技术问题,本发明提供一种提取文本关键词的方法和装置。
本发明的上述技术方案相比现有技术具有以下优点,
1、本发明所述的提取文本关键词的方法,结合文本内容和用户的反馈信息分别提取关键词,然后将得到的关键词合并作为文本的关键词,这样,可以更好的融合用户的反馈信息,由于用户的反馈更具有针对性,因此可以提取到和该文本更相关的关键词,解决了现有技术中仅针对文本内容提取关键词,得到的关键词准确性差、相关度不高或者覆盖面不全的问题,本方案提供了一种结合用户的反馈信息,可以得到更加全面、准确的提取文本关键词的方法。
2、本发明所述的提取文本关键词的方法,根据用户的反馈信息提取关键词时,还可以根据用户信息对关键词分类,将用户信息相同的关键词作为一类,分类统计用户反馈信息的关键词,这样可以根据当前的需求来加入用户的反馈信息,进而过滤掉相关程度较差的用户信息,提高了提取关键词的准确性。
3、本发明所述的提取文本关键词的方法,根据第一关键词和第二关键词确定文本的关键词时,可以采用取两者的并集或者交集的方式,并集可以使得关键词更加全面,取交集使得关键词的准确度更高,用户可以根据需求来选择。
4、本发明所述的提取文本关键词的方法,还可以将第一关键词和第二关键词中相同关键词的权重增加,再将所有的关键词降序排解,获取所需数量的关键词,该方案可以将根据文本内容和根据用户信息确定的关键词客观、合理的融合,得到所需的关键词。
5、本发明还提供一种提取文本关键词的装置,包括第一关键词提取单元、反馈信息提取单元、第二关键词提取单元以及综合单元,提供了用户高度参与的文本章节热点的关键词提取装置,将用户的参与考虑到关键词的确定中去,利用用户评语帮助关键词提取,充分利用了数字资源的用户体,为用户提供更有价值、更有效的关键词。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明实施例1的流程图;
图2是本发明实施例4的示意图;
图3、图4是本发明实施例5的流程图;
图5是本发明实施例的提取文本关键词的结构框图。
具体实施方式
下面给出本发明所述的提取文本关键词的方法和装置的具体的实施方式。
实施例1:
本实施例提供一种提取文本关键词的方法,用于在文本中获取该文本的关键词,包括如下过程:
S101、根据文本内容确定第一关键词。
根据文本内容提取关键词的方法采用现有技术中的方法,主要包括以下过程:对所述文本进行分词,得到分词结果,统计分词后各个词语出现的次数,将出现次数高的词语作为关键词;或者计算分词后的所有词语的语义向量,并根据语义向量计算重要度,将重要度高的一些词语作为关键词。此外,也可以采用现有技术中的其他方式来提取文本的关键词,主要能通过文本的内容获得关键词的现有方式,此处都可以应用。
S102、提取该文本内容的用户反馈信息。
由于对应着这部分文本内容,用户进行了一些评论或做了一些笔记,这些评论中包含了用户对该文本内容的分析、理解等信息,在这些评论信息中包含着该文本相关的一些信息。提取该文本内容对应的用户反馈信息时,获取用户的评论、笔记、以及手写输入的评语等信息。
S103、根据所述反馈信息确定第二关键词。
在获得用户的反馈信息后,需要将这些信息数字化为电子文本,有些用户评论是直接输入的,此时,可以直接获取这些文字信息;对于一些用户手写的评论或笔记,则要通过OCR文字识别的方式,提取用户标记中的文字信息,将提取用户反馈信息形成的文字内容作为反馈文本。
然后根据反馈文本进行关键词提取,得到第二关键词。此时的提取方式与上一步骤中的是一样的,都是针对文字内容进行的提取。此处可以采用与上一步相同的方式进行提取,也可以采用与上一步不同的现有的提取方式进行关键词提取,通过这种方式就得到了包含用户反馈信息的关键词。
S104、根据所述第一关键词和所述第二关键词确定该文本的关键词。
通过上述S101、S103分别得到了第一关键词、第二关键词,然后将这两类关键词融合,如取交集或并集的方式,即可以得到该文本的关键词。并集可以使得关键词更加全面,取交集使得关键词的准确度更高,用户可以根据需求来选择。
在其他可以替换的实施方式中,还可以将第一关键词和第二关键词合并,由于在提取关键词的过程中,会根据每个词可以作为关键词的程度的大小,形成一个权重值,因此可以将其中相同关键词的权重增加,再将所有的关键词降序排解,获取所需数量的关键词,该方案可以将根据文本内容和根据用户信息确定的关键词客观、合理的融合,得到所需的关键词。
本发明所述的提取文本关键词的方法,结合文本内容和用户的反馈信息分别提取关键词,然后将得到的关键词合并作为文本的关键词,这样,可以更好的融合用户的反馈信息,由于用户的反馈更具有针对性,因此可以提取到和该文本更相关的关键词,解决了现有技术中仅针对文本内容提取关键词,得到的关键词准确性差、相关度不高或者覆盖面不全的问题,本方案提供了一种结合用户的反馈信息,可以得到更加全面、准确的提取文本关键词的方法。
实施例2:
本实施例提供另外一种提取文本关键词的方法,该实施例中的方法,考虑了提供反馈信息的用户属性,针对具有相同用户属性信息的反馈文本来提取第二关键词,使得第二关键词的提取具有更好的指导性。该方法的步骤如下:
S101、根据文本内容确定第一关键词。此步骤与实施例1相同,在此不再赘述。
S102、提取该文本内容的用户反馈信息。此步骤提取反馈信息的方式与实施例1相同,不再赘述。
S103、根据所述反馈信息确定第二关键词。包括如下过程:
首先,获取反馈文本对应的用户属性信息。
每条反馈信息都会对应着一个用户,这个用户的属性信息包括用户在注册时登记的用户身份如教师、律师、学生;用户领域如电子、通讯、英语、化学等;用户来源如腾讯QQ、新华网、新浪网等用户来源信息。
然后,根据所述用户属性信息,对所述反馈文本分类。
此处是根据用户属性信息是否存在相同来进行判断,如判断所述用户身
份是否相同,将身份相同的用户的反馈文本划分为同一类。
最后,针对相同类型的所述反馈文本提取关键词。
在本实施例中,也就是针对用户身份相同的反馈文本提取关键词,这样,就得到了用户身份相同的反馈文本对应的关键词。通过这种用户分类的方式获取某一类用户的关键词,使得该关键词更具有代表性,从而提高了用户反馈信息的准确性。
S104、根据所述第一关键词和所述第二关键词确定该文本的关键词。
该步骤中,第二关键词可以选择用户反馈信息中的所有反馈文本确定的关键词,也可以选择根据用户属性信息分类后的文本确定的关键词作为第二关键词。如上步骤中根据用户的身份,针对相同用户身份的反馈文本提取了关键词,此时,可以根据需要选择其中的一类或多类用户身份的反馈文本来提取关键词,作为第二关键词。如对于一篇科技类文献,可以只选择用户身份为学者、教师、学生的用户的反馈信息,来提取第二关键词。而对于娱乐类文献,则可以提取所有用户的反馈信息作为第二关键词。对于一篇医药类专利文献,则可以只针对用户身份为医生的用户的反馈信息进行提取。此处,本领域的技术人员,在本发明构思的指导下,可以针对当前的使用环境,合理设置。
在其他可以替换的实施方案中,根据用户属性信息对反馈文本分类的过程中,可以判断所述用户领域、用户身份、用户来源中的一个或多个是否相同,将其中一个或多个相同用户的反馈文本划分为同一类。
实施例3:
本实施例中提供另外一种提取文本关键词的方法,同时考虑当前请求提取关键词的用户和提供反馈信息的用户。具体的方式如下:
S101、根据文本内容确定第一关键词。此步骤与实施例1相同,在此不再赘述。
S102、提取该文本内容的用户反馈信息。此步骤提取反馈信息的方式与实施例1相同,不再赘述。
S103、根据所述反馈信息确定第二关键词。包括如下过程:
首先,获取请求用户的用户属性信息。此处的请求用户是指发起提取关键词指令的用户。关键词即可以预先存储好,也可以在收到用户的提取请求后再进行计算。
然后,获取与请求用户具有相同属性的用户反馈的信息,作为反馈文本。在选择用户的反馈信息时,可以只选择与请求用户具有相同属性的用户反馈的信息,如用户身份相同、或用户领域相同或来源相同等等,将这些反馈的信息,作为反馈文本。
最后,根据该反馈文本确定第二关键词。此步骤与其他实施例中相同,也是根据反馈文本中的文字内容采用现有的方法提取第二关键词。
S104、根据所述第一关键词和所述第二关键词确定该文本的关键词。
此处,可以选择将第一关键词和第二关键词取并集或交集的形式。由于第二关键词采用的是与请求用户具有相同用户属性的用户反馈信息,因此,与请求用户具有更多的一致性,故此处融合第一关键词和第二关键词后,使得到的关键词具有更好的针对性,对请求用户有更好的指导意义。
实施例4:
在上述实施例1-3的基础上,为了进一步保证得到的关键词更加符合本领域的习惯,还可以将第一关键词和第二关键词与领域词库中的领域关键词进行比较,将与领域关键词相同的词语作为文本的关键词。如对于医药领域,将医药百科全书中的词条作为医药领域的医药关键词,针对文本获得的关键词,要属于该医药关键词,则进一步需要将获得的第一关键词和第二关键词与所有领域关键词匹配,只保留属于该领域关键词内关键词,可以更好的表现该文本的医药特性。当然,也可以将根据第一关键词和第二关键词确认后的文本关键词,与医药关键词匹配,将命中的关键词作为该文本在医药领域的关键词。
文本的关键词,有些文献中也称作标签,本实施例在下述描述中,以标签指示该关键词。本发明的目的是参考用户评语提取文本章节的标签,为实现该目的,本实施例中提供文本标签(关键词)和用户标签的提取方法,以及最终标签的计算方法,其中文本标签和用户标签的提取方法包括以下步骤:
步骤1:读取文本章节内容。
步骤2:对文本内容进行语义分析提取关键词,和标签库匹配,得到标签列表ListA。
步骤3:读取一条和章节内容相关的评语,如果有评语,执行步骤4,如果没有评语,跳转到步骤6。
步骤4:解析评语中的用户信息,包括用户身份、用户领域等,记为UInfo(n)(n标识评语的序号)。
步骤5:对评语内容进行语义分析提取关键词,和标签库匹配,得到标签列表ListB(n)(n标识评语的序号),跳转到步骤3。
步骤6:存储UInfo(1-n),ListA和ListB(1-n),标签提取结束。
最终标签的计算方法包括以下步骤:
步骤1:解析请求中的参数信息和用户信息,包括章节标识ChapterID,用户身份UserRole,用户领域Domain。
步骤2:读取章节文本对应的原始标签ListA。
步骤3:读取和用户身份UserRole、用户领域Domain相关的用户信息UInfo(1-k)和评语标签ListB(1-k)。
步骤4:把章节文本的标签ListA和评语标签ListB(1-k)进行相互匹配、整理、排序。
在本步骤4中,可以选择一类或几类具有相同用户信息UInfo(1-k)的评语标签ListB(1-k),得到ListB’,将ListB’与ListA合并,去掉重复的标签,并增加重复标签的权重,将所有标签根据权重排序后,得到最终标签。
实施例5:
本实施例中提供一种应用实例,用于提取教材中的关键词,方法如下:
首先,对文本部分提取关键词:
1、获取电子书某一章的文本内容,如教材《大学英语一》的第二章,标识为Chapter2。
2、对标识为Chapter2的文本进行解析,提取关键词并和标签库匹配,得到关键词A、B、C……。
3、循环读取并解析Chapter2的评语,得到添加评语的用户信息列表和对应的关键词标签列表。
4、将关键词A、B、C……,用户信息列表和对应的关键词标签列表一起存储,以作标签计算时使用。
用户请求标签计算部分:
1、用户User1请求获取电子书某一章节的标签,如教材《大学英语一》的第二章,标识为Chapter2。
2、解析用户User1的信息,得到UserRole1和Domain1。
3、读取Chapter2的原始章节关键词标签A、B、C……。
4、读取和UserRole1、Domain1相关的用户评语关键词标签列表D、E、B、F……。
5、原始章节关键词标签A、B、C……和用户评语关键词标签列表D、E、B、F……求并集,并增加重复标签的权重,排序后返回给用户。
本实施例中,将用户评语和机器学习结合使用,使得标签对用户更为有效,更能反映用户关注的领域知识点,从而关联用户更关心的资源,可以提高用户粘性。
实施例6:
本实施例中提供一种提取文本关键词的装置,如图5所示,包括:
第一关键词提取单元:根据文本内容确定第一关键词;
反馈信息提取单元:提取该文本内容的用户反馈信息;
第二关键词提取单元:根据所述反馈信息确定第二关键词;
综合单元:根据所述第一关键词和所述第二关键词确定该文本的关键词。
本实施例中,第二关键词提取单元包括:
反馈子单元:提取所述反馈信息的文字,得到反馈文本;
提取子单元:根据所述反馈文本的内容提取第二关键词。
本实施例中,所述提取子单元包括:
第一获取模块:获取反馈文本对应的用户属性信息;
分类模块:根据所述用户属性信息,对所述反馈文本分类;
提取模块:针对相同类型的所述反馈文本提取关键词。
优选地,第二关键词提取单元还包括:
第二获取模块:获取请求用户的用户属性信息;
反馈模块:获取与请求用户具有相同属性的用户反馈的信息,作为反馈文本;
确定模块:根据该反馈文本确定第二关键词。
本实施例中,所述综合单元包括:
取并集子单元:将第一关键词和第二关键词取并集作为文本的关键词;和/或
取交集子单元:将第一关键词和第二关键词取交集作为文本的关键词。
优选地,所述综合单元包括:
权重子单元:将所述第一关键词与第二关键词合并,并将其中相同的关键词的权重求和;
排序子单元:然后将所有关键词按照权重降序排列;
选择子单元:选择排序在前的所需数量的关键词作为该文本的关键词。
在其他优选的实施方式中,综合单元还包括:
比较子单元:将所述第一关键词和第二关键词与领域词库中的领域关键词进行比较,将与领域关键词相同的词语作为文本的关键词。
本实施例中,用户的反馈信息包括评论、笔记。用户属性信息包括用户领域、用户身份、用户来源,所述根据所述用户属性信息对所述反馈文本分类的过程中,判断所述用户领域、用户身份、用户来源中的一个或多个是否相同,将相同用户的反馈文本划分为同一类。
本实施例中提供了用户高度参与的文本章节热点的关键词提取装置,将用户的参与考虑到关键词的确定中去,利用用户评语帮助关键词提取,充分利用了数字资源的用户体,为用户提供更有价值、更有效的关键词。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。