CN108021558A - 关键词的识别方法、装置、电子设备和存储介质 - Google Patents

关键词的识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108021558A
CN108021558A CN201711450552.2A CN201711450552A CN108021558A CN 108021558 A CN108021558 A CN 108021558A CN 201711450552 A CN201711450552 A CN 201711450552A CN 108021558 A CN108021558 A CN 108021558A
Authority
CN
China
Prior art keywords
word
document
identified
keyword
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711450552.2A
Other languages
English (en)
Inventor
李跃先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201711450552.2A priority Critical patent/CN108021558A/zh
Publication of CN108021558A publication Critical patent/CN108021558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了一种关键词的识别方法、装置、电子设备和存储介质。其中方法包括:获取待识别文档,并将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语;针对每个词语,获取每个词语的互信息;从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语;获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词;将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。该方法不需要依赖于现有分词技术,能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,提高了关键词的识别准确率。

Description

关键词的识别方法、装置、电子设备和存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种关键词的识别方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,关键词识别已经在人工智能领域越来越重要。例如,新闻个性化推荐,新闻推荐系统需要先识别出文本中哪些词语可以作为关键词,进而该关键词才能形成新闻推荐的依据。
相关技术中,关键词的识别方法通常是利用现有分词工具对文本进行分词,然后计算每个词语的tf-idf值,选取待识别文档中tf-idf值较高的几个词语作为关键词。但是,这种方式在分词环节过于依赖分词工具的词库完整性,如果词库中根本没有新词,则就不能信任分词结果,继而导致关键词识别错误。因此,如何能够在做关键词识别时发现新词,进而提高关键词识别准确率,已经成为亟待解决的问题。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种关键词的识别方法。该方法能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,大大提高了关键词的识别准确率。
本发明的第二个目的在于提出一种关键词的识别装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出的关键词的识别方法,包括:获取待识别文档,并将所述待识别文档中每两个相邻的单字作为一个词语,得到所述待识别文档中的多个词语;针对每个所述词语,获取所述每个词语的互信息;从所述多个词语中选取所述互信息大于或等于第一阈值的词语,并将所述互信息大于或等于第一阈值的词语作为目标词语;获取所述目标词语的临界信息熵值,并根据所述临界信息熵值从所述目标词语中选取备选词;将所述待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词。
根据本发明实施例的关键词的识别方法,可将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语,并针对每个词语,获取每个词语的互信息;从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语,并获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词,最后,将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。即在整个关键词的识别过程中,不需要依赖于现有分词技术,能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,大大提高了关键词的识别准确率。
根据本发明的一个实施例,所述获取每个词语的互信息,包括:获取所述每个词语中每个单字出现的频率;获取所述每个词语出现的频率;根据所述每个词语中每个单字出现的频率和所述每个词语出现的频率,计算所述每个词语的互信息。
根据本发明的一个实施例,所述获取目标词语的临界信息熵值,包括:获取所述目标词语的左临字和右临字;针对所述目标词语的左临字,计算所述左临字出现在所述目标词语左边时的频率;针对所述目标词语的右临字,计算所述右临字出现在所述目标词语右边时的频率;根据所述左临字的频率计算所述左临字的信息熵值,并根据所述右临字的频率计算所述右临字的信息熵值;将所述左临字的信息熵值和右临字的信息熵值中较小的值,作为所述目标词语的临界信息熵值。
根据本发明的一个实施例,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,所述方法还包括:判断所述备选词中是否存在不完整的词语,其中,所述不完整的词语用于指示由至少三个单字所组成的词语被拆分成多个的词语;若是,则将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语,并执行所述针对每个所述词语,获取所述每个词语的互信息的步骤。
根据本发明的一个实施例,在将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语时,所述获取每个词语的互信息,包括:计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度;计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度;将所述第一凝固程度和第二凝固程度中的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。
根据本发明的一个实施例,所述将待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词,包括:将所述待识别文档与所述备选词进行匹配,计算每个匹配到的词语的tf-idf值;从所述待识别文档中选取所述tf-idf值大于或等于第二阈值的词语,并将所述tf-idf值大于或等于第二阈值的词语作为所述待识别文档的关键词。
为达到上述目的,本发明第二方面实施例提出的关键词的识别装置,包括:第一获取模块,用于获取待识别文档;词语划分模块,用于将所述待识别文档中每两个相邻的单字作为一个词语,得到所述待识别文档中的多个词语;第二获取模块,用于针对每个所述词语,获取所述每个词语的互信息;第一选取模块,用于从所述多个词语中选取所述互信息大于或等于第一阈值的词语,并将所述互信息大于或等于第一阈值的词语作为目标词语;第三获取模块,用于获取所述目标词语的临界信息熵值;第二选取模块,用于根据所述临界信息熵值从所述目标词语中选取备选词;关键词识别模块,用于将所述待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词。
根据本发明实施例的关键词的识别装置,可将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语,并针对每个词语,获取每个词语的互信息;从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语,并获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词,最后,将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。即在整个关键词的识别过程中,不需要依赖于现有分词技术,能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,大大提高了关键词的识别准确率。
根据本发明的一个实施例,所述第二获取模块包括:第一获取单元,用于获取所述每个词语中每个单字出现的频率;第二获取单元,用于获取所述每个词语出现的频率;计算单元,用于根据所述每个词语中每个单字出现的频率和所述每个词语出现的频率,计算所述每个词语的互信息。
根据本发明的一个实施例,所述第三获取模块具体用于:获取所述目标词语的左临字和右临字;针对所述目标词语的左临字,计算所述左临字出现在所述目标词语左边时的频率;针对所述目标词语的右临字,计算所述右临字出现在所述目标词语右边时的频率;根据所述左临字的频率计算所述左临字的信息熵值,并根据所述右临字的频率计算所述右临字的信息熵值;将所述左临字的信息熵值和右临字的信息熵值中较小的值,作为所述目标词语的临界信息熵值。
根据本发明的一个实施例,所述装置还包括:判断模块,用于在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,判断所述备选词中是否存在不完整的词语,其中,所述不完整的词语用于指示由至少三个单字所组成的词语被拆分成多个的词语;其中,所述词语划分模块,还用于在所述备选词中存在不完整的词语时,将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语。
根据本发明的一个实施例,所述第二获取模块还用于:在将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语时,计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度;计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度;将所述第一凝固程度和第二凝固程度中的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。
根据本发明的一个实施例,所述关键词识别模块具体用于:将所述待识别文档与所述备选词进行匹配,计算每个匹配到的词语的tf-idf值;从所述待识别文档中选取所述tf-idf值大于或等于第二阈值的词语,并将所述tf-idf值大于或等于第二阈值的词语作为所述待识别文档的关键词。
为达到上述目的,本发明第三方面实施例提出的电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现本发明第一方面实施例所述的关键词的识别方法。
为达到上述目的,本发明第四方面实施例提出的非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明第一方面实施例所述的关键词的识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的关键词的识别方法的流程图;
图2是根据本发明实施例的获取目标词语的临界信息熵值的流程图;
图3是根据本发明一个实施例的关键词的识别装置的结构示意图;
图4是根据本发明一个具体实施例的关键词的识别装置的结构示意图;
图5是根据本发明另一个具体实施例的关键词的识别装置的结构示意图;
图6是根据本发明一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的关键词的识别方法、装置、电子设备和计算机可读存储介质。
图1是根据本发明一个实施例的关键词的识别方法的流程图。需要说明的是,本发明实施例的关键词的识别方法可应用于本发明实施例的关键词的识别装置,其中,该识别装置可被配置于电子设备上。例如,该电子设备可以是移动终端或服务器。
如图1所示,该关键词的识别方法可以包括:
S110,获取待识别文档,并将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语。
可以理解,在本发明的实施例中,所述待识别文档的个数可以是一个或多个,其中,所述待识别文档用于指示需要识别出关键词的文档。也就是说,可获取所有待识别文档,并将各个待识别文档中以每两个相邻的单字作为一个词语进行词语划分,得到该待识别文档中的所有词语。
S120,针对每个词语,获取每个词语的互信息。
可选地,针对每个词语,可获取每个词语中每个单字出现的频率,并获取每个词语出现的频率,之后,可根据所述每个词语中每个单字出现的频率和所述每个词语出现的频率,计算所述每个词语的互信息。
例如,可先统计出待识别文档中单字的总个数W,之后,可统计每个单字在该待识别文档中出现的次数w(i),并根据该次数和所述总个数计算出每个单字出现的频率p(i),即p(i)=w(i)/W,其中,i为单字i。在得到待识别文档中的所有词语之后,还可统计每个所述词语在所述待识别文档中出现的次数w(jk),并根据每个词语出现的次数和所述总个数计算出所述每个词语出现的频率p(jk),即p(jk)=w(jk)/W,其中,jk表示相邻的单字j和单字k组成的词语。
在得到所述每个词语中每个单字出现的频率和每个词语出现的频率之后,可通过互信息的计算公式来计算每个词语的内部凝固程度(其中,该凝固程度也可称为互信息)。其中,该互信息的计算公式可为:互信息=p(jk)/p(j)p(k),其中,p(jk)为每个词语出现的频率,p(j)为单字j出现的频率,p(k)为单字k出现的频率。
S130,从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语。
其中,在本发明的实施例中,上述第一阈值可以是预先根据当前待识别文档中文本实际情况而设定的,例如,待识别文档中的可组成的标准词语的个数较多时,则可将该第一阈值设定的稍微大些,若待识别文档中的可组成的标准词语的个数较少,则可将该第一阈值设定的稍微小些。
可选地,在得到每个词语的互信息之后,可从所述多个词语中选取所述互信息高于该第一阈值的词语作为所述目标词语。
S140,获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词。
可选地,可先统计每个目标词语的左临字和右临字,并分别计算所述左临字的信息熵值和右临字的信息熵值,进而根据所述左临字和右临字的信息熵值计算所述目标词语的临界信息熵值。作为一种示例,如图2所示,所述获取目标词语的临界信息熵值的具体实现方式可包括如下步骤:
S210,获取目标词语的左临字和右临字;
其中,所述目标词语的左临字可理解为紧邻所述目标词语的左边单字;所述目标词语的右临字可理解为紧邻所述目标词语的右边单字。例如,假设一段文本为“北京的金山上”,以所述目标词语为“金山”为例,则所述目标词语“金山”的左临字可为“的”,右临字可为“上”。
可以理解,在本发明的一个实施例中,若目标词语的左临字或右临字不存在,则可记该目标词语的左临字或右临字为空。例如,假设一段文本为“北京的金山上”,其中,词语“北京”则不存在对应的左临字,此时可记录该左临字为空。
S220,针对目标词语的左临字,计算左临字出现在目标词语左边时的频率;
可选地,针对每个左临字,从待识别文档中,统计出每个左临字出现在所述目标词语左边时的次数,并根据该次数以及左临字的总个数计算出每个左临字出现在目标词语左边时的频率。
S230,针对目标词语的右临字,计算右临字出现在目标词语右边时的频率;
可选地,针对每个右临字,从待识别文档中,统计出每个右临字出现在所述目标词语右边时的次数,并根据该次数以及右临字的总个数计算出每个右临字出现在目标词语右边时的频率。
S240,根据左临字的频率计算左临字的信息熵值,并根据右临字的频率计算右临字的信息熵值;
可选地,根据预设的信息熵计算公式和得到的每个左临字的频率,计算出所述左临字的信息熵值,并可根据所述信息熵计算公式和得到的每个右临字的频率,计算出所述右临字的信息熵值。作为一种示例,所述信息熵计算公式可如下:
其中,当上述公式用于左临字的信息熵值的计算过程中时,n表示左临字的总个数,p(xi)表示左临字中第i个左临字出现在目标词语左边时的频率,log表示对数函数;当上述公式用于右临字的信息熵值的计算过程中时,n表示右临字的总个数,p(xi)表示右临字中第i个左临字出现在目标词语右边时的频率,log表示对数函数。
S250,将左临字的信息熵值和右临字的信息熵值中较小的值,作为目标词语的临界信息熵值。
由此,通过上述步骤S210~S250即可得到所述目标词语的临界信息熵值。
在得到所述目标词语的临界信息熵值之后,可将该目标词语的临界信息熵值与第三阈值进行大小比对,以从该目标词语中,获取所述临界信息熵值大于或等于该第三阈值的词语,并将该临界信息熵值大于或等于该第三阈值的词语作为所述备选词。其中,可以理解,该备选词即为用于关键词的词语。
S150,将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。
可选地,可将该待识别文档与备选词进行匹配,计算每个匹配到的词语的tf-idf值,并从待识别文档中选取所述tf-idf值大于或等于第二阈值的词语,并将tf-idf值大于或等于第二阈值的词语作为该待识别文档的关键词。
例如,可将需要进行关键词识别的文档与所述备选词进行匹配,计算出每个匹配到的词语的tf-idf值,然后,可从该文档中选取一定数量的、且所述tf-idf值高于第二阈值的词语作为所述关键词。
需要说明的是,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,该备选词中可能存在由三个或以上单字组成的词语被拆分成多个的情况,所以,还需对该待识别文档中的三个字及以上进行训练,以实现对该备选词的优化。可选地,在本发明的一个实施例中,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,该关键词的识别方法还可包括:判断备选词中是否存在不完整的词语,其中,不完整的词语用于指示由至少三个单字所组成的词语被拆分成多个的词语;若是,则将待识别文档中每至少三个相邻的单字作为一个词语,得到待识别文档中的多个词语,并执行所述针对每个所述词语,获取所述每个词语的互信息的步骤。
也就是说,在判断所述备选词中存在不完整的词语时,可认为该备选词中含有由至少三个单字所组成的词语被拆分成多个的情况,例如,备选词“天安”、“安门”,可以看出,该备选词中“天安”、“安门”极大概率是由三个单字组成的词语“天安门”被拆分成了两个,所以,此时,可将该待识别文档中每三个相邻的单字作为一个词语,得到该待识别文档中的多个词语,并执行所述步骤S120,即执行所述针对每个所述词语,获取所述每个词语的互信息的步骤。
在本发明的实施例中,在将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语时,所述获取每个词语的互信息的具体实现过程可如下:计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度,并计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度,最后,将所述第一凝固程度和第二凝固程度中的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。
也就是说,在进行至少三个相邻的单字组成的词语的训练过程中,可计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度,并计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度,最后,将这两个凝固程度的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。其他步骤均与两个相邻的单字组成的词语的训练过程相同。这样,尽可能地保证得到的备选词的完整性,能够明显地将所有词语都识别出来,包括新词,进而可以提高关键词识别的准确率。
举例而言,假设有三个待识别文档如下,可通过本发明实施例的关键词的识别方法找出每篇文档的关键词。
1 北京的金山上
2 美丽的祖国啊,祖国我爱你
3 我爱祖国天安门,天安门上太阳升
S01:可统计出三个待识别文档中单字的总个数W(该W为31)。
S02:可统计出“我”字出现的次数w(我),计算“我”出现的频率p(我)=w(我)/W,以此类推,统计所有单字出现的次数以及频率。
S03:将待识别文档中每两个相邻的单字作为一个词语,并统计出这些词语出现的次数以及频率。例如,统计“北京”、“京的”、“的金”、“金山”、“山上”、“祖国”等这些词语在所有文档中出现的次数以及频率,比如,以词语“太阳”为例,统计该词语出现的次数为w(太阳),并计算该词语出现的频率p(太阳)=w(太阳)/W。
S04:计算每个词语的互信息。例如,以词语“太阳”为例,计算该词语的互信息为:p(太阳)/p(太)p(阳),设定第一阈值K,只取互信息高于K的词语进入下一步骤。即过滤后可能只剩下了“太阳”,“天安”,“安门”这些类似词语,但有些又似乎没有完结的词。其中,所述没有完结的词可理解是由至少三个单字所组成的词语被拆分成多个的词语,比如:“天安”,“安门”。
S05:获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词。例如,以目标词语为“祖国”为例,“祖国”左边的临字分别有“爱”、“的”这两个字,每个字分别出现一次,那么每个字的概率都为1/2。“祖国”的右边临字有“啊”、“我”、“天”这三个字,每个字分别出现一次,那么每个字的概率都为1/3。左临字的信息熵值为-(1/2)log(2,1/2)-(1/2)log(2,1/2)≈0.301;右临字的信息熵为-(1/3)log(2,1/3)-(1/3)log(2,1/3)-(1/3)log(2,1/3)≈0.472。在本步骤中,可选取最小值0.301作为该目标词语的临界信息熵值。设定第三阈值M,假设M为0.28,可以看出,所述最小值大于M,则可将“祖国”这个词语保留下来。经过这一步骤可以得到的词语可能有“北京”、“金山”、“美丽”、“祖国”、“天安门”等。最后,将这些保留下拉的词语作为所述备选词。
S06:可将待识别文档与所述备选词进行匹配,例如,上面表中的第一篇文档可以匹配到“北京”、“金山”,可计算这两个匹配到的词语的tf-idf值。
S07:取每篇待识别文档中一定数量的、且所述tf-idf值高于第二阈值的词语作为所述待识别文档的关键词。
需要说明的是,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,若判断所述备选词中是否存在不完整的词语,则需要对待识别文档进行三个字及以上的训练。其中,所述三个字及以上的训练过程与上述所述步骤S01~S05中所体现的两个字的训练过程类似,只是在所述步骤S03、S04的时候有所不同。例如,需要训练三个字的词语时,在所述步骤S03中,将所有相邻的三个单字作为一个词语,比如“天安门”,统计出该“天安门”词语出现的频率,并分别计算p(天安门)/p(天安)p(门)、以及p(天安门)/p(天)p(安门),并将这两个值中的最小值作为所述“天安门”词语的互信息。其他步骤均相同。
根据本发明实施例的关键词的识别方法,可将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语,并针对每个词语,获取每个词语的互信息;从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语,并获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词,最后,将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。即在整个关键词的识别过程中,不需要依赖于现有分词技术,能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,大大提高了关键词的识别准确率。
与上述几种实施例提供的关键词的识别方法相对应,本发明的一种实施例还提供一种关键词的识别装置,由于本发明实施例提供的关键词的识别装置与上述几种实施例提供的关键词的识别方法相对应,因此在前述关键词的识别方法的实施方式也适用于本实施例提供的关键词的识别装置,在本实施例中不再详细描述。图3是根据本发明一个实施例的关键词的识别装置的结构示意图。如图3所示,该关键词的识别装置300可以包括:第一获取模块310、词语划分模块320、第二获取模块330、第一选取模块340、第三获取模块350、第二选取模块360和关键词识别模块370。
具体地,第一获取模块310用于获取待识别文档。
词语划分模块320用于将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语。
第二获取模块330用于针对每个词语,获取每个词语的互信息。作为一种示例,如图4所示,该第二获取模块330可以包括:第一获取单元331、第二获取单元332和计算单元333。其中,第一获取单元331用于获取每个词语中每个单字出现的频率;第二获取单元332用于获取每个词语出现的频率;计算单元333用于根据每个词语中每个单字出现的频率和每个词语出现的频率,计算每个词语的互信息。
第一选取模块340用于从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语。
第三获取模块350用于获取目标词语的临界信息熵值。作为一种示例的实现方式,第三获取模块350可获取目标词语的左临字和右临字,并针对目标词语的左临字,计算左临字出现在目标词语左边时的频率,并针对目标词语的右临字,计算右临字出现在目标词语右边时的频率,并根据左临字的频率计算左临字的信息熵值,并根据右临字的频率计算右临字的信息熵值,并将左临字的信息熵值和右临字的信息熵值中较小的值,作为目标词语的临界信息熵值。
第二选取模块360用于根据临界信息熵值从目标词语中选取备选词。
关键词识别模块370用于将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。作为一种示例的实现方式,关键词识别模块370可将所述待识别文档与所述备选词进行匹配,计算每个匹配到的词语的tf-idf值,并从所述待识别文档中选取所述tf-idf值大于或等于第二阈值的词语,并将所述tf-idf值大于或等于第二阈值的词语作为所述待识别文档的关键词。
可选地,在本发明的一个实施例中,如图5所示,该关键词的识别装置300还可包括:判断模块380,可用于在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,判断所述备选词中是否存在不完整的词语,其中,所述不完整的词语用于指示由至少三个单字所组成的词语被拆分成多个的词语。其中,在本发明的实施例中,词语划分模块320还用于在所述备选词中存在不完整的词语时,将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语。
需要说明的是,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,该备选词中可能存在由三个或以上单字组成的词语被拆分成多个的情况,所以,还需对该待识别文档中的三个字及以上进行训练,以实现对该备选词的优化。可选地,在本发明的实施例中,在将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语时,第二获取模块330还可计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度;计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度;将所述第一凝固程度和第二凝固程度中的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。
根据本发明实施例的关键词的识别装置,可将待识别文档中每两个相邻的单字作为一个词语,得到待识别文档中的多个词语,并针对每个词语,获取每个词语的互信息;从多个词语中选取互信息大于或等于第一阈值的词语,并将互信息大于或等于第一阈值的词语作为目标词语,并获取目标词语的临界信息熵值,并根据临界信息熵值从目标词语中选取备选词,最后,将待识别文档与备选词进行匹配,以识别出待识别文档中的关键词。即在整个关键词的识别过程中,不需要依赖于现有分词技术,能够明显地将待识别文档中的所有词语都识别出来,包括新词,且新词的发现同时兼顾历史上所有出现过的词语,不受时效限制,大大提高了关键词的识别准确率。
为了实现上述实施例,本发明还提出了一种电子设备。
图6是根据本发明一个实施例的电子设备的结构示意图。如图6所示,该电子设备600可以包括:存储器610、处理器620及存储在所述存储器610上并可在所述处理器620上运行的计算机程序630,所述处理器620执行所述程序630时,实现本发明上述任一个实施例所述的关键词的识别方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明上述任一个实施例所述的关键词的识别方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种关键词的识别方法,其特征在于,包括以下步骤:
获取待识别文档,并将所述待识别文档中每两个相邻的单字作为一个词语,得到所述待识别文档中的多个词语;
针对每个所述词语,获取所述每个词语的互信息;
从所述多个词语中选取所述互信息大于或等于第一阈值的词语,并将所述互信息大于或等于第一阈值的词语作为目标词语;
获取所述目标词语的临界信息熵值,并根据所述临界信息熵值从所述目标词语中选取备选词;
将所述待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词。
2.如权利要求1所述的关键词的识别方法,其特征在于,所述获取每个词语的互信息,包括:
获取所述每个词语中每个单字出现的频率;
获取所述每个词语出现的频率;
根据所述每个词语中每个单字出现的频率和所述每个词语出现的频率,计算所述每个词语的互信息。
3.如权利要求1所述的关键词的识别方法,其特征在于,所述获取目标词语的临界信息熵值,包括:
获取所述目标词语的左临字和右临字;
针对所述目标词语的左临字,计算所述左临字出现在所述目标词语左边时的频率;
针对所述目标词语的右临字,计算所述右临字出现在所述目标词语右边时的频率;
根据所述左临字的频率计算所述左临字的信息熵值,并根据所述右临字的频率计算所述右临字的信息熵值;
将所述左临字的信息熵值和右临字的信息熵值中较小的值,作为所述目标词语的临界信息熵值。
4.如权利要求1所述的关键词的识别方法,其特征在于,在根据所述临界信息熵值从所述目标词语中选取备选词的过程中,所述方法还包括:
判断所述备选词中是否存在不完整的词语,其中,所述不完整的词语用于指示由至少三个单字所组成的词语被拆分成多个的词语;
若是,则将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语,并执行所述针对每个所述词语,获取所述每个词语的互信息的步骤。
5.如权利要求4所述的关键词的识别方法,其特征在于,在将所述待识别文档中每至少三个相邻的单字作为一个词语,得到所述待识别文档中的多个词语时,所述获取每个词语的互信息,包括:
计算由所述每至少三个相邻的单字组成的词语中第一个单字与其他单字之间的第一凝固程度;
计算由所述每至少三个相邻的单字组成的词语中最后一个单字与其他单字之间的第二凝固程度;
将所述第一凝固程度和第二凝固程度中的最小值作为由所述每至少三个相邻的单字组成的词语的互信息。
6.如权利要求1所述的关键词的识别方法,其特征在于,所述将待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词,包括:
将所述待识别文档与所述备选词进行匹配,计算每个匹配到的词语的tf-idf值;
从所述待识别文档中选取所述tf-idf值大于或等于第二阈值的词语,并将所述tf-idf值大于或等于第二阈值的词语作为所述待识别文档的关键词。
7.一种关键词的识别装置,其特征在于,包括:
第一获取模块,用于获取待识别文档;
词语划分模块,用于将所述待识别文档中每两个相邻的单字作为一个词语,得到所述待识别文档中的多个词语;
第二获取模块,用于针对每个所述词语,获取所述每个词语的互信息;
第一选取模块,用于从所述多个词语中选取所述互信息大于或等于第一阈值的词语,并将所述互信息大于或等于第一阈值的词语作为目标词语;
第三获取模块,用于获取所述目标词语的临界信息熵值;
第二选取模块,用于根据所述临界信息熵值从所述目标词语中选取备选词;
关键词识别模块,用于将所述待识别文档与所述备选词进行匹配,以识别出所述待识别文档中的关键词。
8.如权利要求7所述的关键词的识别装置,其特征在于,所述第二获取模块包括:
第一获取单元,用于获取所述每个词语中每个单字出现的频率;
第二获取单元,用于获取所述每个词语出现的频率;
计算单元,用于根据所述每个词语中每个单字出现的频率和所述每个词语出现的频率,计算所述每个词语的互信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1至6中任一项所述的关键词的识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任一项所述的关键词的识别方法。
CN201711450552.2A 2017-12-27 2017-12-27 关键词的识别方法、装置、电子设备和存储介质 Pending CN108021558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711450552.2A CN108021558A (zh) 2017-12-27 2017-12-27 关键词的识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711450552.2A CN108021558A (zh) 2017-12-27 2017-12-27 关键词的识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN108021558A true CN108021558A (zh) 2018-05-11

Family

ID=62071825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711450552.2A Pending CN108021558A (zh) 2017-12-27 2017-12-27 关键词的识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108021558A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN110909540A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN111125306A (zh) * 2019-12-10 2020-05-08 东软集团股份有限公司 一种确定中心词的方法、装置、设备及存储介质
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
WO2021051600A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、设备及存储介质
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029968A (ja) * 2002-06-21 2004-01-29 Advanced Telecommunication Research Institute International 話題推定モデルの生成方法および話題推定方法
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN105512109A (zh) * 2015-12-11 2016-04-20 北京锐安科技有限公司 新词汇的发现方法及装置
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029968A (ja) * 2002-06-21 2004-01-29 Advanced Telecommunication Research Institute International 話題推定モデルの生成方法および話題推定方法
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN105512109A (zh) * 2015-12-11 2016-04-20 北京锐安科技有限公司 新词汇的发现方法及装置
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909540A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
US11544459B2 (en) 2018-11-26 2023-01-03 Advanced New Technologies Co., Ltd. Method and apparatus for determining feature words and server
CN111222328B (zh) * 2018-11-26 2023-06-16 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111368535B (zh) * 2018-12-26 2024-01-16 珠海金山数字网络科技有限公司 一种敏感词识别方法、装置及设备
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN110209837B (zh) * 2019-05-27 2022-08-02 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110287493B (zh) * 2019-06-28 2023-04-18 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
WO2021051600A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、设备及存储介质
CN111125306A (zh) * 2019-12-10 2020-05-08 东软集团股份有限公司 一种确定中心词的方法、装置、设备及存储介质
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN113157929A (zh) * 2020-12-30 2021-07-23 龙马智芯(珠海横琴)科技有限公司 一种新词挖掘方法、装置、服务器及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108021558A (zh) 关键词的识别方法、装置、电子设备和存储介质
CN106528845B (zh) 基于人工智能的检索纠错方法及装置
CN111222305B (zh) 一种信息结构化方法和装置
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN107315772B (zh) 基于深度学习的问题匹配方法以及装置
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN107025239B (zh) 敏感词过滤的方法和装置
US20100254613A1 (en) System and method for duplicate text recognition
Spitters et al. Authorship analysis on dark marketplace forums
CN108509482A (zh) 问题分类方法、装置、计算机设备和存储介质
CN109858039A (zh) 一种文本信息识别方法及识别装置
CN104503958A (zh) 文档摘要的生成方法及装置
WO2017040632A4 (en) Event categorization and key prospect identification from storylines
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN107918604A (zh) 一种中文的分词方法及装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN104317891B (zh) 一种对页面标注标签的方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN110210022A (zh) 标题识别方法及装置
CN107704520A (zh) 基于人脸识别的多文件检索方法和装置
CN104346411B (zh) 对多个稿件进行聚类的方法和设备
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN107169065B (zh) 一种特定内容的去除方法和装置
KR100735308B1 (ko) 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511