CN105630769B - 文档主题词提取方法及装置 - Google Patents

文档主题词提取方法及装置 Download PDF

Info

Publication number
CN105630769B
CN105630769B CN201510990608.8A CN201510990608A CN105630769B CN 105630769 B CN105630769 B CN 105630769B CN 201510990608 A CN201510990608 A CN 201510990608A CN 105630769 B CN105630769 B CN 105630769B
Authority
CN
China
Prior art keywords
participle
weight
document
word
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510990608.8A
Other languages
English (en)
Other versions
CN105630769A (zh
Inventor
赵博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201510990608.8A priority Critical patent/CN105630769B/zh
Publication of CN105630769A publication Critical patent/CN105630769A/zh
Application granted granted Critical
Publication of CN105630769B publication Critical patent/CN105630769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文档主题词提取方法及装置。所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。

Description

文档主题词提取方法及装置
技术领域
本发明涉及数据处理领域,具体地,涉及一种文档主题词提取方法及装置。
背景技术
主题词是一篇文章所表达的中心思想,主题信息挖掘是有效解决文档空间向量高维稀疏性,提高文本分类质量的重要手段,同时也在信息推荐中起到了重要的作用。评估一个词汇对于一个文档库中的其中一份文档的重要程度的算法常用的是TF(TermFrequency,词频)-IDF(Inverse Document Frequency,逆向文档频率)算法。
发明内容
本发明的目的是提供一种文档主题词提取方法及装置,以使得提取出的主题词更为准确。
为了实现上述目的,根据本发明的第一方面,提供一种文档主题词提取方法,所述方法包括:对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,并根据所述权值,确定该分词在所述目标文档中的词频权重;基于所述文档库,确定所述分词的逆向文档频率;基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
在第一方面的一些可选的实施方式中,所述获取与所述分词属性相对应的权值,包括:判断所述分词属性是否满足多个预设条件中的至少一个预设条件;在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。
在第一方面的一些可选的实施方式中,所述获取与所述分词属性相对应的权值,还包括:在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。
在第一方面的一些可选的实施方式中,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
在第一方面的一些可选的实施方式中,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。
在第一方面的一些可选的实施方式中,通过以下方式来确定该分词在所述目标文档中的词频权重:
其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数。
在第一方面的一些可选的实施方式中,所述基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词,包括:计算所述分词的词频权重与逆向文档频率的乘积;按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。
根据本发明的第二方面,提供一种文档主题词提取装置,所述装置包括:分词处理模块,被配置为对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;权值获取模块,被配置为针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值;词频权重确定模块,被配置为根据所述权值,确定该分词在所述目标文档中的词频权重;逆向文档频率确定模块,被配置为基于所述文档库,确定所述分词的逆向文档频率;主题词提取模块,被配置为基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
在第二方面的一些可选的实施方式中,所述权值获取模块包括:判断子模块,被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件;第一权值获取子模块,被配置为在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。
在第二方面的一些可选的实施方式中,所述权值获取模块还包括:第二权值获取子模块,被配置为在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。
在第二方面的一些可选的实施方式中,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
在第二方面的一些可选的实施方式中,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。
在第二方面的一些可选的实施方式中,所述词频权重确定模块被配置为通过以下方式来确定该分词在所述目标文档中的词频权重:
其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数。
在第二方面的一些可选的实施方式中,所述主题词提取模块包括:计算子模块,被配置为计算所述分词的词频权重与逆向文档频率的乘积;主题词提取子模块,被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。
在上述技术方案中,考虑了分词在文档中每次出现时的分词属性(例如,分词位置、字体样式等等),并基于与分词属性相对应的权值来确定该分词在文档中的词频权重,由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的实施方式提供的文档主题词提取方法的流程图。
图2A示出了一示例目标文档的内容。
图2B示出了对图2A所述的目标文档进行分词处理后的分词结果。
图3A至图3D是根据本发明的实施方式提供的文档主题词提取装置的框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是根据本发明的实施方式提供的文档主题词提取方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤S101中,对目标文档进行分词处理,其中,该目标文档可以为文档库中的任一文档。
文档库中可以包含多篇文档,目标文档可以为文档库中的任一文档。在一个实施方式中,可以由用户来从文档库中选择其中一篇作为目标文档,或者在另一实施方式中,可以由计算机随机或者按照预定选取规则(例如,按照文档顺序选取,按照文档大小来选取,等等)来从文档库中选取一篇作为目标文档。
对目标文档进行分词处理,可以将目标文档划分成由若干分词组成的分词序列。例如,图2A示出了一示例目标文档的内容,通过对目标文档进行分词处理,能够得到图2B所示的分词结果。
在步骤S102中,针对同一分词,根据该分词在目标文档中每次出现时的分词属性,获取与分词属性相对应的权值,并根据所述权值,确定该分词在目标文档中的词频权重。
在本公开中,分词属性可以包括以下中的至少一者:分词位置、字体样式、字体号、分词内容。其中,分词位置可以包括段首、标题和其他;字体样式可以包括粗体、斜体和其他;字体号可以包括大字体号、常规字体号和小字体号。在一个优选实施方式中,分词属性可以包括上述的全部,这样,可以使得最终结果更为准确。
具体地,针对某个分词的分词位置的检测,可以首先通过检测分词是否处于本段的首句来检测分词位置是否在段首,如果是,则确定分词位置为“段首”。
此外,随着互联网的飞速发展,计算机所处理的文档多是采集于互联网的超文本数据,这类数据除文字内容外,还包含超文本标签用于页面显示。针对这种类型的文档信息,可以通过检测超文本标签来获取某些分词属性。例如,可以通过检测该分词的超文本标签是否包含<H>标签(标题标签)来判断该分词位置是否位于标题,如果包含,则确定分词位置为“标题”。如果该分词的分词位置既不在段首,也不在标题,则可以确定分词位置为“其他”。
针对某个分词的字体样式的检测,可以通过检测分词的超文本标签是否包含<B>标签(粗体标签)来判断该分词是否为粗体,如果包含,则确定该分词的字体样式为粗体。另外,可以通过检测分词的超文本标签是否包含<I>标签(斜体标签)来判断该分词是否为斜体,如果包含,则确定该分词的字体样式为斜体。如果该分词的字体样式既不是粗体,也不是斜体,则可以确定分词的字体样式为“其他”。
针对某个分词的字体号的检测,可以通过检测分词的超文本标签中的<font-size>标签(字号标签)来得到分词的字体号。在一篇文档中,大部分内容具有统一的字体号,可以对每个分词的字体号进行统计,选定最多分词所对应的字体号作为“常规字体号”,这样,大于常规字体号的分词的字体号被归为“大字体号”,小于常规字体号的分词的字体号被归为“小字体号”。
在步骤S101中得到的分词结果中包含有若干个分词,有些分词可能会有所重复,例如,如图2B所示,“文理科”这一分词在目标文档中出现了3次,而有些分词可能仅出现一次,例如,如图2B所示,“表示”这一分词在目标文档中仅出现了1次。针对同一分词,可以按照上述方法,确定出该分词在每次出现时的分词属性。之后,获取与该分词属性相对应的权值,并根据该权值,确定该分词在目标文档中的词频权重。
例如,可以通过以下等式(1)来确定分词在目标文档中的词频权重:
其中,TFW表示分词的词频权重;Wn表示该分词在目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在目标文档中的总出现次数;I表示目标文档中的分词总数。其中,这里提到的分词总数是在步骤S101后得到的分词结果中的全部分词的数量。
在步骤S103中,基于文档库,确定分词的逆向文档频率。
例如,可以通过以下等式(2)来确定分词的逆向文档频率:
其中,IDF表示该分词的逆向文档频率;D表示文档库中的文档总数;d表示文档库中包含有该分词的文档的数量。
在步骤S104中,基于分词的词频权重和逆向文档频率,提取预定数量的分词作为目标文档的主题词。
具体地,该步骤S104可以包括:计算分词的词频权重与逆向文档频率的乘积,该乘积可以作为分词在目标文档中的最终权重。例如,可以通过以下等式(3)来确定分词的最终权重W:
W=TFW×IDF (3)
接下来,按照词频权重与逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为目标文档的主题词。例如,选取乘积结果排名在前5位的分词作为目标文档的主题词。
综上所述,本发明提供的上述文档主题词提取方法,考虑了分词在文档中每次出现时的分词属性(例如,分词位置、字体样式等等),并基于与分词属性相对应的权值来确定该分词在文档中的词频权重,由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。
下面具体描述当确定某个分词的词频权重时,如何根据该分词在目标文档中每次出现时的分词属性,获取与该分词属性相对应的权值的示例方法。
首先,可以预先设定一个基准权值ω0,例如,该基准权值ω0可以被设定为1,这样,当检测到某个分词在目标文档中本次出现时的分词属性后,可以通过判断分词属性是否满足多个预设条件中的至少一个预设条件,来决定是否获取该基准权值ω0作为这一分词属性所对应的权值。在本公开中,多个预设条件可以例如包括但不限于以下中的至少一者:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。优选地,多个预设条件包括上述条件的全部,这样,可以使得最终结果更为准确。
可以按照前面在步骤S102中描述的方法,来判断分词属性是否满足“分词位置位于段首”、“分词的字体样式为粗体”、“分词的字体样式为斜体”、“分词的字体号大于常规字体号”、“分词的字体号小于常规字体号”的预设条件。
另外,在文档中有时会包括这样一些词,这些词可能在每篇文档中均出现,例如,“摘要”、“引言”等词,这些词主要用于划分文档结构,而并非是文档的实质内容,因此,在本公开中,可以将这些词称为“干扰词”。可以预先设置一些干扰词。这样,当分词的分词内容与这些预置的干扰词中的任一干扰词的内容相匹配(例如,内容一致)时,则该分词可以被确认为是干扰词。
当分词属性不满足上述任一预设条件时,获取预设的基准权值ω0作为与该分词属性相对应的权值。例如,如图2B所示的分词结果,针对“表示”这一分词,其在文档中出现时的分词属性均不满足上述任一预设条件,因此,确定其所对应的权值为基准权值ω0
而当分词属性满足上述的至少一个预设条件时,则首先获取分词属性所满足的各个预设条件所对应的权值,之后,将获取到的各个预设条件所对应的权值的乘积作为与该分词属性相对应的权值。
具体地,可以预先确定每个预设条件所对应的权值,即,预先确定分词位置位于段首这一预设条件所对应的权值ω1、分词位置位于标题这一预设条件所对应的权值ω2、分词的字体样式为粗体这一预设条件所对应的权值ω3、分词的字体样式为斜体这一预设条件所对应的权值ω4、分词的字体号大于常规字体号这一预设条件所对应的权值ω5、分词的字体号小于常规字体号这一预设条件所对应的权值ω6、分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值ω7
由于ω1~ω7的取值不同可导致对文档主题词提取结果的不同,进而影响文档分类精度,因此,在本发明的一个优选实施方式中,为获取最优的分类精度,可使用线性回归的方式计算ω1~ω7的取值,设:
y=f(ωi) (4)
其中,y为ωi取某一个值时对应的文档的分类精度,通过对ωi的多次取值,可拟合出函数f(),进而对函数f()求导,得出y得到最大值的极值点ωi,此时,该ωi的值即为第i个预设条件所对应的权值。
通常情况下,文档中每一段的首句代表所在段的主题思想,因此,如果某个分词的分词属性表示该分词的位置在段首,则其相对应的权值应相对较高,从而提高其对主题词提取结果的影响力。如果某个分词的分词属性表示该分词的字体样式为粗体,则其相对应的权值应当较高,因为粗体通常表示用户认为是重要的信息,因此这些词对主题词提取结果的影响力应当被提高。如果某个分词的分词属性表示该分词的字体样式为斜体,则其相对应的权值应当较高,因为斜体通常表示用户认为是要进行区分的信息,因此这些词对主题词提取结果的影响力应当被提高。如果某个分词的分词属性表示该分词的字体号为大字体号(即,大于常规字体号),则其相对应的权值应当较高,因为大字体号通常表示用户想要突出显示的信息,因此这些词对主题词提取结果的影响力应当被提高。而如果某个分词的分词属性表示该分词的字体号为小字体号(即,小于常规字体号),则其相对应的权值应当较低,因为小字体号通常表示用户想要进行解释或者注释的信息(例如,参考文献、作者简介等等),因此这些词对主题词提取结果的影响力应当被降低。此外,如果某个分词的分词属性表示该分词内容与预设的干扰词相匹配,则其相对应的权值应当较低,因为这些词不应该成为文档主题词,因此这些词对主题词提取结果的影响力应当被降低。
如果以所设定的基准权值ω0为基准,则:分词位置位于段首这一预设条件所对应的权值ω1、分词位置位于标题这一预设条件所对应的权值ω2、分词的字体样式为粗体这一预设条件所对应的权值ω3、分词的字体样式为斜体这一预设条件所对应的权值ω4、以及分词的字体号大于常规字体号这一预设条件所对应的权值ω5大于基准权值ω0;另外,分词的字体号小于常规字体号这一预设条件所对应的权值ω6、以及分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值ω7小于基准权值ω0
当某个分词属性只满足以上预设条件中的一个预设条件时(例如,只满足分词的字体样式为粗体这一预设条件),该分词属性所对应的权值为该预设条件所对应的权值(例如,为ω3)。而当某个分词属性满足以上预设条件中的多个预设条件时(例如,满足分词的字体样式为粗体、以及分词的字体样式为斜体这两个预设条件),则该分词属性所对应的权值为所满足的预设条件所对应的权值的乘积(例如,为ω3×ω4)。
例如,如图2B所示的分词结果,针对“文理科”这一分词,其第一次在文档中出现时的分词属性满足分词位置位于标题、分词的字体样式为粗体、以及分词的字体号大于常规字体号这三个预设条件,因此,“文理科”这一分词第一次在文档中出现时的分词属性所对应的权值为ω2×ω3×ω5。之后,“文理科”这一分词第二次在文档中出现时的分词属性均不满足上述任一预设条件,因此,“文理科”这一分词第二次在文档中出现时的分词属性所对应的权值为基准权值ω0。最后,“文理科”这一分词第三次在文档中出现时的分词属性满足分词的字体样式为粗体、以及分词的字体样式为斜体这两个预设条件,因此,“文理科”这一分词第三次在文档中出现时的分词属性所对应的权值为ω3×ω4
这样,可以根据同一分词在目标文档中每次出现时的分词属性所对应的权值之 和,利用等式(1),确定出该分词的词频权重。例如,针对“文理科”这一分词,其在图2A所示 的文档中的词频权重为:
之后,按照词频权重与逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为目标文档的主题词。通过此种方式所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。
图3A至图3D是根据本发明的实施方式提供的文档主题词提取装置300的框图。如图3A所示,该装置300可以包括:分词处理模块310,被配置为对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;权值获取模块320,被配置为针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值;词频权重确定模块330,被配置为根据所述权值,确定该分词在所述目标文档中的词频权重;逆向文档频率确定模块340,被配置为基于所述文档库,确定所述分词的逆向文档频率;主题词提取模块350,被配置为基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
本发明提供的上述文档主题词提取装置300,考虑了分词在文档中每次出现时的分词属性(例如,分词位置、字体样式等等),并基于与分词属性相对应的权值来确定该分词在文档中的词频权重,由此使得所提取出的主题词具有更高的准确性和可靠性,能够更客观地表示该文档的中心思想,从而能够为后续的文档分类、文档推荐等提供准确、可靠的数据支持,使得文档分类结果更为准确、文档推荐结果更符合用户需求等等。
可选地,如图3B所示,所述权值获取模块320可以包括:判断子模块321,被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件;第一权值获取子模块322,被配置为在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。
可选地,如图3C所示,所述权值获取模块320还可以包括:第二权值获取子模块323,被配置为在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值。
可选地,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
可选地,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。
可选地,所述词频权重确定模块330被配置为通过以上等式(1)来确定该分词在所述目标文档中的词频权重。
可选地,如图3D所述,所述主题词提取模块350可以包括:计算子模块351,被配置为计算所述分词的词频权重与逆向文档频率的乘积;主题词提取子模块352,被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明的实施方式可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (12)

1.一种文档主题词提取方法,其特征在于,所述方法包括:
对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;
针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,其中,所述获取与所述分词属性相对应的权值,包括:判断所述分词属性是否满足多个预设条件中的至少一个预设条件;在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值;
根据所述与所述分词属性相对应的所述权值,确定该分词在所述目标文档中的词频权重,其中,通过以下方式来确定该分词在所述目标文档中的词频权重:
其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数;
基于所述文档库,确定所述分词的逆向文档频率;
基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述分词属性相对应的权值,还包括:
在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。
3.根据权利要求2所述的方法,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
4.根据权利要求3所述的方法,其特征在于,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及
所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。
5.根据权利要求1所述的方法,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
6.根据权利要求1所述的方法,其特征在于,所述基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词,包括:
计算所述分词的词频权重与逆向文档频率的乘积;
按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。
7.一种文档主题词提取装置,其特征在于,所述装置包括:
分词处理模块,被配置为对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;
权值获取模块,被配置为针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值;其中,所述权值获取模块包括:判断子模块,被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件;第二权值获取子模块,被配置为在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值;
词频权重确定模块,被配置为根据所述与所述分词属性相对应的所述权值,确定该分词在所述目标文档中的词频权重,其中,所述词频权重确定模块被配置为通过以下方式来确定该分词在所述目标文档中的词频权重:
其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数;
逆向文档频率确定模块,被配置为基于所述文档库,确定所述分词的逆向文档频率;
主题词提取模块,被配置为基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。
8.根据权利要求7所述的装置,其特征在于,所述权值获取模块还包括:
第一权值获取子模块,被配置为在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。
9.根据权利要求8所述的装置,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
10.根据权利要求9所述的装置,其特征在于,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及
所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。
11.根据权利要求7所述的装置,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。
12.根据权利要求7所述的装置,其特征在于,所述主题词提取模块包括:
计算子模块,被配置为计算所述分词的词频权重与逆向文档频率的乘积;
主题词提取子模块,被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。
CN201510990608.8A 2015-12-24 2015-12-24 文档主题词提取方法及装置 Active CN105630769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510990608.8A CN105630769B (zh) 2015-12-24 2015-12-24 文档主题词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510990608.8A CN105630769B (zh) 2015-12-24 2015-12-24 文档主题词提取方法及装置

Publications (2)

Publication Number Publication Date
CN105630769A CN105630769A (zh) 2016-06-01
CN105630769B true CN105630769B (zh) 2019-04-12

Family

ID=56045726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510990608.8A Active CN105630769B (zh) 2015-12-24 2015-12-24 文档主题词提取方法及装置

Country Status (1)

Country Link
CN (1) CN105630769B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679680A (zh) * 2017-11-21 2018-02-09 北京锐安科技有限公司 一种金融走势预测方法、装置、设备及存储介质
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN111046169B (zh) * 2019-12-24 2024-03-26 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN113220999B (zh) * 2021-05-14 2024-07-09 北京百度网讯科技有限公司 用户特征的生成方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103678355A (zh) * 2012-09-11 2014-03-26 富士通株式会社 文本挖掘方法和文本挖掘装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN103678355A (zh) * 2012-09-11 2014-03-26 富士通株式会社 文本挖掘方法和文本挖掘装置
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于Document Triage的TF-IDF算法的改进》;李镇君等;《计算机应用》;20151210;第35卷(第12期);全文
《基于多特征的关键词抽取算法》;郭建波等;《合肥工业大学学报(自然科学版)》;20150930;第38卷(第9期);全文
《基于多线程多重因子加权的关键词提取算法》;林满山等;《计算机工程与设计》;20130731;第34卷(第7期);第2.3节第1段,2401页左栏第2段,第2399页右栏第2段

Also Published As

Publication number Publication date
CN105630769A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
Trstenjak et al. KNN with TF-IDF based framework for text categorization
Oberreuter et al. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style
Koppel et al. Authorship attribution in the wild
Shigarov et al. Configurable table structure recognition in untagged PDF documents
US8892554B2 (en) Automatic word-cloud generation
CN105630769B (zh) 文档主题词提取方法及装置
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN106776559A (zh) 文本语义相似度计算的方法及装置
Rao et al. External & intrinsic plagiarism detection: VSM & discourse markers based approach
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN105243053A (zh) 提取文档关键句的方法及装置
CN107633020B (zh) 文章相似度检测方法及装置
Llorens et al. Deep level lexical features for cross-lingual authorship attribution
Crocetti Textual spatial cosine similarity
Kaati et al. Author profiling in the wild
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
US10606875B2 (en) Search support apparatus and method
Boukhaled et al. Probabilistic anomaly detection method for authorship verification
JP5538268B2 (ja) 文書要約装置、文書要約方法、及びプログラム
KR100922693B1 (ko) 인물 검색 시스템 및 방법
CN107391510A (zh) 一种网络视频事件挖掘方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant