CN105159927B - 目标文本主题词的选取方法、装置及终端 - Google Patents

目标文本主题词的选取方法、装置及终端 Download PDF

Info

Publication number
CN105159927B
CN105159927B CN201510472798.4A CN201510472798A CN105159927B CN 105159927 B CN105159927 B CN 105159927B CN 201510472798 A CN201510472798 A CN 201510472798A CN 105159927 B CN105159927 B CN 105159927B
Authority
CN
China
Prior art keywords
word
phrase
target text
descriptor
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510472798.4A
Other languages
English (en)
Other versions
CN105159927A (zh
Inventor
陈欣荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510472798.4A priority Critical patent/CN105159927B/zh
Publication of CN105159927A publication Critical patent/CN105159927A/zh
Application granted granted Critical
Publication of CN105159927B publication Critical patent/CN105159927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了目标文本主题词的选取方法、装置及终端。一种目标文本主题词的选取方法,包括:对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。本发明实施例提供的技术方案,提供了将短语选择为主题词的可能性,有利于提高目标文本主题词选取的准确性。

Description

目标文本主题词的选取方法、装置及终端
技术领域
本发明涉及文本处理领域,具体涉及一种目标文本主题词的选取方法、装置及终端。
背景技术
目前,手机、电脑等终端可以提供文件分类、信息检索、广告推荐等服务。例如可以将目标文本划分到与其内容匹配的类别、从多个文件中找到与检索操作匹配目标文本、或者利用记载了用户相关信息的目标文本向用户终端推送广告等等。
上述这些操作都涉及到对目标文件进行处理。通常先从目标文本中选取若干个主题词,然后以选取的主题词代替目标文本参与相关操作。其中,主题词源于目标文本,可以概括目标文本的内容特征。
本发明的发明人在研究和实践过程中发现,在对目标文本进行处理选取主题词时,现有技术一般是将目标文本按照最小语义原则进行分词操作得到多个词语,然后删除停用词(比如的、了、标点符号等)。对剩余的词语进行计算,统计每个词语在目标文本中出现的次数(Term Frequency,简称TF),以及利用训练文本计算每个词的逆向文件频率值(term frequency–inverse document frequency,简称IDF)。最后将TF和IDF相乘得到每个词语的权重,按照所需主题词的个数N,选取权重较大的N个词语作为主题词。
采用现有技术方案,举例说明,例如,目标文本为“小米手机是国产智能手机的代表,是国产民族品牌的佼佼者。”,对其进行分词操作得到如下分词结果:“小米/手机/是/国产/智能/手机/的/代表/,/是/国产/民族/品牌/的/佼佼者/。”,其中,每个词语用”/”分开,删除分词操作得到的停用词:“是/的/,/。”。
若每个词语在目标文本中出现的次数TF如表一所示,利用训练文本计算得到的词语的IDF如表二所示,则词语的权重如表三所示:
表一 词语在目标文本中出现的次数TF的列表
词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者
TF 1 2 2 1 1 1 1 1
表二 利用训练文本计算得到的词语的逆向文件频率值IDF的列表
词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者
IDF 5.1 3.4 2.9 4.0 3.0 5.2 3.0 7.0
表三 词语的权重的列表
词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者
词语的权重 5.1 6.8 5.8 4.0 3.0 5.2 3.0 7.0
若需要四个主题词,则由表三根据权重由大到小选取出四个词语:‘佼佼者、手机、国产、民族’作为目标文本的主题词。根据这四个词语的含义及目标文本的内容,可知,用这四个词语作为目标文本的主题词时,其表达的意思与目标文本表达的意思存在较大差异。
因此,采用现有技术对目标文本主题词进行选取时,选取的主题词有时不够准确。
发明内容
本发明实施例提供一种目标文本主题词的选取方法、装置及终端,以期提高目标文本主题词选取的准确性。
本发明实施例第一方面提供一种目标文本主题词的选取方法,包括:
对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;
获取所述K1个词语的词性和位置;
基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;
从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
结合第一方面,在第一方面的第一种可能的实施方式中,
所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语。
结合第一方面,在第一方面的第二种可能的实施方式中,
若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;
所述从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,包括:
从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,
词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;
短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
本发明实施例第二方面提供一种目标文本主题词的选取装置,包括:
分词单元,用于对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;
获取单元,用于获取所述K1个词语的词性和位置;
合并单元,用于基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;
选取单元,用于从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
结合第二方面,在第二方面的第一种可能的实施方式中,
所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语。
结合第二方面,在第二方面的第二种可能的实施方式中,
所述选取单元具体用于,若所述K1个词语中包括K3个停用词,则从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述K3为小于K1的整数,所述N为小于K1的整数。
结合第二方面、第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式,在第二方面的第三种可能的实施方式中,
词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;
短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
本发明实施例第三方面提供一种终端,包括上述的目标文本主题词的选取装置。
本发明实施例提供的技术方案,将目标文本分词后,将满足预设合并条件的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本发明实施例提供了将短语选择为主题词的可能性,有利于提高目标文本主题词选取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-a是本发明实施例提供的一种目标文本主题词的选取方法的流程示意图;
图1-b是本发明实施例提供的另一种目标文本主题词的选取方法的流程示意图;
图1-c是本发明实施例提供的另一种目标文本主题词的选取方法的流程示意图;
图2是本发明实施例提供的另一种目标文本主题词的选取方法的流程示意图;
图3是本发明实施例提供的一种目标文本主题词的选取装置的示意图;
图4是本发明实施例提供的一种终端的示意图。
具体实施方式
本发明实施例提供目标文本主题词的选取方法、装置及终端,以期提高目标文本主题词选取的准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明目标文本主题词的选取方法的一个实施例。其中,一种目标文本主题词的选取方法可以包括:对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
参见图1-a,图1-a为本发明的一个实施例提供的一种目标文本主题词的选取方法的流程示意图。如图1所示,本发明的一个实施例提供的一种目标文本主题词的选取方法可以包括如下步骤:
S101、对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数。
其中,上述目标文本可以是包括多个词语、标点符号或者其他字符的字符串。比如“物联网通俗来讲就是物物相连的网络,根本上还是以互联网为基础,只是在它的基础上做了一些延伸和扩展,延伸到了任何物体和物体之间,进行信息交换和通信。”这段话可以作为一个目标文本。背景技术中提到的“小米手机是国产智能手机的代表,是国产民族品牌的佼佼者。”这句话也可以作为一个目标文本。
对目标文本进行分词操作,是指将目标文本进行拆分,比如按照最小语义原则将目标文本拆分成一个个语义独立的词语,具体地,拆分后得到的词语可以是有具体含义的词语,也可能包括没有具体含义的停用词,比如标点符号、是、的、得、地、了等。
S102、获取所述K1个词语的词性和位置。
其中,词性可以包括:名词、动词、形容词、助词、感叹词、标点符号、特殊字符等。词语的位置指词语之间的相对位置关系,比如相邻或者非相邻等。
比如“今天天气晴朗。”,拆分后得到的4个词语,分别为:“今天/天气/晴朗/。”。则对该目标文本进行分词后获得的4个词语的词性分别是:名词、名词、形容词、标点符号。K1个词语的位置包括:‘今天’与‘天气’是临近词、‘天气’与‘晴朗’是临近词、‘晴朗’与‘。’是相邻词。
S103、基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数。
可选的,在本发明一些可能的实施方式中,所述预设合并条件可以包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词或者数量词名词,则将相邻的词语合并为短语。具体地,预设合并条件可以是上述相邻词性的一种或者多种,当然,也可以设置预设合并条件包括其他相邻词性的词语进行合并。如前面所述的目标文本“今天天气晴朗。”分词后得到的词语中,相邻词语‘今天’与‘天气’是名词名词,符合预设合并条件,则将‘今天’与‘天气’合并,合并后得到短语‘今天天气’。
S104、从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
对于上面的目标文本“今天天气晴朗。”可以从“今天/天气/晴朗/。/今天天气”这几个词中选取主题词,具体地可以按照权重值由大到小的顺序选取主题词,比如若选取两个主题词,删除停用词‘。’,其余几个词语及短语“今天/天气/晴朗/今天天气”的权重依次为:3.3、3.0、4.2、3.5,则按照权重由大到小选择权重位于前两位的词或者短语作为该目标文本的主题词,即选取‘晴朗’和‘今天天气’作为主题词。
可以看出,由于短语‘今天天气’为主题词的选取对象,当其权重较大符合条件时,选择‘今天天气’比选择‘今天’或者‘天气’与目标文本的内容更加匹配。因此采用本发明实施例提供的技术方案选取主题词时增加了主题词选取的准确性。
可选的,在本发明一些可能的实施方式中,如图1-b所示,在S106、从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词之前,还包括:
S105、计算所述K1个词语和所述K2个短语的权重。
可选的,在本发明一些可能的实施方式中,如图1-c所示,若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;
在S103之后,还可以包括:
S107、计算所述K1个词语中K1-K3个非停用词的权重以及K2个短语的权重。
S108、从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
可选的,在本发明一些可能的实施方式中,权重可以通过如下方法计算得到:
首先,统计词语或者短语在所述目标文本中出现的次数TF。比如“今天/天气/晴朗/今天天气”这四个词语和短语在目标文本“今天天气晴朗。”中出现的次数都是1次,如表四所示。
表四
词语或短语 今天 天气 晴朗 今天天气
TF 1 1 1 1
其次,利用训练文本计算词语或者短语的逆向文本频率值IDF。IDF可以由训练文本的总文件数目除以包含所述词语或者短语的文件的数目,再将得到的商取对数得到。其中,训练文本是事先收集的一些相关文本集。比如,利用训练文本计算“今天/天气/晴朗/今天天气”这四个词语和短语得到的IDF分别为:3.3、3.0、4.2、6.3,如表五所示。
表五
词语或短语 今天 天气 晴朗 今天天气
IDF 3.3 3.0 4.2 6.3
然后,将词语或者短语的TF与IDF相乘得到词语或者短语的权重,比如利用前面的统计及计算结果,“今天/天气/晴朗/今天天气”这四个词语和短语的权重分别为:3.3、3.0、4.2、6.3,如表六所示。
表六
词语或短语 今天 天气 晴朗 今天天气
权重 3.3 3.0 4.2 6.3
采用本发明实施例,若主题词的个数为两个,则根据对应权重由大到小的顺序选取‘今天天气’和‘晴朗’作为主题词。
可以看出,本发明实施例的技术方案中,将目标文本分词后,将满足预设合并条件的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本发明实施例提供的目标文本主题词的选取方法,有利于提高目标文本主题词选取的准确性。
为便于更好的理解和实施本发明实施例的上述方案,下面通过一些具体的应用场景进行举例说明。
参见图2,图2为本发明的另一个实施例提供的一种目标文本主题词的选取方法的流程示意图。在该实施例中,以目标文本为背景技术中提到的“小米手机是国产智能手机的代表,是国产民族品牌的佼佼者。”为例。
如图2所示,本发明的一个实施例提供的一种目标文本主题词的选取方法可以包括:
S201、对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数。
需要说明的是,在该实施例中以“小米手机是国产智能手机的代表,是国产民族品牌的佼佼者”作为目标文本。
对目标文本进行分词操作,目标文本分词后得到的词语分别是“小米/手机/是/国产/智能/手机/的/代表/,/是/国产/民族/品牌/的/佼佼者/。”,其中,每个词语用”/”分开。
S202、获取所述K1个词语的词性和位置。
分此操作后得到的词语依次为:名词、名词、动词、动词、形容词、名词、助词、名词、标点符号、动词、动词、名词、名词、助词、名词、标点符号。
所述词语按照分词操作后的位置依次相邻。
S203、基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数。
所述预设合并条件可以包括:若相邻词语的词性依次为:名词名词,或者形容词名词时则将相邻的词语合并为短语。
因此根据该该合并条件,得到的3个短语,合并后的短语包括:小米手机、智能手机、民族品牌。
S204、若所述K1个词语中包括K3个停用词,统计所述K1个词语中K1-K3个非停用词及K2个短语在所述目标文本中出现的次数。
在该实施例中包括的停用词包括:“是/的/,/。”。
则统计非停用词和3个短语在目标文本中出现的次数,如表七所示。
表七
S205、利用训练文本计算所述K1-K3个非停用词及所述K2个短语的逆向文件频率值。
利用训练文本计算词语或者短语的逆向文本频率值IDF。IDF可以由训练文本的总文件数目除以包含所述词语或者短语的文件的数目,再将得到的商取对数得到。其中,训练文本是事先收集的一些相关文本集。在该实施例中假设利用训练文本计算后得到上述10个词语和3个短语的IDF如表八中所示。
表八
S206、将所述K1-K3个非停用词和所述K2个短语在所述目标文本中出现的次数与所述词或者词语的逆向文本频率值相乘得到所述K1-K3个非停用词及所述K2个短语权重的权重。
具体地,将词语或者短语的TF与IDF相乘得到词语或者短语的权重,如表九中所示。
表九
S207、从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
若需要四个主题词,即N=4时,由表九根据权重由大到小选取的主题词包括‘小米手机、民族品牌、智能手机、佼佼者’。根据这四个词语或短语的含义及目标文本的内容,可知,用这四个词语或短语作为目标文本的主题词,相对于采用现有技术中的选取方法选取的主题词,其表达的意思与目标文本表达的意思更加接近,因此采用本发明实施提供的技术方案有利于提高目标文本主题词选取的准确性。
本发明实施例还提供用于实施上述方案的相关装置。
参见图3,本发明实施例提供的一种目标文本主题词的选取装置300,可包括:
分词单元301,用于对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数。
获取单元302,用于获取所述K1个词语的词性和位置。
合并单元303,用于基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数。
可选的,在本发明一些可能的实施方式中,预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语。
选取单元304,用于从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
可选的,在本发明一些可能的实施方式中,若所述K1个词语中包括K3个停用词,所述选取单元具体用于,从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
可选的,在本发明一些可能的实施方式中,词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
可以理解的是,本实施例的目标文本主题词的选取装置300的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。目标文本主题词的选取装置300可部署于手机、计算机等终端。
可以看出,本发明实施例的技术方案中,目标文本主题词的选取装置中的分词单元将目标文本分词后,合并单元将满足预设合并条件的相邻的词语进行合并,选取单元并将合并后的短语作为主题词的选取对象。相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本发明实施例提供的目标文本主题词的选取装置,有利于提高目标文本主题词选取的准确性。
参见图4,图4是本发明的另一实施例提供的终端400的结构框图。其中,终端400可包括:至少1个处理器401,存储器402、用户接口403和至少1个通信总线404。其中,通信总线404用于实现这些组件之间的连接通信。
用户接口403可以包括显示屏、键盘或者触摸屏等装置,可以用于接收用户的输入的指令,也可以接收用户通过键盘或者触摸屏输入的目标文本,当然目标文本也可以是已经存储在存储器中的文本,或者从其他终端或者从网络获得的文本。
其中,存储器402可以包括只读存储器和随机存取存储器,可以用于存储程序代码并向处理器401提供指令和数据。存储器402中的一部分还可以包括非易失性随机存取存储器。
在本发明的实施例中,通过调用存储器402存储的程序代码或指令,处理器401用于对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;
获取所述K1个词语的词性和位置;
基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;
从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语。
可选的,在本发明一些可能的实施方式中,
若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;
所述从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,包括:
从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
可选的,在本发明一些可能的实施方式中,词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
可以看出,本发明实施例的技术方案中,将目标文本分词后,将满足预设合并条件的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本发明实施例提供的目标文本主题词的选取方法,有利于提高目标文本主题词选取的准确性。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种目标文本主题词的选取方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,其中,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种目标文本主题词的选取方法,其特征在于,包括:
对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数,所述K1个词语按照分词操作后的位置依次相邻;
获取所述K1个词语的词性和位置;
基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语;
从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
2.根据权利要求1所述的方法,其特征在于,
若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;
所述从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,包括:
从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
3.根据权利要求1或2所述的方法,其特征在于,
词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;
短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
4.一种目标文本主题词的选取装置,其特征在于,包括:
分词单元,用于对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数,所述K1个词语按照分词操作后的位置依次相邻;
获取单元,用于获取所述K1个词语的词性和位置;
合并单元,用于基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将相邻的词语合并为短语;
选取单元,用于从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
5.根据权利要求4所述的装置,其特征在于,若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;
所述选取单元具体用于,
从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。
6.根据权利要求4或5所述的装置,其特征在于,
词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;
短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。
7.一种终端,其特征在于,包括如权利要求4至6任一项所述的装置。
CN201510472798.4A 2015-08-04 2015-08-04 目标文本主题词的选取方法、装置及终端 Active CN105159927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510472798.4A CN105159927B (zh) 2015-08-04 2015-08-04 目标文本主题词的选取方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510472798.4A CN105159927B (zh) 2015-08-04 2015-08-04 目标文本主题词的选取方法、装置及终端

Publications (2)

Publication Number Publication Date
CN105159927A CN105159927A (zh) 2015-12-16
CN105159927B true CN105159927B (zh) 2019-03-15

Family

ID=54800784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510472798.4A Active CN105159927B (zh) 2015-08-04 2015-08-04 目标文本主题词的选取方法、装置及终端

Country Status (1)

Country Link
CN (1) CN105159927B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
CN109947902B (zh) * 2019-03-06 2021-03-26 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050120011A1 (en) * 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN100520782C (zh) * 2007-11-09 2009-07-29 清华大学 一种基于词频和多元文法的新闻关键词抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法

Also Published As

Publication number Publication date
CN105159927A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111222305B (zh) 一种信息结构化方法和装置
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN109325132A (zh) 专家知识推荐方法、装置、计算机设备及存储介质
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
CN110347823A (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN106528532A (zh) 文本纠错方法、装置及终端
CN106528894B (zh) 设置标签信息的方法及装置
JP2013545189A (ja) マルチステージを使用したカテゴリ情報の決定
CN110472043A (zh) 一种针对评论文本的聚类方法及装置
CN102609500A (zh) 一种问题推送方法和采用该方法的问答系统和搜索引擎
CN105095311B (zh) 推广信息的处理方法、装置及系统
CN108874956A (zh) 海量文件检索方法、装置、计算机设备及存储介质
CN108268431B (zh) 段落向量化的方法和装置
CN103678336A (zh) 实体词识别方法及装置
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN111666379B (zh) 一种事件元素提取方法和装置
CN107885717A (zh) 一种关键词提取方法及装置
CN111191454A (zh) 一种实体匹配的方法及装置
CN105447004B (zh) 查询推荐词的挖掘、相关查询方法及装置
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
CN106021413B (zh) 基于主题模型的自展式特征选择方法及系统
CN101216836B (zh) 一种网页锚文本去噪系统及方法
CN110347806A (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant