CN111046169A - 一种主题词的提取方法、装置、设备及存储介质 - Google Patents

一种主题词的提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111046169A
CN111046169A CN201911349710.4A CN201911349710A CN111046169A CN 111046169 A CN111046169 A CN 111046169A CN 201911349710 A CN201911349710 A CN 201911349710A CN 111046169 A CN111046169 A CN 111046169A
Authority
CN
China
Prior art keywords
text
word
comment
candidate
influence factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911349710.4A
Other languages
English (en)
Other versions
CN111046169B (zh
Inventor
郎鹏飞
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911349710.4A priority Critical patent/CN111046169B/zh
Publication of CN111046169A publication Critical patent/CN111046169A/zh
Application granted granted Critical
Publication of CN111046169B publication Critical patent/CN111046169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

本申请公开了一种主题词的提取方法、装置、设备及存储介质,包括:获取目标文本的每个候选词对应的IDF;根据候选词的总数以及调整后的影响因子的权重值计算出每个候选词相对于目标文本的TF,其中,该调整后的影响因子的权重值根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整而得到的,该评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注;根据每个候选词对应的TF以及IDF确定主题词。本实施例中,基于调整后影响因子的权重值所确定出的目标文本的主题词更符合该目标文本实际的主题词,进而可以提高提取主题词的准确性。

Description

一种主题词的提取方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种主题词的提取方法、装置、设备及存储介质。
背景技术
主题词,通常能够高度概括文本的中心思想。比如,对于一篇介绍“考拉”(一种动物)的文章,其通篇内容通常围绕“考拉”进行描述,则,该篇文章的主题词可以为“考拉”。实际应用中,为文本提取出主题词,在文本检索、文本推送等诸多领域中存在广泛应用。
主题词的提取精度,对于文本检索和推送的服务质量等通常存在着重要影响。因此,如何提高主题词的提取精度,是当前亟需解决的重要问题。
发明内容
为了解决上述问题,本申请实施例提供了一种主题词的提取方法、装置、设备及存储介质,以提高所提取的文本主题词的准确性。
第一方面,本申请实施例提供了一种主题词的提取方法,所述方法包括:
获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
在一些可能的实施方式中,所述方法还包括:
根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
在一些可能的实施方式中,所述方法还包括:
响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
在一些可能的实施方式中,所述方法还包括:
对所述目标文本进行分词,得到所述目标文本的初始分词结果;
对所述初始分词结果所包含的各个词进行词性标注;
根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
在一些可能的实施方式中,所述影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种。
第二方面,本申请实施例还提供了一种主题词的提取装置,所述装置包括:
获取模块,用于获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
计算模块,用于根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
第一确定模块,用于根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
在一些可能的实施方式中,所述装置还包括:
降低模块,用于根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
增加模块,用于根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
在一些可能的实施方式中,所述装置还包括:
第二确定模块,用于响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
第三确定模块,用于响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
在一些可能的实施方式中,所述装置还包括:
分词模块,用于对所述目标文本进行分词,得到所述目标文本的初始分词结果;
标注模块,用于对所述初始分词结果所包含的各个词进行词性标注;
过滤模块,用于根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
在一些可能的实施方式中,所述影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种。
第三方面,本申请实施例还提供了一种设备,所述设备包括存储器以及处理器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行上述第一方面中任一种实施方式所述的主题词的提取方法
第四方面,本申请实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述第一方面中任一种实施方式所述的主题词的提取方法。
在本申请实施例的上述实现方式中,可以先获取目标文本的候选词集合中每个候选词对应的IDF,该候选词集合中包括目标文本的多个分词,同时,可以根据该候选词集合中候选词的总数以及调整后的影响因子的权重值计算出候选词集合中每个候选词相对于目标文本的TF,由此可以得到每个候选词对应的TF以及IDF。值得注意的是,该调整后的影响因子的权重值可以是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整而得到的,而该第一文本的主题词可以基于该第一文本中的分词相对于第一文本的第一TF以及第一IDF进行确定,该第一TF是根据第一文本对应的分词总数以及该影响因子的初始权重值进行确定,该评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注。这样,可以进一步根据候选词集合中每个候选词对应的TF以及IDF,可以从候选词集合中确定出目标文本的主题词。可见,在提取目标文本的主题词的过程中,根据用于评判主题词是否合格的评注结果对用于计算分词TF的影响因子的权重值进行调整,可以降低不适用作为主题词的分词的词频,而提高适用于作为主题词的分词的词频,从而可以使得基于调整后影响因子的权重值所确定出的目标文本的主题词更符合该目标文本实际的主题词,进而可以提高为目标文本提取的主题词的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一示例性应用场景示意图;
图2为本申请实施例中一种主题词的提取方法流程示意图;
图3为本申请实施例中一种主题词的提取装置结构示意图;
图4为本申请实施例中一种设备的硬件结构示意图。
具体实施方式
目前,通常是利用词频-逆文本频率(Term Frequency–Inverse DocumentFrequency,TF-IDF)算法来提取文本的主题词。其中,TF-IDF算法的主要思想是:如果文本中的某个词在一篇文章中出现的频率(即词频TF)高,并且在其它文章中很少出现(即逆文本频率IDF较高),则认为该词具有很好的类别区分能力,适合用于作为该文本的主题词。具体实现时,可以利用下述公式(1)计算出文本中每一个词所对应的TF值:
Figure BDA0002334349160000051
其中,n为该关键词在一篇文本中出现的次数,∑kni为该文本中所有的分词总数。
关键词的IDF值可以通过下述公式(2)进行计算得到:
Figure BDA0002334349160000052
其中,|D|为文本库中的文本总数,|{j:{ti∈dj}|为包含该关键词的文本总数。
然后,计算该关键词的TF与IDF的乘积,即可得到该关键词对应的TF-IDF值。从而从多个分词中挑选出TF-IDF值最高的分词作为该文本的主题词。
但是,实际应用中,每次都是基于固定的TF-IDF算法为文本提取主题词,但是并没有对于所提取出的主题词是否准确进行反馈,更没有基于对主题词准确与否的反馈来影响下一次所提取出的主题词,从而使得所提取出的主题词的准确性始终处于较低的状态,而为文本所提取的主题词的准确性,可能会成为评价客户端服务质量的重要指标。以文章为例,在当今信息化爆炸的时代,网络上存在着海量文章,如各种官方新闻、博客、期刊、论文等,涉及到工作生活的各个方面。相应的,当用户期望从海量的文章中搜索出自己所感兴趣的文章时,若为文本所提取的主题词的准确性较低,虽然搜索出的文章的主题词与用户在客户端上所输入的检索关键词相匹配,但是所搜索出的文章内容通常并不符合用户的预期,这就使得用户的搜索体验较差,降低了客户端的服务质量。
基于此,本申请实施例提供了一种主题词的提取方法,旨在提高所提取的主题词的准确性。具体的,可以先获取目标文本的候选词集合中每个候选词对应的IDF,该候选词集合中包括目标文本的多个分词,同时,可以根据该候选词集合中候选词的总数以及调整后的影响因子的权重值计算出候选词集合中每个候选词相对于目标文本的TF,由此可以得到每个候选词对应的TF以及IDF。值得注意的是,该调整后的影响因子的权重值可以是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整而得到的,而该第一文本的主题词可以基于该第一文本中的分词相对于第一文本的第一TF以及第一IDF进行确定,该第一TF是根据第一文本对应的分词总数以及该影响因子的初始权重值进行确定,该评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注。这样,可以进一步根据候选词集合中每个候选词对应的TF以及IDF,可以从候选词集合中确定出目标文本的主题词。可见,在提取目标文本的主题词的过程中,根据用于评判主题词是否合格的评注结果对用于计算分词TF的影响因子的权重值进行调整,可以降低不适用作为主题词的分词的词频,而提高适用于作为主题词的分词的词频,从而可以使得基于调整后影响因子的权重值所确定出的目标文本的主题词更符合该目标文本实际的主题词,进而可以提高为目标文本提取的主题词的准确性。
作为一种示例,本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中,用户101可以在终端102上输入文本,以便利用终端102上的计算资源提取出该文本的主题词。终端102在接收到该文本后,可以对该文本进行分词处理,从而可以得到该文本的候选词集合,该候选词集合中包括文本的多个分词。然后,终端102可以计算出该候选词集合中每个候选词对应的IDF,同时,终端102可以根据该候选词集合中候选词的总数以及调整后的影响因子的权重值计算出候选词集合中每个候选词相对于目标文本的TF,由此可以得到每个候选词对应的TF以及IDF。其中,该调整后的影响因子的权重值是可以根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整而得到的,而该第一文本的主题词可以基于该第一文本中的分词相对于第一文本的第一TF以及第一IDF进行确定,该第一TF是根据第一文本对应的分词总数以及该影响因子的初始权重值进行确定,该评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注。最后,终端102可以进一步根据候选词集合中每个候选词对应的TF以及IDF,可以从候选词集合中确定出目标文本的主题词,并将所确定出的主题词在终端102的显示屏上呈现给用户101。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。比如,在其它可能的场景中,提取目文本的主题词所需的计算量较大,而终端102上的计算资源有限,则终端102可以将该文本发送至服务器,以请求服务器执行相应的处理,获得该文本的主题词,这样,利用服务器的计算资源与计算能力可以更快速的为该文本提取出主题词。总之,本申请实施例可以应用于任何可适用的场景中,而不局限于上述场景示例。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
参阅图2,图2示出了本申请实施例中一种主题词的提取方法的流程示意图。该方法可以是由上述图1所示的终端102进行处理,上述其它场景示例中所述的服务器进行处理,当然也可以是终端102与上述服务器协同处理等。
具体的,该方法可以包括:
S201:获取目标文本的候选词集合中每个候选词对应的IDF,该候选词集合中可以包括目标文本的多个分词。
本实施例中,在为文本提取主题词时,可以是从该文本中选择一个词作为该文本的主题词。因此,当需要对某个文本(为便于描述,以下称之为目标文本,其例如可以是文章、网页上的一段或者多段话等)进行主题词提取时,可以对该目标文本进行分词处理,如利用已有的分词器进行处理等,得到该目标文本对应的分词集合,然后从该分词集合中选择确定出一个或者多个分词作为该目标文本的主题词。
可以理解,实际应用中,目标文本所包含的部分词性的分词,通常为该目标文本的主题词的可能性较低,例如文章中出现的助词、连词以及代词等,基于此,在一些可能的实施方式中,可以根据词性对目标文本中的词进行过滤,并从过滤得到的词中确定出目标文本的主题词。具体实现时,可以先对目标文本进行分词处理,得到该目标文本的初始分词结果,然后,可以对于该初始分词结果所包含的各个分词进行词性标注,从而可以根据该初始分词结果中各个分词的词性对该初始分词结果进行分词过滤,得到候选词集合,从而目标文本的主题词可以从该候选词集合所包括的候选词中进行确定。在一种示例中,该候选词集合中的候选词所具有的词性可以为名词或者动词,而其它词性(如副词、介词、连词、助词、叹词、拟声词、语气词等)的分词可以被过滤。当然,在其它可能的设计中,候选词所具有的词性也可以是其它词性,如副词等。
进一步的,除了上述根据词性对初始分词结果进行分词过滤以外,还可以对初始分词结果中不具有词性的一些特殊分词进行过滤。比如,实际应用的部分文本中,还可能包含有数字等特殊词,而这些特殊词为文本主题词的可能性较低,因此,本实施例中还可以对这些特殊词进行过滤。
当然,实际应用中,也可以是不执行上述过滤过程,即,对目标文本进行分词处理后,也可以直接从分词得到的包含多种词性的分词中确定出该目标文本的主题词。
基于上述过程确定目标文本的候选词集合后,可以计算出每个候选词所对应的IDF,具体可以是通过前述公式(2)进行计算得到。
S202:根据候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出候选词集合中每个候选词相对于该目标文本的TF,其中,调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,该第一文本的主题词是基于第一文本中的分词相对于第一文本的第一TF以及第一IDF进行确定,该第一TF是根据第一文本对应的分词总数以及影响因子的初始权重值进行确定,评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注。
本实施例中,在为候选词确定其相对于目标文本的TF时,并非是计算该候选词在目标文本中出现的次数与候选词集合中候选词总数之间的比值,而是计算调整后的影响因子的权重值与候选词总数之间的比值,来得到该候选词对应的TF。
在一种示例中,影响因子具体可以是包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种,并且,不同影响因子可以具有对应的不同权重。其中,在获取文本时可以确定出该文本所属的类别,比如,在从体育网站中爬取一篇介绍“冰壶”(一种奥运会运动)的文章时,可以确定出该文章所属于的文本类别为“体育”,相应的,在为该文本提取主题词时,所提取的主题词通常也应该符合该文本类别,则可以将文本类别作为影响因子。同时,由于目前作为文本主题词的分词,其词性多为名词(当然,也可以是动词、副词等),因此,可以基于分词所具有的词性来确定该分词对应的权重值,分词所具有的词性也可以作为影响因子。另外,按照目前大多数文本的行文习惯,位于特定段落中的分词作为主题词的概率相对较高,比如,较多文本的主题通常是位于文本的第一段或者最后一段等,因此,也可以将分词所在段落在文本中的位置作为分词对应的影响因子。类似的,对于一个段落中的分词,位于该段落中特定位置处的分词相较于该段落其它位置处的分词而言,作为文本主题词的可能性也存在较高的情况,比如,通常段落的起始语句或者结束语句中所包含的分词通常更能体现文本的主旨,因此,该位置处的分词作为文本主题词的可能性也会相对较高。另外,分词本身的质量也可以决定该分词是否适合作为主题词,比如,对于一些常用词“众所周知”、“显而易见”等,其通常无法体现文本主旨,但是基于目前的行文习惯,其可能会与适合作为主题词的分词处于相近位置,则可能会误将低质量分词作为主题词,从而也会影响着最终所确定出的主题词的准确性,因此,分词质量也可以作为影响因子。
当影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的多种时,影响因子的权重值即为多个影响因子的权重值。在一种示例中,当基于多个影响因子的权重值计算分词的TF时,可以是根据下述公式(3)进行计算:
Figure BDA0002334349160000101
其中,fi,t表示分词在文本中第i次出现位置处对应的第t个影响因子的权重值,∑tfi,t表示该分词文本中第i次出现位置处对应的所有影响因子的权重值总和,∑i(1+lg(1+∑tfi,t))表示分词在文本中所有出现位置处对应的所有影响因子的权重值总和的总和,∑knk,j表示文本中所有分词对应的影响因子权重值的总和。
当然,基于上述公式(3),也可以是利用其它相似公式进行权重计算,比如,在一些可能的实施方式中,上述公式(3)中的∑i(1+lg(1+∑tfi,t))也可以是替换为∑itfi,t等。
需要说明的是,在基于上述公式进行TF计算时,影响因子的权重值具体可以是调整后的影响因子的权重值,其可以是通过调整其它文本(为便于描述,以下称之为第一文本)进行提取主题词时所采用的影响因子的初始权重值而得到的,而如何调整影响因子的权重值可以是根据针对于该第一文本主题词的评注结果进行确定。
具体的,可以计算第一文本中的分词所对应的影响因子的初始权重值,以及第一文本所对应的分词总数,得到该分词相对于第一文本中的第一TF,并根据前述公式(2)计算出该分词的第一IDF,从而基于第一文本中每个分词对应的第一TF与第一IDF,为第一文本确定主题词。其中,该第一文本所对应的分词总数,可以是第一文本未进行分词过滤时所具有的分词总数,也可以是第一文本进行分词过滤后剩余的分词总数。
但是,该影响因子的初始权重值的取值可能并不合适,从而无法将第一文本中适合作为其主题词的分词与其它分词进行有效区分,相应的,该影响因子的初始权重值的取值可能使得最终为第一文本提取的主题词的准确性较低。基于此,本实施例中,在已知为第一文本所提取的主题词的情况下,可以对该主题词进行人工评注,得到包括针对于该主题词的合格理由评注和/或不合格理由评注的评注结果,其中,该合格理由评注以及不合格理由评注均可以是在一个或者多个方面对该主题词是否合格进行评述的理由。若根据评注结果确定该已提取的主题词在某个方面不适合作为主题词时,可以对影响因子的初始权重值进行针对性的调整,得到调整后的影响因子的权重值。这样,基于调整后的影响因子的权重值再为文本确定出主题词时,该方面因素对于主题词与其它分词之间的区分度可以得到适当降低,以便根据其它方面的因素能够从文本中确定出更合适的主题词,提高提取主题词的准确性。
作为一种示例,当评注结果中包含不合格理由评注时,可以根据该不合格理由评注降低与之对应的影响因子的初始权重值,而当评注结果中包含合格理由评注时,可以增加与之对应的影响因子的初始权重值,以此来增加文本中适合作为其主题词的分词与其它分词之间的区分度。
举例来说,假设影响因子同时包括文本类别、词性以及分词质量,则当不合格理由评注表征该主题词与文本类别不符,并且分词质量较低时,则可以降低该文本类别对应的权重值以及分词质量对应的权重值,同时评注结果中所包括的合格理由评注表征该主题词为名词,则可以增加词性所对应的权重值。
当然,在其它的实施方式中,当评注结果中包含不合格理由评注时,可以根据该不合格理由评注降低与之对应的影响因子的初始权重值,而当评注结果中包含合格理由评注时,影响因子的初始权重值保持不变。或者,当评注结果中包含不合格理由评注时,影响因子的初始权重值保持不变,而当评注结果中包含合格理由评注时,可以根据该合格理由评注增加与之对应的影响因子的初始权重值。
在为目标文本提取出主题词之前,可以利用一个或者多个第一文本来调整影响因子的权重值。当采用多个第一文本调整影响因子的权重值时,具体可以是通过迭代调整的方式,对影响因子的权重值进行不断修正,即在利用影响因子的权重值提取出第一个第一文本后,可以通过根据针对于该第一个第一文本的主题词的评注结果对该影响因子的权重值进行第一次调整;然后,再利用该第一次调整后所得到的影响因子的权重值提取第二个第一文本的主题词,并基于该第二个第一文本的主题词的评注结果对影响因子的权重值进行第二次调整;接着,在利用该第二次调整后所得到的影响因子的权重值提取第三个第一文本的主题词,并基于该第三个第一文本的主题词的评注结果对影响因子的权重值进行第三次调整,以此类推,可以通过迭代调整的方式,对影响因子的权重值进行不断修正,从而使得基于调整后的影响因子的权重值所提取出的文本主题词的精确度处于较高水平。这样,在利用调整后的影响因子的权重值提取目标文本的主题词时,可以使得所提取的主题词更加符合该目标文本实际的主题词。
其中,为方便技术人员对第一文本的主题词进行评注,在一些可能的实施方式中,可以为技术人员呈现多个合格理由候选项以及多个不合格理由候选项,这样,当技术人员确定为第一文本所提取的主题词存在合格和/或不合格的款项时,可以从呈现的相应候选项中进行选择。这样,通过响应技术人员针对于合格理由候选项的第一选择操作,可以为该第一文本的主题词确定合格理由评注,并将其作为该主题词的批注结果,和/或,响应技术人员针对于不合格理由候选项的第二选择操作,可以为第一文本的主题词确定不合格理由评注,并将该不合格理由评注作为评注结果。实际应用中,上述合格理由候选项与不合格理由候选项可以是以多选框选择表达式的方式呈现给技术人员,以便于技术人员进行评注。
S203:根据每个候选词对应的TF以IDF,从候选词集合中确定出目标文本的主题词。
本实施例中,基于步骤S201与步骤S202计算得到每个候选词对应的TF以及IDF后,可以进一步计算出该候选词对应的TF与IDF的乘积,从而得到每个该候选词对应的TF-IDF值。这样,在确定目标文本的主题词时,可以将候选词集合中对应于最大TF-IDF值的候选词确定为目标文本的主题词,或者,可以将候选词集合TF-IDF值较大的多个候选词确定为目标文本的主题词,此时可以为目标文本确定出多个主题词。
本实施例中,可以先获取目标文本的候选词集合中每个候选词对应的IDF,该候选词集合中包括目标文本的多个分词,同时,可以根据该候选词集合中候选词的总数以及调整后的影响因子的权重值计算出候选词集合中每个候选词相对于目标文本的TF,由此可以得到每个候选词对应的TF以及IDF。值得注意的是,该调整后的影响因子的权重值可以是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整而得到的,而该第一文本的主题词可以基于该第一文本中的分词相对于第一文本的第一TF以及第一IDF进行确定,该第一TF是根据第一文本对应的分词总数以及该影响因子的初始权重值进行确定,该评注结果包括针对于第一文本的主题词的合格理由评注和/或不合格理由评注。这样,可以进一步根据候选词集合中每个候选词对应的TF以及IDF,可以从候选词集合中确定出目标文本的主题词。可见,在提取目标文本的主题词的过程中,根据用于评判主题词是否合格的评注结果对用于计算分词TF的影响因子的权重值进行调整,可以降低不适用作为主题词的分词的词频,而提高适用于作为主题词的分词的词频,从而可以使得基于调整后影响因子的权重值所确定出的目标文本的主题词更符合该目标文本实际的主题词,进而可以提高为目标文本提取的主题词的准确性。
此外,本申请实施例还提供了一种主题词的提取装置。参阅图3,图3示出了本申请实施例中一种主题词的提取装置的结构示意图,该装置300具体可以包括:
获取模块301,用于获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
计算模块302,用于根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
第一确定模块303,用于根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
在一些可能的实施方式中,所述装置300还包括:
降低模块,用于根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
增加模块,用于根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
在一些可能的实施方式中,所述装置300还包括:
第二确定模块,用于响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
第三确定模块,用于响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
在一些可能的实施方式中,所述装置300还包括:
分词模块,用于对所述目标文本进行分词,得到所述目标文本的初始分词结果;
标注模块,用于对所述初始分词结果所包含的各个词进行词性标注;
过滤模块,用于根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
在一些可能的实施方式中,所述影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种。
需要说明的是,上述装置各模块、单元之间的信息交互、执行过程等内容,由于与本申请实施例中方法实施例基于同一构思,其带来的技术效果与本申请实施例中方法实施例相同,具体内容可参见本申请实施例前述所示的方法实施例中的叙述,此处不再赘述。
此外,本申请实施例还提供了一种设备。参阅图4,图4示出了本申请实施例中一种设备的硬件结构示意图,该设备400可以包括处理器401以及存储器402。
其中,所述存储器402,用于存储计算机程序;
所述处理器401,用于根据所述计算机程序执行如下步骤:
获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
所述处理器401,还用于根据所述计算机程序执行如下步骤:
根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
所述处理器401,还用于根据所述计算机程序执行如下步骤:
响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
所述处理器401,还用于根据所述计算机程序执行如下步骤:
对所述目标文本进行分词,得到所述目标文本的初始分词结果;
对所述初始分词结果所包含的各个词进行词性标注;
根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
在一些可能的实施方式中,所述影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种。
此外,本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意拼接来实现。如果在软件中实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
作为一种可选的设计,计算机可读介质可以包括RAM,ROM,EEPROM,CD-ROM或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD),激光盘,光盘,数字通用光盘(DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的拼接也应包括在计算机可读介质的范围内。
需要说明的是,本申请中“的(英文:of)”,相应的“(英文corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请中,“至少一个”是指一个或者多个。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意拼接,包括单项(个)或复数项(个)的任意拼接。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

Claims (10)

1.一种主题词的提取方法,其特征在于,所述方法包括:
获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标文本进行分词,得到所述目标文本的初始分词结果;
对所述初始分词结果所包含的各个词进行词性标注;
根据分词的词性对所述初始分词结果进行分词过滤,得到所述候选词集合,所述候选词集合中候选词的词性为名词、动词或副词。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述影响因子包括文本类别、词性、分词所属目标段落在文本中的位置、分词在所述目标段落中的位置以及分词质量中的任意一种或多种。
6.一种主题词的提取装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本的候选词集合中每个候选词对应的逆文本词频IDF,所述候选词集合中包括所述目标文本的多个分词;
计算模块,用于根据所述候选词集合中候选词的总数以及调整后的影响因子的权重值,计算出所述候选词集合中每个候选词相对于所述目标文本的词频TF;
其中,所述调整后的影响因子的权重值是根据第一文本的主题词的评注结果对影响因子的初始权重值进行调整得到,所述第一文本的主题词是基于所述第一文本中的分词相对于所述第一文本的第一TF以及第一IDF进行确定,所述第一TF是根据所述第一文本对应的分词总数以及所述影响因子的初始权重值进行确定,所述评注结果包括针对于所述第一文本的主题词的合格理由评注和/或不合格理由评注;
第一确定模块,用于根据每个候选词对应的TF以及IDF,从所述候选词集合中确定出所述目标文本的主题词。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
降低模块,用于根据所述评注结果中的不合格理由评注,降低所述不合格理由评注对应的影响因子的初始权重值;
和/或,
增加模块,用于根据所述评注结果中的合格理由评注,增加所述合格理由评注对应的影响因子的初始权重值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于响应于针对合格理由候选项的第一选择操作,为所述第一文本的主题词确定所述合格理由评注;
和/或,
第三确定模块,用于响应于针对于不合格理由候选项的第二选择操作,为所述第一文本的主题词确定所述不合格理由评注。
9.一种设备,其特征在于,所述设备包括存储器以及处理器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的主题词的提取方法。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至5任一所述的主题词的提取方法。
CN201911349710.4A 2019-12-24 2019-12-24 一种主题词的提取方法、装置、设备及存储介质 Active CN111046169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911349710.4A CN111046169B (zh) 2019-12-24 2019-12-24 一种主题词的提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911349710.4A CN111046169B (zh) 2019-12-24 2019-12-24 一种主题词的提取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111046169A true CN111046169A (zh) 2020-04-21
CN111046169B CN111046169B (zh) 2024-03-26

Family

ID=70239016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911349710.4A Active CN111046169B (zh) 2019-12-24 2019-12-24 一种主题词的提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111046169B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619410A (en) * 1993-03-29 1997-04-08 Nec Corporation Keyword extraction apparatus for Japanese texts
US20090228468A1 (en) * 2008-03-04 2009-09-10 Microsoft Corporation Using core words to extract key phrases from documents
WO2011079416A1 (en) * 2009-12-30 2011-07-07 Google Inc. Category-sensitive ranking for text
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
WO2016170561A1 (en) * 2015-04-24 2016-10-27 Nec Corporation An information processing system and an information processing method for semantic enrichment of text
JP2016186768A (ja) * 2015-03-27 2016-10-27 日本放送協会 候補キーワード評価装置及び候補キーワード評価プログラム
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
WO2017188606A2 (ko) * 2016-04-27 2017-11-02 삼성전자 주식회사 부가 정보를 제공하는 단말 장치 및 제공 방법
CN107861927A (zh) * 2017-09-21 2018-03-30 广州视源电子科技股份有限公司 文档注释方法、装置、可读存储介质及计算机设备
CN109977206A (zh) * 2019-03-20 2019-07-05 西北大学 一种基于多特征因素相融合的短文本特征提取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619410A (en) * 1993-03-29 1997-04-08 Nec Corporation Keyword extraction apparatus for Japanese texts
US20090228468A1 (en) * 2008-03-04 2009-09-10 Microsoft Corporation Using core words to extract key phrases from documents
WO2011079416A1 (en) * 2009-12-30 2011-07-07 Google Inc. Category-sensitive ranking for text
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
JP2016186768A (ja) * 2015-03-27 2016-10-27 日本放送協会 候補キーワード評価装置及び候補キーワード評価プログラム
WO2016170561A1 (en) * 2015-04-24 2016-10-27 Nec Corporation An information processing system and an information processing method for semantic enrichment of text
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN105630769A (zh) * 2015-12-24 2016-06-01 东软集团股份有限公司 文档主题词提取方法及装置
WO2017188606A2 (ko) * 2016-04-27 2017-11-02 삼성전자 주식회사 부가 정보를 제공하는 단말 장치 및 제공 방법
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107861927A (zh) * 2017-09-21 2018-03-30 广州视源电子科技股份有限公司 文档注释方法、装置、可读存储介质及计算机设备
CN109977206A (zh) * 2019-03-20 2019-07-05 西北大学 一种基于多特征因素相融合的短文本特征提取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置
CN111709226B (zh) * 2020-06-18 2023-10-13 中国银行股份有限公司 一种文本处理方法及装置
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN113392637B (zh) * 2021-06-24 2023-02-07 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111046169B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
US11468234B2 (en) Identifying linguistic replacements to improve textual message effectiveness
US9146915B2 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US8972413B2 (en) System and method for matching comment data to text data
CN111126060B (zh) 一种主题词的提取方法、装置、设备及存储介质
Korenek et al. Sentiment analysis on microblog utilizing appraisal theory
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN106407280B (zh) 查询目标匹配方法及装置
US9189470B2 (en) Generation of explanatory summaries
US10025783B2 (en) Identifying similar documents using graphs
US20110112824A1 (en) Determining at least one category path for identifying input text
Habibi et al. Diverse keyword extraction from conversations
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN111046169B (zh) 一种主题词的提取方法、装置、设备及存储介质
US10699078B2 (en) Comment-centered news reader
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
JPWO2010035412A1 (ja) 情報分析装置、情報分析方法、及びプログラム
CN111460177B (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.
US20230090601A1 (en) System and method for polarity analysis
CN116484829A (zh) 用于信息处理的方法和设备
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
WO2010132062A1 (en) System and methods for sentiment analysis
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant