CN106708803A - 一种特征提取方法及装置 - Google Patents

一种特征提取方法及装置 Download PDF

Info

Publication number
CN106708803A
CN106708803A CN201611192135.8A CN201611192135A CN106708803A CN 106708803 A CN106708803 A CN 106708803A CN 201611192135 A CN201611192135 A CN 201611192135A CN 106708803 A CN106708803 A CN 106708803A
Authority
CN
China
Prior art keywords
word
pending text
target topic
frequency
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611192135.8A
Other languages
English (en)
Inventor
董超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611192135.8A priority Critical patent/CN106708803A/zh
Publication of CN106708803A publication Critical patent/CN106708803A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种特征提取方法及装置,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。

Description

一种特征提取方法及装置
技术领域
本发明属于文本挖掘技术领域,更具体的说,尤其涉及一种特征提取方法及装置。
背景技术
随着互联网的日益普及,文本信息迅速膨胀。例如,在Internet(网络)上每天有数十万的网页更新,数百万新的网页加入,使得Internet上的信息丰富而又复杂。如何有效地组织和管理这些信息,并快速、准确、全面地从众多文本信息中挖掘出用户所需要的信息是当前文本挖掘领域面临的一大挑战。
在文本挖掘领域中,文本特征提取是文本挖掘领域中的关键环节,而词作为自然语言的理解单元,会作为文本特征被提取出来。目前文本特征的提取方式是基于词频的方式,即根据词在文本中出现的频率来提取,这种提取方式仅考虑文本中单个词的重要性,从而降低特征提取的准确度。
发明内容
有鉴于此,本发明的目的在于提供一种特征提取方法及装置,用于提高特征提取的准确度。具体的,技术方案如下:
本发明提供一种特征提取方法,所述方法:
从待处理文本中提取各个词;
获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;
计算所述各个词与各个目标主题的相关度;
根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;
根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。
优选地,所述计算所述各个词与各个目标主题的相关度,包括:
计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;
计算所述各个目标主题在所述待处理文本中出现的频率;
计算所述各个词在所述待处理文本中出现的频率;
根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。
优选地,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:
计算所述待处理文本出现的频率;
根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。
优选地,所述计算所述各个词在所述待处理文本中出现的频率,包括:
计算所述各个词的词频和从所述待处理文本中提取的词的总数;
根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。
优选地,所述从所包含的各个主题中选取至少一个目标主题,包括:
根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;
选取排序在其他主题前的预设数量的主题分别作为目标主题。
本发明还提供一种特征提取装置,所述装置:
提取单元,用于从待处理文本中提取各个词;
主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;
主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;
文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;
特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。
优选地,所述主题相关度计算单元,包括:
第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;
第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;
第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;
相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。
优选地,所述第二计算子单元,具体用于计算所述待处理文本出现的频率,并根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。
优选地,所述第三计算子单元,具体用于计算所述各个词的词频和从所述待处理文本中提取的词的总数,并根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。
优选地,所述主题获取单元,具体用于根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,并选取排序在其他主题前的预设数量的主题分别作为目标主题。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
通过上述技术方案,对于任一待处理文本,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的特征提取方法的流程图;
图2是本发明实施例提供的获取词与目标主题的相关度的流程图;
图3是本发明实施例提供的特征提取装置的结构示意图;
图4是本发明实施例提供的特征提取装置中主题相关度获取单元的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的特征提取方法的一种流程图,用于提取与目标主题相关的词作为待处理文本的特征,以提供特征提取的准确度。具体的,本发明实施例提供的特征提取方法可以包括以下步骤:
101:从待处理文本中提取各个词。可以理解的是:待处理文本是当前需要进行特征提取的文本,其可以是由至少一条句子组成,而词是待处理文本中组成句子的最小单位,在获取到待处理文本后,可以从待处理文本中提取出每条句子中的每个词。在本发明实施例中,可以通过分词技术对每条句子进行分词处理,以从每条句子中提取到对应的词。
102:获取待处理文本包含的各个主题,并从各个主题中选取至少一个目标主题。其中主题是待处理文本表现的内容,一篇待处理文本包含多个主题,但是并不是每个主题表现的内容是待处理文本的主要内容,因此在获取到各个主题后需要从中选取出表现待处理文本的主要内容的目标主题。
在本发明实施例中,选取目标主题的一种可行方式是:根据待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的预设数量的主题分别作为目标主题。
其中待处理文本中各个主题的概率可以通过主题模型来得到,如LDA(LatentDirichlet Allocation,文档主题生成模型)作为一个主题模型,其可以输出两个概率,分别是文本中各个主题的概率P(t|d)以及主题中各个词的概率P(w|t),因此通过LDA可以得到待处理文本中各个主题的概率,其中t是主题,d是待处理文本,w是词。
在训练LDA过程中,为LDA设置的主题数K较大,一般是几十,甚至几百,而一篇待处理文本中表示主要内容的目标主题的数量远远小于主题数K,因此获取到的各个主题中冗余主题的数量比较多,为此本发明实施例需要根据待处理文本中各个主题的概率来从各个主题中选取目标主题。
发明人经过多次实践发现,一篇待处理文本中表示主要内容的目标主题的预设数量小于等于5个,因此在获取到待处理文本中各个主题的概率后,根据待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的5个主题分别作为目标主题。
103:计算各个词与各个目标主题的相关度。可以理解的是:相关度是指词与目标主题之间存在相互联系的百分比,如果词能够反映出目标主题表达的含义,则说明词与目标主题相关,词与目标主题的相关度较高,如果词不能够反映出目标主题表达的含义,则说明词与目标主题无关,词与目标主题的相关度较低,甚至可以将词与目标主题的相关度设为0。
下面从待处理文本中目标主题的概率来说明如何获取各个词与各个目标主题的相关度,待处理文本中目标主题的概率可以表示为:
wi是提取的第i个词,并且从上述待处理文本中目标主题的概率的表示公式可知:待处理文本中目标主题的概率可以看做是提取的各个词对目标主题的共同贡献的结果,而不同词对目标主题的贡献度(词可体现出目标主题表达的含义的程度)大小不同,为此需要获取对目标主题贡献度较大的词,即找到取值较大的P(t|wi)。然而,待处理文本中目标主题的概率也不同,因此本发明实施例中定义词与目标主题的相关度为:
ScCre(w)=P(t|d)*P(t|w)
通过主题模型——LDA可以得到P(t|d)以及P(w|t),因此相关度的计算公式中的P(t|w)是未知的,但是根据贝叶斯定理可知:
因此获取词与目标主题的相关度被转换成求P(t)和P(w),P(w)表示词在待处理文本中出现的频率,其计算公式为:
至此获取词与目标主题的相关度被转换成求P(t),P(t)为目标主题在待处理文本中出现的频率。同样,根据贝叶斯定理可知:
P(t)=∑d∈DP(t|d)P(d)
其中,P(t|d)已知,P(d)表示待处理文本出现的概率,而对于任一待处理文本来说,可以认为其出现的概率都是独立的,因此P(d)等于1。
通过上述分析,可以得出词与目标概率的相关度的计算公式如下:
相对应的,计算各个词与各个目标主题的相关度的过程如图2所示,可以包括以下步骤:
201:计算各个目标主题中各个词的概率P(w|t)和待处理文本中各个目标主题的概率P(t|d)。
202:计算各个目标主题在待处理文本中出现的频率。
可选的,计算各个目标主题在待处理文本中出现的频率包括:计算待处理文本出现的频率P(d),根据待处理文本中各个目标主题的概率P(t|d)和待处理文本出现的频率P(d),计算各个目标主题在待处理文本中出现的频率P(t),对应的计算公式为:P(t)=∑d∈DP(t|d)P(d)。
203:计算各个词在待处理文本中出现的频率。可选的,计算各个词在待处理文本中出现的频率包括:计算各个词的词频Count(w)和从待处理文本中提取的词的总数TotalCount,根据各个词的词频Count(w)和从待处理文本中提取的词的总数TotalCount,计算各个词在待处理文本中出现的频率P(w),对应的计算公式为:
204:根据各个目标主题在待处理文本中出现的频率、各个词在待处理文本中出现的频率、各个目标主题中各个词的概率和待处理文本中各个目标主题的概率,计算各个词与各个目标主题的相关度。
对应的计算公式是:
在这里需要说明的一点是:上述步骤201至步骤203的执行顺序可以是:顺次执行,如按照步骤201——步骤202——步骤203或者按照步骤202——步骤201——步骤203来执行,即在顺次执行时可以对步骤201至步骤203任意排列,按照排列后的顺序顺次执行,当然上述步骤201至步骤203也可以并列执行,因此本发明实施例并不因步骤标号而限定各个步骤的执行顺序。
104:根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度。其中词与待处理文本的相关度是对应词在各个目标主题的相关度之和,如选取的目标主题有5个,则通过上述计算公式可以得到词分别对这5个目标主题的相关度,然后将词分别对这5个目标主题的相关度求和,得到词与待处理文本的相关度,通过词与待处理文本的相关度,可以指示出词是否能够反映出待处理文本的主要内容,如果词与待处理文本的相关度较高,说明词能够反映出待处理文本的主要内容,如果词与待处理文本的相关度较低,则说明词反映出待处理文本的主要内容的可能性较低。
105:根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。
在本发明实施例中,选取词的一种可行方式是:根据各个词与待处理文本的相关度,对各个词按照相关度由大到小的方式进行排序,选取排序在其他词前的预设个数的词作为待处理文本的特征,其中预设个数可以根据实际应用而定,本发明实施例不限定其取值。
从上述技术方案可知,本发明实施例提供的特征提取方法根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,使得作为特征的词在主题方面更能反映待处理文本的主要内容,进而提高特征提取的准确度。并且通过本发明实施例提供的特征提取方法,可以从提取的词中过滤掉噪声词(即与主要内容无关的词),减少噪声词对后续处理过程的影响。
下面通过实例来说明本发明实施例提供的特征提取方法可提高特征提取的准确度,实例是标题为“美大选日加移民网站被挤爆加官员:美国人占一半”的一篇新闻,部分内容如下:
【观察者网综合】美国当地时间8日晚11时左右,近20万人涌入加拿大移民网站,导致该网站陷入瘫痪。而同一时段,美国大选开票显示特朗普领先希拉里,并逐渐扩大优势。外界此前普遍认为美国民众导致了这一事件。据赫芬顿邮报9日报道,加拿大政府移民部发言人勒萨热(SoniaLesage)证实,当日近半数IP来自美国,是正常访问量5倍之多。11月8日晚,美国总统大选开票显示特朗普领先时,瞬间有大量美国人登录加拿大移民部网站,导致网站崩溃。加拿大电视台CTV报道称,当晚11点加拿大移民部官网陷入崩溃,两个小时后依旧没有恢复。即使宣布特朗普获胜后,依旧无法打开网页,直到9日早晨才恢复正常。
……据悉,美国互联网用户到访移民部网站的次数从美国大选开始阶段就稳步上升,今年3月达至总数170万点击率的高位,上月也有106万次点击,比去年同期的88万次上升21%。9日,加拿大政府对此还“适时地”发布了一条推文称,“在加拿大,我们鼓励所有的移民带来他们自己的文化传统,并且分享给加拿大市民”。Mainstreet公司总裁马奇(QuitoMaggi)表示,申请加拿大的过程复杂、繁琐,唯一的例外就是“难民”,例如先前的叙利亚难民危机,加拿大破例接受了大批难民,但“沮丧的美国民主党人并不符合难民资格”。
应用本发明实施例提供的特征提取方法从上述新闻内容(视为待处理文本并)中提取特征的过程如下:
(1)、对上述新闻内容进行中文分词处理,以从上述新闻内容中提取出各个词,得到包括各个词的词序列{用户、报道、搜索、难民、美国、……、移民、领先、网站、日、……、加拿大、大选、官员、特朗普和上升……};
(2)、在对上述新闻内容分析后,得到上述新闻内容包含的主题数量为10个,其中这10个主题分别是{美国总统大选、网站崩溃、叙利亚难民、前往加拿大、访问量上升、希拉里、移民、搜索量、emigrate和调查},根据主题模型得到各个主题的概率,记为P={0.21,0.06,0.14,0.11,0.09,0.05,0.19,0.04,0.06,0.05},0.21表示第1个主题t1的概率P(t1|d);
(3)、在本发明实施例中,预设数量的主题为5个,即可以从上述10个主题中选取5个主题来作为目标主题,则选取目标主题的过程是:将10个主题按照概率由大到小排序,得到排序后的概率为P'={0.21,0.19,0.14,0.11,0.09,0.06,0.06,0.05,0.05,0.04},选取概率最大的前5个主题分别作为目标主题,对于上述新闻内容来说,选取的目标主题上述10个主题中的是第1个、第3个、第4个、第5个和第7个主题,即目标主题分别是{美国总统大选、叙利亚难民、前往加拿大、访问量上升、移民};
(4)、根据公式得到词序列中各个词的P(t|w),以词序列中的词“移民”为例,得到的词“移民”对5个目标主题的P(t|w)分别是P(t1|移民)=0.085,P(t3|移民)=0.013,P(t4|移民)=0.022,P(t5|移民)=0.009,P(t7|移民)=0.017,P(t1|移民)是第1个主题作为目标主题时,词“移民”与其的P(t|w);
(5)、在得到词序列中每个词与上述5个目标主题的P(t|w)后,根据公式Score(移民)=P(t|d)*P(t|w)计算每个词分别与这5个目标主题的相关度,然后计算每个词与这5个目标主题的相关度之和,每个词与这5个目标主题的相关度之和即是每个词与新闻内容的相关度,上述词“移民”与新闻内容的相关度是0.02613;
(6)、在本发明实施例中,预设个数的词为10个,对词序列中的每个词按照相关度由大到小的方式进行排序,选取词序列中相关度排序在其他词前的10个词作为新闻内容的特征,在上述新闻内容中,选取的作为特征的词为美国、移民、加拿大、网站、大选、官员、特朗普、搜索、上升和难民。
对上述新闻内容通过现有TF-IDF(Term Frequency–Inverse DocumentFrequency,特征性频率-倒排文档频率加权法)特征提取方法提取的特征有:用户、报道、搜索、难民、美国、移民、领先、网站、日和加拿大,相对于现有TF-IDF特征提取方法提取的特征来说,本发明实施例提供的特征更贴合上述目标主题,因此通过提取的特征更能反映新闻内容的主要内容,进而提高特征提取的准确度。
请参阅图3,其示出了本发明实施例提供的特征提取装置,用于提取与目标主题相关的词作为待处理文本的特征,以提供特征提取的准确度。具体的,本发明实施例提供的特征提取装置可以包括:提取单元11、主题获取单元12、主题相关度计算单元13、文本相关度计算单元14和特征选取单元15。
提取单元11,用于从待处理文本中提取各个词。可以理解的是:待处理文本是当前需要进行特征提取的文本,其可以是由至少一条句子组成,而词是待处理文本中组成句子的最小单位,在获取到待处理文本后,可以从待处理文本中提取出每条句子中的每个词。在本发明实施例中,可以通过分词技术对每条句子进行分词处理,以从每条句子中提取到对应的词。
主题获取单元12,用于获取待处理文本包含的各个主题,并从各个主题中选取至少一个目标主题。其中主题是待处理文本表现的内容,一篇待处理文本包含多个主题,但是并不是每个主题表现的内容是待处理文本的主要内容,因此在获取到各个主题后需要从中选取出表现待处理文本的主要内容的目标主题。
在本发明实施例中,主题获取单元12选取目标主题的一种可行方式是:根据待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的预设数量的主题分别作为目标主题。
发明人经过多次实践发现,一篇待处理文本中表示主要内容的目标主题的预设数量小于等于5个,因此在获取到待处理文本中各个主题的概率后,根据待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的5个主题分别作为目标主题。
主题相关度计算单元13,用于计算各个词与各个目标主题的相关度。可以理解的是:相关度是指词与目标主题之间存在相互联系的百分比,如果词能够反映出目标主题表达的含义,则说明词与目标主题相关,词与目标主题的相关度较高,如果词不能够反映出目标主题表达的含义,则说明词与目标主题无关,词与目标主题的相关度较低,甚至可以将词与目标主题的相关度设为0。
在本发明实施例中,主题相关度计算单元13的结构如图4所示,可以包括:第一计算子单元131、第二计算子单元132、第三计算子单元133和相关度计算子单元134。
第一计算子单元131,用于计算各个目标主题中各个词的概率和待处理文本中各个目标主题的概率。其中各个目标主题中各个词的概率和待处理文本中各个目标主题的概率可以通过主题模型来计算,具体请参阅方法实施例中的相关说明。
第二计算子单元132,用于计算各个目标主题在待处理文本中出现的频率。可选的,计算各个目标主题在待处理文本中出现的频率包括:计算待处理文本出现的频率P(d),根据待处理文本中各个目标主题的概率P(t|d)和待处理文本出现的频率P(d),计算各个目标主题在待处理文本中出现的频率P(t),对应的计算公式为:P(t)=∑d∈DP(t|d)P(d)。
第三计算子单元133,用于计算各个词在待处理文本中出现的频率。可选的,计算各个词在待处理文本中出现的频率包括:计算各个词的词频Count(w)和从待处理文本中提取的词的总数TotalCount,根据各个词的词频Count(w)和从待处理文本中提取的词的总数TotalCount,计算各个词在待处理文本中出现的频率P(w),对应的计算公式为:
相关度计算子单元134,用于根据各个目标主题在待处理文本中出现的频率、各个词在待处理文本中出现的频率、各个目标主题中各个词的概率和待处理文本中各个目标主题的概率,计算各个词与各个目标主题的相关度。对应的计算公式如下:
文本相关度计算单元14,用于根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度。其中词与待处理文本的相关度是对应词在各个目标主题的相关度之和,如选取的目标主题有5个,则通过上述计算公式可以得到词分别对这5个目标主题的相关度,然后将词分别对这5个目标主题的相关度求和,得到词与待处理文本的相关度,通过词与待处理文本的相关度,可以指示出词是否能够反映出待处理文本的主要内容,如果词与待处理文本的相关度较高,说明词能够反映出待处理文本的主要内容,如果词与待处理文本的相关度较低,则说明词反映出待处理文本的主要内容的可能性较低。
特征选取单元15,用于根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。
在本发明实施例中,选取词的一种可行方式是:根据各个词与待处理文本的相关度,对各个词按照相关度由大到小的方式进行排序,选取排序在其他词前的预设个数的词作为待处理文本的特征,其中预设个数可以根据实际应用而定,本发明实施例不限定其取值。
从上述技术方案可知,本发明实施例提供的特征提取装置根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,使得作为特征的词在主题方面更能反映待处理文本的主要内容,进而提高特征提取的准确度。并且通过本发明实施例提供的特征提取装置,可以从提取的词中过滤掉噪声词(即与主要内容无关的词),减少噪声词对后续处理过程的影响。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种特征提取方法,其特征在于,所述方法:
从待处理文本中提取各个词;
获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;
计算所述各个词与各个目标主题的相关度;
根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;
根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。
2.根据权利要求1所述的方法,其特征在于,所述计算所述各个词与各个目标主题的相关度,包括:
计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;
计算所述各个目标主题在所述待处理文本中出现的频率;
计算所述各个词在所述待处理文本中出现的频率;
计算所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:
计算所述待处理文本出现的频率;
根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。
4.根据权利要求2所述的方法,其特征在于,所述计算所述各个词在所述待处理文本中出现的频率,包括:
计算所述各个词的词频和从所述待处理文本中提取的词的总数;
根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。
5.根据权利要求1所述的方法,其特征在于,所述从所包含的各个主题中选取至少一个目标主题,包括:
根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;
选取排序在其他主题前的预设数量的主题分别作为目标主题。
6.一种特征提取装置,其特征在于,所述装置:
提取单元,用于从待处理文本中提取各个词;
主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;
主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;
文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;
特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。
7.根据权利要求6所述的装置,其特征在于,所述主题相关度计算单元,包括:
第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;
第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;
第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;
相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。
8.根据权利要求7所述的装置,其特征在于,所述第二计算子单元,具体用于计算所述待处理文本出现的频率,并根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。
9.根据权利要求7所述的装置,其特征在于,所述第三计算子单元,具体用于计算所述各个词的词频和从所述待处理文本中提取的词的总数,并根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。
10.根据权利要求6所述的装置,其特征在于,所述主题获取单元,具体用于根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,并选取排序在其他主题前的预设数量的主题分别作为目标主题。
CN201611192135.8A 2016-12-21 2016-12-21 一种特征提取方法及装置 Pending CN106708803A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611192135.8A CN106708803A (zh) 2016-12-21 2016-12-21 一种特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611192135.8A CN106708803A (zh) 2016-12-21 2016-12-21 一种特征提取方法及装置

Publications (1)

Publication Number Publication Date
CN106708803A true CN106708803A (zh) 2017-05-24

Family

ID=58939452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611192135.8A Pending CN106708803A (zh) 2016-12-21 2016-12-21 一种特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN106708803A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019805A (zh) * 2017-12-18 2019-07-16 北京京东尚科信息技术有限公司 文章主题挖掘方法和装置及计算机可读存储介质
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112347758B (zh) * 2020-11-06 2024-05-17 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN106708803A (zh) 一种特征提取方法及装置
CN105528422B (zh) 一种主题爬虫处理方法及装置
CN107766318B (zh) 一种关键词的抽取方法、装置及电子设备
US8255414B2 (en) Search assist powered by session analysis
CN106570144A (zh) 推荐信息的方法和装置
CN107025296A (zh) 基于科技服务信息智能抓取系统数据收集方法
JP2022519208A (ja) ソーシャル・データ・ストリーム上におけるリアルタイム・イベント検出
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN107092639A (zh) 一种搜索引擎系统
CN103577558A (zh) 一种优化问答对的搜索排名的装置和方法
Wei et al. Gibberish, assistant, or master? Using tweets linking to news for extractive single-document summarization
CN108197144A (zh) 一种基于BTM和Single-pass的热点话题发现方法
Vavliakis et al. Event Detection via LDA for the MediaEval2012 SED Task.
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN109145016A (zh) 一种金融用互联网大数据检索系统
CN109697676A (zh) 基于社交群的用户分析及应用方法和装置
Momeni et al. Modeling evolution of topics in large-scale temporal text corpora
Guo et al. IJCNLP-2017 task 5: Multi-choice question answering in examinations
CN103440308A (zh) 一种基于形式概念分析的数字论文检索方法
Singla et al. Information Extraction from Microblog for Disaster Related Event.
CN102789466B (zh) 一种提问标题质量判定方法、提问引导方法及其装置
Abrigo et al. A comparative analysis of N-Gram deep neural network approach to classifying human perception on Dengvaxia
CN106874260A (zh) 一种基于用户词典的网络社交文本大数据处理方法及系统
CN101789018A (zh) 基于交互信息的网页点击描述文档构建方法及装置
CN107958005A (zh) 一种基于Lucene的医疗搜索引擎服务系统建设方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524