CN104679768A - 从文档中提取关键词的方法和设备 - Google Patents

从文档中提取关键词的方法和设备 Download PDF

Info

Publication number
CN104679768A
CN104679768A CN201310627998.3A CN201310627998A CN104679768A CN 104679768 A CN104679768 A CN 104679768A CN 201310627998 A CN201310627998 A CN 201310627998A CN 104679768 A CN104679768 A CN 104679768A
Authority
CN
China
Prior art keywords
document
candidate keywords
keyword
importance value
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310627998.3A
Other languages
English (en)
Other versions
CN104679768B (zh
Inventor
吴先超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310627998.3A priority Critical patent/CN104679768B/zh
Publication of CN104679768A publication Critical patent/CN104679768A/zh
Application granted granted Critical
Publication of CN104679768B publication Critical patent/CN104679768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种从文档中提取关键词的方法和设备。所示方法包括:接收预定命令;响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;检测每个候选关键词的重要度值;提取具有大于预定阈值的重要度值的候选关键词。根据本发明的方法和设备,可以从文档中自动提取出关键词。

Description

从文档中提取关键词的方法和设备
技术领域
本发明涉及数据挖掘领域。更具体地讲,涉及一种从文档中提取关键词的方法和设备。
背景技术
随着信息技术的发展,数字化的信息正以惊人的速度增长。人们每天要面对大量的数字化信息来进行阅读。为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,摘要、关键词等形式)应运而生。
人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。另外,提取关键词在信息技术领域也存在广泛地应用,例如,信息检索等。目前,除了形式规范的科技文档提供了关键词外,大部分文档都没有配有关键词。传统依靠人工去阅读文本,然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此,如何自动提取关键词是当前急需解决的一个问题。
发明内容
本发明的目的在于提供一种能够自动从文档中提取关键词的方法和设备。
本发明的一方面提供一种从文档中提取关键词的方法,包括:接收预定命令;响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;检测每个候选关键词的重要度值;提取具有大于预定阈值的重要度值的候选关键词。
可选地,所述预定命令是多次定向滑动屏幕。
可选地,对所述文档进行分词以从所述文档中提取至少一个候选关键词的步骤包括:对所述文档进行分词,以获得多个词汇;检测获得的词汇的词性;根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
可选地,所述方法还包括:突出显示提取的关键词;接收对突出显示的关键词的选择;将选择的关键词添加到输入法词库。
可选地,所述的方法还包括:基于提取的具有大于预定阈值的重要度值的候选关键词形成所述文档的摘要。
可选地,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
IM=tf×df,
tf = num / Σ k = 1 m onum k ,
df = lg D d ,
其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
可选地,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
C ( t n + 1 ) = Σ i = 1 n num i × k ( t n + 1 , t i ) ,
k ( t n + 1 , t i ) = e - λ ( t n + 1 - t i )
其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
可选地,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
根据本发明的另一方面,提供一种从文档中提取关键词的设备,包括:接收单元,接收预定命令;关键词提取单元,响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;重要度检测单元,检测每个候选关键词的重要度值;选择单元,提取具有大于预定阈值的重要度值的候选关键词。
可选地,所述预定命令是多次定向滑动屏幕。
可选地,关键词提取单元包括:分词单元,对所述文档进行分词,以获得多个词汇;词性检测单元,检测获得的词汇的词性;实词选择单元,根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
可选地,所述设备还包括:突出显示单元,突出显示提取的关键词;关键词选择单元,接收对突出显示的关键词的选择;添加单元,将选择的关键词添加到输入法词库。
可选地,所述设备还包括:摘要形成单元,基于提取的具有大于预定阈值的重要度值的候选关键词形成所述文档的摘要。
可选地,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
IM=tf×df,
tf = num / Σ k = 1 m onum k ,
df = lg D d ,
其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
可选地,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
C ( t n + 1 ) = Σ i = 1 n num i × k ( t n + 1 , t i ) ,
k ( t n + 1 , t i ) = e - λ ( t n + 1 - t i )
其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
可选地,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
根据本发明的从文档中提取关键词的方法和设备,可以自动从文档之中提取关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用候选关键词在一个文档集合中的频率特点,可以提取出具有历史普遍性的关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有历史新颖度的关键词。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的、特点和优点将会变得更加清楚,其中:
图1示出根据本发明的实施例的从文档中提取关键词的方法的流程图;
图2示出根据本发明的实施例的从文档中提取关键词的设备的框图。
具体实施方式
下面将参照附图详细描述本发明的实施例。
图1示出根据本发明的实施例的从文档中提取关键词的方法的流程图。可在具有所述文档或能够浏览所述文档的电子设备上执行所述方法。
在步骤101,接收用于执行从文档提取关键词的预定命令。可在用户使用电子设备浏览文档期间,从用户接收所述预定命令。例如,在用户使用具有触摸屏的电子设备浏览文档期间,从用户接收到多次定向滑动屏幕的输入作为所述预定命令。
应该理解,这里的文档可以表示具有文本内容的各种数字化媒体,例如,网页、电子邮件、电子书、word文档等。
应该理解,所述预定命令可以是通过任何方式输入的命令,并且也不限于由用户输入(例如,也可以是其他硬件或软件发出的预定命令)。
在步骤102,响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词。
可以利用现有的各种提取关键词的技术来执行步骤102。
在根据本发明的一个实施例中,首先对所述文档进行分词以获得多个词汇,检测获得的词汇的词性,根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
在步骤103,检测每个候选关键词的重要度值。
在本发明的一个实施例中,可以利用候选关键词在一个文档集合(例如,网页集合)中的出现频率的特点来确定重要度值。可通过下面的公式(1)检测每个候选关键词的重要度值:
IM=tf×df,
tf = num / Σ k = 1 m onum k ,
df = lg D d ,
其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
公式(1)通过利用候选关键词在一个文档集合中的频率特点,可以提取出具有普遍性的关键词。
在另一个实施例中,可通过下面的公式(2)检测每个候选关键词在预定时刻的重要度值作为最终的重要度值:
C ( t n + 1 ) = Σ i = 1 n num i × k ( t n + 1 , t i ) - - - ( 2 )
k ( t n + 1 , t i ) = e - λ ( t n + 1 - t i ) ,
其中,C(w,tn+1)表示候选关键词在预定时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
应该理解,对于历史时刻ti,i越小,历史越久远。优选地,时刻tn+1为当前时刻,例如,提取关键词的时刻。此外,时刻tn+1也可以是将来的某个时刻。
用户访问的文档是指用户浏览和/或编写的文档。例如,用户浏览的网页、编写的微博、邮件等。可通过现有的各种技术来获取用户访问的文档。
公式(2)通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有新颖度的关键词。
各对相邻的两个历史时刻之间的时间段可以都是相同的,也可以是不同的。优选地,时间段越靠近当前时间越短。例如,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,m为小于等于n并且大于1的整数。应该理解,此时,n为大于1的整数。此时,可以更好地在重要度值中体现最近的历史文档的影响。
在步骤104,提取具有大于预定阈值的重要度值的候选关键词。换言之,从在步骤102提取的候选关键词中选择具有大于预定阈值的重要度值的候选关键词作为最终的关键词。
在一个实施例中,所述从文档中提取关键词的方法还包括:在显示文档的屏幕上突出显示提取的关键词;接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词);将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
在另一实施例中,所述从文档中提取关键词的方法还包括:基于在步骤104提取的关键词形成所述文档的摘要。这里可以利用现有的各种基于关键词形成摘要的技术。此外,在形成文档的摘要之后,可将形成的摘要提供给(例如,显示给)用户。
根据本发明的上述方法可以被实现为安装在电子设备上的计算机程序。本领域技术人员可以根据对上述方法的描述来实现所述计算机程序。当所述计算机程序中被执行时实现本发明的上述方法。
图2示出根据本发明的实施例的从文档中提取关键词的设备的框图。
如图2所示,根据本发明的实施例的从文档中提取关键词的设备200包括接收单元210、关键词提取单元220、重要度检测单元230、选择单元240。
接收单元210接收用于执行从文档提取关键词的预定命令。接收单元210可在用户使用电子设备浏览文档期间,从用户接收所述预定命令。例如,在用户使用具有触摸屏的电子设备浏览文档期间,接收单元210从用户接收到多次定向滑动屏幕的输入作为所述预定命令。
应该理解,这里的文档可以表示具有文本内容的各种数字化媒体,例如,网页、电子邮件、电子书、word文档等。
应该理解,所述预定命令可以是通过任何方式输入的命令,并且也不限于由用户输入(例如,也可以是其他硬件或软件发出的预定命令)。
关键词提取单元220响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词。
可以利用现有的各种提取关键词的技术来实现关键词提取单元220。
在根据本发明的一个实施例中,关键词提取单元包括分词单元、词性检测单元、实词选择单元。分词单元对文档进行分词,以获得多个词汇。词性检测单元检测获得的词汇的词性。实词选择单元根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
重要度检测单元230检测每个候选关键词的重要度值。重要度检测单元230可基于前面描述的公式(1)或公式(2)来检测每个候选关键词的重要度值。
选择单元240提取具有大于预定阈值的重要度值的候选关键词。换言之,选择单元240从关键词提取单元220提取的候选关键词中选择具有大于预定阈值的重要度值的候选关键词作为最终的关键词。
在一个实施例中,所述从文档中提取关键词的方法还包括:在显示文档的屏幕上突出显示提取的关键词;接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词);将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
在另一实施例中,所述从文档中提取关键词的设备200还包括突出显示单元、关键词选择单元、添加单元。突出显示单元在显示文档的屏幕上突出显示提取的关键词,关键词选择单元接收对突出显示的关键词的选择(例如,用户从突出显示的关键词之中选择预定的关键词),添加单元将选择的关键词添加到输入法词库,从而用户自己添加需要的输入法词语。
在另一实施例中,所述从文档中提取关键词的设备200还包括摘要形成单元。摘要形成单元基于选择单元240提取的关键词形成所述文档的摘要。这里可以利用现有的各种基于关键词形成摘要的技术实现摘要形成单元。此外,摘要形成单元在形成文档的摘要之后,可将形成的摘要提供给(例如,显示给)用户。
此外,应该理解,根据本发明的示例性实施例的从文档中提取关键词的设备中的各个单元可被实现硬件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。
根据本发明的从文档中提取关键词的方法和设备,可以自动从文档之中提取关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用候选关键词在一个文档集合中的频率特点,可以提取出具有普遍性的关键词。此外,根据本发明的从文档中提取关键词的方法和设备,通过利用用户访问的历史文档以及候选关键词在用户所访问的历史文档中出现的频次,可以提取出具有新颖度的关键词。
尽管已经参照其示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (16)

1.一种从文档中提取关键词的方法,包括:
接收预定命令;
响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;
检测每个候选关键词的重要度值;
提取具有大于预定阈值的重要度值的候选关键词作为关键词。
2.根据权利要求1所述的方法,其中,所述预定命令是多次定向滑动屏幕。
3.根据权利要求1所述的方法,其中,对所述文档进行分词以从所述文档中提取至少一个候选关键词的步骤包括:
对所述文档进行分词,以获得多个词汇;
检测获得的词汇的词性;
根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
4.根据权利要求1所述的方法,还包括:
突出显示提取的关键词;
接收对突出显示的关键词的选择;
将选择的关键词添加到输入法词库。
5.根据权利要求1所述的方法,还包括:
基于提取的关键词形成所述文档的摘要。
6.根据权利要求1所述的方法,其中,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
IM=tf×df,
tf = num / Σ k = 1 m onum k ,
df = lg D d ,
其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
7.根据权利要求1所述的方法,其中,检测每个候选关键词的重要度值的步骤包括:通过如下公式检测每个候选关键词的重要度值:
C ( t n + 1 ) = Σ i = 1 n num i × k ( t n + 1 , t i ) ,
k ( t n + 1 , t i ) = e - λ ( t n + 1 - t i )
其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
8.根据权利要求1所述的方法,其中,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
9.一种从文档中提取关键词的设备,包括:
接收单元,接收预定命令;
关键词提取单元,响应于预定命令,对所述文档进行分词以从所述文档中提取至少一个候选关键词;
重要度检测单元,检测每个候选关键词的重要度值;
选择单元,提取具有大于预定阈值的重要度值的候选关键词。
10.根据权利要求9所述的设备,其中,所述预定命令是多次定向滑动屏幕。
11.根据权利要求9所述的设备,其中,关键词提取单元包括:
分词单元,对所述文档进行分词,以获得多个词汇;
词性检测单元,检测获得的词汇的词性;
实词选择单元,根据检测的词性从所述多个词汇之中选择实词作为候选关键词。
12.根据权利要求9所述的设备,还包括:
突出显示单元,突出显示提取的关键词;
关键词选择单元,接收对突出显示的关键词的选择;
添加单元,将选择的关键词添加到输入法词库。
13.根据权利要求9所述的设备,还包括:
摘要形成单元,基于提取的关键词形成所述文档的摘要。
14.根据权利要求9所述的设备,其中,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
IM=tf×df,
tf = num / Σ k = 1 m onum k ,
df = lg D d ,
其中,IM为候选关键词的重要度值,num为所述候选关键词在所述文档中出现的次数,m为所述文档中除了所述候选关键词之外的其他候选关键词的数量,onumk表示第k个其他候选关键词在所述文档中出现的次数,D为一个预定的文档集合中包含的所有文档的数量,d为所述文档集合之中的具有所述候选关键词的文档的数量。
15.根据权利要求9所述的设备,其中,重要度检测单元通过如下公式检测每个候选关键词的重要度值:
C ( t n + 1 ) = Σ i = 1 n num i × k ( t n + 1 , t i ) ,
k ( t n + 1 , t i ) = e - λ ( t n + 1 - t i )
其中,C(w,tn+1)表示候选关键词在时刻tn+1的重要度值,numi表示候选关键词在历史时刻ti-1与历史时刻ti之间用户访问的文档中出现的频次,λ为预定常数,n为大于0的整数。
16.根据权利要求15所述的设备,其中,时刻tm与时刻tm-1之间的时间段的长度小于时刻tm-1与时刻tm-2之间的时间段的长度,其中,n为大于1的整数,m为小于等于n并且大于1的整数。
CN201310627998.3A 2013-11-29 2013-11-29 从文档中提取关键词的方法和设备 Active CN104679768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310627998.3A CN104679768B (zh) 2013-11-29 2013-11-29 从文档中提取关键词的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310627998.3A CN104679768B (zh) 2013-11-29 2013-11-29 从文档中提取关键词的方法和设备

Publications (2)

Publication Number Publication Date
CN104679768A true CN104679768A (zh) 2015-06-03
CN104679768B CN104679768B (zh) 2019-08-09

Family

ID=53314828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310627998.3A Active CN104679768B (zh) 2013-11-29 2013-11-29 从文档中提取关键词的方法和设备

Country Status (1)

Country Link
CN (1) CN104679768B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951435A (zh) * 2015-07-28 2015-09-30 陈包容 聊天过程中智能显示关键词的方法及装置
CN105005555A (zh) * 2015-07-28 2015-10-28 陈包容 基于聊天时间的关键词提取方法及装置
CN105630454A (zh) * 2016-01-29 2016-06-01 广东欧珀移动通信有限公司 一种信息显示方法及终端设备
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法
CN107786752A (zh) * 2017-10-31 2018-03-09 北京小米移动软件有限公司 信息处理方法及设备
CN107885870A (zh) * 2017-11-24 2018-04-06 北京神州泰岳软件股份有限公司 一种业务文档公式提取方法及装置
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN108984596A (zh) * 2018-06-01 2018-12-11 阿里巴巴集团控股有限公司 一种关键词挖掘以及风险反馈的方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877583A (zh) * 2006-07-12 2006-12-13 百度在线网络技术(北京)有限公司 访问标识索引系统及访问标识索引库生成方法
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101645066A (zh) * 2008-08-05 2010-02-10 北京大学 一种互联网新颖词监测方法
CN102136269A (zh) * 2010-01-22 2011-07-27 微软公司 经由标识信息的语音识别分析
US20120215523A1 (en) * 2010-01-08 2012-08-23 International Business Machines Corporation Time-series analysis of keywords
CN103201718A (zh) * 2010-11-05 2013-07-10 乐天株式会社 关于关键词提取的系统和方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877583A (zh) * 2006-07-12 2006-12-13 百度在线网络技术(北京)有限公司 访问标识索引系统及访问标识索引库生成方法
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101645066A (zh) * 2008-08-05 2010-02-10 北京大学 一种互联网新颖词监测方法
US20120215523A1 (en) * 2010-01-08 2012-08-23 International Business Machines Corporation Time-series analysis of keywords
CN102136269A (zh) * 2010-01-22 2011-07-27 微软公司 经由标识信息的语音识别分析
CN103201718A (zh) * 2010-11-05 2013-07-10 乐天株式会社 关于关键词提取的系统和方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951435A (zh) * 2015-07-28 2015-09-30 陈包容 聊天过程中智能显示关键词的方法及装置
CN105005555A (zh) * 2015-07-28 2015-10-28 陈包容 基于聊天时间的关键词提取方法及装置
CN105630454A (zh) * 2016-01-29 2016-06-01 广东欧珀移动通信有限公司 一种信息显示方法及终端设备
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN108241611B (zh) * 2016-12-26 2021-08-17 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN107786752A (zh) * 2017-10-31 2018-03-09 北京小米移动软件有限公司 信息处理方法及设备
CN107885870A (zh) * 2017-11-24 2018-04-06 北京神州泰岳软件股份有限公司 一种业务文档公式提取方法及装置
CN108984596A (zh) * 2018-06-01 2018-12-11 阿里巴巴集团控股有限公司 一种关键词挖掘以及风险反馈的方法、装置及设备

Also Published As

Publication number Publication date
CN104679768B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN104679768A (zh) 从文档中提取关键词的方法和设备
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
WO2017020451A1 (zh) 信息推送方法和装置
CN102722498B (zh) 搜索引擎及其实现方法
WO2018040343A1 (zh) 用于识别文本类型的方法、装置和设备
CN102722499B (zh) 搜索引擎及其实现方法
CN105095441A (zh) 一种信息获取方法及装置
CN102737021B (zh) 搜索引擎及其实现方法
CN103870461A (zh) 主题推荐方法、装置和服务器
CN104731468A (zh) 一种应用图标整理方法及装置
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US20160299907A1 (en) Stochastic document clustering using rare features
CN106897289B (zh) 信息搜索的优化方法及装置
CN106897016A (zh) 一种基于触摸屏终端的搜索方法、装置及触摸屏终端
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN113806660B (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN111797349B (zh) 基于阅读页目标内容收藏操作进行书籍推荐的方法及设备
CN103853777A (zh) 通过关键字访问网站的方法及装置
CN110232155B (zh) 浏览器界面的信息推荐方法及电子设备
CN104240107A (zh) 社群数据筛选系统及其方法
CN108280106A (zh) 搜索关键词的处理方法、装置及移动终端
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
CN109977423A (zh) 一种生词处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant