CN107423444B - 热词词组提取方法和系统 - Google Patents

热词词组提取方法和系统 Download PDF

Info

Publication number
CN107423444B
CN107423444B CN201710680829.4A CN201710680829A CN107423444B CN 107423444 B CN107423444 B CN 107423444B CN 201710680829 A CN201710680829 A CN 201710680829A CN 107423444 B CN107423444 B CN 107423444B
Authority
CN
China
Prior art keywords
hot
current
word frequency
word
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710680829.4A
Other languages
English (en)
Other versions
CN107423444A (zh
Inventor
曹航瑞
张颖
林志聪
马幸晖
王家宾
银超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Shilian Technology Co ltd
Original Assignee
21cn Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 21cn Corp Ltd filed Critical 21cn Corp Ltd
Priority to CN201710680829.4A priority Critical patent/CN107423444B/zh
Publication of CN107423444A publication Critical patent/CN107423444A/zh
Application granted granted Critical
Publication of CN107423444B publication Critical patent/CN107423444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种热词词组提取方法和系统,热词词组提取方法包括以下步骤:获取关键词的历史词频以及当前词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。上述热词词组提取方法和系统,通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。

Description

热词词组提取方法和系统
技术领域
本发明涉及文字处理技术领域,特别是涉及一种热词词组提取方法和系统。
背景技术
热词作为一种词汇现象,反映了一个区域的人们在一个时期内普遍关注的问题和事物。词汇的多义性及多样性使得热词的提取变得困难,当前内容提供方通常提取单个热词代表当前事件,但仅通过单个热词难以对一个热点事件进行准确描述。由多个热词组成的词组能更精确地对热点事件进行描述。
传统的热词词组的检测主要是利用机器学习的方法,包括有监督或无监督方法(基于决策树(Decision Tree,DT)的监督方法、基于隐马尔科夫模型(Hidden MarkovModel,HMM)的监督方法、基于最大熵模型(Maximum Entropy,ME)等)对语料进行训练提取候选热词,最后进行词汇共现矩阵分析,从而获得热词词组。但这种方法算法复杂度较高,易产生大量的垃圾串。
发明内容
基于此,有必要针对算法复杂度较高,易产生大量的垃圾串的问题,提供一种热词词组提取方法。
一种热词词组提取方法,包括以下步骤:
获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;
根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;
将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;
递归合并频繁项集内的热词,得到热词词组。
一种热词词组提取系统,包括:
获取模块,用于获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;
计算模块,用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;
提取模块,用于将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;
递归合并模块,用于递归合并频繁项集内的热词,得到热词词组。
上述热词词组提取方法和系统,通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。
附图说明
图1为本发明的一个实施例中热词词组提取方法的步骤流程示意图;
图2为本发明的获取关键词的历史词频以及当前词频的步骤示意图;
图3为本发明的一个实施例中热词词组提取方法的完整步骤示意图;
图4为本发明的一个实施例中热词词组提取系统的步骤流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1为本发明的一个实施例中热词词组提取方法的步骤流程示意图,可以包括以下步骤:
S101:获取关键词的历史词频A以及当前词频B;其中历史词频A为关键词在历史时间段内发布的文本信息上的词频,当前词频B为关键词在当前时间段内发布的文本信息上的词频;
在一个实施例中,文本信息可以为文章集,本发明中所有的文本信息都可以指代文章集,对应历史词频为关键词在历史时间段内所有新发布文章集上的词频,对应当前词频为关键词在当前时间段内所有新发布文章集上的词频,此处不限于所有新发布文章集,也可以根据需要调整比例,只获取部分新发布文章集上的词频。
S102:根据所述历史词频A、当前词频B以及关键词所在当前文本的平均热度权重H计算当前词频的词频加权变化率P;
举例来说,可以先计算关键词所在当前文本的平均热度h,其中当前文本可以是当前文章集。具体地,平均热度h可以根据以下方式计算:
Figure BDA0001375459400000031
上式中,N为所选取的文章的数量,C1为第一篇文章热度,C2为第二篇文章热度……,以此类推,CN为第N篇文章热度。
然后,可计算词频加权变化率P。进一步地,可根据以下方式计算词频加权变化率P:
Figure BDA0001375459400000032
上式中,E可以为该关键词在当前文章集和历史文章集出现总次数,F可以为当前文章集和历史文章集中所有词汇出现次数,平均热度h除于D可以代表平均热度权重H,上式中D为正整数,文章集为千级别的,D可以取1000,可以理解成是进行了归一化处理。
S103:将词频加权变化率P达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;在一个实施例中,可以设置第一阈值为10,这个第一阈值为多次试验得到的经验值,可以根据需要来更换这个第一阈值的值。在一个具体的数值实施例中,假设在1000篇文章中,N=1000,C1+C2+…+CN=8000000,得h=3000,关键词“母牛”的历史词频A为0.1,当前词频B为0.6,关键词在当前文章集和历史文章集出现总次数E为1000次,当前文章集和历史文章集中所有词汇出现次数F为4000次,这时
Figure BDA0001375459400000041
这时若设第一阈值为10,则“母牛”这个词就可以当成热词。上述实施例中,相关词可以为热词对应的近义词,也可以是与热词存在并列概念的词。而频繁项集也称项集,为在所有训练元组中同时出现的次数超过人工定义的阈值的项的集合。
S104:递归合并频繁项集内的热词,得到热词词组;
具体地,热词词组是由多个热词组成的词组,可以通过以下方法对频繁项集内的热词进行递归合并:如果两个频繁项集内的热词超过百分之五十相同,则合并频繁项词组获得新的词组,其中,新的词组中重复的热词只出现一次,删除旧词组,直到该频繁项集内的热词数量达到阈值,输出合并后的频繁项词组,不断迭代,最后得到的频繁项集内的词组即为最终的热词词组。
上述实施例通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。
其中,在一个实施例中,上述的热词词组提取方法中,从当前文本中提取所述热词的相关词之前,还包括以下步骤:从当前文本中过滤出热词相关词中的停用词和无意义词。
过滤的方法可以为:对得到的热词,去匹配当前文章集的标题对应的所有分词,当所有分词中不包含任何一个热词或热词相关词时,就完成了过滤。通过过滤步骤可以使最终得到的热词词组更加精简,能够更好地概括热点事件,并可以对热点事件做更详细的描述。
如图2,本发明的另一个实施例中,获取关键词的历史词频以及当前词频,具体可以包括以下步骤:
S201:获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料;
在具体的实施例中,标题往往概括了一个文章的核心内容,将标题进行分词,提取出的分词语料相对将文章的其他部分内容进行分词提取的分词语料更能体现文章的主题,更能代表当前的热点事件,也可以根据需要对文本信息的其他部分内容进行分词,提取分词语料。
S202:根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词,根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词;
可选地,可以根据textRank关键词提取算法分别提取历史关键词和当前关键词。
S203:计算所述历史关键词的历史词频和所述当前关键词的当前词频。
在实际应用中,在一份给定的文件或文章里,词频指的是某一个给定的词语在该文件或文章中出现的次数,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。例如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就等于该词语出现的次数3除于总词语数100,为0.03。
图3为包括上述实施方式的热词词组提取方法的完整步骤示意图,包括了通过对历史时间段内发布的文本信息的标题以及当前时间段内发布的文本信息的标题进行分词,分别得到历史分词语料和当前分词语料,可以根据textRank关键词提取算法分别提取历史关键词和当前关键词,计算对应的历史词频和当前词频,并运用得到的历史词频和当前词频进行接下来的热词词组提取工作,这种热词词组提取方法简单易行,能够清晰地描述当前热点事件,利于运营人员即时掌握社会舆情,进一步可取代人工推送热点相关文章的工作,提升热点内容覆盖率。
其中,本发明一个实施例中,递归合并频繁项集内的热词,得到热词词组,具体可以包括以下步骤:
S301:当两个频繁项集中相同热词的数量大于第二阈值时,对所述两个频繁项集进行合并获得新的频繁项集,并从合并后的频繁项集中删除重复的热词,不断迭代,直到该频繁项集中的热词数量达到第三阈值;
其中,第二阈值可以是频繁项集中热词数量的百分之五十,合并后得到的新的频繁项集中,原来两个频繁项集中重复的词只出现一次,不断迭代,直到该频繁项集中的热词数量达到一定的预设数量阈值。
S302:输出合并后的频繁项集,将最后得到的频繁项集中热词组成的词组作为最终的热词词组。
在一个实施例中,可以通过FP-growth(Frequent Pattern-growth)频繁项集挖掘算法分析提取热词词组,最终的热词词组中包含多个热词,可以用最终得到的热词词组来描述当前热点事件。
通过上述实施例,通过FP-GROWTH频繁项集挖掘算法分析提取热词词组,使得词组包含的共现词汇更能准确描述热点事件,能够得到含有多个热词的热词词组,从而能够清晰地描述当前热点事件,利于运营人员即时掌握社会舆情,进一步可取代人工推送热点相关文章的工作,提升热点内容覆盖率。
进一步地,在一个实施例中,当前关键词的数量为多个,各个当前关键词分别对应一个词频加权变化率;这时,将词频加权变化率达到第一阈值的关键词作为热词,具体是指将各个词频加权变化率达到第一阈值的当前关键词均作为热词。
上述实施例中,可以将各个词频加权变化率达到10的当前关键词均作为热词,可以得到多个热词,进一步,可得到多组热词词组,运算简便高效,且得到的多组热词词组能更准确地描述热点事件。
更进一步地,在一个实施例中,历史关键词的数量为多个,各个历史关键词分别对应一个历史词频;这时,根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率,具体是指将各个当前关键词分别与各个历史关键词进行比较,当所述当前关键词与所述历史关键词相同时,根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。
上述实施例中,将每个当前关键词都与多个历史关键词进行比较,当历史关键词与当前关键词相同时,就可以得到该关键词对应的历史词频,可以根据历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。
通过上述实施例,引入历史词频、当前词频以及词频加权变化率来识别热词,避免了普通变化率中出现次数少但近期变化率高的词汇易被误判为热词的缺点。能更精确地提取热词,使得最终得到的热词词组包含的热词更能准确描述热点事件。
另外,如图4所示,为本发明的一个实施例的热词词组提取系统,包括:
获取模块11,用于获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;
计算模块12,用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;
提取模块13,用于将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;
递归合并模块14,用于递归合并频繁项集内的热词,得到热词词组。
上述实施例与本发明的热词词组提取方法对应的实施例相类似,此处不再赘述。
具体地,本发明的另一个实施例中的热词词组提取系统,还包括:过滤模块,用于从当前文本中过滤出热词相关词中的停用词和无意义词。
上述实施例与本发明的热词词组提取方法对应的实施例相类似,此处不再赘述。
在一个实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的热词词组提取方法。
上述实施例与本发明的热词词组提取方法对应的实施例相类似,此处不再赘述。
在另一个实施例中,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请的热词词组提取方法。
上述实施例与的热词词组提取方法对应的实施例相类似,此处不再赘述。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种热词词组提取方法,其特征在于,包括以下步骤:
获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;
根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;
将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;
递归合并频繁项集内的热词,得到热词词组;包括:通过FP-growth频繁项集挖掘算法分析提取热词词组。
2.根据权利要求1所述的热词词组提取方法,其特征在于,从所述当前文本中提取所述热词的相关词之前,还包括以下步骤:
从当前文本中过滤出热词的相关词中的停用词和无意义词。
3.根据权利要求1所述的热词词组提取方法,其特征在于,获取关键词的历史词频以及当前词频,具体包括以下步骤:
获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料;
根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词,根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词;
计算所述历史关键词的历史词频和所述当前关键词的当前词频。
4.根据权利要求1所述的热词词组提取方法,其特征在于,所述递归合并频繁项集内的热词,得到热词词组,具体包括以下步骤:
当两个频繁项集中相同热词的数量大于第二阈值时,对所述两个频繁项集进行合并获得新的频繁项集,并从合并后的频繁项集中删除重复的热词,不断迭代,直到该频繁项集中的热词数量达到第三阈值;
输出合并后的频繁项集,将最后得到的频繁项集中热词组成的词组作为最终的热词词组。
5.根据权利要求3所述的热词词组提取方法,其特征在于,所述当前关键词的数量为多个,各个当前关键词分别对应一个词频加权变化率;
将词频加权变化率达到第一阈值的关键词作为热词,具体包括以下步骤:
将各个词频加权变化率达到第一阈值的当前关键词均作为热词。
6.根据权利要求5所述的热词词组提取方法,其特征在于,所述历史关键词的数量为多个,各个历史关键词分别对应一个历史词频;
根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率,具体包括以下步骤:
将各个当前关键词分别与各个历史关键词进行比较,当所述当前关键词与所述历史关键词相同时,根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算所述词频加权变化率。
7.一种热词词组提取系统,其特征在于,包括:
获取模块,用于获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;
计算模块,用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;
提取模块,用于将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;
递归合并模块,用于递归合并频繁项集内的热词,得到热词词组;进一步用于:通过FP-growth频繁项集挖掘算法分析提取热词词组。
8.根据权利要求7所述的热词词组提取系统,其特征在于,还包括:
过滤模块,用于从当前文本中过滤出所述相关词中的停用词和无意义词。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的热词词组提取方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任意一项所述的热词词组提取方法。
CN201710680829.4A 2017-08-10 2017-08-10 热词词组提取方法和系统 Active CN107423444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710680829.4A CN107423444B (zh) 2017-08-10 2017-08-10 热词词组提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710680829.4A CN107423444B (zh) 2017-08-10 2017-08-10 热词词组提取方法和系统

Publications (2)

Publication Number Publication Date
CN107423444A CN107423444A (zh) 2017-12-01
CN107423444B true CN107423444B (zh) 2020-05-19

Family

ID=60437848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710680829.4A Active CN107423444B (zh) 2017-08-10 2017-08-10 热词词组提取方法和系统

Country Status (1)

Country Link
CN (1) CN107423444B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
CN108509490B (zh) * 2018-02-09 2020-10-02 中国农业大学 一种网络热点话题发现方法及系统
CN110750682B (zh) * 2018-07-06 2022-08-16 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
CN109376295B (zh) * 2018-08-24 2021-08-13 北京达佳互联信息技术有限公司 一种热词汇集推送方法、装置及网络服务器
CN109670534B (zh) * 2018-11-26 2024-08-02 平安科技(深圳)有限公司 政策热点预测的方法、装置、计算机设备和存储介质
CN109635286B (zh) * 2018-11-26 2022-04-12 平安科技(深圳)有限公司 政策热点分析的方法、装置、计算机设备和存储介质
CN109800431B (zh) * 2019-01-23 2020-07-28 中国科学院自动化研究所 事件信息关键词提取、监控方法及系统及存储和处理装置
CN110134788B (zh) * 2019-05-16 2021-05-11 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN111782986B (zh) * 2019-05-17 2024-09-20 北京京东尚科信息技术有限公司 一种监控基于短链接进行访问的方法和装置
CN110334268B (zh) * 2019-07-05 2022-01-14 李晨 一种区块链项目热词生成方法以及装置
CN110765239B (zh) * 2019-10-29 2023-03-28 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN110879839A (zh) * 2019-11-27 2020-03-13 北京声智科技有限公司 一种热词识别方法、装置及系统
CN110990708B (zh) * 2019-12-11 2023-05-02 Oppo(重庆)智能科技有限公司 热点事件确定方法、装置、存储介质及电子设备
CN111538891B (zh) * 2020-04-21 2023-04-07 招商局金融科技有限公司 热点事件监控方法、装置、计算机装置及可读存储介质
TWI752822B (zh) * 2021-02-09 2022-01-11 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之方法及其系統
CN113241070B (zh) * 2021-04-28 2024-02-27 北京字跳网络技术有限公司 热词召回及更新方法、装置、存储介质和热词系统
CN113722470B (zh) * 2021-09-06 2024-03-08 杭州安恒信息技术股份有限公司 一种信息提示方法、装置、设备及存储介质
CN114512241B (zh) * 2021-12-27 2024-05-03 中国人民解放军总医院第一医学中心 一种基于频次分析的食管静脉瘤信息智能搜寻方法及系统
CN117371436B (zh) * 2023-10-09 2024-04-12 北京睿企信息科技有限公司 一种热度递增的热词获取系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
CN101727494A (zh) * 2009-12-29 2010-06-09 华中师范大学 特定区域内网络热词生成系统
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN105912670A (zh) * 2012-09-18 2016-08-31 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130445A (ja) * 2012-12-28 2014-07-10 Toshiba Corp 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
CN101727494A (zh) * 2009-12-29 2010-06-09 华中师范大学 特定区域内网络热词生成系统
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN105912670A (zh) * 2012-09-18 2016-08-31 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Also Published As

Publication number Publication date
CN107423444A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107423444B (zh) 热词词组提取方法和系统
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107463548B (zh) 短语挖掘方法及装置
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
Vogel et al. Robust language identification in short, noisy texts: Improvements to liga
CN107085581A (zh) 短文本分类方法和装置
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN103971677A (zh) 一种声学语言模型训练方法和装置
CN104794161A (zh) 对网络舆情监控的方法
CN112528653B (zh) 短文本实体识别方法和系统
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN108846033B (zh) 特定领域词汇的发现及分类器训练方法和装置
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN114265943A (zh) 一种因果关系事件对提取方法及系统
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
Rachman et al. Word Embedding for Rhetorical Sentence Categorization on Scientific Articles.
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN111898034A (zh) 新闻内容推送方法、装置、存储介质及计算机设备
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
Rachman et al. Rhetorical sentence categorization for scientific paper using word2Vec semantic representation
CN115391551A (zh) 事件检测方法及装置
Moradi et al. Clustering of deep contextualized representations for summarization of biomedical texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220216

Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040

Patentee after: Tianyi Digital Life Technology Co.,Ltd.

Address before: 1 / F and 2 / F, East Garden, Huatian International Plaza, 211 Longkou Middle Road, Tianhe District, Guangzhou, Guangdong 510630

Patentee before: Century Dragon Information Network Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240324

Address after: Unit 1, Building 1, China Telecom Zhejiang Innovation Park, No. 8 Xiqin Street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Patentee after: Tianyi Shilian Technology Co.,Ltd.

Country or region after: China

Address before: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040

Patentee before: Tianyi Digital Life Technology Co.,Ltd.

Country or region before: China