CN107133317A - 一种基于新词的网络舆情主题抽取方法 - Google Patents

一种基于新词的网络舆情主题抽取方法 Download PDF

Info

Publication number
CN107133317A
CN107133317A CN201710304816.7A CN201710304816A CN107133317A CN 107133317 A CN107133317 A CN 107133317A CN 201710304816 A CN201710304816 A CN 201710304816A CN 107133317 A CN107133317 A CN 107133317A
Authority
CN
China
Prior art keywords
neologisms
array
topic
news
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710304816.7A
Other languages
English (en)
Other versions
CN107133317B (zh
Inventor
孙健
陆川
朱煜松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Cloud Future Information Science Co Ltd
Original Assignee
Chengdu Cloud Future Information Science Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Cloud Future Information Science Co Ltd filed Critical Chengdu Cloud Future Information Science Co Ltd
Priority to CN201710304816.7A priority Critical patent/CN107133317B/zh
Publication of CN107133317A publication Critical patent/CN107133317A/zh
Application granted granted Critical
Publication of CN107133317B publication Critical patent/CN107133317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于新词的网络舆情主题抽取方法,通过两个或两个以上的关键词拼接得到的新词作为主题词;其中,对于关键词的选取,需要考虑代表文章的中心和主旨的文本标题,文本标题分得的词作为文本的关键词,同时还提高算法效率和减少因为文本差异对主题抽取的影响;同时,本发明以平均实词匹配度来量化这些新词对于网络舆情的主题的贡献程度,平均实词匹配度越高表示新词对于网络舆情的主题的贡献程度越大,因而,具有相当高的可信度,能够适应当今网络舆情日益增长的趋势。

Description

一种基于新词的网络舆情主题抽取方法
技术领域
本发明属于机器学习和信息挖掘技术领域,更为具体地讲,涉及一种基于新词的网络舆情主题抽取方法。
背景技术
主题是指文本的中心思想,泛指主要内容。主题抽取技术是文本处理的基础技术之一,目前国内外主题抽取的普遍方法是应用各种加权算法,计算词对文本主题的贡献大小,并选定贡献大的词作为主题词,即由文本到关键词再到主题词的这样一个过程。但此类的加权算法大都是统计和经验的加权体系,并未考虑文本中词与词之间的关联和联系,尤其是在处理一个文本集的时候,每个文本长短不一,携带的信息量也参差不齐,使加权算法普遍性不强。另有一种主题抽取方法是基于语义对文本进行分析,但由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前还处于试验阶段。
现有的主题抽取算法另一个缺陷是依赖对词的选择和处理,上面已经提到主题抽取的过程是由文本到关键词再到主题词,在当前中文文本处理领域,分词也一直是文本处理的前提和基础,分词的漏检和错误会影响抽取的关键词的性能,最终导致主题抽取的可读性不强,甚至错误。在网络信息爆炸的现在,大量新词的出现和流行,分词的漏检和错误主要就表现在新词的识别困难。
事实上,通过对网络舆情的持续跟踪和研究中发现,大多数网络舆情的主题,或者热点,本身就是一个新词,这里的新词指的是两个含义,一个是字典中未登录的词,比如“十动然拒”,另一个是两个或多个字典中已登录的词组合而成的新词,比如“闺蜜干政”。因此基于新词发现的主题抽取能够具有相当高的可信度,尤其是在网络舆情和新闻报导中,正确率能达到半数以上。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于新词的网络舆情主题抽取方法,将文本的标题作为处理对象,通过关联规则挖掘词与词之间的关联和联系,实现新词的发现和主题词的抽取。
为实现上述发明目的,本发明一种基于新词的网络舆情主题抽取方法,其特征在于,包括以下步骤:
(1)、构建一个空的主题词典;
(2)、利用网络爬虫从互联网中爬取网络新闻,对爬取的网络新闻进行去重处理后,将网络新闻的标题存入语料集中;
(3)、遍历语料集中的每一个网络新闻标题,利用CRF模型对网络新闻标题进行分词,把所有的分词结果存入到数组1中;
(4)、设置数据挖掘算法FP-growth的支持度阈值,利用数据挖掘算法FP-growth挖掘出数组中的频繁项集,得到由频繁项集和对应支持度组成的频繁模式数组1;
(5)、筛选频繁项集中项的个数为2的频繁模式,得到频繁模式数组2;
(6)、遍历频繁模式数组2,计算频繁项集的置信度;
设该频繁项集为M,其中的两个项分别为A和B,那么该频繁项集M对应
的支持度S(M)为:
C(M)=S(M)(S(M_A)+S(M_B))/(2S(M_A)S(M_B))
其中,S(M_A)和S(M_B)分别为频繁模式数组1中项的个数为1且恰好为A和B的频繁项集对应的支持度;
判断置信度是否大于预设的阈值,如果大于,则进入步骤(7);否则继续遍历频繁模式数组,直到遍历完成;
(7)、将频繁项集的两个项分别以正序和倒序组成两个新词,并加入到主题词典中;
(8)、重新遍历语料集中的每一个网络新闻标题,并检索主题词典,如果某一网络新闻标题中包含有主题词典中的新词,则以该新词为断点分割网络新闻标题,并进入步骤(9);如果某一网络新闻标题中不包含有主题词典中的新词,则进入步骤(10);
(9)、利用CRF模型分别对分割后网络新闻标题进行分词,再将其对应的分词结果和断点对应的新词作为网络新闻标题的最终分词结果;
(10)、利用CRF模型直接对网络新闻标题进行分词,得到最终分词结果;
(11)、重复步骤(8)-(10),直到所有的网络新闻标题遍历结束后,将所有的最终分词结果存入到数组2中,同时删除主题词典中未被检索出的新词,再进入步骤(12);
(12)、将数组1和数组2中的每一项进行一一比对,如果每一项均相同,则网络舆情主题抽取结束,并进入步骤(13);如果有某一项不相同,令数组1等于数组2再返回步骤(4);
(13)、输出主题词典
(13.1)、将数组1中的所有词并入到最小颗粒词集合中,再标记出该集合中每一个词的词性;
(13.2)、计算主题词典中所有新词的平均实词匹配度:设主题词典中某一新词为Topic,其中有n个网络新闻标题包含该新词Topic,记为T1,T2,...Tn;
计算新词Topic的平均实词匹配度ANMD(Topic):
ANMD(Topic)=(n(Topic)/n(T1)+(n(Topic)/n(T2)+...+(n(Topic)/n(Tn))/n;
其中,n(Topic)为拼成新词Topic的最小颗粒词集合中使用实词的个数,n(T1),n(T2),...n(Tn)分别为对应网络新闻标题在最小颗粒词集合中使用实词的个数;
(13.3)、将主题词典中所有新词按平均实词匹配度大小进行降序排列,再按排列后的顺序进行输出。
本发明的发明目的是这样实现的:
本发明一种基于新词的网络舆情主题抽取方法,通过两个或两个以上的关键词拼接得到的新词作为主题词;其中,对于关键词的选取,需要考虑代表文章的中心和主旨的文本标题,文本标题分得的词作为文本的关键词,同时还提高算法效率和减少因为文本差异对主题抽取的影响;同时,本发明以平均实词匹配度来量化这些新词对于网络舆情的主题的贡献程度,平均实词匹配度越高表示新词对于网络舆情的主题的贡献程度越大,因而,具有相当高的可信度,能够适应当今网络舆情日益增长的趋势。
同时,本发明一种基于新词的网络舆情主题抽取方法还具有以下有益效果:
(1)、基于CRF模型的中文分词方法,在现在的中文分词领域,CRF代表了新一代的机器学习技术,其基本思路是对汉字进行标注即由字构词(组词),不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力,从而避免了词典存在的不足,并且增加了对歧义词和未登录词的识别,提高了分词的可读性和主题抽取的质量;
(2)、基于FP-Tree关联规则的合成主题词方法,在数据挖掘领域,数据项之间的关联规则称为关联模式,FP-growth算法使其中的主要算法之一。利用FP-growth算法可以挖掘出关键词之间的关联和联系,从而提高了主题抽取的准确率。
附图说明
图1是本发明一种基于新词的网络舆情主题抽取方法流程图;
图2是CRF分词模型的训练流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于新词的网络舆情主题抽取方法流程图。
在本实施例中,如图1所示,本发明一种基于新词的网络舆情主题抽取方法,包括以下步骤:
S1、构建一个空的主题词典;
S2、利用网络爬虫从互联网中爬取网络新闻,对爬取的网络新闻进行去重处理后,将网络新闻的标题存入语料集中;例如:通过爬虫爬取新浪、百度、腾讯……,爬取当日的网络新闻,再对相同的网络新闻进行去重;
S3、遍历语料集中的每一个网络新闻标题,利用CRF分词模型对网络新闻标题进行分词,把所有的分词结果存入到数组1中;
在本实施例中,CRF分词模型的训练步骤为:
1)、提取语料集中的每一个网络新闻标题;
2)、对每一个网络新闻标题进行半自动的分块和标注,即模型给出候选结果,人工进行判别、修改和再标注,得到标注集;
3)、随机选择一部分标注集在条件随机场中进行训练,其余的标注集在所述条件随机场中进行测试,最终得到训练好的CRF分词模型;
S4、设置数据挖掘算法FP-growth(Frequent Pattern-growth)的支持度阈值,利用数据挖掘算法FP-growth挖掘出数组中的频繁项集,得到由频繁项集和对应支持度组成的频繁模式数组1;
S5、筛选频繁项集中项的个数为2的频繁模式,得到频繁模式数组2;
S6、遍历频繁模式数组2,计算频繁项集的置信度;
设该频繁项集为M,其中的两个项分别为A和B,那么该频繁项集M对应
的支持度S(M)为:
C(M)=S(M)(S(M_A)+S(M_B))/(2S(M_A)S(M_B))
其中,S(M_A)和S(M_B)分别为频繁模式数组1中项的个数为1且恰好为A和B的频繁项集对应的支持度;
判断置信度是否大于预设的阈值,如果大于,则进入步骤S7;否则继续遍历频繁模式数组,直到遍历完成;
S7、将频繁项集的两个项分别以正序和倒序组成两个新词,并加入到主题词典中;
S8、重新遍历语料集中的每一个网络新闻标题,并检索主题词典,如果某一网络新闻标题中包含有主题词典中的新词,则以该新词为断点分割网络新闻标题,并进入步骤S9;如果某一网络新闻标题中不包含有主题词典中的新词,则进入步骤S10;
其中,检索主题词典时,如果主题词典中的两个及以上的新词有重叠的部分,则取最后被检索出的新词作为断点;
在本实施例中,如果两个及以上的新词在文本中有重叠的部分,则选取检索到的最后一个新词作为断点,忽略其他的新词,如文本为:“华为超三星成最赚钱安卓手机”中,主题词典同时包含了新词“超三星”和“华为超三星”,由于“华为超三星”是后加入词典的新词,最后被检索出来,因此选取“华为超三星”作为文本的断点;
S9、利用CRF分词模型分别对分割后网络新闻标题进行分词,再将其对应的分词结果和断点对应的新词作为网络新闻标题的最终分词结果;
S10、利用CRF模型直接对网络新闻标题进行分词,得到最终分词结果;
S11、重复步骤S8-S10,直到所有的网络新闻标题遍历结束后,将所有的最终分词结果存入到数组2中,同时删除主题词典中未被检索出的新词,再进入步骤S12;
S12、将数组1和数组2中的每一项进行一一比对,如果每一项均相同,则网络舆情主题抽取结束,并进入步骤S13;如果有某一项不相同,令数组1等于数组2再返回步骤S4;
S13、输出主题词典
S13.1、将数组1中的所有词并入到最小颗粒词集合中,再标记出该集合中每一个词的词性;
S13.2、计算主题词典中所有新词的平均实词匹配度:设主题词典中某一新词为Topic,其中有n个网络新闻标题包含该新词Topic,记为T1,T2,...Tn;
计算新词Topic的平均实词匹配度ANMD(Topic):
ANMD(Topic)=(n(Topic)/n(T1)+(n(Topic)/n(T2)+...+(n(Topic)/n(Tn))/n;
其中,n(Topic)为拼成新词Topic的最小颗粒词集合中使用实词的个数,n(T1),n(T2),...n(Tn)分别为对应网络新闻标题在最小颗粒词集合中使用实词的个数;
S13.3、将主题词典中所有新词按平均实词匹配度大小进行降序排列,再按排列后的顺序进行输出。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于新词的网络舆情主题抽取方法,其特征在于,包括以下步骤:
(1)、构建一个空的主题词典;
(2)、利用网络爬虫从互联网中爬取网络新闻,对爬取的网络新闻进行去重处理后,将网络新闻的标题存入语料集中;
(3)、遍历语料集中的每一个网络新闻标题,利用CRF模型对网络新闻标题进行分词,把所有的分词结果存入到数组1中;
(4)、设置数据挖掘算法FP-growth的支持度阈值,利用数据挖掘算法FP-growth挖掘出数组中的频繁项集,得到由频繁项和对应支持度组成的频繁模式数组1;
(5)、筛选频繁项集中项的个数为2的频繁模式,得到频繁模式数组2;
(6)、遍历频繁模式数组2,计算频繁项集的置信度;
设该频繁项集为M,其中的两个项分别为A和B,那么该频繁项集M对应的支持度S(M)为:
C(M)=S(M)(S(M_A)+S(M_B))/(2S(M_A)S(M_B))
其中,S(M_A)和S(M_B)分别为频繁模式数组1中项的个数为1且恰好为A和B的频繁项集对应的支持度;
判断置信度是否大于预设的阈值,如果大于,则进入步骤(7);否则继续遍历频繁模式数组,直到遍历完成;
(7)、将频繁项集的两个项分别以正序和倒序组成两个新词,并加入到主题词典中;
(8)、重新遍历语料集中的每一个网络新闻标题,并检索主题词典,如果某一网络新闻标题中包含有主题词典中的新词,则以该新词为断点分割网络新闻标题,并进入步骤(9);如果某一网络新闻标题中不包含有主题词典中的新词,则进入步骤(10);
(9)、利用CRF模型分别对分割后网络新闻标题进行分词,再将其对应的分词结果和断点对应的新词作为网络新闻标题的最终分词结果;
(10)、利用CRF模型直接对网络新闻标题进行分词,得到最终分词结果;
(11)、重复步骤(8)-(10),直到所有的网络新闻标题遍历结束后,将所有的最终分词结果存入到数组2中,同时删除主题词典中未被检索出的新词,再进入步骤(12);
(12)、将数组1和数组2中的每一项进行一一比对,如果每一项均相同,则网络舆情主题抽取结束,并进入步骤(13);如果有某一项不相同,令数组1等于数组2再返回步骤(4);
(13)、输出主题词典
(13.1)、将数组1中的所有词并入到最小颗粒词集合中,再标记出该集合中每一个词的词性;
(13.2)、计算主题词典中所有新词的平均实词匹配度:设主题词典中某一新词为Topic,其中有个网络新闻标题包含该新词Topic,记为T1,T2,...Tn;
计算新词Topic的平均实词匹配度ANMD(Topic):
ANMD(Topic)=(n(Topic)/n(T1)+(n(Topic)/n(T2)+...+(n(Topic)/n(Tn))/n;
其中,n(Topic)为拼成新词Topic的最小颗粒词集合中使用实词的个数,n(T1),n(T2),...n(Tn)分别为对应网络新闻标题在最小颗粒词集合中使用实词的个数;
(13.3)、将主题词典中所有新词按平均实词匹配度大小进行降序排列,再按排列后的顺序进行输出。
2.根据权利要求1所述的一种基于新词的网络舆情主题抽取方法,其特征在于,所述步骤(8)中,检索主题词典时,如果主题词典中的两个及以上的新词有重叠的部分,则取最后被检索出的新词作为断点。
CN201710304816.7A 2017-05-03 2017-05-03 一种通过新词抽取网络舆情主题的方法 Active CN107133317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710304816.7A CN107133317B (zh) 2017-05-03 2017-05-03 一种通过新词抽取网络舆情主题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710304816.7A CN107133317B (zh) 2017-05-03 2017-05-03 一种通过新词抽取网络舆情主题的方法

Publications (2)

Publication Number Publication Date
CN107133317A true CN107133317A (zh) 2017-09-05
CN107133317B CN107133317B (zh) 2020-07-31

Family

ID=59715554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710304816.7A Active CN107133317B (zh) 2017-05-03 2017-05-03 一种通过新词抽取网络舆情主题的方法

Country Status (1)

Country Link
CN (1) CN107133317B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119450A (zh) * 2018-01-18 2019-08-13 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
CN110502703A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于字符串字典构建的社交网络突发事件检测方法
CN114691861A (zh) * 2020-12-28 2022-07-01 北京市博汇科技股份有限公司 一种基于主题词语义相似度的话题聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102750336A (zh) * 2012-06-04 2012-10-24 电子科技大学 一种基于用户关联性的资源个性化推荐方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN102750336A (zh) * 2012-06-04 2012-10-24 电子科技大学 一种基于用户关联性的资源个性化推荐方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林倩瑜: "关联规则挖掘算法研究综述", 《软件导刊》 *
章博亨等: "基于大数据和机器学习的微博用户行为分析系统", 《电脑知识与技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119450A (zh) * 2018-01-18 2019-08-13 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
CN110502703A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于字符串字典构建的社交网络突发事件检测方法
CN114691861A (zh) * 2020-12-28 2022-07-01 北京市博汇科技股份有限公司 一种基于主题词语义相似度的话题聚类方法

Also Published As

Publication number Publication date
CN107133317B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108268580A (zh) 基于知识图谱的问答方法及装置
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN101937436B (zh) 一种文本分类方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN110516047A (zh) 基于包装领域的知识图谱的检索方法及检索系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN105893478A (zh) 一种标签提取方法及设备
CN108287843A (zh) 一种兴趣点信息检索的方法和装置、及导航设备
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN111881290A (zh) 一种基于加权语义相似度的配网多源网架实体融合方法
CN109086356B (zh) 大规模知识图谱的错误连接关系诊断及修正方法
CN109408811A (zh) 一种数据处理方法及服务器
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN110362824A (zh) 一种自动纠错的方法、装置、终端设备及存储介质
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN102073704B (zh) 文本分类处理方法和系统以及设备
KR20150096295A (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN102023986A (zh) 参考外部知识构建文本分类器的方法和设备
CN108460150A (zh) 新闻标题的处理方法及装置
CN103886020A (zh) 一种房地产信息快速搜索方法
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN107133317A (zh) 一种基于新词的网络舆情主题抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant