CN103714132A - 一种用于基于地域和行业进行热点事件挖掘的方法和设备 - Google Patents
一种用于基于地域和行业进行热点事件挖掘的方法和设备 Download PDFInfo
- Publication number
- CN103714132A CN103714132A CN201310693571.3A CN201310693571A CN103714132A CN 103714132 A CN103714132 A CN 103714132A CN 201310693571 A CN201310693571 A CN 201310693571A CN 103714132 A CN103714132 A CN 103714132A
- Authority
- CN
- China
- Prior art keywords
- document
- piece
- participle
- region
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于基于地域和行业进行热点事件挖掘的方法和设备。该方法包括:从网络获取文档;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,还可以减少挖掘时间,降低计算量,节省系统资源。
Description
技术领域
本发明涉及信息搜索领域,具体地,涉及一种用于基于地域和行业进行热点事件挖掘的方法和设备。
背景技术
随着互联网的发展,越来越多的用户通过论坛、微博、博客等平台来发布各类新闻和发表自己的意见。这就导致在网络中,每天都有成千上万的话题产生。如何从网络的海量信息中挖掘出热点事件,将对用户了解社会发展形势、掌握舆论动态起指导性作用。
现有的热点事件挖掘方法是通过从网络中获取海量信息,然后从这些海量信息中挖掘出热点事件。然而,由于缺乏对地域和行业的针对性,因此,通过这种方法挖掘出的热点事件有时并不是用户所关心的。此外,针对所有信息进行热点挖掘会消耗更多的时间,并且计算量非常大,耗费较多的系统资源。
发明内容
本发明的目的是提供一种用于基于地域和行业进行热点事件挖掘的方法和设备,以向用户提供其所关心的地域行业下的热点事件,并且可以减少挖掘时间,降低计算量。
为了实现上述目的,本发明提供一种用于基于地域和行业进行热点事件挖掘的方法。该方法包括:从网络获取文档;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文 档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件。
本发明还提供一种用于基于地域和行业进行热点事件挖掘的设备。该设备包括:用于从网络获取文档的装置;用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;用于根据所述权重确定每篇文档的关键词的装置;用于对每篇文档的内容进行地域和行业划分的装置;用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置。
在上述技术方案中,通过对所获取的文档的内容进行地域和行业划分,可以对属于同一地域同一行业下的文档信息进行热点挖掘,以得出当前该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,通过此方法,还可以减少挖掘时间,降低计算量,从而节省系统资源。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的实施方式的用于基于地域和行业进行热点事件挖掘的方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是, 此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的用于基于地域和行业进行热点事件挖掘的方法的流程图。如图1所示,该方法可以包括:步骤101,从网络获取文档;步骤102,对每篇文档进行分词处理,并确定每篇文档中各分词的权重;步骤103,根据所述权重确定每篇文档的关键词;步骤104,对每篇文档的内容进行地域和行业划分;步骤105,对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及步骤106,按照所述关键词组的权重确定该地域该行业下的热点事件。
具体地,首先,可例如采用开放应用程序编程接口(API)和网络爬虫等技术来从网络获取文档信息。例如,可以从微博、论坛、博客等网络平台来获取文档信息。之后,对所获取的每篇文档进行分词处理。例如,可通过调用系统自身的扩展词库来将一篇文档切分成单独的词语。在分词之后,还可以对每个分词进行索引,以便进行后续的搜索和统计操作。可以定期更新扩展词库中的词语,以避免新的流行词语被拆成独立的字,失去本来的意义,从而使得分词更加准确。
优选地,在从网络获取文档之后、并在对每篇文档进行分词处理之前,可以先对所获取到的文档进行预处理,过滤掉每篇文档中的无用词语。所谓“无用词语”是指通常不属于热点事件,但可能对热点挖掘造成干扰的没有实际意义的信息。所述“无用词语”可以例如情感倾向中立、微博发个人牢骚或论坛里纯灌水等类似的内容:“我今天去理了个发,吃了饭”;或者乱发广告类信息:招嫖、考证等。为此,在对文档进行分词处理之前,首先过滤掉这些无用词语,这样可以减少分词数量,降低计算量,并且提高关键词提取的准确度。
此外,根据中文的表达习惯,一些常用词往往在文中出现很多次数,例 如:“的”、“地”、“得”、“是”等等。然而,这些词通常不起关键作用,如果它们被提取出作为分词,那会对之后的关键词确定造成干扰。因此,本发明将这些词语也作为无用词语过滤掉。
本发明所采用的一种无用词语过滤方法是预先建立好一个无用词库,该无用词库里存储有各种无用词语。当对文档进行预处理时,将文档信息与无用词库中预先存储的无用词语进行比对。当文档中出现无用词库中存储的无用词语时,将该无用词语去除。用这种方法过滤掉所有无用词语之后,再对过滤后的文档进行分词处理。应当注意的是,虽然本发明采用如上方法来过滤掉文档中的无用词语,但本发明不限于此,其余无用词语或垃圾词语过滤方法均适用于本发明。
此外,还可以通过对所获取的文档进行过滤来进一步减少计算量。即,所述方法还可以包括在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤。例如,若文档的转发程度和/或回复程度小于特定阈值,则表明该篇文档的热度较低,可以被过滤掉。
在对文档进行分词处理之后,需要确定每篇文档中各分词的权重,从而根据所述权重确定出每篇文档的关键词。分词权重与分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源(例如,网站)的权重系数(该权重系数的高低能够反映出文档来源自身的可信度)中的至少一者有关。
现有的权重计算方法中大都没有考虑文档的转发量和回复量,以及文档来源自身的可信度。这样计算出的分词权重往往不能全面地反映出该分词的关键程度。为此,优选地,在本发明中,在计算每篇文档中各分词的权重时,综合考虑了各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数,以使得计算出的分词权重能够更加全面、真实 地体现出该词的关键程度,为后面的关键词确定提供正确的数据支持。
优选地,上面所述的文档转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。所谓规格化是将文档的各个属性值按比例映射到相同的取值区间,这样可以减小文档之间的差距。所述文档之间的差距是指文档的同一属性的属性值之间的差距。例如,表1示出了五篇文档的实际转发量和回复量。
表1
文档 | 转发量 | 回复量 |
文档1 | 532 | 45 |
文档2 | 12 | 8 |
文档3 | 0 | 0 |
文档4 | 99 | 20 |
文档5 | 380 | 38 |
从表1中可以看出,对于转发量这一属性,文档1与文档4之间的差距为532-99=433。
本发明所采用的规格化方法是通过下面等式(1)来将文档的实际转发量和回复量均映射到[0,1]区间。
其中,a′i表示每篇文档的转发程度或回复程度;ai表示每篇文档的实际转发量或回复量;min(ai)表示所有文档中最小的实际转发量或回复量;以及max(ai)表示所有文档中最大的实际转发量或回复量。
对于表1中示出的转发量和回复量,根据等式(1)即可得出规格化后的转发程度和回复程度,如表2所示。
表2
文档 | 转发程度 | 回复程度 |
文档1 | 1 | 1 |
文档2 | 0.02 | 0.18 |
文档3 | 0 | 0 |
文档4 | 0.19 | 0.44 |
文档5 | 0.71 | 0.84 |
从表2中可以看出,对于转发程度这一属性,文档1与文档4之间的差距为1-0.19=0.81。由此可以看出,文档之间的差距被缩小。
基于规格化后的转发程度和/或回复程度来进行文档过滤,还可以防止漏掉可能重要的信息。假设以未进行规格化的转发量小于100为过滤条件,那么表1中的文档4会被过滤掉。然而,如果以进行规格化后的转发程度小于0.19(将ai=100代入等式(1)得出)为过滤条件,那么文档4不会被过滤掉。在实际情况中,文档数量要远远超过表1和表2中所示的文档数。因此,如果基于实际转发量来进行文档过滤,由于过滤精度较低而可能导致会过滤掉很多重要信息,而如果基于规格化后的转发程度来进行过滤,由于过滤精度提高,因而可以避免漏掉一些重要的信息。
在确定了文档的转发程度和回复程度之后,可以按照下述等式(2)~(4)来确定每篇文档中各分词的权重:
Wij=TFij×Fi 等式(4)
其中,Fij表示第i个分词在第j篇文档出现的次数;Rij表示针对包括第 i个分词的第j篇文档的转发程度;Cij表示针对包括第i个分词的第j篇文档的回复程度;wij表示包括第i个分词的第j篇文档的来源的权重系数;Fi表示第i个分词在所有文档中的词频数;Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;TFij表示第i个分词在第j篇文档中的词频数;Wij表示第i个分词在第j篇文档中所占的权重;T表示第j篇文档中的分词总数;以及n表示文档总数。
在计算出各分词的权重之后,就可以根据所述权重确定出每篇文档的关键词。例如,可以选择权重大于或等于特定阈值的分词作为关键词,或者可以选择权重最大的几个(例如,三个)分词作为关键词等等。
基于通过本发明提供的分词权重计算方法计算出的权重而选出的关键词,平均正确率达到92%左右,相较于没有考虑文档转发量、回复量和文档来源的权重系数的方法,大约提高了10%。
根据本发明提供的方法,在确定好每篇文档的关键词之后,需要对每篇文档的内容进行地域和行业划分,这样可将内容属于同一地域同一行业的文档进行归类。之后,在各类别的文档中分别进行热点挖掘,这样可以减少挖掘时间,减少计算量。并且,当用户想要关注某一地域某一行业下的当前热点时,通过本发明提供的热点挖掘方法,可以快速地将该地域该行业下的当前热点事件提供给用户,以满足用户需求。
此外,在优选实施方式中,通过对无用词语进行过滤和在确定每篇文档中各分词的权重时考虑文档的转发程度、回复程度和文档来源的权重系数,不仅可以实现对文档信息的筛选,还可以避免四处散播广告及暴力水军的行为被误认为是热点事件的情况。
为了进行地域和行业划分,可以事先建立地域词库和行业词库。地域词库中存储有各个地区以及能够代表该地区的事物的词语。同理,行业词库中存储有各个行业以及表示该行业所涉及领域的词语。例如,地域词库中存储 的内容可以如下所示:
北京:中关村|海淀区|鸟巢|央视|密云县|中央电视台|昌平区|大短裤……
河北:石家庄|张家口|唐山|北戴河……
行业词库中存储的内容可以如下所示:
工业:冶金|钢铁|地矿|机械|汽车|电子|电器|仪器|仪表|化工|航天……
交通:铁路|公路|桥梁|民航|机场|航线|航道|空中管制|飞机|车站……
教育:学校|教师|统考|考试|招生|学生|培训|毕业|学位|留学|教材……
可通过以下方式来对每篇文档的内容进行地域和行业划分:从每篇文档中的分词中选取表示地域的分词和表示行业的分词;对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
例如,在进行地域划分时,可首先从文档中提取出表示地域(例如,地名、街道、标志性建筑、关键性人物等)的分词。然后对这些分词进行词频统计,选出词频最高的三个分词。之后,将这三个分词与地域词库中的词语进行比对,确定此文档内容的所属地域。
例如,某篇文档中记载了如下内容:
11月17日,本报以“央视新楼拒穿大短裤”为题,报道了位于东三环CBD地区的央视新楼,被市民传称为“大短裤”,但央视认为此称呼不雅,在内部员工里征集名字一事。
报道发表后诸多网站都能找到网友们的投票帖和评论。在一些大型网站的新闻频道里,超过20万的网友发表了意见,其中近80%的网友表示“挺好,没必要改”或者“很贴切”,但仍有大量网友表示,这个名字“太随便,太俗,太土,不符合中央电视台形象和定位”。
利用上述地域划分方法,可以确定出表示地名、街道、标志性建筑、关键性人物等的分词有:央视、大短裤、东三环、CBD和中央电视台。这些词的词频分别为3、2、1、1、1。因而,可以选择央视、大短裤、中央电视台(或东三环或CBD)这三个分词作为词频最高的三个分词,然后比对地域词库。经比对后可以确定该文档内容所属地域是北京。
同理,依据类似方法对该文档的内容再进行行业划分,确定该文档内容的所属行业。
例如,某篇文档中记载了如下内容:
“探索全国统考减少科目、不分文理科、外语等科目社会化考试一年多考。”近日发布的十八届三中全会《中共中央关于全面深化改革若干重大问题的决定》中有关推进考试招生制度改革内容引发热议,在昨天举行的教育部新闻发布会上,教育部新闻发言人续梅表示,出台不分文理科的方案,“相信时间不会太长”。
利用上述行业划分方法,可以确定出表示行业的分词有:统考、文理科、外语、考试、招生、教育部。这些词的词频分别为1、2、1、2、1、2。因而,可以选择文理科、考试、教育部这三个分词作为词频最高的三个分词,然后比对行业词库。经比对后可以确定该文档内容所属行业是教育。
这样,就可以将内容属于同一地域同一行业的文档进行归类。
在对文档内容进行地域行业划分之后,对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组。例如,假如所提取出的关键词为“腾讯”、“搜狗”、“注资”和“收购”,那么形成的关键词组可以例如为“腾讯+搜狗”、“腾讯+注资”、“收购+搜狗”、“腾讯+注资+搜狗”等等。在确定好关键词组之后,确定每个关键词组的权重。可通过下述方式来确定所述关键词组的权重:
首先确定形成关键词组(例如,“腾讯+搜狗”)的每个关键词(例如, “腾讯”和“搜狗”)在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF)。之后,根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重。例如,在第1篇文档中,“腾讯”对应一个TF-IDF值(TF-IDF1),“搜狗”对应一个TF-IDF值(TF-IDF2),那么关键词组“腾讯+搜狗”在该篇文档中的权重ω为TF-IDF1+TF-IDF2。同理,依照此方法计算出该关键词组“腾讯+搜狗”在其他每篇文档中所占的权重。之后,根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。例如,通过对关键词组“腾讯+搜狗”在内容属于同一地域同一行业的每篇文档中的权重ω进行平均,即可得出该关键词组“腾讯+搜狗”在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组“腾讯+搜狗”的权重。
在确定所述TF-IDF值时,可通过以下等式(5)~(7)来进行。
TF-IDF=TF×IDF 等式(7)
其中,F表示关键词在文档中出现的次数;Fmax表示该文档中出现次数最多的分词的出现次数;N表示内容属于同一地域同一行业的所有文档的总数;以及N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
从等式(3)和(5)中可以看出,本发明所采取的TF计算方法是基于某个词在文档中出现的次数和该文档中出现次数最多的词的出现次数的,而不像现有的TF计算方法中是基于某个词在文档中出现的次数和该文档中出 现的词的总数的。因此,本发明所采用的TF计算方法可以减少文档中出现次数较少的词对计算结果的干扰影响,从而提高所计算出的分词权重以及关键词组的权重的准确性和可靠性。
最后,按照所述关键词组的权重确定该地域该行业下的热点事件。例如,可选择权重最大的关键词组作为该地域该行业下的热点事件,也可根据权重选出TOP10(十强)热点事件,等等。如此根据地域和行业进行热点挖掘,可以满足用户对不同地域和行业的关注需求,针对性更强,并且还可以减少挖掘时间,降低计算量。
本发明还提供一种用于基于地域和行业进行热点事件挖掘的设备。该设备可以包括:用于从网络获取文档的装置;用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;用于根据所述权重确定每篇文档的关键词的装置;用于对每篇文档的内容进行地域和行业划分的装置;用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置。
其中,通过以下方式来对每篇文档的内容进行地域和行业划分:从每篇文档中的分词中选取表示地域的分词和表示行业的分词;对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
所述设备还可以包括:用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语的装置。该设备还包括:
所述设备还可以包括:用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获 取的文档进行过滤的装置。
所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数中的至少一者有关。并且,所述文档的转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。
所述每篇文档中各分词的权重可通过上述等式(2)~(4)来被确定。
所述关键词组的权重是通过以下方式确定的:确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。
可通过上述等式(5)~(7)来确定所述TF-IDF值。
由此,在本发明提供的热点事件挖掘方法和设备中,通过对所获取的文档的内容进行地域和行业划分,可以对属于同一地域同一行业下的文档信息进行热点挖掘,以得出当前该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,通过此方法,还可以减少挖掘时间,降低计算量,从而节省系统资源。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (18)
1.一种用于基于地域和行业进行热点事件挖掘的方法,其特征在于,该方法包括:
从网络获取文档;
对每篇文档进行分词处理,并确定每篇文档中各分词的权重;
根据所述权重确定每篇文档的关键词;
对每篇文档的内容进行地域和行业划分;
对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及
按照所述关键词组的权重确定该地域该行业下的热点事件。
2.根据权利要求1所述的方法,其特征在于,通过以下方式来对每篇文档的内容进行地域和行业划分:
从每篇文档中的分词中选取表示地域的分词和表示行业的分词;
对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;
通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:
在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤。
5.根据权利要求1所述的方法,其特征在于,所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数中的至少一者有关。
6.根据权利要求4或5所述的方法,其特征在于,所述转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。
7.根据权利要求6所述的方法,其特征在于,所述每篇文档中各分词的权重是通过以下方式确定的:
Wij=TFij×Fi
其中,Fij表示第i个分词在第j篇文档出现的次数;
Rij表示针对包括第i个分词的第j篇文档的转发程度;
Cij表示针对包括第i个分词的第j篇文档的回复程度;
wij表示包括第i个分词的第j篇文档的来源的权重系数;
Fi表示第i个分词在所有文档中的词频数;
Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;
TFij表示第i个分词在第j篇文档中的词频数;
Wij表示第i个分词在第j篇文档中所占的权重;
T表示第j篇文档中的分词总数;以及
n表示文档总数。
8.根据权利要求1所述的方法,其特征在于,所述关键词组的权重是通过以下方式确定的:
确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);
根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及
根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。
9.根据权利要求8所述的方法,其特征在于,通过以下方式确定所述TF-IDF值:
TF-IDF=TF×IDF
其中,F表示关键词在文档中出现的次数;
Fmax表示该文档中出现次数最多的分词的出现次数;
N表示内容属于同一地域同一行业的所有文档的总数;以及
N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
10.一种用于基于地域和行业进行热点事件挖掘的设备,其特征在于,该设备包括:
用于从网络获取文档的装置;
用于对每篇文档进行分词处理,并确定每篇文档中各分词的权重的装置;
用于根据所述权重确定每篇文档的关键词的装置;
用于对每篇文档的内容进行地域和行业划分的装置;
用于对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重的装置;以及
用于按照所述关键词组的权重确定该地域该行业下的热点事件的装置。
11.根据权利要求10所述的设备,其特征在于,通过以下方式来对每篇文档的内容进行地域和行业划分:
从每篇文档中的分词中选取表示地域的分词和表示行业的分词;
对所述表示地域的分词和所述表示行业的分词进行词频统计,选出词频最高的三个表示地域的分词和三个表示行业的分词;
通过比对所述三个表示地域的分词与地域词库中记载的词语、以及比对所述三个表示行业的分词与行业词库中记载的词语,来对每篇文档的内容进行地域和行业划分。
12.根据权利要求10所述的设备,其特征在于,该设备还包括:
用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,过滤掉每篇文档中的无用词语的装置。
13.根据权利要求10所述的设备,其特征在于,该设备还包括:
用于在从网络获取文档之后、并在对每篇文档进行分词处理之前,基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤的装置。
14.根据权利要求10所述的设备,其特征在于,所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数中的至少一者有关。
15.根据权利要求13或14所述的设备,其特征在于,所述转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的。
16.根据权利要求15所述的设备,其特征在于,所述每篇文档中各分词的权重是通过以下方式确定的:
Wij=TFij×Fi
其中,Fij表示第i个分词在第j篇文档出现的次数;
Rij表示针对包括第i个分词的第j篇文档的转发程度;
Cij表示针对包括第i个分词的第j篇文档的回复程度;
wij表示包括第i个分词的第j篇文档的来源的权重系数;
Fi表示第i个分词在所有文档中的词频数;
Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;
TFij表示第i个分词在第j篇文档中的词频数;
Wij表示第i个分词在第j篇文档中所占的权重;
T表示第j篇文档中的分词总数;以及
n表示文档总数。
17.根据权利要求10所述的设备,其特征在于,所述关键词组的权重是通过以下方式确定的:
确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频-逆文档频率值(TF-IDF);
根据所确定出的TF-IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及
根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重。
18.根据权利要求17所述的设备,其特征在于,通过以下方式确定所述TF-IDF值:
TF-IDF=TF×IDF
其中,F表示关键词在文档中出现的次数;
Fmax表示该文档中出现次数最多的分词的出现次数;
N表示内容属于同一地域同一行业的所有文档的总数;以及
N'表示在内容属于同一地域同一行业的所有文档中,包括该关键词的文档数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693571.3A CN103714132B (zh) | 2013-12-17 | 2013-12-17 | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693571.3A CN103714132B (zh) | 2013-12-17 | 2013-12-17 | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103714132A true CN103714132A (zh) | 2014-04-09 |
CN103714132B CN103714132B (zh) | 2017-12-26 |
Family
ID=50407107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310693571.3A Active CN103714132B (zh) | 2013-12-17 | 2013-12-17 | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103714132B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331483A (zh) * | 2014-11-05 | 2015-02-04 | 北京航空航天大学 | 基于短文本数据的区域事件检测方法和设备 |
CN104978408A (zh) * | 2015-08-05 | 2015-10-14 | 许昌学院 | 基于Berkeley DB数据库的主题爬虫系统 |
CN106021278A (zh) * | 2016-04-27 | 2016-10-12 | 湖南蚁坊软件有限公司 | 一种微博事件地域热度指数的分析方法 |
CN106033464A (zh) * | 2015-03-19 | 2016-10-19 | 北大方正集团有限公司 | 热点话题搜索方法和热点话题搜索装置 |
CN109460500A (zh) * | 2018-10-24 | 2019-03-12 | 深圳市腾讯计算机系统有限公司 | 热点事件发现方法、装置、计算机设备和存储介质 |
CN110852097A (zh) * | 2019-10-15 | 2020-02-28 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
CN111291176A (zh) * | 2018-12-06 | 2020-06-16 | 北京国双科技有限公司 | 一种热门事件的挖掘方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
-
2013
- 2013-12-17 CN CN201310693571.3A patent/CN103714132B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
Non-Patent Citations (3)
Title |
---|
刘海峰等: "一种基于类别分布信息的文本特征选择模型", 《图书情报工作》 * |
袁红军: "《数字参考咨询服务理论与实践》", 31 January 2011, 海洋出版社 * |
谢婧: "中文微博的话题检测及微博预警", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331483A (zh) * | 2014-11-05 | 2015-02-04 | 北京航空航天大学 | 基于短文本数据的区域事件检测方法和设备 |
CN104331483B (zh) * | 2014-11-05 | 2017-12-01 | 北京航空航天大学 | 基于短文本数据的区域事件检测方法和设备 |
CN106033464A (zh) * | 2015-03-19 | 2016-10-19 | 北大方正集团有限公司 | 热点话题搜索方法和热点话题搜索装置 |
CN104978408A (zh) * | 2015-08-05 | 2015-10-14 | 许昌学院 | 基于Berkeley DB数据库的主题爬虫系统 |
CN106021278A (zh) * | 2016-04-27 | 2016-10-12 | 湖南蚁坊软件有限公司 | 一种微博事件地域热度指数的分析方法 |
CN109460500A (zh) * | 2018-10-24 | 2019-03-12 | 深圳市腾讯计算机系统有限公司 | 热点事件发现方法、装置、计算机设备和存储介质 |
CN111291176A (zh) * | 2018-12-06 | 2020-06-16 | 北京国双科技有限公司 | 一种热门事件的挖掘方法及装置 |
CN110852097A (zh) * | 2019-10-15 | 2020-02-28 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
CN110852097B (zh) * | 2019-10-15 | 2022-02-01 | 平安科技(深圳)有限公司 | 特征词提取方法、文本相似度计算方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103714132B (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103714132A (zh) | 一种用于基于地域和行业进行热点事件挖掘的方法和设备 | |
US11019107B1 (en) | Systems and methods for identifying violation conditions from electronic communications | |
Zagheni et al. | You are where you e-mail: using e-mail data to estimate international migration rates | |
Leetaru | Culturomics 2.0: Forecasting large-scale human behavior using global news media tone in time and space | |
Efron | Information search and retrieval in microblogs | |
Ryoo et al. | Inferring twitter user locations with 10 km accuracy | |
Kovacs-Gyori et al. | # London2012: Towards citizen-contributed urban planning through sentiment analysis of twitter data | |
Tvinnereim et al. | Public perceptions of air pollution and climate change: different manifestations, similar causes, and concerns | |
Truelove et al. | Towards credibility of micro-blogs: characterising witness accounts | |
CN103186612B (zh) | 一种词汇分类的方法、系统和实现方法 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
Kumar et al. | A behavior analytics approach to identifying tweets from crisis regions | |
Evensen | Review of shale gas social science in the United Kingdom, 2013–2018 | |
CN103854064A (zh) | 一种面向特定区域的事件发生风险预测并预警方法 | |
McCreadie et al. | Relevance in microblogs: Enhancing tweet retrieval using hyperlinked documents | |
Liu et al. | A search and summary application for traffic events detection based on twitter data | |
Jain et al. | Nowcasting gentrification using Airbnb data | |
Jaiswal et al. | Predicting time-sensitive user locations from social media | |
Kelly et al. | Propagating disaster warnings on social and digital media | |
Raj et al. | Sentiment analysis of swachh bharat abhiyan | |
Moral et al. | Attitudes of rural accommodation managers towards the development of sustainable tourism | |
CN106910013A (zh) | 基于动态表达学习的不实信息检测方法和装置 | |
Alrofouh et al. | A systematic review of mobile-based assessment acceptance studies from 2009 to 2019 | |
Putra et al. | Tourists perception in Bali using social media and online media sentiment analysis | |
Wang et al. | Detecting opinion drift from chinese web comments based on sentiment distribution computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |