CN112380339A - 热点事件挖掘方法、装置及服务器 - Google Patents
热点事件挖掘方法、装置及服务器 Download PDFInfo
- Publication number
- CN112380339A CN112380339A CN202011320781.4A CN202011320781A CN112380339A CN 112380339 A CN112380339 A CN 112380339A CN 202011320781 A CN202011320781 A CN 202011320781A CN 112380339 A CN112380339 A CN 112380339A
- Authority
- CN
- China
- Prior art keywords
- hot
- character
- word
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005065 mining Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 69
- 238000009499 grossing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种热点事件挖掘方法、装置及服务器,该方法包括:获取内容资源的标题信息中的多个热点词;在多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括多个热点词中出现在同一标题信息中的至少两个热点词;在至少一个热点词组合中确定第一热点词组合,并基于第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,第二热点词组合为至少一个热点词组合中除第一热点词组合之外的热点词组合。这样可以提高热点事件的挖掘结果的准确度。
Description
技术领域
本公开实施例涉及数字挖掘技术领域,尤其涉及一种热点事件挖掘方法、装置及服务器。
背景技术
随着技术的发展,一些网络平台由于受众庞大,每日会产生大量的内容,并伴随着大量的观看量、评论量,并形成一个规模庞大的网络社区。如果出现重大热点事件,舆论影响将通过网络社区迅速放大,且如果事件舆论中包含较大的负面情绪,将会对社会造成不良影响。因此,实时监控信息流热点事件,有助于在舆论造成不良影响前及早发现、预防问题发生。
目前,一般是通过文档主题生成模型(Latent Dirichlet Allocation,简称LDA)进行主题词提取,并将最近一段时间内出现频次突增的主题词作为热点主题词。然而基于LDA话题提取方案的输出结果为主题词,而在实际舆情监控过程中,仅仅根据主题词是不足以让监控人员有效了解舆情事件。
可见,相关技术中的热点事件的挖掘结果存在准确度低的问题。
发明内容
本公开提供一种热点事件挖掘方法、装置及电子设备,以至少解决相关技术中的热点事件的挖掘结果存在准确度低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种热点事件挖掘方法,包括:
获取内容资源的标题信息中的多个热点词;
在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
可选的,所述获取内容资源的标题信息中的多个热点词获取预设时长内平台发布的内容资源的标题信息中的多个热点词的步骤,包括:
获取预设时长内平台发布的内容资源的标题信息;
基于分词库对所述标题信息进行切分,以得到多个候选词;
从所述多个候选词中确定多个热点词。
可选的,所述基于分词库对所述标题信息进行切分,以得到多个候选词的步骤之后,所述方法还包括:
在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;
在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
可选的,所述获取所述目标候选词的所述至少两个字符之间的关联关系的步骤,包括:
获取所述目标候选词的所述至少两个字符之间的关联度信息;
获取所述目标候选词的所述至少两个字符之间的平均互信息;
根据所述关联度信息和所述平均互信息,确定所述目标候选词的所述至少两个字符之间的关联关系。
可选的,
所述获取所述目标候选词的所述至少两个字符之间的关联度信息的步骤,包括:
在所述至少两个字符包括第一字符和第二字符,且所述第二字符位于所述第一字符的第一侧、并与所述第一字符相邻的情况下,获取所述第一字符的第一信息熵,并基于所述第一信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符和第三字符,且所述第三字符位于所述第一字符的第二侧、并与所述第一字符相邻的情况下,获取所述第一字符的第二信息熵,并基于所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符、第二字符和第三字符,所述第二字符位于所述第一字符的第一侧并与所述第一字符相邻,所述第三字符位于所述第一字符的第二侧并与所述第一字符相邻的情况下,获取所述第一字符的与所述第二字符关联的第一信息熵,以及获取所述第一字符的与所述第三字符关联的第二信息熵,并基于所述第一信息熵和所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息。
可选的,所述基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息,包括:
确定所述第一热点词组包括的至少两个第一热点词;
基于文本生成逻辑,将所述至少两个第一热点词生成用于表示热点事件的标题摘要信息。
根据本公开实施例的第二方面,提供一种热点事件挖掘装置,包括:
第一获取模块,被配置为执行获取内容资源的标题信息中的多个热点词;
确定模块,被配置为执行在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
输出模块,被配置为执行在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
可选的,所述第一获取模块包括:
第一获取单元,被配置为执行获取预设时长内平台发布的内容资源的标题信息;
切分单元,被配置为执行基于分词库对所述标题信息进行切分,以得到多个候选词;
第一确定单元,被配置为执行从所述多个候选词中确定多个热点词。
可选的,所述热点事件挖掘装置还包括:
第二获取模块,被配置为执行在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;
添加模块,被配置为执行在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
可选的,所述第二获取模块包括:
第二获取单元,被配置为执行获取所述目标候选词的所述至少两个字符之间的关联度信息;
第三获取单元,被配置为执行获取所述目标候选词的所述至少两个字符之间的平均互信息;
第二确定单元,被配置为执行根据所述关联度信息和所述平均互信息,确定所述目标候选词的所述至少两个字符之间的关联关系。
可选的,所述第二获取单元,被配置为执行在所述至少两个字符包括第一字符和第二字符,且所述第二字符位于所述第一字符的第一侧、并与所述第一字符相邻的情况下,获取所述第一字符的第一信息熵,并基于所述第一信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
被配置为执行在所述至少两个字符包括第一字符和第三字符,且所述第三字符位于所述第一字符的第二侧、并与所述第一字符相邻的情况下,获取所述第一字符的第二信息熵,并基于所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
被配置为执行在所述至少两个字符包括第一字符、第二字符和第三字符,所述第二字符位于所述第一字符的第一侧并与所述第一字符相邻,所述第三字符位于所述第一字符的第二侧并与所述第一字符相邻的情况下,获取所述第一字符的与所述第二字符关联的第一信息熵,以及获取所述第一字符的与所述第三字符关联的第二信息熵,并基于所述第一信息熵和所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息。
可选的,所述输出模块,包括:
第三确定单元,被配置为执行确定所述第一热点词组包括的至少两个第一热点词;
生成单元,被配置为执行基于文本生成逻辑,将所述至少两个第一热点词生成用于表示热点事件的标题摘要信息。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面中任一项所述的热点事件挖掘方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器执行时,使得服务器能够执行第一方面中任一项所述的热点事件挖掘方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括:可执行指令,当所述可执行指令在计算机上运行时,使得计算机能够执行第一方面中任一项所述的热点事件挖掘方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取内容资源的标题信息中的多个热点词;在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。这样通过确定至少两个第一热点词,并基于确定的至少两个第一热点词得到用于表示热点事件的标题摘要信息,不仅使挖掘到的热点事件具有更强的可读性,还可以更为准确的表达挖掘到的热点事件,提高了热点事件的挖掘结果的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种热点事件挖掘方法的流程图。
图2是根据另一示例性实施例示出的一种热点事件挖掘方法的流程图。
图3是根据一示例性实施例示出的一种热点事件挖掘装置的框图。
图4是根据一示例性实施例示出的一种装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种热点事件挖掘方法的流程图,如图1所示,该热点事件挖掘方法可以应用于服务器,比如资源发布平台等,包括以下步骤:
步骤101、获取内容资源的标题信息中的多个热点词。
该步骤中,内容资源可以是资源发布平台发布的资源信息,可以先获取内容资源,然后再获取内容资源的标题信息中的热点词。
一个实施例中,内容资源可以是预设时长内平台发布的资源。
例如,可以将预设时长(比如半小时)内资源发布平台发布的内容资源的标题信息作为语料库,该语料库中包括预设时长内资源发布平台发布的每一条内容资源的标题信息。
其中,在获取标题信息中的热点词的过程中,可以基于分词库对标题信息进行切分,以得到多个候选词;然后再对多个候选词进行热度值计算,从多个候选词中确定多个热点词。
在确定热点词的过程中,可以先统计每个候选词的出现频率,然后过滤掉部分出现频率较低的候选词,以降低候选词的热度值计算过程中服务器的计算量。
在一些实施方式中,可以通过计算出现频率较高的候选词的热度值,将热度值靠前的候选词作为热点词。
在另外一些实施方式中,可以通过预设模型,比如热度值计算模型,计算候选词的热度值,并从候选词中确定多个热点词。在本公开的一具体实施方式中,可以通过热度值计算公式,计算候选词的热度值;其中,热度值计算公式如下:
其中,热度值计算公式如下:
热度值=(当前时间段平均词频+平滑因子)/([(上一天当前一小时平均词频+平滑因子)*(上一周当前一小时平均词频+平滑因子)]^0.5)
其中,当前时间段平均词频=当前(半小时)内词平均每分钟出现量;上一天当前一小时平均词频=上一天当前一个小时内词平均每分钟出现量;上一周当前一小时平均词频=上一周当前一个小时词平均每分钟出现量。
其中,平滑因子可以决定热度值的准确性,其取值可以基于用户需求进行设定。比如,平滑因子越接近于1,平滑因子对热度值的影响越大;平滑因子越接近于0,平滑因子对热度值的影响越小。
其中,公式中的时段范围,可以根据经验值或者实际需求进行设定。
通过上述热度值计算公式,可以计算每个候选词的热度值,并将热度值靠前的候选词作为热点词,比如将热度值最高的前20个候选词作为热点词。
步骤102、在所述多个热点词中确定至少一个热点词组合。
该步骤中,每个热点词组合包括多个热点词中出现在同一标题信息中的至少两个热点词。
比如,在预设时间内,语料库中的标题信息包括:“将上海发展为世界金融中心”、“将上海打造为世界金融中心”、“将上海建设成为世界级的金融中心”、“上海金融中心的崛起”、“上海金融中心的新征程”;得到的热点词包括:“上海”、“世界”、“金融”、“中心”;由于热点词“上海”、“世界”、“金融”、“中心”均出现在同一标题信息中,因此可以将热点词“上海”、“世界”、“金融”、“中心”中的至少两个组成在一起,并形成一个热点词组合。
比如,可以得到热点词组合:“上海”、“上海金融中心”、“上海世界金融中心”等等。
步骤103、在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息。
该步骤中,可以通过语法逻辑或者语言工具,将第一热点词组合包括的至少两个第一热点词转换成用于表示热点事件的标题摘要信息。
其中,标题摘要信息包括至少两个第一热点词,还可以包括用于衔接至少两个热点词的衔接词或者标点符号等等,以便生成的标题摘要信息能够准确的表达挖掘到的热点事件的内容。
这样通过确定至少两个第一热点词,并基于确定的至少两个第一热点词得到用于表示热点事件的标题摘要信息,不仅使挖掘到的热点事件具有更强的可读性,还可以更为准确的表达挖掘到的热点事件,提高了热点事件的挖掘结果的准确度。
其中,至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,第二热点词组合为至少一个热点词组合中除第一热点词组合之外的热点词组合。
比如,针对上述5条标题信息中,热点词组合“上海世界金融中心”出现在同一标题中的次数为3次,热点词组合“上海金融中心”出现在同一标题中的次数为5次,“上海金融中心”的出现次数大于“上海世界金融中心”的出现次数,则可以将热点词组合“上海金融中心”确定为第一热点词组合,将热点词组合“上海世界金融中心”确定为第二热点词。
又例如,热点词组合“上海世界金融中心”出现在同一标题中的次数为3次,热点词组合“上海金融中心”出现在同一标题中的次数为5次,热点词组合“上海金融”出现在同一标题中的次数为6次,则可以将热点词组合“上海金融”确定为第一热点词组合,将热点词组合“上海金融中心”、“上海世界金融中心”确定为第二热点词。
在另一个实施例中,还可以将高于出现次数阈值的热点词组合作为第一热点词组合。假设出现次数阈值设置为3次,当多个热点词在同一标题中的次数超过3次时,则可将热点词组合确定为第一热点词组合。上述热点词组合“海金融中心”在同标题中的次数为5次,则可以将热点词组合“上海金融中心”确定为第一热点词组合。
确定完第一热点词组合后,通过语法逻辑或者语言工具,对第一热点词组合“上海金融中心”进行处理,可以得到用于表达热点事件的标题摘要信息为“上海金融中心”。
而且,对于第一热点词组合中的至少两个热点词,可以基于文本生成逻辑,将至少两个第一热点词生成用于表示热点事件的标题摘要信息。比如,可以通过衔接词或者标点符号(比如逗号等),将至少两个第一热点词转换成标题摘要信息;或者通过将至少两个第一热点词输入汉化文本摘要工具,得到标题摘要信息,以用于表示热点事件。
其中,本实施方式中的标题摘要信息可以是与多个同主题标题信息关联的摘要短语,也可以是包括多个同主题标题信息的摘要短语,还可以转换为短句、事件描述。比如,针对标题摘要信息“上海金融中心”,为提高该标题摘要信息的可读性,可以将其描述为“上海为金融中心”。一个实施例中,标题摘要信息包括的热点词数量包括但不限于3个。
另外,相对于文档主题生成模型进行主题词提取的过程中,需要预先标注数据,预先定义事件主题词、短语等信息,本公开实施例中可以对标题信息中热词进行分析,以确定包括至少两个第一热点词的第一热点词组合,进而基于至少两个第一热点词得到用于表达热点事件的标题摘要信息,达到动态发现热点事件的目的。
图2是根据另一示例性实施例示出的一种热点事件挖掘方法的流程图,如图2所示,包括以下步骤201-205。
步骤201、获取预设时长内平台发布的内容资源的标题信息。
该步骤中,内容资源可以是预设时长内平台发布的资源。
例如,可以将预设时长(比如半小时)内资源发布平台发布的内容资源的标题信息作为语料库,该语料库中包括预设时长内资源发布平台发布的每一条内容资源的标题信息。
步骤202、基于分词库对所述标题信息进行切分,以得到多个候选词。
该步骤中,分词库可以是基于前一次候选词添加更新后的分词库,以对标题信息进行切换,得到多个候选词。
其中,在根据分词库对标题信息进行切分的过程中,可以设置切换窗口的大小,并遍历切分窗口内所有切换窗口,以对标题信息进行切分,并得到多个候选词。比如,针对标题信息“将上海发展为世界金融中心”,可以根据历史切分经验,将切分窗口的大小设置为2个字符、3个字符、4个字符,并通过遍历窗口范围内所有切分窗口,得到候选词,其中:
切分窗口为2个字符的候选词包括:“将上”、“上海”、“海发”、“发展”、“展为”、“为世”、“世界”、“界金”、“金融”、“融中”、“中心”;
切分窗口为3个字符的候选词包括:“将上海”、“上海发”、“海发展”、“发展为”、“展为世”、“世界金”、“界金融”、“金融中”、“融中心”;
切分窗口为4个字符的候选词包括:“将上海发”、“上海发展”、“海发展为”、“发展为世”、“展为世界”、“为世界金”、“世界金融”、“界金融中”、“金融中心”。
步骤203、从所述多个候选词中确定多个热点词。
该步骤中,可以通过预设模型,比如热度值计算模型,计算候选词的热度值,并从候选词中确定多个热点词。
步骤204、在所述多个热点词中确定至少一个热点词组合。
该步骤中,每个热点词组合包括多个热点词中出现在同一标题信息中的至少两个热点词。
步骤205、在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息。
该步骤中,可以通过语法逻辑或者语言工具,将第一热点词组合包括的至少两个第一热点词转换成用于表示热点事件的标题摘要信息。
其中,标题摘要信息包括至少两个第一热点词,还可以包括用于衔接至少两个热点词的衔接词或者标点符号等等,以便生成的标题摘要信息能够准确的表达挖掘到的热点事件的内容。
这样通过使用前一次候选词添加更新后的词库,作为对标题信息进行切分的分词库,可以有效避免不必要的切分,并提高候选词的切分效率。
需要说明的是,由于本公开实施例中,用于对标题信息进行切分的分词库为前一次候选词添加更新后的词库,即用于切分的分词库为最新的词库。因此在使用分词库对标题信息进行切分的过程中,在分词库中包括“石家庄”这个词的情况下,如果对标题信息“石家庄”按照2个字符的切分窗口进行切分时,得到的候选词为“石家庄”,而非“石家”和“家庄”;而在分词库中未包括“石家庄”这个词的情况下,如果对标题信息“石家庄”按照2个字符的切分窗口进行切分时,得到的候选词为“石家”和“家庄”。可见,使用更新后的词库对标题信息进行切分,可以有效避免不必要的切分,并提高候选词的切分效率。
可选的,所述基于分词库对所述标题信息进行切分,以得到多个候选词的步骤之后,所述方法还包括:在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
本实施方式中,针对包括至少两个字符的目标候选词,可以通过获取目标候选词的至少两个字符之间的关联关系,以判断目标候选词是否分词库中的新词;如果是新词,则将目标候选词添加至分词库中,并对分词库中的分词进行更新,以便在后续的热点事件的挖掘过程中,可以直接对目标候选词进行分词,从而避免不必要的窗口切分,提高分词库对标题信息的分词效率。
比如,针对目标候选词“金融中心”,可以通过计算“金融”和“中心”之间的关联关系,以确定目标候选词“金融中心”是否是新词,如果是新词,则添加至分词库中,以对分词库进行更新。在一些实施例中,“金融”和“中心”之间的关联关系可以是“金融”和“中心”在标题信息中同时出现的次数。
比如,可以比较“金融”和“中心”在标题信息中同时出现的次数与“金融”和“中心”中的任一个出现的次数;若“金融”和“中心”在标题信息中同时出现的次数与“金融”和“中心”中的任一个出现的次数相同,则说明“金融”和“中心”总是同时出现,并可以将“金融”和“中心”组合成“金融中心”,并作为新词添加到分词库中,以对分词库进行更新。应当说明的是,“金融中心”可能是分词库中已存在,因此在添加到分词库之前,可在分词库中查找“金融中心”。若存在,则用“金融中心”覆盖分词库中原来的分词即可;若不存在,则在分词库中添加“金融中心”。在另一个实施例中,若在分词库中查找到“金融中心”,也可以不执行添加操作,保留原来的分词即可。
而且,在下一个时段的热点事件的挖掘过程中,针对当出现“金融中心”时,即使在切分窗口为2个字符及切分窗口为3个字符的情况下,得到切分候选词均是“金融中心”,而非其他形式的候选词,从而避免了避免不必要的窗口切分。
可选的,所述获取所述目标候选词的所述至少两个字符之间的关联关系的步骤,包括:获取所述目标候选词的所述至少两个字符之间的关联度信息;获取所述目标候选词的所述至少两个字符之间的平均互信息;根据所述关联度信息和所述平均互信息,确定所述目标候选词的所述至少两个字符之间的关联关系。
本实施方式中,可以通过获取至少两个字符之间的关联度信息和平均互信息,来确定至少两个字符之间的关联关系。
其中,关联度信息可以通过计算邻近信息熵的方式获取,邻近信息熵可以通过如下公式进行计算:
其中,Entropy(w)表示邻近信息熵,w为中心词,wn为邻近词,WNeighbor表示邻近词的集合;P(wn|w)表示在中心词为w的情况下,wn出现在左右邻近位置的概率。
其中,可以基于语料库中标题信息的数量,以及语料库中wn出现在中心词为w左右邻近位置的次数,计算P(wn|w)。比如,语料库中标题信息的数量为100,语料库中wn出现在中心词为w左右邻近位置的次数为30,则P(wn|w)=30/100,即30%。
比如,针对包括第一字符的至少两个字符,可以将第一字符设置为中心词,并在至少两个字符包括第二字符和/或第三字符的情况下,分别获取第一字符的第一信息熵和/或第二信息熵,并基于第一信息熵和/或第二信息熵确定目标候选词的至少两个字符之间的关联度信息;其中,第二字符位于第一字符的第一侧,并与第一字符相邻;第三字符位于第一字符的第二侧,并与第一字符相邻。
可选的,所述获取所述目标候选词的所述至少两个字符之间的关联度信息的步骤,包括:
在所述至少两个字符包括第一字符和第二字符,且所述第二字符位于所述第一字符的第一侧、并与所述第一字符相邻的情况下,获取所述第一字符的第一信息熵,并基于所述第一信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符和第三字符,且所述第三字符位于所述第一字符的第二侧、并与所述第一字符相邻的情况下,获取所述第一字符的第二信息熵,并基于所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符、第二字符和第三字符,所述第二字符位于所述第一字符的第一侧并与所述第一字符相邻,所述第三字符位于所述第一字符的第二侧并与所述第一字符相邻的情况下,获取所述第一字符的与所述第二字符关联的第一信息熵,以及获取所述第一字符的与所述第三字符关联的第二信息熵,并基于所述第一信息熵和所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息。
其中,关联度信息可以通过如下公式计算:
其中,L(w)表示目标候选词的至少两个字符之间的关联度信息,LE为第一信息熵、RE为第二信息熵,e表示自然常数。
其中,在至少两个字符中没有第二字符的情况下,即第一字符的第一侧没有字符,则确定LE为0;在至少两个字符中没有第三字符的情况下,即第一字符的第二侧没有字符,则确定RE为0。
目标候选词的至少两个字符之间的平均互信息,可以通过如下公式进行计算:
其中,n表示字符的数量,p(w)为目标候选词在语料库中的出现概率,p(cn)为目标候选词w中某字符cn在语料库中出现的概率。比如,针对目标候选词“金融中心”,p(w)表示“金融中心”在语料库中的出现概率;字符“金”、“融”、“中”、“心”的出现概率分别为p(c1)、p(c2)、p(c3)、p(c4);AM1表示目标候选词的至少两个字符之间的平均互信息。
其中,可以基于语料库中标题信息的数量,以及语料库中目标候选词出现的次数,计算目标候选词在语料库中的出现概率p(w)。比如,语料库中标题信息的数量为100,语料库中目标候选词出现的次数为40,则p(w)=40/100,即40%。
其中,可以基于语料库中标题信息的数量,以及语料库中字符cn出现的次数,计算字符cn在语料库中出现的概率p(cn)。比如,语料库中标题信息的数量为100,语料库中字符cn出现的次数为50,则p(cn)=50/100,即50%。
其中,可以通过计算目标候选词的总体得分的形式,判断目标候选词是否为新词。
计算候选词的总体得分的公式可以是:
score=AMI+L(w)
其中,score表示目标候选词的总体得分,AM1表示目标候选词的至少两个字符之间的平均互信息,L(w)表示目标候选词的至少两个字符之间的关联度信息。
具体的,可以对目标候选词的总体得分对目标候选词进行排序,并可以将得分为正的目标候选词作为新词,加入分词库中,实现对分词库中的词组的更新。
本公开实施例提供的热点事件挖掘方法,通过获取内容资源的标题信息中的多个热点词;在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。这样通过确定至少两个第一热点词,并基于确定的至少两个第一热点词得到用于表示热点事件的标题摘要信息,不仅使挖掘到的热点事件具有更强的可读性,还可以更为准确的表达挖掘到的热点事件,提高了热点事件的挖掘结果的准确度。
图3是根据一示例性实施例示出的一种热点事件挖掘装置框图。参照图3,该热点事件挖掘装置300包括第一获取模块301,确定模块302和输出模块303:
第一获取模块301,被配置为执行获取内容资源的标题信息中的多个热点词;
确定模块302,被配置为执行在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
输出模块303,被配置为执行在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
可选的,所述第一获取模块301包括:
第一获取单元,被配置为执行获取预设时长内平台发布的内容资源的标题信息;
切分单元,被配置为执行基于分词库对所述标题信息进行切分,以得到多个候选词;
第一确定单元,被配置为执行从所述多个候选词中确定多个热点词。
可选的,所述热点事件挖掘装置300还包括:
第二获取模块,被配置为执行在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;
添加模块,被配置为执行在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
可选的,所述第二获取模块包括:
第二获取单元,被配置为执行获取所述目标候选词的所述至少两个字符之间的关联度信息;
第三获取单元,被配置为执行获取所述目标候选词的所述至少两个字符之间的平均互信息;
第二确定单元,被配置为执行根据所述关联度信息和所述平均互信息,确定所述目标候选词的所述至少两个字符之间的关联关系。
可选的,所述第二获取单元,被配置为执行在所述至少两个字符包括第一字符和第二字符,且所述第二字符位于所述第一字符的第一侧、并与所述第一字符相邻的情况下,获取所述第一字符的第一信息熵,并基于所述第一信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
被配置为执行在所述至少两个字符包括第一字符和第三字符,且所述第三字符位于所述第一字符的第二侧、并与所述第一字符相邻的情况下,获取所述第一字符的第二信息熵,并基于所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
被配置为执行在所述至少两个字符包括第一字符、第二字符和第三字符,所述第二字符位于所述第一字符的第一侧并与所述第一字符相邻,所述第三字符位于所述第一字符的第二侧并与所述第一字符相邻的情况下,获取所述第一字符的与所述第二字符关联的第一信息熵,以及获取所述第一字符的与所述第三字符关联的第二信息熵,并基于所述第一信息熵和所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息。
可选的,所述输出模块303,包括:
第三确定单元,被配置为执行确定所述第一热点词组包括的至少两个第一热点词;
生成单元,被配置为执行基于文本生成逻辑,将所述至少两个第一热点词生成用于表示热点事件的标题摘要信息。
关于上述实施例中的热点事件挖掘装置300,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是根据一示例性实施例示出的一种用于热点事件挖掘的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种热点事件挖掘方法,其特征在于,包括:
获取内容资源的标题信息中的多个热点词;
在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
2.根据权利要求1所述的方法,其特征在于,所述获取内容资源的标题信息中的多个热点词的步骤,包括:
获取预设时长内平台发布的内容资源的标题信息;
基于分词库对所述标题信息进行切分,以得到多个候选词;
从所述多个候选词中确定多个热点词。
3.根据权利要求2所述的方法,其特征在于,所述基于分词库对所述标题信息进行切分,以得到多个候选词的步骤之后,所述方法还包括:
在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;
在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
4.根据权利要求3所述的方法,其特征在于,所述获取所述目标候选词的所述至少两个字符之间的关联关系的步骤,包括:
获取所述目标候选词的所述至少两个字符之间的关联度信息;
获取所述目标候选词的所述至少两个字符之间的平均互信息;
根据所述关联度信息和所述平均互信息,确定所述目标候选词的所述至少两个字符之间的关联关系。
5.根据权利要求4所述的方法,其特征在于,所述获取所述目标候选词的所述至少两个字符之间的关联度信息的步骤,包括:
在所述至少两个字符包括第一字符和第二字符,且所述第二字符位于所述第一字符的第一侧、并与所述第一字符相邻的情况下,获取所述第一字符的第一信息熵,并基于所述第一信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符和第三字符,且所述第三字符位于所述第一字符的第二侧、并与所述第一字符相邻的情况下,获取所述第一字符的第二信息熵,并基于所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息;或者,
在所述至少两个字符包括第一字符、第二字符和第三字符,所述第二字符位于所述第一字符的第一侧并与所述第一字符相邻,所述第三字符位于所述第一字符的第二侧并与所述第一字符相邻的情况下,获取所述第一字符的与所述第二字符关联的第一信息熵,以及获取所述第一字符的与所述第三字符关联的第二信息熵,并基于所述第一信息熵和所述第二信息熵确定所述目标候选词的所述至少两个字符之间的关联度信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息,包括:
确定所述第一热点词组包括的至少两个第一热点词;
基于文本生成逻辑,将所述至少两个第一热点词生成用于表示热点事件的标题摘要信息。
7.一种热点事件挖掘装置,其特征在于,包括:
第一获取模块,被配置为执行获取内容资源的标题信息中的多个热点词;
确定模块,被配置为执行在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
输出模块,被配置为执行在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
8.根据权利要求7所述的热点事件挖掘装置,其特征在于,所述第一获取模块包括:
第一获取单元,被配置为执行获取预设时长内平台发布的内容资源的标题信息;
切分单元,被配置为执行基于分词库对所述标题信息进行切分,以得到多个候选词;
第一确定单元,被配置为执行从所述多个候选词中确定多个热点词。
9.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的热点事件挖掘方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由服务器执行时,使得服务器能够执行如权利要求1至6中任一项所述的热点事件挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320781.4A CN112380339A (zh) | 2020-11-23 | 2020-11-23 | 热点事件挖掘方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320781.4A CN112380339A (zh) | 2020-11-23 | 2020-11-23 | 热点事件挖掘方法、装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380339A true CN112380339A (zh) | 2021-02-19 |
Family
ID=74588989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011320781.4A Pending CN112380339A (zh) | 2020-11-23 | 2020-11-23 | 热点事件挖掘方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380339A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
CN108268619A (zh) * | 2018-01-08 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 内容推荐方法及装置 |
CN110968684A (zh) * | 2019-12-18 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及存储介质 |
CN111368063A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的信息推送方法以及相关装置 |
-
2020
- 2020-11-23 CN CN202011320781.4A patent/CN112380339A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206306A1 (en) * | 2005-02-09 | 2006-09-14 | Microsoft Corporation | Text mining apparatus and associated methods |
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
CN108268619A (zh) * | 2018-01-08 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 内容推荐方法及装置 |
CN110968684A (zh) * | 2019-12-18 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及存储介质 |
CN111368063A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的信息推送方法以及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853660B2 (en) | Method and apparatus for retrieving similar video and storage medium | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
US20220318275A1 (en) | Search method, electronic device and storage medium | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN111198946A (zh) | 一种网络新闻热点挖掘方法及装置 | |
CN108650546B (zh) | 弹幕处理方法、计算机可读存储介质及电子设备 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN115168562A (zh) | 一种智能问答系统的构建方法、装置、设备及介质 | |
JP7186080B2 (ja) | テキスト情報判定装置及びそのプログラム | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
US20220198358A1 (en) | Method for generating user interest profile, electronic device and storage medium | |
WO2013143362A1 (zh) | 一种为文本添加超级链接的方法,装置以及计算机存储介质 | |
CN116303951A (zh) | 对话处理方法、装置、电子设备和存储介质 | |
US20220335070A1 (en) | Method and apparatus for querying writing material, and storage medium | |
CN112380339A (zh) | 热点事件挖掘方法、装置及服务器 | |
CN114970543A (zh) | 一种众包设计资源的语义分析方法 | |
CN114118937A (zh) | 基于任务的信息推荐方法、装置、电子设备及存储介质 | |
CN114048742A (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |