CN107992474A - 一种流式数据主题挖掘方法及其系统 - Google Patents

一种流式数据主题挖掘方法及其系统 Download PDF

Info

Publication number
CN107992474A
CN107992474A CN201711193285.5A CN201711193285A CN107992474A CN 107992474 A CN107992474 A CN 107992474A CN 201711193285 A CN201711193285 A CN 201711193285A CN 107992474 A CN107992474 A CN 107992474A
Authority
CN
China
Prior art keywords
news
data
theme
keyword
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711193285.5A
Other languages
English (en)
Other versions
CN107992474B (zh
Inventor
王丽宏
刘哲
马宏远
彭浩
聂健
孙佩源
袁石
刘玮
贺敏
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201711193285.5A priority Critical patent/CN107992474B/zh
Publication of CN107992474A publication Critical patent/CN107992474A/zh
Application granted granted Critical
Publication of CN107992474B publication Critical patent/CN107992474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。

Description

一种流式数据主题挖掘方法及其系统
技术领域
本发明涉及信息检索技术领域,尤其涉及一种流式数据主题挖掘方法及其系统。
背景技术
目前随着我国新闻事业和信息技术的飞速发展,新闻信息的表现形式和发布渠道日趋多样化,如何有效地组织和管理日益庞大的结构化、非结构化数据,充分地整合、挖掘并利用丰富的新闻信息资源,拓展新闻信息服务的新领域、新境界,就成为新闻传媒业界面临的严峻挑战。而如何通过网络大数据及时、准确、科学地捕捉网上值得关注的、敏感性信息和主题已成为当前信息研究与报送业务面临的主要问题之一。特别是媒体行业正在普遍进行数据中心的建设,一切以新闻数据为中心的运行模式已经接近于数据信息的工业化生产,新闻的制作已经是采写编辑在前、存储整理在中,分析挖掘在后的全新生产模式。如何让新闻增值,让静态数据产生动态效益,已经成为媒体行业目前最为关心的问题。
发明内容
(一)要解决的技术问题
本发明实施例要解决的技术问题是解决现有技术中新闻数据量大,难以从中有效的寻找所需新闻数据的问题。
(二)技术方案
为了解决上述技术问题,本发明实施例提供了一种流式数据主题挖掘方法及其系统,包括:
根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取所述主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;
提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度,并将所述新闻主题相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合。
在上述技术方案的基础上,本发明实施例还可以做如下改进。
可选的,所述根据主题核心词集合对所述结构化数据进行筛选,得到主题数据之前,该挖掘方法还包括:
对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作,得到属性一致的所述结构化数据,并进行分布式存储。
可选的,所述提取候选新闻数据中的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合之前,该挖掘方法还包括:
根据主题核心词集合对新闻数据进行倒排索引过滤,得到相关新闻数据;
根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤,得到所述候选新闻数据。
可选的,通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者,得到主题数据的发生地和参与者集合;提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者,得到新闻的发生地和参与者集合;实体相关度包括:发生地相关度和参与者相关度;
所述发生地相关度的计算公式为:
其中,Simloc为主题数据与候选新闻数据的发生地相关度;locT为主题数据的发生地;locN为新闻的发生地;
所述参与者相关度的计算公式为:
其中,Simpar为主题数据与新闻的参与者相关度;pari为主题数据的参与者集合;parj为新闻的参与者集合;
所述核心词相关度的计算公式为:
其中,Simcore为主题数据与候选新闻数据的核心词相关度;core为主题核心词集合;keyw为新闻关键词集合;
所述关键词相关度的计算公式为:
Simrelw=cos(vT,vN);
其中,Simrelw为主题数据与候选新闻数据的关键词相关度;wt为主题关键词的词向量;wn为新闻关键词的词向量;vT为主题关键词集合的平均词向量;vN为新闻关键词集合的平均词向量。
可选的,所述根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度的主题与新闻关系评价公式为:
F=α·Simcore+β·Simloc+γ·Simpar+ω·Simrelw
其中,F为所述新闻数据的与所述主题数据的相似度;α、β、γ和ω为权重比系数;α+β+γ=1;α,β,γ>0。
本发明实施例还提供了实现上述方法的一种流式数据主题挖掘系统,包括:存储模块、处理模块、计算模块和判断模块;
所述处理模块,根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取所述主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;
所述处理模块,还用于提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
所述计算模块,用于根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
所述计算模块,还用于根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度;
所述判断模块,用于判断所述候选新闻数据与所述主题数据的相似度是否大于预设阈值;并将所述相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合通过存储模块进行存储。
可选的,该挖掘系统还包括:第一处理模块,用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作,得到属性一致的所述结构化数据,并通过所述存储模块进行分布式存储。
可选的,该挖掘系统还包括:第二处理模块,用于根据主题核心词集合对新闻数据进行倒排索引过滤,得到相关新闻数据;根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤,得到所述候选新闻数据。
可选的,所述处理模块,具体用于,通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者,得到主题数据的发生地和参与者集合;提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者,得到新闻的发生地和参与者集合;
所述计算模块,具体用于,通过计算公式分别对主题实体集合和新闻实体集合的相关度进行计算,得到发生地相关度和参与者相关度;对新闻关键词集合和主题关键词集合与主题核心词集合的相关度分别进行计算,得到关键词相关度和核心词相关度;
所述发生地相关度的计算公式为:
其中,Simloc为主题数据与候选新闻数据的发生地相关度;locT为主题数据的发生地;locN为新闻的发生地;
所述参与者相关度的计算公式为:
其中,Simpar为主题数据与新闻的参与者相关度;pari为主题数据的参与者集合;parj为新闻的参与者集合;
所述核心词相关度的计算公式为:
其中,Simcore为主题数据与候选新闻数据的核心词相关度;core为主题核心词集合;keyw为新闻关键词集合;
所述关键词相关度的计算公式为:
Simrelw=cos(vT,vN);
其中,Simrelw为主题数据与候选新闻数据的关键词相关度;wt为主题关键词的词向量;wn为新闻关键词的词向量;vT为主题关键词集合的平均词向量;vN为新闻关键词集合的平均词向量。
可选的,所述计算模块,还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算,得到所述新闻数据与所述主题数据的新闻主题相似度;所述主题与新闻关系评价公式为:
F=α·Simcore+β·Simloc+γ·Simpar+ω·Simrelw
其中,F为所述新闻数据的与所述主题数据的相似度;α、β、γ和ω为权重比系数;α+β+γ=1;α,β,γ>0。
(三)有益效果
本发明的上述技术方案与现有技术相比具有如下优点:本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。
附图说明
图1是本发明实施例提供的一种流式数据主题挖掘系统流程示意图;
图2是本发明实施例提供的一种流式数据主题挖掘系统结构示意图;
图3是本发明实施例提供的一种流式数据主题挖掘系统中第二处理模块工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种流式数据主题挖掘方法流程示意图,包括:
根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;
提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
根据新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
根据实体相关度、关键词相关度和核心词相关度得到候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。
上述实施例中,通过用户给定的主体核心词集合对流式数据整理后得到的结构化数据进行筛选,得出满足主题核心词的新闻数据作为主题数据,通过命名实体识别方法识别主题数据和候选新闻数据的相关实体,并整理出相关关键词,计算出候选新闻数据与主题数据之间的实体相关度,关键词相关度和核心词相关度,并由相关度得到该候选新闻数据和主题数据的相似度值,当相似度值超过预设阈值时,将该候选新闻数据作为合格新闻数据,由此来对流式新闻数据进行筛选得到完整的新闻集合。
如图2所示,本发明实施例还提供了一种流式数据主题挖掘系统结构示意图,包括:存储模块、处理模块、计算模块和判断模块;
处理模块,根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合,利用NLP等方法提取主题特征,对主题数据进行分词,去停留词后,对词频进行统计,构成主题关键词集合,为减少计算量,限制该主题关键词集合中主题关键词的数量不超过10个,通过命名实体识别方法识别主题数据中的主题实体;
处理模块,还用于提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
计算模块,用于根据新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
计算模块,还用于根据实体相关度、关键词相关度和核心词相关度得到候选新闻数据与主题数据的新闻主题相似度;
判断模块,用于判断候选新闻数据与主题数据的相似度是否大于预设阈值;并将相似度大于预设阈值的候选新闻数据导入合格新闻数据集合通过存储模块进行存储。
在本实施例中,该挖掘系统还包括:第一处理模块,用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作,得到属性一致的结构化数据,目的是大量过滤无需分析的文本数据、降低后续分析的计算负载,并通过存储模块进行分布式存储,利用Hadoop,Elasticsearch等分布式框架对海量流式新闻数据集构建分布式存储与索引,保证数据处理的实时性和可靠性。
如图3所示,在本实施例中,该挖掘系统还包括:第二处理模块,用于根据主题核心词集合对新闻数据进行倒排索引过滤,得到相关新闻数据;根据主题数据对相关新闻数据进行局部敏感哈希过滤,得到候选新闻数据;运用倒排索引、局部敏感哈希等算法减少了文本计算量,极大地提升了效率,算法内部耦合性低,可移植性好。
由于文本特征抽取及相似度计算较为耗时,因此,本发明采用倒排索引+局部敏感哈希算法对新闻集进行过滤。第一层是倒排索引过滤。我们认为具有隶属于某个主题的新闻特征与该主题特征之间至少会有一个相同的名词属性的关键词,基于这个前提,我们对主题的关键词建立倒排索引(Inverted Index),倒排索引建立了从关键词到主题的映射,这样我们可以很快找到一个可能的新闻,集合中的新闻特征与主题特征具有一个或多个相同的名词关键词,这个新闻集合我们定义为相关新闻数据。第二层是局部敏感哈希过滤。局部敏感哈希(Locality-Sensitive Hashing)是一种解决近似最近邻问题(ANN)的方法,它的基本思想是相似的输入有较高的概率具有相同的哈希值,即具有相同哈希值的元素有较高的概率在原空间中是相近的,因此可以通过LSH找到已确定主题下新闻的最相近的m个新闻,减小相关新闻数据的大小。经过第二层过滤后,我们在相关新闻数据集合的基础上得到了一个更小的新闻集合,我们定义为候选新闻数据。
显然,经过两层过滤后的集合相比于初始集合数据量大大减少,提高了运算速度。
在本实施例中,处理模块,具体用于,通过命名实体识别提取主题数据的实体包括的主题数据的发生地和参与者,得到主题数据的发生地和参与者集合;提取候选新闻数据的新闻实体包括的新闻的发生地和参与者,得到新闻的发生地和参与者集合,出现次数最多的地点被设置为发生地,出现次数最多的3个人名、机构名放入参与者集合作为新闻的参与者。
计算模块,具体用于,通过计算公式分别对主题实体集合和新闻实体集合的相关度进行计算,得到发生地相关度和参与者相关度;对新闻关键词集合和主题关键词集合与主题核心词集合的相关度分别进行计算,得到关键词相关度和核心词相关度;
发生地相关度的计算公式为:
其中,Simloc为主题数据与候选新闻数据的发生地相关度;locT为主题数据的发生地;locN为新闻的发生地;
参与者相关度的计算公式为:
其中,Simpar为主题数据与新闻的参与者相关度;pari为主题数据的参与者集合;parj为新闻的参与者集合;
核心词相关度的计算公式为:
其中,Simcore为主题数据与候选新闻数据的核心词相关度;core为主题核心词集合,由用户给定;keyw为新闻关键词集合;
关键词相关度的计算公式为:
Simrelw=cos(vT,vN);
其中,Simrelw为主题数据与候选新闻数据的关键词相关度;wt为主题关键词的词向量;wn为新闻关键词的词向量;vT为主题关键词集合的平均词向量;vN为新闻关键词集合的平均词向量;
在上述计算方法中只有主题核心词是用户必须给定的,发生地和参与者可以由用户选择是否给出,因此为了获得主题完整的属性,我们需要从主题数据的相关新闻中提取相关信息,当用户给出主题数据的发生地和参与者时,此时不需要从主题数据中提取主题数据的发生地和参与者,该算法主要思想是通过给定主题的核心词、发生地、参与人、相关关键词等对新闻的相关程度进行打分,达到相应阈值的新闻即作为该主题包含的新闻。
在本实施例中,计算模块,还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算,得到新闻数据与主题数据的新闻主题相似度;主题与新闻关系评价公式为:
F=α·Simcore+β·Simloc+γ·Simpar+ω·Simrelw
其中,F为新闻数据的与主题数据的相似度;α、β、γ和ω为权重比系数;α+β+γ=1;α,β,γ>0,在定义了主题与新闻的关系评价函数之后,我们通过一个经验的阈值ε来评价该新闻是否属于该主题,即:新闻N属于主题T,当且仅当F>ε。
基于此,我们可以得到完整的主题新闻集。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种流式数据主题挖掘方法,其特征在于,包括:
根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取所述主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;
提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度,并将所述新闻主题相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合。
2.根据权利要求1所述的一种流式数据主题挖掘方法,其特征在于,所述根据主题核心词集合对所述结构化数据进行筛选,得到主题数据之前,该挖掘方法还包括:
对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作,得到属性一致的所述结构化数据,并进行分布式存储。
3.根据权利要求1所述的一种流式数据主题挖掘方法,其特征在于,所述提取候选新闻数据中的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合之前,该挖掘方法还包括:
根据主题核心词集合对新闻数据进行倒排索引过滤,得到相关新闻数据;
根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤,得到所述候选新闻数据。
4.根据权利要求1-3中任一所述的一种流式数据主题挖掘方法,其特征在于,通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者,得到主题数据的发生地和参与者集合;提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者,得到新闻的发生地和参与者集合;实体相关度包括:发生地相关度和参与者相关度;
所述发生地相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>loc</mi> <mi>T</mi> </msub> <mi>e</mi> <mi>q</mi> <mi>u</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi> </mi> <msub> <mi>loc</mi> <mi>N</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
其中,Simloc为主题数据与候选新闻数据的发生地相关度;locT为主题数据的发生地;locN为新闻的发生地;
所述参与者相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>p</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>par</mi> <mi>i</mi> </msub> <mo>&amp;cap;</mo> <msub> <mi>par</mi> <mi>j</mi> </msub> </mrow> <mrow> <msub> <mi>par</mi> <mi>i</mi> </msub> <mo>&amp;cup;</mo> <msub> <mi>par</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Simpar为主题数据与新闻的参与者相关度;pari为主题数据的参与者集合;parj为新闻的参与者集合;
所述核心词相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>&amp;cap;</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mi>w</mi> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Simcore为主题数据与候选新闻数据的核心词相关度;core为主题核心词集合;keyw为新闻关键词集合;
所述关键词相关度的计算公式为:
<mrow> <msub> <mi>v</mi> <mi>T</mi> </msub> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wt</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>
<mrow> <msub> <mi>v</mi> <mi>N</mi> </msub> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wn</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>
Simrelw=cos(vT,vN);
其中,Simrelw为主题数据与候选新闻数据的关键词相关度;wt为主题关键词的词向量;wn为新闻关键词的词向量;vT为主题关键词集合的平均词向量;vN为新闻关键词集合的平均词向量。
5.根据权利要求4所述的一种流式数据主题挖掘方法,其特征在于,所述根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度的主题与新闻关系评价公式为:
F=α·Simcore+β·Simloc+γ·Simpar+ω·Simrelw
其中,F为所述新闻数据的与所述主题数据的相似度;α、β、γ和ω为权重比系数;α+β+γ=1;α,β,γ>0。
6.一种流式数据主题挖掘系统,其特征在于,包括:存储模块、处理模块、计算模块和判断模块;
所述处理模块,根据主题核心词集合对结构化数据进行筛选,得到主题数据,提取所述主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;
所述处理模块,还用于提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;
所述计算模块,用于根据所述新闻实体集合、新闻关键词集合、主题实体集合、主题关键词集合和主题核心词集合分别得到实体相关度、关键词相关度和核心词相关度;
所述计算模块,还用于根据实体相关度、关键词相关度和核心词相关度得到所述候选新闻数据与所述主题数据的新闻主题相似度;
所述判断模块,用于判断所述候选新闻数据与所述主题数据的相似度是否大于预设阈值;并将所述相似度大于预设阈值的所述候选新闻数据导入合格新闻数据集合通过存储模块进行存储。
7.根据权利要求6所述的一种流式数据主题挖掘系统,其特征在于,该挖掘系统还包括:第一处理模块,用于对接收到的流式数据进行数据清洗、数据补齐和黑白名单过滤操作,得到属性一致的所述结构化数据,并通过所述存储模块进行分布式存储。
8.根据权利要求6所述的一种流式数据主题挖掘系统,其特征在于,该挖掘系统还包括:第二处理模块,用于根据主题核心词集合对新闻数据进行倒排索引过滤,得到相关新闻数据;根据所述主题数据对所述相关新闻数据进行局部敏感哈希过滤,得到所述候选新闻数据。
9.根据权利要求6-8中任一所述的一种流式数据主题挖掘系统,其特征在于,所述处理模块,具体用于,通过命名实体识别提取所述主题数据的实体包括的主题数据的发生地和参与者,得到主题数据的发生地和参与者集合;提取所述候选新闻数据的新闻实体包括的新闻的发生地和参与者,得到新闻的发生地和参与者集合;
所述计算模块,具体用于,通过计算公式分别对主题实体集合和新闻实体集合的相关度进行计算,得到发生地相关度和参与者相关度;对新闻关键词集合和主题关键词集合与主题核心词集合的相关度分别进行计算,得到关键词相关度和核心词相关度;
所述发生地相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>loc</mi> <mi>T</mi> </msub> <mi>e</mi> <mi>q</mi> <mi>u</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi> </mi> <msub> <mi>loc</mi> <mi>N</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
其中,Simloc为主题数据与候选新闻数据的发生地相关度;locT为主题数据的发生地;locN为新闻的发生地;
所述参与者相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>p</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>par</mi> <mi>i</mi> </msub> <mo>&amp;cap;</mo> <msub> <mi>par</mi> <mi>j</mi> </msub> </mrow> <mrow> <msub> <mi>par</mi> <mi>i</mi> </msub> <mo>&amp;cup;</mo> <msub> <mi>par</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Simpar为主题数据与新闻的参与者相关度;pari为主题数据的参与者集合;parj为新闻的参与者集合;
所述核心词相关度的计算公式为:
<mrow> <msub> <mi>Sim</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>&amp;cap;</mo> <mi>k</mi> <mi>e</mi> <mi>y</mi> <mi>w</mi> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Simcore为主题数据与候选新闻数据的核心词相关度;core为主题核心词集合;keyw为新闻关键词集合;
所述关键词相关度的计算公式为:
<mrow> <msub> <mi>v</mi> <mi>T</mi> </msub> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wt</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>
<mrow> <msub> <mi>v</mi> <mi>N</mi> </msub> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>wn</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>
Simrelw=cos(vT,vN);
其中,Simrelw为主题数据与候选新闻数据的关键词相关度;wt为主题关键词的词向量;wn为新闻关键词的词向量;vT为主题关键词集合的平均词向量;vN为新闻关键词集合的平均词向量。
10.根据权利要求9所述的一种流式数据主题挖掘系统,其特征在于,所述计算模块,还用于将实体相关度、关键词相关度和核心词相关度按主题与新闻关系评价公式进行计算,得到所述新闻数据与所述主题数据的新闻主题相似度;所述主题与新闻关系评价公式为:
F=α·Simcore+β·Simloc+γ·Simpar+ω·Simrelw
其中,F为所述新闻数据的与所述主题数据的相似度;α、β、γ和ω为权重比系数;α+β+γ=1;α,β,γ>0。
CN201711193285.5A 2017-11-24 2017-11-24 一种流式数据主题挖掘方法及其系统 Active CN107992474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711193285.5A CN107992474B (zh) 2017-11-24 2017-11-24 一种流式数据主题挖掘方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711193285.5A CN107992474B (zh) 2017-11-24 2017-11-24 一种流式数据主题挖掘方法及其系统

Publications (2)

Publication Number Publication Date
CN107992474A true CN107992474A (zh) 2018-05-04
CN107992474B CN107992474B (zh) 2021-04-27

Family

ID=62032050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711193285.5A Active CN107992474B (zh) 2017-11-24 2017-11-24 一种流式数据主题挖掘方法及其系统

Country Status (1)

Country Link
CN (1) CN107992474B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269852A (zh) * 2020-10-23 2021-01-26 深圳中泓在线股份有限公司 生成舆情专题方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CA2956627A1 (en) * 2016-01-29 2017-07-29 Thomson Reuters Global Resources Unlimited Company System and engine for seeded clustering of news events

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CA2956627A1 (en) * 2016-01-29 2017-07-29 Thomson Reuters Global Resources Unlimited Company System and engine for seeded clustering of news events

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269852A (zh) * 2020-10-23 2021-01-26 深圳中泓在线股份有限公司 生成舆情专题方法、系统及存储介质

Also Published As

Publication number Publication date
CN107992474B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN106030571B (zh) 基于知识图动态地修改用户界面的元素
CN105488092B (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN113454954A (zh) 社交数据流上的实时事件检测
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
TW201426360A (zh) 文字串流訊息分析系統和方法
CN104216925A (zh) 一种视频内容去重的处理方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN104537341A (zh) 人脸图片信息获取方法和装置
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN110929683B (zh) 一种基于人工智能的视频舆情监测方法及系统
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN105512300A (zh) 信息过滤方法及系统
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN112887343B (zh) 一种用于网络大数据的管理系统及管理方法
CN107992474B (zh) 一种流式数据主题挖掘方法及其系统
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
US9332031B1 (en) Categorizing accounts based on associated images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant