CN111708879A - 针对事件的文本聚合方法、装置及计算机可读存储介质 - Google Patents
针对事件的文本聚合方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111708879A CN111708879A CN202010393010.1A CN202010393010A CN111708879A CN 111708879 A CN111708879 A CN 111708879A CN 202010393010 A CN202010393010 A CN 202010393010A CN 111708879 A CN111708879 A CN 111708879A
- Authority
- CN
- China
- Prior art keywords
- target texts
- target
- text
- texts
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002776 aggregation Effects 0.000 title claims abstract description 26
- 238000004220 aggregation Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 14
- 238000011161 development Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种针对事件的文本聚合方法、装置、及计算机可读存储介质,包括:分别提取待聚合的多个目标文本中每个目标文本的多种特征;所述多种特征包括:内容类别、实体集合、向量特征;所述向量特征包括文本向量和/或词频向量;根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,得到相似度值;根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。本申请能够在多个目标文本中对同一事件的目标文本进行聚合。
Description
技术领域
本文涉及计算机技术,尤指一种针对事件的文本聚合方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的飞快发展,人类的生活已经进入了信息爆炸的时代。在这样海量文本信息的背景下,需要机器帮助人类更加有效和方便的获取知识,其中就涉及到了如何从文中提取结构化的信息以便人类阅读和理解。
发明内容
本申请提供了一种针对事件的文本聚合方法、装置及计算机可读存储介质,可以实现在多个目标文本中对同一事件的目标文本进行聚合的目的。
本申请提供了一种针对事件的文本聚合方法,包括分别提取待聚合的多个目标文本中每个目标文本的多种特征;所述多种特征包括:内容类别、实体集合、向量特征;所述向量特征包括文本向量和/或词频向量;根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,得到相似度值;根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。
与相关技术相比,本申请通过提取多个文本中每个文本的多种特征,对新闻事件两两进行相似度计算相似度;根据得到的每两个目标文本之间的相似度值确定多个文本中对应同一事件的文本,实现对同一事件的文本进行聚合。
在一个示例性实施例中,本申请通过对多个对应同一事件的文本根据发表时间进行排查,从而根据事件发展顺序,构建事件发展链条,可以让读者更加清晰的了解事件的发展。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例针对事件的文本聚合方法流程图;
图2为本申请实施例针对事件的文本聚合装置示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
如图1所示,本申请实施例一种针对事件的文本聚合方法,包括如下操作:
S1、分别提取待聚合的多个目标文本中每个目标文本的多种特征;所述多种特征包括:内容类别、实体集合、向量特征;所述向量特征包括文本向量和/或词频向量;
S2、根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,得到相似度值;
S3、根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。
本申请实施例通过提取多个文本中每个文本的多种特征,确定多个文本中对应同一事件的文本,实现对应同一事件的文本进行聚合。
在一个示例实施例中,上述中的目标文本是通过在互联网中爬取各种新闻信息得到。例如,可以采用爬虫技术,爬取全类别或者指定类别的新闻信息,将爬取的新闻信息进行文本化得到多个目标文本。爬取的新闻类别可以为金融类新闻、体育类新闻、或者军事类新闻等等。
在一个示例实施例中,上述目标文本的多个特征中内容类别的提取,可以利用NLP(自然语言处理)技术中文本分类的方法,对新闻或者文章的大类进行判定,例如,判断是金融类新闻还是体育类新闻或者军事类新闻等。本申请实施例中采用A表示。
在一个示例实施例中,上述目标文本的多个特征中实体集合的提取可以利用NLP(自然语言处理)中命名实体识别的方法,抽取出新闻或者文中所提及到的所有实体,例如机构名称,人名,地名,时间,数量词等信息。实体集合用B表示,B中包含了文中的所有实体,例如实体集合B={xx公司,美国,通用汽车,福特,特斯拉}。
在一个示例实施例中,上述目标文本的多个特征中文本向量的提取可以利用NLP(自然语言处理)中word2vec的方法构建事件文本的向量表示。具体来说,对文本的每一句子进行分词,获得每个句子分词后的结果。通过加载预先训练好的word2vec的词向量,获得分词后句子中每一个词对应的词向量。最后将所有词的词向量相加取平均数,获得文本最终的文本向量表示结果,本申请实施例中采用C表示。
在一个示例实施例中,上述目标文本的多个特征中词频向量提取可以对目标文本中的句子进行分词,计算所有分词后词语的词频数(每个词语在文中出现的次数/文中词语的总个数(去重))。对部分停用词语进行过滤,例如(是,的,在,也)等词语。最后根据词频数值的从大到小的顺序排序,取前20个词语的词频作为词频向量的结果,本申请实施例中采用D表示。
在一个示例性实施例中,上述操作S2根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,得到相似度值,包括:对于所述待聚合的多个目标文本中每两个目标文本分别进行如下操作:
S21、对两个目标文本的每个特征分别进行计算;
S22、根据两个目标文本的多种特征各自的计算值,得到两个目标文本的相似度值。
在一个示例性实施例中,上述操作S21中所述对两个目标文本的每个特征分别进行计算,包括:对两个目标文本的内容类别进行计算,得到两个目标文本内容类别的计算值。在其他实施例中,目标文本的内容类别可以不进行计算,可以设置成当内容类别相同时根据其它特征的计算值计算出的相似度值有效或为正数,当内容类别不同时根据其它特征的计算值计算出的相似度值无效或为0。
在一个示例性实施例中,通过定义类别计算函数对两个目标文本的内容类别进行计算,得到两个目标文本的内容类别的计算值。
示例性的,定义类别计算函数为:
其中,fA表示两个目标文本内容类别的计算值,x1、y1分别表示两个目标文本的内容类别。
示例性的,例如两篇新闻:
1.第一篇
3月9日,纽约股市开盘出现暴跌,随后跌幅达到7%上限,触发熔断机制,恢复交易后跌幅一度有所收窄,收盘时道琼斯工业平均指数、标准普尔500种股票指数、纳斯达克综合指数跌幅均超过7%。
2.第二篇
3月12日,纽约股市三大股指在开盘出现暴跌,跌幅超过7%。暴跌行情导致美股再次触发熔断机制,暂停交易15分钟。收盘时,三大股指跌幅均超过9%。
通过事件分类模型判断两篇新闻的事件类别,例如第一篇新闻的事件类型为金融新闻,第二篇新闻的事件类型为金融新闻。其中,事件分类模型可以为基于lda的文本聚合,或者bert,bilstm的深度学习模型。
所以内容类别维度下的fA=(金融新闻,金融新闻)=1
上述内容类别的计算函数可以采用其它形式,比如当x1=y1时fA可以为其它正数,再比如当x1≠y1时fA可以为负数;再比如设计成内容类别相同和不同时有相差较大的取值。
在一个示例性实施例中,上述所述操作S21中所述对两个目标文本的每个特征分别进行计算,包括:对两个目标文本的实体集合的交集和并集进行计算,得到两个目标文本集合的计算值;
在一个示例性实施例中,可以通过定义实体关系计算函数对两个目标文本的实体集合的交集和并集进行计算,得到两个目标文本实体集合的计算值。
示例性的,定义的实体关系计算函数为:
fB表示两个目标文本实体集合的计算,X2、Y2分别表示两个目标文本的实体集合。
继续以上述两篇新闻为例,第一篇新闻中识别到的实体为:
X2={3月9日,纽约股市,触发熔断,琼斯工业平均指数,标准普尔500种股票指数,纳斯达克综合指数,7%};
例如第二篇新闻中试别到的实体为:
Y2={3月12日,纽约股市,7%,触发熔断,9%,三大股指};
上述实体集合的计算函数不限于上述形式,可以采用别的计算式,来表示两个目标文本的实体集合之间的关系。
在一个示例性实施例中,上述所述操作S21中所述对两个目标文本的每个特征分别进行计算,包括:对两个目标文本的向量特征的点乘结果和叉乘结果进行计算,得到两个目标文本的向量特征的计算值。
在一个示例性实施例中,对两个目标文本的向量特征的点乘结果和叉乘结果进行计算,得到两个目标文本的向量特征的计算值,包括:对两个目标文本的文本向量的点乘结果和叉乘结果进行计算,得到两个目标文本的文本向量的计算值
在一个示例性实施例中,通过文本向量计算函数对两个目标文本的文本向量进行计算,得到两个目标文本的文本向量的计算值。
示例性的,定义的文本向量计算函数为:
其中fc表示两个目标文本向量的计算值,x3、y3分别表示两个目标文本的文本向量。
继续以上述两篇新闻为例,
第一篇新闻的分词结果:
'3/月/9/日/,/纽约/股市/开盘/出现/暴跌/,/随后/跌幅/达到/7%/上限/,/触发/熔断/机制/,/恢复/交易/后/跌幅/一度/有所/收窄/,/收盘/时/道琼斯/工业/平均/指数/、/标准/普尔/500/种/股票指数/、/纳斯达克/综合/指数/跌幅/均/超过/7%'。
通过上述分词结果,寻找对应每一个字的向量的到最终的文章向量。
假如数字3的向量是[0.213,0.323,0.43435]最终将所有的字向量加起来求平均,得到最终的向量x3,假如x3=[2,3,4]。
类似得到第二篇新闻的最终向量表示y3,假如y=[4,5,6]。
上述文本向量的计算函数不限于上述形式,可以采用别的计算式,来表示两个目标文本的文本向量之间的关系。
在一个示例性实施例中,对两个目标文本的向量特征的点乘结果和叉乘结果进行计算,得到两个目标文本的向量特征的计算值,包括:对两个目标文本的词频向量的点乘结果和叉乘结果进行计算,得到两个目标文本的词频向量的计算值。
在一个示例性实施例中,可以通过定义词频向量计算函数对两个目标文本的词频向量进行计算确定两个目标文本的词频向量的计算值。
示例性的,定义的词频向量计算函数为:
其中,fD表示两个目标文本向量的计算值,x4、y4分别表示两个目标文本的文本向量。
继续以上述两篇新闻为例,统计句子中的词在文中出现的频率,每个维度是这个词出现的概率,词频的计算与上述计算方法类似,得到fD。
上述词频向量的计算函数不限于上述形式,可以采用别的计算式,来表示两个目标文本的词频向量之间的关系。
在一个示例性实施例中上述操作S22中所述根据两个目标文本的多种特征各自的计算值,得到两个目标文本的相似度值,包括操作:
S221、将所述两个目标文本的实体集合的计算值和向量特征的计算值进行加权求和;所述向量特征的计算值包括:文本向量的计算值和/或词频向量的计算值;
S222、根据加权求和的结果,以及所述两个目标文本的内容类别的结算结果得到相似度值。
在一个示例性实施例中,通过定义计算值R为:
R=fA*(λfB+(1-λ)(fC+fD))
本申请实施例采用的是在目标文本类别相同的情况下才能归为同一事件,因此同一事件的fA必定为1,因此用乘法。其中的λ是一个调和的参数,取值区间在[0,1],用于给定不同的权重,便于做调整。
在一个示例性实施例中,操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本,包括:
操作S31、将相似度值满足预定阈值的每两个目标文本,确定为相似目标文本对;
操作S32、将确定为相似目标文本对的集合中与同一目标文本相似的目标文本,确定为同一事件的目标文本。
在另一个示例性实施例中,操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本,包括:
在所述多个目标文本中,将任一个目标文本,以及与该目标文本相似度值大于预定阈值的其它目标文本确定为对应同一事件。
示例性的,比如有目标文本的1、2、3、4、5,两两计算相似度,则共有10个相似度值(分别是文本12、13、14、15、23、24、25、34、35、45之间的相似度)。假设其中,满足阈值的有12、14、35,将与文本1相似的文本2、4确定为与1为同一事件的目标文本;将与文本3相似的文本5确定为同一时间的目标文本。
在一个示例性实施例中,操作S3中所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本后还包括:将对应同一事件的目标文本根据发表时间进行排序
本申请实施例通过对多个对应同一事件的文本根据发表时间进行排序,从而根据事件发展顺序,构建事件发展链条,可以让读者更加清晰的了解事件的发展。
如图2所示,本申请实施例一种针对事件的文本聚合的装置,包括处理器和存储器,所述存储器中存储有用于进行针对事件的文本聚合的程序;所述处理器用于读取所述用于针对事件的文本聚合的程序,执行上述中任一项所述的方法。
本申请实施例一种计算机可读介质,用于存储用于进行针对事件的文本聚合的程序,所述程序在被执行时执行上述中任一项所述的方法。
本申请能够对属于同一事件的新闻或者文章进行聚合。同时,由于实体抽取结果或者新闻发布都会带有新闻或者文章的发布时间,因此基于事件的时间发展顺序,以时间轴的形式构建同一事件发展的顺序链条。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种针对事件的文本聚合方法,包括:
分别提取待聚合的多个目标文本中每个目标文本的多种特征;所述多种特征包括:内容类别、实体集合、向量特征;所述向量特征包括文本向量和/或词频向量;
根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,得到相似度值;
根据每两个目标文本之间的相似度值确定对应同一事件的目标文本。
2.根据权利要求1所述的文本聚合方法,其特征在于,所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本,包括:
在所述多个目标文本中,将任一个目标文本,以及与该目标文本相似度值大于预定阈值的其它目标文本确定为对应同一事件。
3.根据权利要求1所述的文本聚合方法,其特征在于,所述根据所提取的每个目标文本的多种特征,对所述待聚合的多个目标文本两两进行相似度计算,包括:
对于所述待聚合的多个目标文本中每两个目标文本分别进行如下操作:
对两个目标文本的每个特征分别进行计算;
根据两个目标文本的多种特征各自的计算结果,得到两个目标文本的相似度值。
4.根据权利要求3所述的文本聚合方法,其特征在于,所述对两个目标文本的每个特征分别进行计算,包括:
对两个目标文本的内容类别进行计算,得到两个目标文本的内容类别的计算值;其中,当两个目标文本的内容类别相同时计算值为1,不同时为零。
5.根据权利要求3所述的文本聚合方法,其特征在于,所述对两个目标文本的每个特征分别进行计算,包括:
对两个目标文本的实体集合的交集和并集进行计算,得到两个目标文本集合的计算值。
6.根据权利要求3所述的文本聚合方法,其特征在于,所述对两个目标文本的每个特征分别进行计算,包括:
对两个目标文本的向量特征的点乘结果和叉乘结果进行计算,得到两个目标文本的向量特征的计算值。
7.根据权利要求3所述的文本聚合方法,其特征在于,所述根据两个目标文本的多种特征各自的计算结果,得到两个目标文本的相似度,包括:
将所述两个目标文本的实体集合的计算值和向量特征的计算值进行加权求和;所述向量特征的计算值包括:文本向量的计算值和/或词频向量的计算值;
根据加权求和的结果,以及所述两个目标文本的内容类别的计算结果得到相似度值。
8.根据权利要求1所述的文本聚合方法,其特征在于,所述根据每两个目标文本之间的相似度值确定对应同一事件的目标文本后还包括:
将对应同一事件的目标文本根据发表时间进行排序。
9.一种针对事件的文本聚合的装置,包括处理器和存储器,其特征在于,所述存储器中存储有用于进行针对事件的文本聚合的程序;所述处理器用于读取所述用于针对事件的文本聚合的程序,执行权利要求1-8中任一项所述的方法。
10.一种计算机可读介质,用于存储用于进行针对事件的文本聚合的程序,所述程序在被执行时执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393010.1A CN111708879A (zh) | 2020-05-11 | 2020-05-11 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393010.1A CN111708879A (zh) | 2020-05-11 | 2020-05-11 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111708879A true CN111708879A (zh) | 2020-09-25 |
Family
ID=72537292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010393010.1A Pending CN111708879A (zh) | 2020-05-11 | 2020-05-11 | 针对事件的文本聚合方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708879A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328794A (zh) * | 2020-11-10 | 2021-02-05 | 南京师范大学 | 台风事件信息聚合方法 |
CN114398534A (zh) * | 2021-01-05 | 2022-04-26 | 上海邮电设计咨询研究院有限公司 | 事件聚类文本检索系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
CN110990566A (zh) * | 2019-11-21 | 2020-04-10 | 华东师范大学 | 一种基于社区检测的增量聚类算法 |
CN111078867A (zh) * | 2018-10-19 | 2020-04-28 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
-
2020
- 2020-05-11 CN CN202010393010.1A patent/CN111708879A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021351A (zh) * | 2016-05-10 | 2016-10-12 | 深圳职业技术学院 | 针对新闻事件的聚合提取方法及装置 |
WO2018036272A1 (zh) * | 2016-08-22 | 2018-03-01 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法、电子装置及计算机可读存储介质 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
CN111078867A (zh) * | 2018-10-19 | 2020-04-28 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN110990566A (zh) * | 2019-11-21 | 2020-04-10 | 华东师范大学 | 一种基于社区检测的增量聚类算法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328794A (zh) * | 2020-11-10 | 2021-02-05 | 南京师范大学 | 台风事件信息聚合方法 |
CN114398534A (zh) * | 2021-01-05 | 2022-04-26 | 上海邮电设计咨询研究院有限公司 | 事件聚类文本检索系统 |
CN114398534B (zh) * | 2021-01-05 | 2023-09-12 | 上海邮电设计咨询研究院有限公司 | 事件聚类文本检索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN112966074A (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
US20240086436A1 (en) | Systems and methods for training language models to reason over tables | |
Roy et al. | Predicting closed questions on community question answering sites using convolutional neural network | |
WO2011123378A1 (en) | Signal processing approach to sentiment analysis for entities in documents | |
CN110134852B (zh) | 一种文档的去重方法、设备及可读介质 | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN110909540B (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
Nithish et al. | An Ontology based Sentiment Analysis for mobile products using tweets | |
CN112417153A (zh) | 文本分类方法、装置、终端设备和可读存储介质 | |
CN116521865A (zh) | 一种基于自动识别技术的元数据分类方法、存储介质及系统 | |
CN111708879A (zh) | 针对事件的文本聚合方法、装置及计算机可读存储介质 | |
CN116484231A (zh) | 异常抱团投标、围标行为识别方法、装置、设备及介质 | |
Budhiraja et al. | A supervised learning approach for heading detection | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
Masruroh et al. | Sentiment analysis on twitter towards the ratification of a bill on the elimination of sexual violence in indonesia using machine learning | |
Achilles et al. | Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings. | |
Vidhya et al. | Hybrid text mining model for document classification | |
CN111460808A (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
Raj et al. | Automated Cyberstalking Classification using Social Media | |
US11928107B2 (en) | Similarity-based value-to-column classification | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 | |
Sisodia et al. | A comparative performance of classification algorithms in predicting alcohol consumption among secondary school students |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200925 |