CN115809334B - 事件关联性分类模型的训练方法、文本处理方法及装置 - Google Patents
事件关联性分类模型的训练方法、文本处理方法及装置 Download PDFInfo
- Publication number
- CN115809334B CN115809334B CN202211488282.5A CN202211488282A CN115809334B CN 115809334 B CN115809334 B CN 115809334B CN 202211488282 A CN202211488282 A CN 202211488282A CN 115809334 B CN115809334 B CN 115809334B
- Authority
- CN
- China
- Prior art keywords
- text
- comment information
- sub
- sample
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 95
- 238000013145 classification model Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 38
- 238000001914 filtration Methods 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 19
- 238000004140 cleaning Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 13
- 238000005520 cutting process Methods 0.000 claims description 11
- 230000000717 retained effect Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims 4
- 238000003379 elimination reaction Methods 0.000 claims 4
- 230000009977 dual effect Effects 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 241000209094 Oryza Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000009566 rice Nutrition 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出了一种事件关联性分类模型的训练方法、文本处理方法及装置,涉及人工智能领域,具体涉及自然语言处理、深度学习技术。具体实现方案为:获取训练样本及其真实标签;训练样本包括第一文本样本和第二文本样本;将第一文本样本和第二文本样本输入至事件关联性分类模型;其中该模型包括双塔结构网络和分类模块;基于双塔结构网络,采用注意力机制对第一文本样本和第二文本样本进行特征处理,获得训练样本的融合特征向量;基于分类模块对融合特征向量进行分类处理,获得分类模块输出的分类类别;根据分类类别和真实标签训练事件关联性分类模型。可以筛选出与当前新闻专题有关联性的评论,实现自动化帮助互联网用户筛选有效信息。
Description
技术领域
本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术,尤其涉及一种事件关联性分类模型的训练方法、文本处理方法及其装置,可应用在智慧城市、智慧政务和舆情分析场景下。
背景技术
互联网的迅速普及为越来越多的社会舆论新闻进入人们的生活开辟了通道,互联网用户可以通过电脑和手机等获取新闻信息及互联网用户评论。但是,复杂而又繁多的新闻和评论让人们很难从海量的信息中选出对自己有价值或感兴趣的部分。很多互联网用户通过新闻专题下的评论筛选新闻,进而找到感兴趣的内容。
然而,大部分的评论内容只是针对当前新闻而言,并没有关联到其他事件。因此,如何筛选出与当前新闻专题有关联性的评论,实现自动化帮助互联网用户筛选有效信息,显得尤为重要。
发明内容
本公开提供了一种事件关联性分类模型的训练方法、文本处理方法、装置、电子设备以及存储介质。
根据本公开的第一方面,提供了一种事件关联性分类模型的训练方法,包括:
获取训练样本和所述训练样本的真实标签;所述训练样本包括第一文本样本和第二文本样本,所述真实标签用于指示所述第一文本样本与所述第二文本样本是否属于事件关联类;
将所述第一文本样本和所述第二文本样本输入至事件关联性分类模型;其中,所述事件关联性分类模型包括双塔结构网络和分类模块;
基于所述双塔结构网络,采用注意力机制对所述第一文本样本和所述第二文本样本进行特征处理,获得所述训练样本的融合特征向量;
基于所述分类模块对所述融合特征向量进行分类处理,获得所述分类模块输出的分类类别;
根据所述分类类别和所述真实标签,对所述事件关联性分类模型进行训练。
根据本公开的第二方面,提供了一种文本处理方法,包括:
获取第一文本和第二文本;
将所述第一文本和所述第二文本输入至事件关联性分类模型,获得所述事件关联性分类模型输出的分类类别;其中,所述事件关联性分类模型为采用如前述第一方面所述的方法训练得到的模型;
基于所述分类类别,确定所述第一文本与所述第二文本是否属于事件关联类。
根据本公开的第三方面,提供一种事件关联性分类模型的训练装置,包括:
第一获取模块,用于获取训练样本和所述训练样本的真实标签;所述训练样本包括第一文本样本和第二文本样本,所述真实标签用于指示所述第一文本样本与所述第二文本样本是否属于事件关联类;
输入模块,用于将所述第一文本样本和所述第二文本样本输入至事件关联性分类模型;其中,所述事件关联性分类模型包括双塔结构网络和分类模块;
特征处理模块,用于基于所述双塔结构网络,采用注意力机制对所述第一文本样本和所述第二文本样本进行特征处理,获得所述训练样本的融合特征向量;
分类处理模块,用于基于所述分类模块对所述融合特征向量进行分类处理,获得所述分类模块输出的分类类别;
训练模块,用于根据所述分类类别和所述真实标签,对所述事件关联性分类模型进行训练。
根据本公开的第四方面,提供一种文本处理装置,包括:
第一获取模块,用于获取第一文本和第二文本;
第二获取模块,用于将所述第一文本和所述第二文本输入至事件关联性分类模型,获得所述事件关联性分类模型输出的分类类别;其中,所述事件关联性分类模型为采用如前述第三方面所述的装置训练得到的模型;
确定模块,用于基于所述分类类别,确定所述第一文本与所述第二文本是否属于事件关联类。
根据本公开的第五方面,提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法,或者,使所述至少一个处理器能够执行前述第二方面所述的方法。
根据本公开的第六方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法,或者,使所述计算机执行前述第二方面所述的方法。
根据本公开的第七方面,提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤,或者,实现前述第二方面所述方法的步骤。
根据本公开的技术方案,可以通过基于深度学习的方式,端到端地实现不同新闻之间或新闻专题与评论之间是否属于事件关联类的判别,可以筛选出与当前新闻专题有关联性的评论,实现自动化帮助互联网用户筛选有效信息。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种事件关联性分类模型的训练方法的流程图;
图2为本公开实施例提供的另一种事件关联性分类模型的训练方法的流程图;
图3为本公开实施例的事件关联性分类模型的结构示意图;
图4为本公开实施例的训练集的构建方法的示例图;
图5为本公开实施例提供的属于事件关联类的文本示例图;
图6为本公开实施例提供的一种获取互联网用户关注点的方法的流程图;
图7为本公开实施例提供的一种文本处理方法的流程图;
图8为本公开实施例提供的一种事件关联性分类模型的训练装置的结构框图;
图9为本公开实施例提供的另一种事件关联性分类模型的训练装置的结构框图;
图10为本公开实施例提供的一种文本处理装置的结构框图;
图11为本公开实施例提供的另一种文本处理装置的结构框图;
图12是本公开实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的描述中,除非另有说明,“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
在本公开实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
需要说明的是,在本公开的实施例中,术语“互联网用户关注点”是指互联网用户通过评论表达,对舆情事件或舆情新闻各方面要素中最关注的某个侧面。例如,在舆情事件或舆情新闻的各个要素中,互联网用户对其中要素的某个侧面发表自己的疑问、建议、不满、赞成等态度,这个侧面即可理解为互联网用户对于舆情事件或舆情新闻的关注点,也可理解为互联网对于舆情事件发表评论或舆情新闻发表评论的详细评论对象。
值得注意的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
下面参考附图描述本公开实施例的事件关联性分类模型的训练方法、文本处理方法、装置、电子设备以及存储介质。
图1为本公开实施例提供的一种事件关联性分类模型的训练方法的流程图。如图1所示,该方法可包括但不限于如下步骤。
在步骤101中,获取训练样本和训练样本的真实标签。训练样本包括第一文本样本和第二文本样本。
其中,在本公开的实施例中,该真实标签可用于指示第一文本样本与第二文本样本是否属于事件关联类。例如,假设该真实标签的值为1,则可以表示第一文本样本与第二文本样本属于事件关联类;假设该真实标签的值为0,则可以表示第一文本样本与第二文本样本不属于事件关联类。其中,第一文本样本与第二文本样本属于事件关联类可理解为第一文本样本所对应的事件与第二文本样本所对应的事件存在关联关系。
其中,在本公开的一些实施例中,第一文本样本为新闻标题,第二文本样本为互联网用户关注点,其中,互联网用户关注点为从互联网用户对新闻标题对应的舆情新闻的评论信息之中抽取出的关注点。
在本公开的其他实施例中,第一文本样本和第二文本样本分别为不同事件的新闻标题。
在一种可能的实现方式中,该训练样本可以包括不同事件的新闻标题,真实标签可以用于指示不同事件的新闻标题是否属于事件关联类,获取不同事件的新闻标题和这些新闻标题对的真实标签,利用该训练样本及其真实标签训练事件关联性分类模型,可以使得事件关联性分类模型学习得到新闻之间关联性分类的能力,从而可以实现新闻之间关联性的判别,即判定新闻之间是否存在事件关联性。
在另一种可能的实现方式中,该训练样本可以包括新闻标题和该新闻标题所对应的互联网用户关注点,真实标签可以用于指示新闻标题与该互联网用户关注点是否属于事件关联类,获取新闻标题和该新闻标题所对应的互联网用户关注点,并获取新闻标题与该互联网用户关注点的真实标签,利用该训练样本及其真实标签训练事件关联性分类模型,可以使得事件关联性分类模型学习得到新闻与评论之间关联性分类的能力,从而可以实现新闻与评论之间关联性的判别,即实现在当前新闻专题下,自动化判别互联网用户评论是否关联了其他事件,即是否为关联性评论。
在步骤102中,将第一文本样本和第二文本样本输入至事件关联性分类模型。其中,事件关联性分类模型包括双塔结构网络和分类模块。
其中,在本公开的实施例中,双塔结构网络可用于提取第一文本样本和第二文本样本的特征向量,以得到第一文本样本和第二文本样本的语义化表示。其中,双塔结构网络中的特征提取模块的结构可以相同,也可以不同。可选地,双塔结构网络中的特征提取模块的结构是否相同,可以根据输入文本(如第一文本样本和第二文本样本)的特点(如长度)来决定。
在本公开的实施例中,分类模型可用于基于第一文本样本和第二文本样本的语义化表示进行预测,预测第一文本样本与第二文本样本是否属于事件关联类。在一种实现方式中,该分类模型可以为分类器。
在步骤103中,基于双塔结构网络,采用注意力机制对第一文本样本和第二文本样本进行特征处理,获得训练样本的融合特征向量。
可选地,为了帮助模型在分类前筛选出有效的关联内容文本,本公开的实施例中引入注意力(attention)机制。基于双塔结构网络中的特征提取模块分别对第一文本样本和第二文本样本进行特征提取,并采用注意力机制对第一文本样本的特征向量和第二文本样本的特征向量进行融合处理,以得到训练样本的融合特征向量。
在步骤104中,基于分类模块对融合特征向量进行分类处理,获得分类模块输出的分类类别。
可选地,利用分类模块对融合特征向量进行分类预测,得到分类模块输出的分类类别。其中,该分类类别可以是分类概率,该分类概率的取值范围在0至1之间。
在步骤105中,根据分类类别和真实标签,对事件关联性分类模型进行训练。
其中,在一种实现方式中,该分类类别可以是分类概率,该分类概率的取值范围在0至1之间。真实标签的取值可以是0或1。可以利用分类类别和真实标签对事件关联性分类模型进行训练。
在一种可能的实现方式中,可以根据分类类别和真实标签,确定事件关联性分类模型的损失值;根据损失值,采用反向传播算法更新事件关联性分类模型的参数。
举例而言,可以基于预设的损失函数,计算分类类别与真实标签的误差,即损失值(也称为损失函数值)。利用反向传播算法将该损失值进行反向传导,以计算事件关联性分类模型中各可学习参数梯度。利用梯度下降算法和各可学习参数梯度,计算各可学习参数的当前下降梯度,根据当前下降梯度更新事件关联性分类模型中各可学习参数。
通过实施本公开实施例,通过神经网络对第一文本样本和第二文本样本进行向量化表示,通过向量表示第一文本样本和第二文本样本的方式可有效避免语义信息提取不充分的问题。将两种向量进行合并,将第一文本样本的语义信息和第二文本样本的语义信息进行融合。根据融合后的向量进行分类判别,利用分类判别结果训练事件关联性分类模型,使得事件关联性分类模型学习得到判别不同文本之间是否属于事件关联类的能力,从而可以通过基于深度学习的方式,端到端地实现不同新闻之间或新闻专题与评论之间是否属于事件关联类的判别,可以筛选出与当前新闻专题有关联性的评论,实现自动化帮助互联网用户筛选有效信息。
图2为本公开实施例提供的另一种事件关联性分类模型的训练方法的流程图。如图2所示,该方法可包括但不限于如下步骤。
在步骤201中,获取训练样本和训练样本的真实标签。训练样本包括第一文本样本和第二文本样本。
在本公开的实施例中,步骤201可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
在步骤202中,将第一文本样本和第二文本样本输入至事件关联性分类模型。其中,事件关联性分类模型包括双塔结构网络和分类模块。
其中,在本公开的实施例中,双塔结构网络包括第一特征提取模块、第二特征提取模块和注意力机制模块。
例如,如图3所示,该事件关联性分类模型可包括双塔结构网络310和分类模块320。其中,双塔结构网络310可包括第一特征提取模块311、第二特征提取模块312和注意力机制模块313。在一种实现方式中,第一特征提取模块311可以对第一文本样本进行特征向量的提取。第二特征提取模块312可以对第二文本样本进行特征向量的提取。第一特征提取模块311和第二特征提取模块312的结构可以根据输入文本的特点自由选择。例如,当输入文本为比较简单的短文本时,可采用TextCNN等轻量级网络结构;当输入是长文本时,可选择采用ERNIE或BERT等大型网络结构。
在本公开的实施例中,步骤202可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
在步骤203中,基于第一特征提取模块生成第一文本样本的第一特征向量,并基于第二特征提取模块生成第二文本样本的第二特征向量。
可选地,通过第一特征提取模块提取第一文本样本的特征向量,以得到第一文本样本的第一特征向量,并通过第二特征提取模块提取第二文本样本的特征向量,以得到第二文本样本的第二特征向量。由此,通过深度学习提取特征向量的方式,可以有效打破关键词表示法的局限性,尽最大可能表示原语句信息。除此之外,模型会自动将输入文本的语义特征信息保存至特征向量中,因此一些相近的词,其特征向量之间的相似度(如余弦相似度)也会比较高,因此模型预测结果时,会大概率地将其都认为是同一个词。
在步骤204中,基于注意力机制模块对第一特征向量和第二特征向量进行融合处理,获得训练样本的融合特征向量。
在一种可能的实现方式中,可以基于注意力机制模块对第一特征向量和第二特征向量依次进行合并、线性变化和激活处理,获得中间特征向量;基于中间特征向量,确定训练样本中每个字的权重值;将中间特征向量中每个字的特征向量以及每个词的权重值进行加权求和,获得训练样本的融合特征向量。
举例而言,假设第一文本样本的第一特征向量形状为fc=[cl,dim],第二文本样本的第二特征向量形状为fr=[rl,dim],其中cl表示第一文本样本的长度,rl表示第二文本样本的长度,dim表示特性向量的维度。例如,[12,256],指的是这条文本长度是12(12个字),256是每个字的特征向量长度。采用注意力机制对第一特征向量和第二特征向量依次进行合并、线性变化和tanh激活处理,获得中间特征向量f,公式如下:
f=tanh(Wa[fc;fr]) (1)
其中,[fc;fr]表示合并第一特征向量fc和第二特征向量fr;Wa表示进行线性变化。
通过如下公式(2)计算中间特征向量中元素的权重值,即训练样本中每个字的权重值:
其中,ai表示中间特征向量中第i个元素的权重值,fi表示中间特征向量中第i个元素。
通过如下公式(3)进行加权求和处理,最终f′是经过attention筛选后的特征向量,即获得训练样本的融合特征向量。
由此,通过引入注意力机制从提取到的特征向量中筛选出有效的数据信息。
在步骤205中,基于分类模块对融合特征向量进行分类处理,获得分类模块输出的分类类别。
在本公开的实施例中,步骤205可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
在步骤206中,根据分类类别和真实标签,对事件关联性分类模型进行训练。
在本公开的实施例中,步骤206可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
举例而言,以新闻与评论为例,其训练集的构建应该包含三个属性:新闻、评论和标签。如表1所示,其中新闻表示为新闻专题的名称(即新闻标题);评论为互联网针对该新闻专题的评论,该评论包括与新闻专题存在事件关联性的互联网用户关注点和与新闻专题不存在事件关联性的互联网用户关注点,以上新闻标题和评论均是文本形式;真实标签分为正样本和负样本两类,其中正样本表示当前在该新闻和该评论具有关联性。
表1
编号 | 新闻 | 评论 | 标签 |
1 | 张三是一名学生 | 原来是这样啊 | 负 |
2 | 张三是一名学生 | 张三读书的学校在A市 | 正 |
构建的训练集包括正样本集和负样本集。如图4所示,需要构建新闻专题库,根据新闻专题名称召回其对应评论,进而构建评论库;检查每个新闻专题下召回的评论是否属于事件关联类,并进行人工标注,进而构建正样本集。为了提高鲁棒性,负样本集的构建,需要打乱新闻专题库和评论库,随机选取评论和新闻进行匹配,进而构建负样本集。将正样本集和负样本集融合并随机打乱,以得到训练集。从构建的训练集中获取训练样本。
由于新闻专题名称和评论有很大不同,包括文本内容和文本长度,因此,在本公开的实施例中,可以采用双塔结构网络分别对新闻专题和评论提取特征向量。如图3所示,在数据预处理阶段读取训练集并提取出新闻和评论,主要包括长文本阶段和短文本填充等操作。通过第一特征提取模块311对新闻专题名称(即新闻标题)进行特征提取,得到第一特征向量,通过第二特征提取模块312对评论进行特征提取,得到第二特征向量。通过注意力机制模块313对第一特征向量和第二特征向量进行融合处理,获得训练样本的融合特征向量。将融合特征向量输入至分类模块320,得到分类模块320输出的分类类别。根据分类类别和真实标签,对事件关联性分类模型进行训练。
需要说明的是,本公开实施例中的关联性分类任务并非简单的语义匹配,事件关联性的判别往往只取决于新闻或评论中的部分内容,而整体文本的语义并不匹配。如图5所示,图5中左边文本为评论文本,右侧文本为新闻标题文本,矩形框圈出的是关联内容。从图5中可看到,关联的是“食物B”和“食物A”,但“食物B”与新闻标题中其他的文本内容关联性较低。因此在做分类前,帮助模型判别出评论中的哪些文本与新闻标题中的哪些文本关联性较大,或者是否存在这样关联性较大的文本,可有效提升分类效果。
通过实施本公开实施例,可以通过引入注意力机制从提取到的特征向量中筛选出有效的数据信息。另外,本公开通过对新闻或评论中的部分内容进行匹配,而整体文本的语义并不匹配,这样,在做分类前,帮助模型判别出评论中的哪些文本与新闻标题中的哪些文本关联性较大,或者是否存在这样关联性较大的文本,可有效提升分类效果。
图6为本公开实施例提供的一种获取互联网用户关注点的方法的流程图。如图6所示,该方法可包括但不限于以下步骤。
在步骤601中,获取新闻标题对应的舆情新闻的标识信息。
其中,在本公开的实施例中,该标识信息可以是名称信息(也可称为标题名称信息)和/或ID(Identification,标识)。作为一种示例,该标识可以是名称信息,或者也可以是ID。
在步骤602中,根据标识信息,获取互联网用户对新闻标题对应的舆情新闻的评论信息。
在本公开的实施例中,可以根据标识信息,从新闻数据库中召回对应的新闻评论信息。其中,该新闻评论信息可以是互联网用户对舆情新闻的评论信息。
在本公开的其他实施例中,标识信息可以包括名称信息,基于名称信息在新闻数据库中对应的新闻数据中召回互联网用户的评论信息,以便从该评论信息中抽取互联网用户关注点。
在一种实现方式中,可以基于分词器对名称信息进行分词处理,以获得多个分词和每个分词的位置信息。作为一种示例,该分词器可以是新闻数据库中的分词器。其中,该新闻数据库可以是ElasticSearch库,用于存储新闻数据以及新闻的评论信息。该新闻数据库中存在舆情新闻的名称信息与评论信息之间的映射关系。基于多个分词和每个分词的位置信息,在新闻数据库中匹配新闻标题,并获取包括多个分词且每个分词出现顺序正确的目标新闻标题。
在本公开的实施例中,新闻数据库中采用倒排索引技术存储新闻标题。例如,对新闻标题进行分词,并在对分词做倒排索引时,记录每个分词在对应的新闻标题中的位置。这样,在新闻数据库中匹配新闻标题时,可以将名称信息进行分词处理,利用分词在新闻数据库中进行搜索。
举例而言,以名称信息为“张三是一名学生”为例,对该文本进行分词处理得到分词:“张三”、“是”、“一名”、“学生”,以及分词“张三”在名称信息文本中的位置为第一位,分词“是”在名称信息文本中的位置为第二位,分词“一名”在名称信息文本中的位置为第三位,分词“学生”在名称信息文本中的位置为第四位。对分词“张三”、“是”、“一名”、“学生”在新闻数据库中进行搜索,获取包括分词“张三”、“是”、“一名”、“学生”的候选新闻标题。对候选新闻标题进行筛选,选出每个分词出现顺序正确的候选新闻标题作为目标新闻标题。在一种实现方式中,每个分词出现顺序正确可理解为:每个分词在目标新闻标题中的出现顺序与在名称信息中的出现顺序一致,也就是说,每个分词在目标新闻标题中的位置与在名称信息中的位置相同。
在步骤603中,对评论信息进行预处理,获得子评论信息。
可选地,在获得评论信息之后,由于该评论信息处于数据的原始状态,需要对原始的评论信息进行预处理,以实现从评论信息中抽取出互联网用户关注点。
其中,在本公开的一些实施例中,该预处理可包括但不限于文本过滤、文本清洗、文本切句、短句过滤、关键词过滤、子评论去重处理等中的至少一种。
在本公开的实施例中,对评论信息进行文本过滤。
在本公开的实施例中,对评论信息进行文本清洗。
在本公开的实施例中,对评论信息进行文本切句。
在本公开的实施例中,对评论信息进行短句过滤。
在本公开的实施例中,对评论信息进行关键词过滤。
在本公开的实施例中,对评论信息进行子评论去重处理。
需要说明的是,上述实施例并没有穷举,仅为部分实施例的示意,并且上述实施例可以单独被实施,也可以多个进行组合被实施,上述实施例仅作为示意,不作为对本公开实施例保护范围的具体限制。
在一种可能的实现方式中,基于第一关键词对评论信息进行文本过滤,以剔除包含第一关键词的评论信息,其中,第一关键词为不属于互联网用户关注点的字词;对经过文本过滤后保留的评论信息进行文本清洗;对经过文本清洗的评论信息进行文本切句,获取子评论信息。
其中,在本公开的实施例中,第一关键词可以为不属于互联网用户关注点的字词。
在召回的评论信息中,可能存在部分无用数据,比如数据中带有“实名验证、仅供参考”等明显不属于互联网用户关注点的字词。针对这种情况,本公开可以预先总结归纳部分关键词(如上述第一关键词),通过该第一关键词对评论信息进行文本过滤,以剔除包含第一关键词的评论信息。
在召回的评论信息中,可能还存在表情包、繁体字、特殊字符等,为了方便后续对互联网用户关注点更加清洗的读取,且保证互联网用户关注点统一的文本格式。在本公开的一些实施例中,可以将经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式,并对经过文本格式转换的评论信息进行文本清洗。
在一种可能的实现方式中,可以通过表情包转换工具、繁体字转换工具、正则表达式等方式,将评论信息中的文本格式统一转换成目标文本格式,以保证互联网用户关注点统一的文本格式,实现文本清洗。
评论信息中有多种存在形式,比如分为带标点符合和不带标点符号两种,在一种可能的实现方式中,可以通过标点符号对评论信息进行切句。例如,可以通过“,。!?”等中至少一种标点符号对评论信息进行切句,切句之后可以获得子评论信息。其中,该子评论信息可以作为抽取互联网用户关注点的直接数据。
为了进一步剔除干扰数据,可选地,在本公开的一些实施例中,可以对经过文本清洗的评论信息进行文本切句,获取第一子评论信息,并基于第二关键词对第一子评论信息进行短句过滤,以剔除包含第二关键词的第一子评论信息;将经过短句过滤后保留的第一子评论信息,确定为子评论信息。
举例而言,针对评论信息切句后生成的子评论信息,本公开会进行进一步的过滤处理。这一步过滤的范围会更加细致,比如子评论信息中的开头是“仅、从、虽、更、如、若、又”等中至少一种关键词,子评论信息中的结尾是“情况下、之前、之后”等中至少一种关键词,子评论信息的中间包含“于是、然后、至于、说到、此外、比方”等中至少一种关键词,本公开会将该子评论信息进行过滤,即剔除该包含第二关键词的子评论信息,从而可以得到更加干净的子评论信息。
为了进一步提高抽取互联网用户关注点的准确性,确保互联网用户关注点的有效性,可选地,在本公开的一些实施例中,所述将经过短句过滤后保留的第一子评论信息,确定为子评论信息的实现方式可如下:根据互联网用户关注点的定义及应用场景,确定第三关键词;基于第三关键词对经过短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含第三关键词的第一子评论信息;根据经过关键词过滤后保留的第一子评论信息,获取子评论信息。
举例而言,根据互联网用户关注点的定义及应用场景,由于重点关注互联网用户的疑问、建议、不满、赞成等态度,因此,在本公开的实施例中,可以根据互联网用户关注点的定义及应用场景,确定第三关键词,根据该第三关键词,保留特定的子评论信息。
可选地,在本公开的一些实施例中,所述根据经过关键词过滤后保留的第一子评论信息,获取子评论信息的实现方式可如下:对经过关键词过滤后保留的第一子评论信息进行去重处理,并将经过去重处理后得到的第一子评论信息确定为子评论信息。由此,可以保留完全不重复的子评论信息。
由此,可以通过对评论信息进行预处理,从而可以更加干净且完全不重复的子评论信息,为后续互联网用户关注点的抽取提供有效数据,从而可以进一步提高抽取互联网用户关注点的准确性。
在步骤604中,基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点。
在一种可能的实现方式中,通过步骤601至步骤603获得的子评论信息可以是多个。可以对子评论信息进行依存句法分析,基于子评论信息的依存句法分析结果,从获得的多个子评论信息中,将满足目标句法结构的子评论信息确定为候选关注点。
在本公开的实施例中,对子评论信息进行依存句法分析,获得子评论信息的依存句法分析结果;基于依存句法分析结果,分析子评论信息的句子语法结构;将包含主谓宾结构的子评论信息确定为候选关注点。
可选地,可以开源的依存句法分析方法对子评论信息进行依存句法分析,获得子评论信息的依存句法分析结果。其中,该子评论信息的依存句法分析结果可以包括子评论信息中各个词的词性、各个词所依存父节点的ID、各个词的内容、各个词的ID以及各个词与父节点间的依存关系等。
举例而言,以子评论信息“可爱的张三吃完了很多米饭”为例,通过依存句法分析,得到该子评论信息的相关词性结构,例如,该子评论信息中各个词与父节点间的依存关系依次为:定中关系、虚词成分、主谓关系、核心关系、动补关系、虚词成分、定中关系、动宾关系。
在本公开的实施例中,在获得子评论信息的依存句法分析结果之后,可以基于该依存句法分析结果确定子评论信息的句子语法结构。可以将同时包含主谓关系结构和动宾关系结构,认定为该子评论信息中包含有主谓宾结构,最终保留主谓宾齐全的子评论信息作为候选关注点。其中,在本公开的实施例中,主谓宾结构的形式可为但不限于以下任意一种或多种:
主谓宾(我吃米饭);
主谓宾宾(我送你花朵);
主谓宾谓宾(我请你吃米饭);
主谓谓宾(我出去吃米饭)。
在步骤605中,对候选关注点进行聚合处理,获取互联网用户关注点。
在一种可能的实现方式中,可以基于预设的聚类算法,对候选关注点进行聚合处理,基于聚合处理后得到的聚合簇,获取互联网用户关注点。例如,可以从聚合簇中随机选择一个候选关注点作为互联网用户关注点。
其中,在本公开的实施例中,该聚类算法可以是DBSCAN聚类算法,或者,也可以是其他聚类算法,比如K-MEANS算法等,本公开对此不作具体限定,也不再赘述。
通过实施本公开实施例,获取互联网用户对舆情新闻的评论信息,对评论信息进行预处理,获得子评论信息,基于依存句法分析将满足目标句法结构的子评论信息确定为候选关注点,对候选关注点进行聚合处理以获得互联网用户关注点。由此可见,本公开通过对评论信息的句子结构进行解析,构建互联网用户关注点抽取能力,从而可以有效在第一时间及时且准确地获取在舆情新闻中互联网用户的主要关注点。
图7为本公开实施例提供的一种文本处理方法的流程图。如图7所示,该方法可以包括但不限于以下步骤。
在步骤701中,获取第一文本和第二文本。
其中,在本公开的实施例中,第一文本可以为待处理的新闻标题。该第二文本可以为与该新闻标题对应的互联网用户关注点。该互联网用户关注点可以是从互联网用户对该新闻标题对应的舆情新闻的评论信息之中抽取出的关注点,该抽取的实现方式可参照上述实施例的描述,在此不再赘述。
在步骤702中,将第一文本和第二文本输入至事件关联性分类模型,获得事件关联性分类模型输出的分类类别。
其中,在本公开的实施例中,事件关联性分类模型为采用本公开的实施例所述的训练方法训练得到的模型。
在步骤703中,基于分类类别,确定第一文本与第二文本是否属于事件关联类。
其中,在本公开的实施例中,该分类类别可理解为分类概率。在一种实现方式中,可以将该分类概率与预设阈值进行大小比较,当该分类概率大于或等于预设阈值,则可以确定第一文本与第二文本属于事件关联类。又如,当分类概率小于或等于预设阈值,则可以确定第一文本与第二文本不属于事件关联类。
可选地,在本公开的一些实施例中,在新闻标题与互联网用户关注点属于事件关联类时,可以获取互联网用户关注点的舆情新闻信息,并基于预设的推荐方式,将舆情新闻信息进行推荐。其中,该推荐方式可以是在显示界面的预设位置显示该舆情新闻的标题,或者,可以以通知消息的方式将该舆情新闻信息推送给用户。或者,还可以是在互联网用户关注点所在的评论信息的周围,显示搜索控件,这样,在搜索控件被触发时,将获取互联网用户关注点的舆情新闻信息,并加载并显示该舆情新闻信息。或者,还可以采用其他推荐方式推荐舆情新闻信息,本公开对此不做具体限定,也不再赘述。
通过实施本公开实施例,可以通过基于深度学习的方式,端到端地实现不同新闻之间或新闻专题与评论之间是否属于事件关联类的判别,可以筛选出与当前新闻专题有关联性的评论,实现自动化帮助互联网用户筛选有效信息。
图8为本公开实施例提供的一种事件关联性分类模型的训练装置的结构框图。如图8所示,该事件关联性分类模型的训练装置可以包括:第一获取模块801、输入模块802、特征处理模块803、分类处理模块804和训练模块805。
其中,第一获取模块801用于获取训练样本和训练样本的真实标签;训练样本包括第一文本样本和第二文本样本,真实标签用于指示第一文本样本与第二文本样本是否属于事件关联类。
输入模块802用于将第一文本样本和第二文本样本输入至事件关联性分类模型;其中,事件关联性分类模型包括双塔结构网络和分类模块。
特征处理模块803用于基于双塔结构网络,采用注意力机制对第一文本样本和第二文本样本进行特征处理,获得训练样本的融合特征向量。
分类处理模块804用于基于分类模块对融合特征向量进行分类处理,获得分类模块输出的分类类别。
训练模块805用于根据分类类别和真实标签,对事件关联性分类模型进行训练。
在本公开的一些实施例中,双塔结构网络包括第一特征提取模块、第二特征提取模块和注意力机制模块。其中,特征处理模块803具体用于:基于第一特征提取模块生成第一文本样本的第一特征向量,并基于第二特征提取模块生成第二文本样本的第二特征向量;基于注意力机制模块对第一特征向量和第二特征向量进行融合处理,获得训练样本的融合特征向量。
在一种可能的实现方式中,特征处理模块803具体用于:基于注意力机制模块对第一特征向量和第二特征向量依次进行合并、线性变化和激活处理,获得中间特征向量;基于中间特征向量,确定训练样本中每个字的权重值;将中间特征向量中每个字的特征向量以及每个词的权重值进行加权求和,获得训练样本的融合特征向量。
在本公开的一些实施例中,训练模块805具体用于:根据分类类别和真实标签,确定事件关联性分类模型的损失值;根据损失值,采用反向传播算法更新事件关联性分类模型的参数。
在本公开的一些实施例中,第一文本样本为新闻标题,第二文本样本为互联网用户关注点,其中,互联网用户关注点为从互联网用户对新闻标题对应的舆情新闻的评论信息之中抽取出的关注点;或者,第一文本样本和第二文本样本分别为不同事件的新闻标题。
可选地,在本公开的一些实施例中,如图9所示,该事件关联性分类模型的训练装置还可包括:第二获取模块906。其中,第二获取模块906用于获取互联网用户关注点。
在本公开的实施例中,第二获取模块906具体用于:获取新闻标题对应的舆情新闻的标识信息;根据标识信息,获取互联网用户对新闻标题对应的舆情新闻的评论信息;对评论信息进行预处理,获得子评论信息;基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;对候选关注点进行聚合处理,获取互联网用户关注点。
在本公开的实施例中,第二获取模块906具体用于:基于第一关键词对评论信息进行文本过滤,以剔除包含第一关键词的评论信息,其中,第一关键词为不属于互联网用户关注点的字词;对经过文本过滤后保留的评论信息进行文本清洗;对经过文本清洗的评论信息进行文本切句,获取子评论信息。
在本公开的实施例中,第二获取模块906具体用于:将经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式;对经过文本格式转换的评论信息进行文本清洗。
在本公开的实施例中,第二获取模块906具体用于:对经过文本清洗的评论信息进行文本切句,获取第一子评论信息;基于第二关键词对第一子评论信息进行短句过滤,以剔除包含第二关键词的第一子评论信息;将经过短句过滤后保留的第一子评论信息,确定为子评论信息。
在本公开的实施例中,第二获取模块906具体用于:根据互联网用户关注点的定义及应用场景,确定第三关键词;基于第三关键词对经过短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含第三关键词的第一子评论信息;根据经过关键词过滤后保留的第一子评论信息,获取子评论信息。
在本公开的实施例中,第二获取模块906具体用于:对经过关键词过滤后保留的第一子评论信息进行去重处理,并将经过去重处理后得到的第一子评论信息确定为子评论信息。
在本公开的实施例中,第二获取模块906具体用于:对子评论信息进行依存句法分析,获得子评论信息的依存句法分析结果;基于依存句法分析结果,分析子评论信息的句子语法结构;将包含主谓宾结构的子评论信息确定为候选关注点。
其中,图9中901-905和图8中801-805具有相同功能和结构。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10为本公开实施例提供的一种文本处理装置的结构框图。如图10所示,该文本处理装置可以包括:第一获取模块1001、第二获取模块1002和确定模块1003。
其中,第一获取模块1001用于获取第一文本和第二文本;
第二获取模块1002用于将第一文本和第二文本输入至事件关联性分类模型,获得事件关联性分类模型输出的分类类别;其中,事件关联性分类模型为采用本公开实施例所述的训练装置训练得到的模型。
确定模块1003用于基于分类类别,确定第一文本与第二文本是否属于事件关联类。
在本公开的一些实施例中,第一文本为待处理的新闻标题,第二文本为与新闻标题对应的互联网用户关注点。
可选地,在本公开的实施例中,如图11所示,该文本处理装置还可包括:第三获取模块1104和推荐模块1105。其中,第三获取模块1104用于在新闻标题与互联网用户关注点属于事件关联类时,获取互联网用户关注点的舆情新闻信息;推荐模块1105用于基于预设的推荐方式,将舆情新闻信息进行推荐。
其中,图11中1101-1103和图10中1001-1003具有相同功能和结构。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本公开实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的事件关联性分类模型的训练方法和/或文本处理方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的事件关联性分类模型的训练方法和/或文本处理方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的事件关联性分类模型的训练方法和/或文本处理方法对应的程序指令/模块。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的事件关联性分类模型的训练方法和/或文本处理方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (26)
1.一种事件关联性分类模型的训练方法,包括:
获取训练样本和所述训练样本的真实标签;所述训练样本包括第一文本样本和第二文本样本,所述真实标签用于指示所述第一文本样本与所述第二文本样本是否属于事件关联类;其中,所述第一文本样本为新闻标题,所述第二文本样本为互联网用户关注点,其中,所述互联网用户关注点为从互联网用户对所述新闻标题对应的舆情新闻的评论信息之中抽取出的关注点;或者,所述第一文本样本和所述第二文本样本分别为不同事件的新闻标题;
将所述第一文本样本和所述第二文本样本输入至事件关联性分类模型;其中,所述事件关联性分类模型包括双塔结构网络和分类模块;
基于所述双塔结构网络,采用注意力机制对所述第一文本样本和所述第二文本样本进行特征处理,获得所述训练样本的融合特征向量;其中,所述双塔结构网络包括第一特征提取模块、第二特征提取模块和注意力机制模块;所述基于所述双塔结构网络,采用注意力机制对所述第一文本样本和所述第二文本样本进行特征处理,获得所述训练样本的融合特征向量,包括:基于所述第一特征提取模块生成所述第一文本样本的第一特征向量,并基于所述第二特征提取模块生成所述第二文本样本的第二特征向量;基于所述注意力机制模块对所述第一特征向量和所述第二特征向量依次进行合并、线性变化和激活处理,获得中间特征向量;基于所述中间特征向量,确定所述训练样本中每个字的权重值;将所述中间特征向量中每个字的特征向量以及所述每个字的权重值进行加权求和,获得所述训练样本的融合特征向量;
基于所述分类模块对所述融合特征向量进行分类处理,获得所述分类模块输出的分类类别;
根据所述分类类别和所述真实标签,对所述事件关联性分类模型进行训练。
2.如权利要求1所述的方法,其中,所述根据所述分类类别和所述真实标签,对所述事件关联性分类模型进行训练,包括:
根据所述分类类别和所述真实标签,确定所述事件关联性分类模型的损失值;
根据所述损失值,采用反向传播算法更新所述事件关联性分类模型的参数。
3.如权利要求1所述的方法,其中,所述互联网用户关注点通过以下方式获得的:
获取所述新闻标题对应的舆情新闻的标识信息;
根据所述标识信息,获取互联网用户对所述新闻标题对应的舆情新闻的评论信息;
对所述评论信息进行预处理,获得子评论信息;
基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;
对所述候选关注点进行聚合处理,获取所述互联网用户关注点。
4.如权利要求3所述的方法,其中,所述对所述评论信息进行预处理,获得子评论信息,包括:
基于第一关键词对所述评论信息进行文本过滤,以剔除包含所述第一关键词的评论信息,其中,所述第一关键词为不属于所述互联网用户关注点的字词;
对经过所述文本过滤后保留的评论信息进行文本清洗;
对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息。
5.如权利要求4所述的方法,其中,所述对所述经过文本过滤后保留的评论信息进行文本清洗,包括:
将所述经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式;
对经过所述文本格式转换的评论信息进行文本清洗。
6.如权利要求4或5所述的方法,其中,所述对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息,包括:
对经过所述文本清洗的评论信息进行文本切句,获取第一子评论信息;
基于第二关键词对所述第一子评论信息进行短句过滤,以剔除包含所述第二关键词的第一子评论信息;
将经过所述短句过滤后保留的第一子评论信息,确定为所述子评论信息。
7.如权利要求6所述的方法,其中,所述将经过所述短句过滤后保留的第一子评论信息,确定为所述子评论信息,包括:
根据所述互联网用户关注点的定义及应用场景,确定第三关键词;
基于所述第三关键词对经过所述短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含所述第三关键词的第一子评论信息;
根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息。
8.如权利要求7所述的方法,其中,所述根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息,包括:
对经过所述关键词过滤后保留的第一子评论信息进行去重处理,并将经过所述去重处理后得到的第一子评论信息确定为所述子评论信息。
9.如权利要求3所述的方法,其中,所述基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点,包括:
对所述子评论信息进行依存句法分析,获得所述子评论信息的依存句法分析结果;
基于所述依存句法分析结果,分析所述子评论信息的句子语法结构;
将包含主谓宾结构的子评论信息确定为所述候选关注点。
10.一种文本处理方法,包括:
获取第一文本和第二文本;
将所述第一文本和所述第二文本输入至事件关联性分类模型,获得所述事件关联性分类模型输出的分类类别;其中,所述事件关联性分类模型为采用如权利要求1至9中任一项所述的方法训练得到的模型;
基于所述分类类别,确定所述第一文本与所述第二文本是否属于事件关联类。
11.如权利要求10所述的方法,其中,所述第一文本为待处理的新闻标题,所述第二文本为与所述新闻标题对应的互联网用户关注点。
12.如权利要求11所述的方法,还包括:
响应于所述新闻标题与所述互联网用户关注点属于事件关联类,获取所述互联网用户关注点的舆情新闻信息;
基于预设的推荐方式,将所述舆情新闻信息进行推荐。
13.一种事件关联性分类模型的训练装置,包括:
第一获取模块,用于获取训练样本和所述训练样本的真实标签;所述训练样本包括第一文本样本和第二文本样本,所述真实标签用于指示所述第一文本样本与所述第二文本样本是否属于事件关联类;其中,所述第一文本样本为新闻标题,所述第二文本样本为互联网用户关注点,其中,所述互联网用户关注点为从互联网用户对所述新闻标题对应的舆情新闻的评论信息之中抽取出的关注点;或者,所述第一文本样本和所述第二文本样本分别为不同事件的新闻标题;
输入模块,用于将所述第一文本样本和所述第二文本样本输入至事件关联性分类模型;其中,所述事件关联性分类模型包括双塔结构网络和分类模块;
特征处理模块,用于基于所述双塔结构网络,采用注意力机制对所述第一文本样本和所述第二文本样本进行特征处理,获得所述训练样本的融合特征向量;其中,所述双塔结构网络包括第一特征提取模块、第二特征提取模块和注意力机制模块;所述特征处理模块具体用于:基于所述第一特征提取模块生成所述第一文本样本的第一特征向量,并基于所述第二特征提取模块生成所述第二文本样本的第二特征向量;基于所述注意力机制模块对所述第一特征向量和所述第二特征向量依次进行合并、线性变化和激活处理,获得中间特征向量;基于所述中间特征向量,确定所述训练样本中每个字的权重值;将所述中间特征向量中每个字的特征向量以及所述每个字的权重值进行加权求和,获得所述训练样本的融合特征向量;
分类处理模块,用于基于所述分类模块对所述融合特征向量进行分类处理,获得所述分类模块输出的分类类别;
训练模块,用于根据所述分类类别和所述真实标签,对所述事件关联性分类模型进行训练。
14.如权利要求13所述的装置,其中,所述训练模块具体用于:
根据所述分类类别和所述真实标签,确定所述事件关联性分类模型的损失值;
根据所述损失值,采用反向传播算法更新所述事件关联性分类模型的参数。
15.如权利要求13所述的装置,还包括:
第二获取模块,用于获取所述互联网用户关注点;其中,所述第二获取模块具体用于:
获取所述新闻标题对应的舆情新闻的标识信息;
根据所述标识信息,获取互联网用户对所述新闻标题对应的舆情新闻的评论信息;
对所述评论信息进行预处理,获得子评论信息;
基于依存句法分析,将满足目标句法结构的子评论信息确定为候选关注点;
对所述候选关注点进行聚合处理,获取所述互联网用户关注点。
16.如权利要求15所述的装置,其中,所述第二获取模块具体用于:
基于第一关键词对所述评论信息进行文本过滤,以剔除包含所述第一关键词的评论信息,其中,所述第一关键词为不属于所述互联网用户关注点的字词;
对经过所述文本过滤后保留的评论信息进行文本清洗;
对经过所述文本清洗的评论信息进行文本切句,获取所述子评论信息。
17.如权利要求16所述的装置,其中,所述第二获取模块具体用于:
将所述经过文本过滤后保留的评论信息中的文本格式转换成目标文本格式;
对经过所述文本格式转换的评论信息进行文本清洗。
18.如权利要求16或17所述的装置,其中,所述第二获取模块具体用于:
对经过所述文本清洗的评论信息进行文本切句,获取第一子评论信息;
基于第二关键词对所述第一子评论信息进行短句过滤,以剔除包含所述第二关键词的第一子评论信息;
将经过所述短句过滤后保留的第一子评论信息,确定为所述子评论信息。
19.如权利要求18所述的装置,其中,所述第二获取模块具体用于:
根据所述互联网用户关注点的定义及应用场景,确定第三关键词;
基于所述第三关键词对经过所述短句过滤后保留的第一子评论信息进行关键词过滤,以保留包含所述第三关键词的第一子评论信息;
根据经过所述关键词过滤后保留的第一子评论信息,获取所述子评论信息。
20.如权利要求19所述的装置,其中,所述第二获取模块具体用于:
对经过所述关键词过滤后保留的第一子评论信息进行去重处理,并将经过所述去重处理后得到的第一子评论信息确定为所述子评论信息。
21.如权利要求15所述的装置,其中,所述第二获取模块具体用于:
对所述子评论信息进行依存句法分析,获得所述子评论信息的依存句法分析结果;
基于所述依存句法分析结果,分析所述子评论信息的句子语法结构;
将包含主谓宾结构的子评论信息确定为所述候选关注点。
22.一种文本处理装置,包括:
第一获取模块,用于获取第一文本和第二文本;
第二获取模块,用于将所述第一文本和所述第二文本输入至事件关联性分类模型,获得所述事件关联性分类模型输出的分类类别;其中,所述事件关联性分类模型为采用如权利要求13至21中任一项所述的装置训练得到的模型;
确定模块,用于基于所述分类类别,确定所述第一文本与所述第二文本是否属于事件关联类。
23.如权利要求22所述的装置,其中,所述第一文本为待处理的新闻标题,所述第二文本为与所述新闻标题对应的互联网用户关注点。
24.如权利要求23所述的装置,还包括:
第三获取模块,用于在所述新闻标题与所述互联网用户关注点属于事件关联类时,获取所述互联网用户关注点的舆情新闻信息;
推荐模块,用于基于预设的推荐方式,将所述舆情新闻信息进行推荐。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法,或者,使所述至少一个处理器能够执行权利要求10至12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1至9中任一项所述的方法,或者,使所述计算机执行权利要求10至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488282.5A CN115809334B (zh) | 2022-11-22 | 2022-11-22 | 事件关联性分类模型的训练方法、文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488282.5A CN115809334B (zh) | 2022-11-22 | 2022-11-22 | 事件关联性分类模型的训练方法、文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115809334A CN115809334A (zh) | 2023-03-17 |
CN115809334B true CN115809334B (zh) | 2023-11-10 |
Family
ID=85484082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211488282.5A Active CN115809334B (zh) | 2022-11-22 | 2022-11-22 | 事件关联性分类模型的训练方法、文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115809334B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342933A (zh) * | 2021-05-31 | 2021-09-03 | 淮阴工学院 | 一种类双塔模型的多特征交互网络招聘文本分类方法 |
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN113742567A (zh) * | 2020-05-29 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 一种多媒体资源的推荐方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220352B (zh) * | 2017-05-31 | 2020-12-08 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
-
2022
- 2022-11-22 CN CN202211488282.5A patent/CN115809334B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742567A (zh) * | 2020-05-29 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 一种多媒体资源的推荐方法、装置、电子设备及存储介质 |
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN113342933A (zh) * | 2021-05-31 | 2021-09-03 | 淮阴工学院 | 一种类双塔模型的多特征交互网络招聘文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115809334A (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543574B (zh) | 一种知识图谱的构建方法、装置、设备及介质 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
WO2018151856A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN107205016B (zh) | 物联网设备的检索方法 | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN111967262A (zh) | 实体标签的确定方法和装置 | |
CN111538815A (zh) | 一种文本查询方法、装置、设备及存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Alexandridis et al. | A knowledge-based deep learning architecture for aspect-based sentiment analysis | |
CN111783861A (zh) | 数据分类方法、模型训练方法、装置和电子设备 | |
KR102597357B1 (ko) | Ai 기반의 언론기사 감성 분석 방법 및 시스템 | |
WO2020091618A1 (ru) | Система определения именованных сущностей с динамическими параметрами | |
CN114528417A (zh) | 知识图谱本体构建方法、装置、设备及可读存储介质 | |
CN111385188A (zh) | 对话元素的推荐方法、装置、电子设备和介质 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Li et al. | A hybrid model for role-related user classification on twitter | |
CN113312451A (zh) | 文本标签确定方法和装置 | |
Tarnpradab et al. | Attention based neural architecture for rumor detection with author context awareness | |
CN114201622B (zh) | 获取事件信息的方法、装置、电子设备和存储介质 | |
Tun et al. | A large-scale sentiment analysis using political tweets. | |
CN115809334B (zh) | 事件关联性分类模型的训练方法、文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |