CN114048317A - 舆情文本的分类方法、装置、电子设备及计算机存储介质 - Google Patents
舆情文本的分类方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114048317A CN114048317A CN202111409268.7A CN202111409268A CN114048317A CN 114048317 A CN114048317 A CN 114048317A CN 202111409268 A CN202111409268 A CN 202111409268A CN 114048317 A CN114048317 A CN 114048317A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- classified
- text
- opinion text
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005520 cutting process Methods 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000013145 classification model Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种舆情文本的分类方法、装置、电子设备及计算机存储介质,涉及计算机技术领域。其中,所述方法包括:对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。本方案能够准确地对舆情文本进行分类,从而筛除低质量的舆情文本。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种舆情文本的分类方法、装置、电子设备及计算机存储介质。
背景技术
在企业详情页的舆情板块中,用户希望可以通过该舆情板块了解到一家企业近期发生的事件、新闻等。由于互联网上发布的舆情文本的质量参差不齐,因此,在舆情板块展示舆情文本时,需要对舆情文本的质量进行把控,为了筛除低质量的舆情文本,使得舆情板块所展示的舆情文本更贴近用户的需求,需要准确有效地对舆情板块的舆情文本进行分类。
由此可见,如何准确地对舆情文本进行分类成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种舆情文本的分类方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在的如何准确地对舆情文本进行分类的技术问题。
根据本发明实施例的第一方面,提供了一种舆情文本的分类方法,所述方法包括:对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
根据本发明实施例的第二方面,提供了一种舆情文本的分类装置,所述装置包括:切割模块,用于对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;语义特征提取模块,用于对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;文本分类模块,用于根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的舆情文本的分类方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的舆情文本的分类方法。
根据本发明实施例提供的舆情文本的分类方案,对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段,并对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,再根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果,与现有的其它方式相比,对待分类的舆情文本的内容数据进行切割,并根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,能够准确地对舆情文本进行分类,从而筛除低质量的舆情文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为根据本申请实施例提供的舆情文本内容的分析示意图;
图1B为本申请实施例一中舆情文本的分类方法的步骤流程图;
图2为本申请实施例二中舆情文本的分类装置的结构示意图;
图3为本申请实施例三中电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
在公开本申请实施例提供的舆情文本的分类方法之前,本申请的发明人对舆情文本的内容数据进行了相关分析。在一篇舆情文本中,其文本内容数据的前中后部分会出现不同长度的有效部分内容、无效部分内容,即一篇舆情文本的内容数据的段落类别比较杂乱,会影响舆情分类模型对整篇舆情文本的类别预测,使得舆情文本的分类错误。图1A中的(a)、(b)、(c)和(d)展示了舆情文本属于有效舆情类别的的四种组合情况,其中,X轴表示一篇舆情文本所选取的最大长度,Y轴表示舆情文本属于有效舆情类别的概率、舆情文本属于无效舆情类别的概率和舆情文本属于公告类别的概率。针对图1A中的(a)进行分析,舆情文本属于有效舆情类别的的第一种组合情况为:有效舆情=「有效」+「略微无效」。针对图1A中的(b)进行分析,舆情文本属于有效舆情类别的的第二种组合情况为:有效舆情=「有效」+「略微无效」+「有效」。针对图1A中的(c)进行分析,舆情文本属于有效舆情类别的的第三种组合情况为:有效舆情=「有效」。针对图1A中的(d)进行分析,舆情文本属于有效舆情类别的的第四种组合情况为:有效舆情=「有效/无效交替出现」=>「模糊分类」。根据上述分析,提出了“文本三段论”的切割方法,将舆情文本的内容数据切割成三段,从而有效提高舆情文本的分类准确度。下面详细描述本实施例提供的舆情文本的分类方法:
参照图1B,示出了本申请实施例一中舆情文本的分类方法的步骤流程图。
具体地,本实施例提供的舆情文本的分类方法包括以下步骤:
在步骤S101中,对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
在本实施例中,所述待分类的舆情文本可为企业实体的网站页面中的舆情板块中的事件或者新闻等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段时,根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。籍此,通过预设的内容片段字符数量,对所述待分类的舆情文本的内容数据进行平均切割,能够准确地获得所述待分类的舆情文本的多个内容片段。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述字符包含文字和标点符号,所述预设的内容片段字符数量可以根据上述对舆情文本的内容数据的相关分析得到,例如,所述预设的内容片段字符数量可为100或者170。所述待分类的舆情文本的多个内容片段的数量可为三个,将舆情文本的内容数据切割为三部分,即前部部分、中部部分和后部部分。除了文本三段论外,还可以引入文本N段论,需要根据具体的任务、数据情况来确定N。如果舆情文本的长度为510词,可以将这篇舆情文本切割为:「前170词」+「中170词」+「后170词」。如果舆情文本的长度为260词,并且所述预设的内容片段字符数量为100,可以将这篇舆情文本切割为:「前100词」+「中100词」+「后60词」。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段时,根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的内容数据的理论切割位置;确定距离所述理论切割位置最近的字符符号位置为所述待分类的舆情文本的内容数据的实际切割位置;根据所述待分类的舆情文本的内容数据的实际切割位置,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。籍此,通过所述待分类的舆情文本的内容数据的实际切割位置,对所述待分类的舆情文本的内容数据进行切割,能够准确地获得所述待分类的舆情文本的多个内容片段。可以理解的是,在一些情况下,上述理论切割位置可能会将文本中的某个语句“拦腰”截断,本实施例依据距离理论切割位置最近的字符符号重新确定实际切割位置,以避免切割操作可能导致的文本语句不完整。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述预设的内容片段字符数量可以根据上述对舆情文本的内容数据的相关分析得到,例如,所述预设的内容片段字符数量可为100或者170。所述字符符号是标点符号,例如,逗号、句号、冒号、顿号等。如果舆情文本的长度为510词,并且所述预设的内容片段字符数量为170,可以确定这篇舆情文本的理论切割位置为「前170词」与「中170词」之间的位置,「中170词」与「后170词」之间的位置。如果距离「前170词」与「中170词」之间的位置最近的逗号位置为「前167词」与「中173词」之间的位置,距离「中170词」与「后170词」之间的位置最近的句号位置为「中176词」与「后167词」之间的位置,可以将这篇舆情文本切割为:「前167词」+「中176词」+「后167词」。如果舆情文本的长度为260词,并且所述预设的内容片段字符数量为100,可以确定这篇舆情文本的理论切割位置为「前100词」与「中100词」之间的位置,「中100词」与「后60词」之间的位置。如果距离「前100词」与「中100词」之间的位置最近的冒号位置为「前97词」与「中103词」之间的位置,距离「中100词」与「后60词」之间的位置最近的句号位置为「中106词」与「后57词」之间的位置,可以将这篇舆情文本切割为:「前97词」+「中106词」+「后57词」。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S102中,对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。
在一些可选实施例中,在对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据时,将内容片段的起始位置的分割符号和所述内容片段的结束位置的分割符号分别添加至所述待分类的舆情文本的多个内容片段各自的起始位置和结束位置,以获得所述待分类的舆情文本的多个添加分割符号的内容片段;根据所述待分类的舆情文本的多个内容片段在所述待分类的舆情文本中的前后位置,对所述待分类的舆情文本的多个添加分割符号的内容片段进行拼接,以获得所述待分类的舆情文本的拼接后的内容片段;通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。籍此,通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,能够准确地获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述待分类的舆情文本的多个内容片段分别进行语义特征提取时,将内容片段的起始位置的分割符号和所述内容片段的结束位置的分割符号分别添加至所述待分类的舆情文本的多个内容片段中的每个内容片段的起始位置和结束位置,以获得所述待分类的舆情文本的多个添加分割符号的内容片段;根据所述待分类的舆情文本的多个内容片段在所述待分类的舆情文本中的前后位置,对所述待分类的舆情文本的多个添加分割符号的内容片段进行拼接,以获得所述待分类的舆情文本的拼接后的内容片段;通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段中的每个内容片段的语义特征表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述内容片段的起始位置的分割符号可为「CLS」,所述内容片段的结束位置的分割符号可为「SEP」,所述语义特征表征模型可为BERT(BidirectionalEncoder Representation from Transformers,基于变换的双向编码表征模型)模型。举例来说,将510词的舆情文本进行如下转换:
「CLS」+「文本510词」+「SEP」
=>「CLS」+「前170词」+「中170词」+「后170词」+「SEP」
=>[「CLS」+「前170词」+「SEP」
「CLS」+「中170词」+「SEP」
「CLS」+「后170词」+「SEP」]
其中,「CLS」和「SEP」为BERT模型输入的特殊分割符号。
在将所述待分类的舆情文本的拼接后的内容片段输入BERT模型之后,其输出为:[embedding1,embedding2,embedding3]。其中,embeddingi为对应内容片段i的向量表示。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S103中,根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
在本实施例中,根据舆情文本的内容数据的类别显示,可以将舆情文本的内容数据归为三类:有效舆情、无效舆情和公告。基于此,所述待分类的舆情文本的文本分类结果包括以下中的至少一者:所述待分类的舆情文本属于有效舆情类别的概率数据、所述待分类的舆情文本属于无效舆情类别的概率数据、所述待分类的舆情文本属于公告类别的概率数据。籍此,能够有效地表征所述待分类的舆情文本的文本分类结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果时,通过舆情文本分类模型的拼接层,对所述待分类的舆情文本的多个内容片段各自的语义特征表征数据执行拼接操作,以获得所述待分类的舆情文本的语义特征表征数据;通过所述舆情文本分类模型的特征提取层,对所述待分类的舆情文本的语义特征表征数据执行文本特征提取操作,以获得所述待分类的舆情文本的文本特征数据;通过所述舆情文本分类模型的全连接层,对所述待分类的舆情文本的文本特征数据执行映射操作,以获得所述待分类的舆情文本的文本分类结果。籍此,通过所述舆情文本分类模型的拼接层、特征提取层和全连接层,能够准确地获得所述待分类的舆情文本的文本分类结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类时,通过舆情文本分类模型的拼接层,对所述待分类的舆情文本的多个内容片段中的每个内容片段的语义特征表征数据执行拼接操作,以获得所述待分类的舆情文本的语义特征表征数据;通过所述舆情文本分类模型的特征提取层,对所述待分类的舆情文本的语义特征表征数据执行文本特征提取操作,以获得所述待分类的舆情文本的文本特征数据;通过所述舆情文本分类模型的全连接层,对所述待分类的舆情文本的文本特征数据执行映射操作,以获得所述待分类的舆情文本的文本分类结果。
在一个具体的例子中,所述舆情文本分类模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述舆情文本分类模型还可以包括批量归一化层和丢弃层,所述批量归一化层的输入端与所述拼接层的输出端连接,所述批量归一化层的输出端与所述丢弃层的输入端连接,所述丢弃层的输出端与所述特征提取层的输入层连接,所述特征提取层的输出端与所述全连接层的输入端连接。所述批量归一化层和所述丢弃层用于防止所述舆情文本分类模型在训练过程中过拟合。所述待分类的舆情文本的语义特征表征数据可为所述待分类的舆情文本的语义特征表征向量,所述待分类的舆情文本的文本特征数据可为所述待分类的舆情文本的文本特征向量。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,向所述舆情文本分类模型输入所述待分类的舆情文本的多个内容片段中的每个内容片段的语义特征表征向量,所述舆情文本分类模型输出舆情文本所属的有效舆情、无效舆情、公告三个类别对应的概率值。采用所述舆情文本分类模型,将舆情文本的内容数据尽可能正确归到对应的类别,从而可以轻易的筛除属于无效舆情类别的舆情文本和属于公告类别的舆情文本。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述获得所述待分类的舆情文本的文本分类结果之后,所述方法还包括:若根据所述待分类的舆情文本的文本分类结果确定所述待分类的舆情文本属于无效舆情类别或者公告类别,则筛除所述待分类的舆情文本。籍此,通过筛除属于无效舆情类别的舆情文本和属于公告类别的舆情文本,使得舆情板块所展示的舆情文本更贴近用户的需求。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在实际应用中,通过将舆情文本进行分割,并将分割后的舆情文本间隔分割符号后进行拼接,最终舆情文本的分类结果的准确率提升了近2%,由91.54%至93.47%。根据一篇舆情文本的内容数据的片段类型多变性提出的“文本三段论”,将文本切割为三段后输入之后的模型,使得准度有所提升。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
通过本发明实施例提供的舆情文本的分类方法,对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段,并对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,再根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果,与现有的其它方式相比,对待分类的舆情文本的内容数据进行切割,并根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,能够准确地对舆情文本进行分类,从而筛除低质量的舆情文本。
本实施例提供的舆情文本的分类方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。
参照图2,示出了本申请实施例二中舆情文本的分类装置的结构示意图。
本实施例提供的舆情文本的分类装置包括:切割模块201,用于对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;语义特征提取模块202,用于对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;文本分类模块203,用于根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
可选地,所述切割模块201,具体用于:根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
可选地,所述切割模块201,具体用于:根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的内容数据的理论切割位置;确定距离所述理论切割位置最近的字符符号位置为所述待分类的舆情文本的内容数据的实际切割位置;根据所述待分类的舆情文本的内容数据的实际切割位置,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
可选地,所述语义特征提取模块202,具体用于:将内容片段的起始位置的分割符号和所述内容片段的结束位置的分割符号分别添加至所述待分类的舆情文本的多个内容片段各自的起始位置和结束位置,以获得所述待分类的舆情文本的多个添加分割符号的内容片段;根据所述待分类的舆情文本的多个内容片段在所述待分类的舆情文本中的前后位置,对所述待分类的舆情文本的多个添加分割符号的内容片段进行拼接,以获得所述待分类的舆情文本的拼接后的内容片段;通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。
可选地,所述文本分类模块203,具体用于:通过舆情文本分类模型的拼接层,对所述待分类的舆情文本的多个内容片段各自的语义特征表征数据执行拼接操作,以获得所述待分类的舆情文本的语义特征表征数据;通过所述舆情文本分类模型的特征提取层,对所述待分类的舆情文本的语义特征表征数据执行文本特征提取操作,以获得所述待分类的舆情文本的文本特征数据;通过所述舆情文本分类模型的全连接层,对所述待分类的舆情文本的文本特征数据执行映射操作,以获得所述待分类的舆情文本的文本分类结果。
可选地,所述待分类的舆情文本的文本分类结果包括以下中的至少一者:所述待分类的舆情文本属于有效舆情类别的概率数据、所述待分类的舆情文本属于无效舆情类别的概率数据、所述待分类的舆情文本属于公告类别的概率数据。
可选地,所述文本分类模块203之后,所述装置还包括:筛除模块,用于若根据所述待分类的舆情文本的文本分类结果确定所述待分类的舆情文本属于无效舆情类别或者公告类别,则筛除所述待分类的舆情文本。
本实施例提供的舆情文本的分类装置用于实现前述多个方法实施例中相应的舆情文本的分类方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图3,示出了根据本发明实施例三的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它电子设备或服务器进行通信。
处理器302,用于执行程序310,具体可以执行上述舆情文本的分类方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
在一种可选的实施方式中,程序310还用于使得处理器302在对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段时,根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
在一种可选的实施方式中,程序310还用于使得处理器302在对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段时,根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的内容数据的理论切割位置;确定距离所述理论切割位置最近的字符符号位置为所述待分类的舆情文本的内容数据的实际切割位置;根据所述待分类的舆情文本的内容数据的实际切割位置,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
在一种可选的实施方式中,程序310还用于使得处理器302在对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据时,将内容片段的起始位置的分割符号和所述内容片段的结束位置的分割符号分别添加至所述待分类的舆情文本的多个内容片段各自的起始位置和结束位置,以获得所述待分类的舆情文本的多个添加分割符号的内容片段;根据所述待分类的舆情文本的多个内容片段在所述待分类的舆情文本中的前后位置,对所述待分类的舆情文本的多个添加分割符号的内容片段进行拼接,以获得所述待分类的舆情文本的拼接后的内容片段;通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。
在一种可选的实施方式中,程序310还用于使得处理器302在根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果时,通过舆情文本分类模型的拼接层,对所述待分类的舆情文本的多个内容片段各自的语义特征表征数据执行拼接操作,以获得所述待分类的舆情文本的语义特征表征数据;通过所述舆情文本分类模型的特征提取层,对所述待分类的舆情文本的语义特征表征数据执行文本特征提取操作,以获得所述待分类的舆情文本的文本特征数据;通过所述舆情文本分类模型的全连接层,对所述待分类的舆情文本的文本特征数据执行映射操作,以获得所述待分类的舆情文本的文本分类结果。
在一种可选的实施方式中,所述待分类的舆情文本的文本分类结果包括以下中的至少一者:所述待分类的舆情文本属于有效舆情类别的概率数据、所述待分类的舆情文本属于无效舆情类别的概率数据、所述待分类的舆情文本属于公告类别的概率数据。
在一种可选的实施方式中,程序310还用于使得处理器302在获得所述待分类的舆情文本的文本分类结果之后,若根据所述待分类的舆情文本的文本分类结果确定所述待分类的舆情文本属于无效舆情类别或者公告类别,则筛除所述待分类的舆情文本。
程序310中各步骤的具体实现可以参见上述舆情文本的分类方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段,并对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,再根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果,与现有的其它方式相比,对待分类的舆情文本的内容数据进行切割,并根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,能够准确地对舆情文本进行分类,从而筛除低质量的舆情文本。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的舆情文本的分类方法。此外,当通用计算机访问用于实现在此示出的舆情文本的分类方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的舆情文本的分类方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (10)
1.一种舆情文本的分类方法,其特征在于,所述方法包括:
对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;
对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;
根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
2.根据权利要求1所述的舆情文本的分类方法,其特征在于,所述对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段,包括:
根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
3.根据权利要求1所述的舆情文本的分类方法,其特征在于,所述对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段,包括:
根据预设的内容片段字符数量,从所述待分类的舆情文本的内容数据的起始位置开始,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的内容数据的理论切割位置;
确定距离所述理论切割位置最近的字符符号位置为所述待分类的舆情文本的内容数据的实际切割位置;
根据所述待分类的舆情文本的内容数据的实际切割位置,对所述待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段。
4.根据权利要求1所述的舆情文本的分类方法,其特征在于,所述对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,包括:
将内容片段的起始位置的分割符号和所述内容片段的结束位置的分割符号分别添加至所述待分类的舆情文本的多个内容片段各自的起始位置和结束位置,以获得所述待分类的舆情文本的多个添加分割符号的内容片段;
根据所述待分类的舆情文本的多个内容片段在所述待分类的舆情文本中的前后位置,对所述待分类的舆情文本的多个添加分割符号的内容片段进行拼接,以获得所述待分类的舆情文本的拼接后的内容片段;
通过语义特征表征模型,对所述待分类的舆情文本的拼接后的内容片段进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据。
5.根据权利要求1所述的舆情文本的分类方法,其特征在于,所述根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果,包括:
通过舆情文本分类模型的拼接层,对所述待分类的舆情文本的多个内容片段各自的语义特征表征数据执行拼接操作,以获得所述待分类的舆情文本的语义特征表征数据;
通过所述舆情文本分类模型的特征提取层,对所述待分类的舆情文本的语义特征表征数据执行文本特征提取操作,以获得所述待分类的舆情文本的文本特征数据;
通过所述舆情文本分类模型的全连接层,对所述待分类的舆情文本的文本特征数据执行映射操作,以获得所述待分类的舆情文本的文本分类结果。
6.根据权利要求1或5所述的舆情文本的分类方法,其特征在于,所述待分类的舆情文本的文本分类结果包括以下中的至少一者:
所述待分类的舆情文本属于有效舆情类别的概率数据、所述待分类的舆情文本属于无效舆情类别的概率数据、所述待分类的舆情文本属于公告类别的概率数据。
7.根据权利要求1所述的舆情文本的分类方法,其特征在于,所述获得所述待分类的舆情文本的文本分类结果之后,所述方法还包括:
若根据所述待分类的舆情文本的文本分类结果确定所述待分类的舆情文本属于无效舆情类别或者公告类别,则筛除所述待分类的舆情文本。
8.一种舆情文本的分类装置,其特征在于,所述装置包括:
切割模块,用于对待分类的舆情文本的内容数据进行切割,以获得所述待分类的舆情文本的多个内容片段;
语义特征提取模块,用于对所述待分类的舆情文本的多个内容片段分别进行语义特征提取,以获得所述待分类的舆情文本的多个内容片段各自的语义特征表征数据;
文本分类模块,用于根据所述待分类的舆情文本的多个内容片段各自的语义特征表征数据,对所述待分类的舆情文本进行文本分类,以获得所述待分类的舆情文本的文本分类结果。
9.一种电子设备,其特征在于,所述设备包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任意一项权利要求所述的舆情文本的分类方法对应的操作。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任意一项权利要求所述的舆情文本的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409268.7A CN114048317A (zh) | 2021-11-19 | 2021-11-19 | 舆情文本的分类方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409268.7A CN114048317A (zh) | 2021-11-19 | 2021-11-19 | 舆情文本的分类方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048317A true CN114048317A (zh) | 2022-02-15 |
Family
ID=80210882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111409268.7A Pending CN114048317A (zh) | 2021-11-19 | 2021-11-19 | 舆情文本的分类方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048317A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145115A (zh) * | 2018-08-30 | 2019-01-04 | 腾讯科技(成都)有限公司 | 产品舆情发现方法、装置、计算机设备和存储介质 |
CN113239204A (zh) * | 2021-06-08 | 2021-08-10 | 中国电信股份有限公司 | 文本分类方法及装置、电子设备、计算机可读存储介质 |
CN113609297A (zh) * | 2021-08-23 | 2021-11-05 | 南京擎盾信息科技有限公司 | 用于法院行业的舆情监控方法和装置 |
CN113626602A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113626603A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
-
2021
- 2021-11-19 CN CN202111409268.7A patent/CN114048317A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145115A (zh) * | 2018-08-30 | 2019-01-04 | 腾讯科技(成都)有限公司 | 产品舆情发现方法、装置、计算机设备和存储介质 |
CN113239204A (zh) * | 2021-06-08 | 2021-08-10 | 中国电信股份有限公司 | 文本分类方法及装置、电子设备、计算机可读存储介质 |
CN113626602A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113626603A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113609297A (zh) * | 2021-08-23 | 2021-11-05 | 南京擎盾信息科技有限公司 | 用于法院行业的舆情监控方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN111078878B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN109828906B (zh) | Ui自动化测试方法、装置、电子设备及存储介质 | |
CN107357824B (zh) | 信息处理方法、服务平台及计算机存储介质 | |
TW201804341A (zh) | 字串的分詞方法、裝置及設備 | |
CN111858905B (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN111984589A (zh) | 文档处理方法、文档处理装置和电子设备 | |
JP7389824B2 (ja) | オブジェクト識別方法と装置、電子機器及び記憶媒体 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN111737966B (zh) | 文档重复度检测方法、装置、设备和可读存储介质 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN115101069A (zh) | 语音控制方法、装置、设备、存储介质以及程序产品 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN112949290A (zh) | 文本纠错方法、装置及通信设备 | |
CN113761923A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CN116484215A (zh) | 基于扩散模型的文本生成模型训练、文字生成方法和装置 | |
CN114048317A (zh) | 舆情文本的分类方法、装置、电子设备及计算机存储介质 | |
CN115496734A (zh) | 视频内容的质量评价方法、网络训练方法和装置 | |
CN113312554A (zh) | 用于评价推荐系统的方法及装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230801 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK) Applicant before: Yancheng Jindi Technology Co.,Ltd. |