CN115658994A - 舆情观点报告生成方法、装置、存储介质及电子装置 - Google Patents

舆情观点报告生成方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN115658994A
CN115658994A CN202211381378.1A CN202211381378A CN115658994A CN 115658994 A CN115658994 A CN 115658994A CN 202211381378 A CN202211381378 A CN 202211381378A CN 115658994 A CN115658994 A CN 115658994A
Authority
CN
China
Prior art keywords
sentence
public opinion
text
training
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211381378.1A
Other languages
English (en)
Inventor
吴云朝
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202211381378.1A priority Critical patent/CN115658994A/zh
Publication of CN115658994A publication Critical patent/CN115658994A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种舆情观点报告生成方法、装置、存储介质及电子装置。该舆情观点报告生成方法包括:接收舆情文本集;采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;按照预设报告制作规则,根据每类句子观点生成舆情观点报告。本申请解决了由于用字级别模型有些条款识别不了边界造成的容易产生误差的技术问题。

Description

舆情观点报告生成方法、装置、存储介质及电子装置
技术领域
本申请涉及舆情文本挖掘领域,具体而言,涉及一种舆情观点报告生成方法、装置、存储介质及电子装置。
背景技术
专利基于BERT的媒体信息观点抽取方法、装置、设备和存储介质(申请/专利号:CN202010060445.4)。该发明获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息。该专利采用字级别模型进行观点抽取,但是观点大部分是句子级别,用字级别模型有些条款识别不了边界,容易产生误差。
针对相关技术中用字级别模型有些条款识别不了边界造成的容易产生误差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种舆情观点报告生成方法、装置、存储介质及电子装置,以解决用字级别模型有些条款识别不了边界造成的容易产生误差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种舆情观点报告生成方法。
根据本申请的舆情观点报告生成方法包括:接收舆情文本集;采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
进一步的,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:给每类句子观点分词后,用预先训练好的TF-IDF模型或word2vec进行向量编码;使用DBSCAN算法对向量编码结果进行聚类;基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点;计算每类代表句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
进一步的,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:计算每类句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
进一步的,接收舆情文本集包括:使用爬虫工具爬取网络上各个时间的舆情文本,得到舆情文本集。
进一步的,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:通过动态Mask训练方法,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;其中,训练中的Mask以词为单位。
进一步的,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:将所述舆情文本训练集中的第一训练样本逐个输入句级别观点抽取模型进行训练;通过句级别观点抽取模型,基于预设的识别问题标签识别出所述第一训练样本中第一句子的第一句义标记符。
进一步的,所述识别问题标签的构造包括:通过使用冒号拼接每个句子所属的条款名称和句子名称,或使用每个句子的句子名称以构造得到识别问题标签。
为了实现上述目的,根据本申请的另一方面,提供了一种舆情观点报告生成装置。
根据本申请的舆情观点报告生成装置包括:接收模块,用于接收舆情文本集;标注模块,用于采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;训练模块,用于利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;抽取模块,用于将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;生成模块,用于按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质。
根据本申请的计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的舆情观点报告生成方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子装置。
根据本申请的电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述的舆情观点报告生成方法。
在本申请实施例中,采用基于舆情文本进行标注、训练、抽取并生成报告的方式,通过接收舆情文本集;采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;按照预设报告制作规则,根据每类句子观点生成舆情观点报告;达到了使用句子级别模型有效识别条款边界的目的,从而实现了避免产生误差的技术效果,进而解决了由于用字级别模型有些条款识别不了边界造成的容易产生误差的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的舆情观点报告生成方法的流程示意图;
图2是根据本申请实施例的舆情观点报告生成装置的结构示意图;
图3是根据本申请实施例的句级别观点抽取模型的训练示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本申请涉及一种舆情观点报告生成方法,该方法包括以下步骤S101-步骤S105:
步骤S101、接收舆情文本集;
本实施例中,接收舆情文本集包括:使用爬虫工具爬取网络上各个时间的舆情文本,得到舆情文本集。采用网络爬虫的方式从各个新闻网站、论坛、直播平台等抓取舆情文本,做到数据的多样性,更长的训练时间。
步骤S102、采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;
本实施例中,如图3所示,使用的是序列标注的多分类的下游模型构造。具体地,将舆情文本集中每个文本的句子按照换行符、句号、分号、逗号等标点符号分割,用[CLS]标记去拼接每个句子,拼接的原因是因为[CLS]可以表达该句话的语义,即为句义标记符。将拼接好的舆情文本按照字拆分,如此,可以使用[CLS]1、[CLS]2、[CLS]3、[CLS]i表示模型经过学习后第i个[CLS]的上下文语境嵌入。从而实现了给每个句子进行标记,使得带标记的舆情文本能够用于后续的的句级别观点抽取模型训练。
步骤S103、利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;
如图3所示,句级别观点抽取模型以Roberta-wwm(A Robustly Optimized BERTPretraining Approach-Whole Word Masking)为基础预训练模型。Roberta和wwm都是相对于bert(Bidirectional Encoder Representations from Transformers)的改进模型。
在一种优选的实施方式中,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:通过动态Mask训练方法,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;其中,训练中的Mask以词为单位。
具体地,采用Bert在整个预训练过程,选择进行mask的15%的Tokens是不变的,也就是说从一开始随机选择了这15%的Tokens,之后的N个epoch里都不再改变了。这就叫做静态Masking。而RoBERTa一开始把预训练的数据复制10份,每一份都随机选择15%的Tokens进行Masking,也就是说,同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中,每个序列的被mask的tokens是会变化的。这就叫做动态Masking。这样做的目的是:动态mask相当于间接的增加了训练数据,有助于提高模型性能。进一步的,用更大的batch size配合更大学习率能提升模型优化速率和模型性能。
在另一种优选的实施方式中,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:将所述舆情文本训练集中的第一训练样本逐个输入句级别观点抽取模型进行训练;通过句级别观点抽取模型,基于预设的识别问题标签识别出所述第一训练样本中第一句子的第一句义标记符。
本实施例中,采用每个样本逐个输入,逐个训练的方式,实现了输入的时候不能跨越文档,而且仅仅使用在模型中预设的识别问题标签对先前标记的句义标记符进行识别,而不预测当前句子的下一句,这就要求预先去除预测是否下一句的任务。因为输入时不跨越文档效果最好,而且预测是否下一句任务对模型并没有帮助。
需要了解的是,BERT训练时的MASK以字为单位,而WWM中的MASK以词为单位,更加符合中文的语言特性。
还需要了解的是,所述识别问题标签的构造包括:通过使用冒号拼接每个句子所属的条款名称和句子名称,或使用每个句子的句子名称以构造得到识别问题标签。针对每个句子和条款,我们都需要构造Query以告诉模型应该识别什么标签,常规的Query构造方法是将标签名字作为Query,但是我们考虑到每个条款底下的句子存在互斥的关系,且位置靠的比较近,为了让模型学习到这种关系,我们的Query构造方式是将每个句子的Query用该句子所属的条款名称和句子名称用冒号拼接。
通过以上对模型的设置以及对文本的标注,最终可以训练出一个识别句子级别观点的模型。
本实施例中,优选的,将Query按照字拆分为
Figure BDA0003927181300000071
将合同文本按照字拆分为
Figure BDA0003927181300000072
其中的[CLS]为BERT设计的一个辅助做分类任务的特殊标记符号,[SEP]是BERT设计的一个分隔符,用来连接两端文本。
Figure BDA0003927181300000073
Figure BDA0003927181300000074
表示字的输入嵌入。
Figure BDA0003927181300000075
表示模型经过学习后第i个字的上下文语境嵌入,T[CLS]表示模型经过学习后[CLS]标记符的语境向量,根据BERT的模型设计,该向量的维度为768维,输入线性层,该线性层的神经元的数量是1。线性层的输出在经过sigomid激活函数后得到负面的概率值,若大于预先设定的阈值则为负面,反之为非负面。本发明阈值采用0.5。
需要了解的是,损失函数采用BCE(Binary cross entropy)。就是将最后分类层的每个输出节点使用sigmoid激活函数激活,然后对每个输出节点和对应的标签计算交叉熵损失函数。
步骤S104、将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;
通过标记后的舆情文本输入句级别观点抽取模型进行训练后,句级别观点抽取模型学习到了基于识别问题标签在单个句子中识别出第一句义标记符的能力,从而能够将不同的句子观点分类到不同的句义标记符下,达到了将待抽取舆情文本中所有句子观点抽取并分类的目的,从而能够使用句子级别模型有效识别条款边界,使得句子观点更加完整,有效避免产生误差。
步骤S105、按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
在一种优选的实施方案中,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:给每类句子观点分词后,用预先训练好的TF-IDF模型或word2vec进行向量编码;使用DBSCAN算法对向量编码结果进行聚类;基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点;计算每类代表句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
具体地,TF-IDF模型的训练包括:用每个舆情文本训练一个TF-IDF(文档-逆文档频率)模型,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF(TermFrequency,词频)表示词条在文本中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。TF用公式表示如下
Figure BDA0003927181300000081
其中,ni,j表示词条ti在文档dj中出现的次数,TFi,j就是表示词条ti在文档dj中出现的频率。IDF(Inverse Document Frequency,逆文件频率)表示关键词的普遍程度。如果包含词条i的文档越少,IDF越大,则说明该词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到
Figure BDA0003927181300000091
其中,|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量。
需要了解的是,word2vec是一种可以将词转换为固定维度向量的技术,互联网上有很多训练好开源的词向量,例如腾讯词向量。
具体地,使用DBSCAN算法对向量编码结果进行聚类包括:
将所有点标记为核心点、边界点或噪声点;
删除噪声点;
为距离在Eps(自定义的超参数)之内的所有核心点之间赋予一条边;
每组连通的核心点形成一个簇;
将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。
具体地,基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点。
计算每个类别观点的信息熵得,使用信息熵最大的观点作为该类观点的代表。一元模型的信息熵计算公式为
H(x)=―∑x∈XP(x)log P(x),其中P(x)可近似等于每个词在语料库中出现的频率。
最后,将每类观点按照观点数量计算占比,并按照模板生成舆情观点报告。
模板可以自定义,例如:“(观点占比)%的人认为(观点一),(观点占比)%的人认为(观点二)…”。
将观点抽取和观点聚类结合起来,达到了生成舆情观点报告的目的,使得舆情观点报告更为精确的反应各类观点。
在另一种优选的实施方案中,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:计算每类句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
直接每类观点按照观点数量计算占比,并按照模板生成舆情观点报告。模板可以自定义,例如:“(观点占比)%的人认为(观点一),(观点占比)%的人认为(观点二)…”。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用基于舆情文本进行标注、训练、抽取并生成报告的方式,通过接收舆情文本集;采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;按照预设报告制作规则,根据每类句子观点生成舆情观点报告;达到了使用句子级别模型有效识别条款边界的目的,从而实现了避免产生误差的技术效果,进而解决了由于用字级别模型有些条款识别不了边界造成的容易产生误差的技术问题。
如图2所示,本申请涉及还一种舆情观点报告生成装置,该装置包括:
接收模块10,用于接收舆情文本集;
本实施例中,接收舆情文本集包括:使用爬虫工具爬取网络上各个时间的舆情文本,得到舆情文本集。采用网络爬虫的方式从各个新闻网站、论坛、直播平台等抓取舆情文本,做到数据的多样性,更长的训练时间。
标注模块20,用于采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;
本实施例中,如图3所示,使用的是序列标注的多分类的下游模型构造。具体地,将舆情文本集中每个文本的句子按照换行符、句号、分号、逗号等标点符号分割,用[CLS]标记去拼接每个句子,拼接的原因是因为[CLS]可以表达该句话的语义,即为句义标记符。将拼接好的舆情文本按照字拆分,如此,可以使用[CLS]1、[CLS]2、[CLS]3、[CLS]i表示模型经过学习后第i个[CLS]的上下文语境嵌入。从而实现了给每个句子进行标记,使得带标记的舆情文本能够用于后续的的句级别观点抽取模型训练。
训练模块30,用于利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;
如图3所示,句级别观点抽取模型以Roberta-wwm(A Robustly Optimized BERTPretraining Approach-Whole Word Masking)为基础预训练模型。Roberta和wwm都是相对于bert(Bidirectional Encoder Representations from Transformers)的改进模型。
在一种优选的实施方式中,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:通过动态Mask训练方法,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;其中,训练中的Mask以词为单位。
具体地,采用Bert在整个预训练过程,选择进行mask的15%的Tokens是不变的,也就是说从一开始随机选择了这15%的Tokens,之后的N个epoch里都不再改变了。这就叫做静态Masking。而RoBERTa一开始把预训练的数据复制10份,每一份都随机选择15%的Tokens进行Masking,也就是说,同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中,每个序列的被mask的tokens是会变化的。这就叫做动态Masking。这样做的目的是:动态mask相当于间接的增加了训练数据,有助于提高模型性能。进一步的,用更大的batch size配合更大学习率能提升模型优化速率和模型性能。
在另一种优选的实施方式中,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:将所述舆情文本训练集中的第一训练样本逐个输入句级别观点抽取模型进行训练;通过句级别观点抽取模型,基于预设的识别问题标签识别出所述第一训练样本中第一句子的第一句义标记符。
本实施例中,采用每个样本逐个输入,逐个训练的方式,实现了输入的时候不能跨越文档,而且仅仅使用在模型中预设的识别问题标签对先前标记的句义标记符进行识别,而不预测当前句子的下一句,这就要求预先去除预测是否下一句的任务。因为输入时不跨越文档效果最好,而且预测是否下一句任务对模型并没有帮助。
需要了解的是,BERT训练时的MASK以字为单位,而WWM中的MASK以词为单位,更加符合中文的语言特性。
还需要了解的是,所述识别问题标签的构造包括:通过使用冒号拼接每个句子所属的条款名称和句子名称,或使用每个句子的句子名称以构造得到识别问题标签。针对每个句子和条款,我们都需要构造Query以告诉模型应该识别什么标签,常规的Query构造方法是将标签名字作为Query,但是我们考虑到每个条款底下的句子存在互斥的关系,且位置靠的比较近,为了让模型学习到这种关系,我们的Query构造方式是将每个句子的Query用该句子所属的条款名称和句子名称用冒号拼接。
通过以上对模型的设置以及对文本的标注,最终可以训练出一个识别句子级别观点的模型。
本实施例中,优选的,将Query按照字拆分为
Figure BDA0003927181300000121
将合同文本按照字拆分为
Figure BDA0003927181300000122
其中的[CLS]为BERT设计的一个辅助做分类任务的特殊标记符号,[SEP]是BERT设计的一个分隔符,用来连接两端文本。
Figure BDA0003927181300000123
Figure BDA0003927181300000124
表示字的输入嵌入。
Figure BDA0003927181300000125
表示模型经过学习后第i个字的上下文语境嵌入,T[CLS]表示模型经过学习后[CLS]标记符的语境向量,根据BERT的模型设计,该向量的维度为768维,输入线性层,该线性层的神经元的数量是1。线性层的输出在经过sigomid激活函数后得到负面的概率值,若大于预先设定的阈值则为负面,反之为非负面。本发明阈值采用0.5。
需要了解的是,损失函数采用BCE(Binary cross entropy)。就是将最后分类层的每个输出节点使用sigmoid激活函数激活,然后对每个输出节点和对应的标签计算交叉熵损失函数。
抽取模块40,用于将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;
通过标记后的舆情文本输入句级别观点抽取模型进行训练后,句级别观点抽取模型学习到了基于识别问题标签在单个句子中识别出第一句义标记符的能力,从而能够将不同的句子观点分类到不同的句义标记符下,达到了将待抽取舆情文本中所有句子观点抽取并分类的目的,从而能够使用句子级别模型有效识别条款边界,使得句子观点更加完整,有效避免产生误差。
生成模块50,用于按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
在一种优选的实施方案中,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:给每类句子观点分词后,用预先训练好的TF-IDF模型或word2vec进行向量编码;使用DBSCAN算法对向量编码结果进行聚类;基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点;计算每类代表句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
具体地,TF-IDF模型的训练包括:用每个舆情文本训练一个TF-IDF(文档-逆文档频率)模型,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF(TermFrequency,词频)表示词条在文本中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。TF用公式表示如下
Figure BDA0003927181300000131
其中,ni,j表示词条ti在文档dj中出现的次数,TFi,j就是表示词条ti在文档dj中出现的频率。IDF(Inverse Document Frequency,逆文件频率)表示关键词的普遍程度。如果包含词条i的文档越少,IDF越大,则说明该词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到
Figure BDA0003927181300000141
其中,|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量。
需要了解的是,word2vec是一种可以将词转换为固定维度向量的技术,互联网上有很多训练好开源的词向量,例如腾讯词向量。
具体地,使用DBSCAN算法对向量编码结果进行聚类包括:
将所有点标记为核心点、边界点或噪声点;
删除噪声点;
为距离在Eps(自定义的超参数)之内的所有核心点之间赋予一条边;
每组连通的核心点形成一个簇;
将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。
具体地,基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点。
计算每个类别观点的信息熵得,使用信息熵最大的观点作为该类观点的代表。一元模型的信息熵计算公式为
H(x)=―∑x∈XP(x)log P(x),其中P(x)可近似等于每个词在语料库中出现的频率。
最后,将每类观点按照观点数量计算占比,并按照模板生成舆情观点报告。
模板可以自定义,例如:“(观点占比)%的人认为(观点一),(观点占比)%的人认为(观点二)…”。
将观点抽取和观点聚类结合起来,达到了生成舆情观点报告的目的,使得舆情观点报告更为精确的反应各类观点。
在另一种优选的实施方案中,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:计算每类句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
直接每类观点按照观点数量计算占比,并按照模板生成舆情观点报告。模板可以自定义,例如:“(观点占比)%的人认为(观点一),(观点占比)%的人认为(观点二)…”。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用基于舆情文本进行标注、训练、抽取并生成报告的方式,通过接收舆情文本集;采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;按照预设报告制作规则,根据每类句子观点生成舆情观点报告;达到了使用句子级别模型有效识别条款边界的目的,从而实现了避免产生误差的技术效果,进而解决了由于用字级别模型有些条款识别不了边界造成的容易产生误差的技术问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种舆情观点报告生成方法,其特征在于,包括:
接收舆情文本集;
采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;
利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;
将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;
按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
2.根据权利要求1所述的舆情观点报告生成方法,其特征在于,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:
给每类句子观点分词后,用预先训练好的TF-IDF模型或word2vec进行向量编码;
使用DBSCAN算法对向量编码结果进行聚类;
基于聚类结果计算每个类别句子观点的信息熵得,使用信息熵最大的句子观点作为该类观点的代表句子观点;
计算每类代表句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
3.根据权利要求1所述的舆情观点报告生成方法,其特征在于,按照预设报告制作规则,根据每类句子观点生成舆情观点报告包括:
计算每类句子观点在所有句子观点中的占比,并基于占比和预设模板生成舆情观点报告。
4.根据权利要求1所述的舆情观点报告生成方法,其特征在于,接收舆情文本集包括:
使用爬虫工具爬取网络上各个时间的舆情文本,得到舆情文本集。
5.根据权利要求1所述的舆情观点报告生成方法,其特征在于,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:
通过动态Mask训练方法,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;其中,训练中的Mask以词为单位。
6.根据权利要求1所述的舆情观点报告生成方法,其特征在于,利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练包括:
将所述舆情文本训练集中的第一训练样本逐个输入句级别观点抽取模型进行训练;
通过句级别观点抽取模型,基于预设的识别问题标签识别出所述第一训练样本中第一句子的第一句义标记符。
7.根据权利要求6所述的舆情观点报告生成方法,其特征在于,所述识别问题标签的构造包括:
通过使用冒号拼接每个句子所属的条款名称和句子名称,或使用每个句子的句子名称以构造得到识别问题标签。
8.一种舆情观点报告生成装置,其特征在于,包括:
接收模块,用于接收舆情文本集;
标注模块,用于采用序列标注方式给所述舆情文本集中每个文本的每个句子标注上句义标记符,得到舆情文本训练集;
训练模块,用于利用所述舆情文本训练集对预设的句级别观点抽取模型进行训练;
抽取模块,用于将待抽取舆情文本输入训练后的句级别观点抽取模型中,从所述待抽取舆情文本中抽取按句义标记符分类的句子观点;
生成模块,用于按照预设报告制作规则,根据每类句子观点生成舆情观点报告。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的舆情观点报告生成方法。
10.一种电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的舆情观点报告生成方法。
CN202211381378.1A 2022-11-04 2022-11-04 舆情观点报告生成方法、装置、存储介质及电子装置 Pending CN115658994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211381378.1A CN115658994A (zh) 2022-11-04 2022-11-04 舆情观点报告生成方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211381378.1A CN115658994A (zh) 2022-11-04 2022-11-04 舆情观点报告生成方法、装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN115658994A true CN115658994A (zh) 2023-01-31

Family

ID=85016447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211381378.1A Pending CN115658994A (zh) 2022-11-04 2022-11-04 舆情观点报告生成方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN115658994A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112800762A (zh) * 2021-01-25 2021-05-14 上海犀语科技有限公司 一种处理带格式风格文本的要素内容抽取方法
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN114116965A (zh) * 2021-11-08 2022-03-01 竹间智能科技(上海)有限公司 评论文本的观点提取方法以及电子设备
CN114153978A (zh) * 2022-02-07 2022-03-08 杭州恒生聚源信息技术有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质
CN114861630A (zh) * 2022-05-10 2022-08-05 马上消费金融股份有限公司 信息获取及相关模型的训练方法、装置、电子设备和介质
CN115238070A (zh) * 2022-07-18 2022-10-25 达而观信息科技(上海)有限公司 一种敏感信息的检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN112131863A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112800762A (zh) * 2021-01-25 2021-05-14 上海犀语科技有限公司 一种处理带格式风格文本的要素内容抽取方法
CN114116965A (zh) * 2021-11-08 2022-03-01 竹间智能科技(上海)有限公司 评论文本的观点提取方法以及电子设备
CN114153978A (zh) * 2022-02-07 2022-03-08 杭州恒生聚源信息技术有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质
CN114861630A (zh) * 2022-05-10 2022-08-05 马上消费金融股份有限公司 信息获取及相关模型的训练方法、装置、电子设备和介质
CN115238070A (zh) * 2022-07-18 2022-10-25 达而观信息科技(上海)有限公司 一种敏感信息的检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
查鲁·C.阿加沃尔: "《数据挖掘 原理与实践》", 31 January 2021, 机械工业出版社 *

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108829681B (zh) 一种命名实体提取方法及装置
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN111125354A (zh) 文本分类方法及装置
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Shekhar et al. An effective cybernated word embedding system for analysis and language identification in code-mixed social media text
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
CN115048515A (zh) 文档分类方法、装置、设备和存储介质
CN115658994A (zh) 舆情观点报告生成方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination