CN111753058B - 一种文本观点挖掘方法及系统 - Google Patents
一种文本观点挖掘方法及系统 Download PDFInfo
- Publication number
- CN111753058B CN111753058B CN202010612806.1A CN202010612806A CN111753058B CN 111753058 B CN111753058 B CN 111753058B CN 202010612806 A CN202010612806 A CN 202010612806A CN 111753058 B CN111753058 B CN 111753058B
- Authority
- CN
- China
- Prior art keywords
- text
- viewpoint
- sentences
- mined
- crfs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及一种文本观点挖掘方法及系统。所述方法包括获取待挖掘的文本;对所述待挖掘的文本进行观点语句的初步筛选;根据筛选后的待挖掘的文本,采用FastText‑XGBoost模型进行观点语句的识别;根据识别出的观点语句,采用MTL‑BiLSTM‑CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;本发明所提供的一种文本观点挖掘方法及系统,提高文本观点的挖掘效率和准确性。
Description
技术领域
本发明涉及观点挖掘领域,特别是涉及一种文本观点挖掘方法及系统。
背景技术
目前,本文对观点挖掘方法进行了以下两个方面的研究:1)观点句识别的研究;2)观点挖掘的研究。现阶段已有许多国内外研究人员对上述两个方面开展了研究。
目前,观点句识别的方法主要分为基于规则的方法、基于Bootstrapping优化的方法、基于分类器的方法和基于图模型的方法。
李勇敢制定了五级情感词典、极性词典和否定词库,在此基础上提出了非观点句判别规则和观点句判别规则,用以辨别非观点句和观点句。侯敏构造了基于短语的情感词典,并采用关键词匹配模板形式构建短语规则库,从而进行观点句分类。上述研究根据制定的规则进行观点句识别,但是规则的制定在不同的领域或者社交平台中存在局限性。
刘培玉采用优势率和主观表达能力计算主观性特征强度,根据句子的权重计算主观强度,最后优化Bootstrapping算法,将测试集中超过阈值的主客观句子加入到训练集中,重新训练主观强度。刘荣根据Bootstrapping算法对小规模语料中观点句和非观点句的语义特征、词汇特征和词性特征进行训练,得到贝叶斯分类器模型,然后借助模型预测大规模未标注的语料,将标注后的样本加至模型中,继续迭代训练。以上的研究通过Bootstrapping优化算法可以减少训练语料的标注工作量,但是还需要进一步提高观点句识别的准确率。
胡默之提取句子的依存关系和情感词在依存关系中的位置两种特征,并应用于最大熵模型以识别观点句。丁晟春采用SVM模型对句子的句式特征、句内特征和隐性特征进行训练,以识别出观点句。赵洁采用SVM模型对微博特有特征、情感词、文法、句法、和主题等特征进行训练,以识别观点句。潘艳茜采用SVM模型对词语、评价词个数、与评价对象有关的词语以及微博相关特征进行训练,从而识别出微博汽车领域中的观点句。郭云龙以单一词语和二连词性作为分类特征,然后采用证据理论将分别使用SVM和朴素贝叶斯分类的结果进行融合,组成识别观点句的多分类器。以上的研究主要是通过提取观点句的特征和使用机器学习方法进行训练,从而提高了观点句识别的准确性,但是在观点句的特征选取中没有涉及到语义层面的分析。
王明之提出一种基于词项共现的图模型方法,利用词项间的共现和句法关系区分观点句和非观点句。程显毅设计一种基于知识图的观点句识别算法。先根据朴素贝叶斯得到主观性单独分数,再利用最小割原理合并句子的单独分数和关联分数,实现对观点句的二次分类。以上的研究基于图模型进行观点句识别,但是识别的准确率低于采用机器学习方法识别观点句的准确率。
目前,研究人员主要在文档级、语句级以及属性级三个层次进行观点的研究,相关的研究成果如下:
王冠群制定了一系列关联规则,并对抽取的内容进行剪枝和筛选,从而抽取出观点句中的评价对象,然后抽取距离评价对象最近的词语作为评价对象的属性。江腾蛟根据情感词、情感词在句中充当的语法成分和情感词与评价对象的依存关系制定了抽取规则和规则的执行顺序,从而抽取出对应的评价对象。以上研究根据抽取规则能够快速抽取出评价词和评价对象。但是,没有考虑微博文本的口语化特点,以及语法和句法具有非规范性的情况。
王健采用CRFs模型分别对三词位、四词位和六词位的子序列进行标注,从而抽取中文专利文献中的术语。刘全超将评价对象的词法特征、句法特征、语义特征和相对位置特征融合到CRFs的模板中,并且根据转发关系和相似度抽取隐性的评价对象。以上的研究采用序列标注的方式挖掘出观点的评价对象和评价词,可以有效地提升挖掘的性能,但是无法捕捉文本的隐藏特征,当句子中出现指示代词时,无法辨析指示代词指代的评价对象。
睢国钦先使用CBOW模型获得词向量,再利用双向LSTM得到句子的文本特征,最后采用CRF模型进行标注,识别出评价对象,观点词和程度词。Huang利用双向LSTM-CRF标注句子中的命名实体,从而学习到句子的前后特征。Zhang设计了基于共享双向LSTM-CRF模型和基于独立双向LSTM-CRF模型,通过模型标注出句子中的词性和命名实体,从而解决标签的依赖关系和标签序列交互的问题。以上研究采用双向LSTM-CRF对评价对象和评价词进行序列标注,进一步提升了挖掘效率,但是忽略了句子中不同词性的词对评价对象和评价词的挖掘具有不同的权重。
Wang提出了一个基于注意力机制和方面嵌入的LSTM模型,当存在多个方面时,可以使模型集中于句子的不同部分,在方面级分类中具有很好的效果。Nguyen在LSTM模型中增加了注意力机制和交互注意机制,将模型的注意力集中在一个方面的重要部分,并相互学习该方面与其上下文之间的相对性。以上研究通过增加注意力机制可以将注意力集中在某一方面,但是评价对象和评价词的词性可能涉及名词、动词、形容词、形容词+名词组合等多个方面。
Gui提出一种以CNNs-Highway-BiLSTM作为序列标注基础模型的多任务学习框架,采用CNN卷积神经网络来捕获形态学特征,并通过自适应门控单元实现了保证CNN特征不变的Highway网络,最后将特征输入到BiLSTM中,完成序列标注的预测。
基于规则识别观点句的方法能够快速地分辨出观点句和非观点句,但是规则的制定受语料和语言本身的限制,识别过程在不同领域中比较受限。而且由于微博文本篇幅简短、内容碎片化和语句结构杂乱,如果不对文本进行语义分析,直接采用分类器对提取的特征进行训练,则会降低观点句识别的准确性。采用BiLSTM-CRFs模型既能很好的捕捉文本向前向后的信息,也能保证标签标注的顺序,解决句子中出现稀缺词的问题,但是忽略了句子中不同词性的词对观点中的评价对象和评价词具有不同权重的问题,而且,评价对象和评价词的词性不是唯一的,更可能是多个词性的组合,造成文本观点的挖掘效率和准确性低。
发明内容
本发明的目的是提供一种文本观点挖掘方法及系统,提高文本观点的挖掘效率和准确性。
为实现上述目的,本发明提供了如下方案:
一种文本观点挖掘方法,包括:
获取待挖掘的文本;
对所述待挖掘的文本进行观点语句的初步筛选;
根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别;所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;所MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出。
可选的,所述根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别,具体包括:
提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度;
根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果;将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0;
根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。
可选的,所述根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果,之前还包括:
对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本;
对所述处理后的文本进行词向量化。
可选的,所述根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果,之前还包括:
在所述FastText模型中加入n-gram特征。
可选的,所述根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘,具体包括:
根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2;
对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除;
将每个字经过wordEmbedding形成180维的字向量;
将所述主任务标签y1进行onehot调制,得到5维的y1向量;
将辅助任务标签y2进行onehot调制,得到9维的y2向量;
将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中;
所述共享层BiLSTM层对所述输入向量进行编码;
编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
一种文本观点挖掘系统,包括:
待挖掘的文本获取模块,用于获取待挖掘的文本;
初步筛选模块,用于对所述待挖掘的文本进行观点语句的初步筛选;
观点语句识别模块,用于根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别;所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
观点挖掘模块,用于根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;所MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出。
可选的,所述观点语句识别模块具体包括:
显性特征提取单元,用于提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度;
隐性特征提取单元,用于根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果;将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0;
识别结果确定单元,用于根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。
可选的,还包括:
分词和去停词处理模块,用于对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本;
词向量化模块,用于对所述处理后的文本进行词向量化。
可选的,还包括:
n-gram特征加入模块,用于在所述FastText模型中加入n-gram特征。
可选的,所述观点挖掘模块具体包括:
标签确定单元,用于根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2;
字频统计单元,用于对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除;
字向量确定单元,用于将每个字经过wordEmbedding形成180维的字向量;
y1向量确定单元,用于将所述主任务标签y1进行onehot调制,得到5维的y1向量;
y2向量确定单元,用于将辅助任务标签y2进行onehot调制,得到9维的y2向量;
输入单元,用于将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中;
编码单元,用于所述共享层BiLSTM层对所述输入向量进行编码;
输出单元,用于编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种文本观点挖掘方法及系统,对所述待挖掘的文本进行观点语句的初步筛选,将明显不是观点语句的语句进行删除,从而减少对分类器的压力,提高识别的效率。根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的二次识别,有效提高了观点语句识别的效率和准确性;根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘,在多任务学习框架中,以基于BiLSTM-CRFs的观点标注作为主任务,以基于BiLSTM-CRFs的词性标注作为辅助任务,从而减少了观点挖掘的损失值,大幅提高了观点挖掘的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种文本观点挖掘方法流程示意图;
图2为采用FastText模型进行分类的原理示意图;
图3为采用FastText-XGBoost模型进行观点语句的识别的原理示意图;
图4为采用MTL-BiLSTM-CRFs模型进行观点挖掘的原理示意图;
图5为本发明所提供的一种文本观点挖掘系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种文本观点挖掘方法及系统,提高文本观点的挖掘效率和准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
根据NLPC2012公开测评的观点句判定规则:观点句是指对特定事物或对象的评价,不包括个人内心愿望或心情的表达。并且,观点句中必须同时存在评价词和评价对象。
图1为本发明所提供的一种文本观点挖掘方法流程示意图,如图1所示,本发明所提供的一种文本观点挖掘方法,包括:
S101,获取待挖掘的文本。所述待挖掘的文本从微博语段进行提取。
S102,对所述待挖掘的文本进行观点语句的初步筛选。
初步筛选是根据微博句子的特征,设计了六条非观点句识别规则,通过规则匹配的方式剔除明显不是观点句的句子。
通过分析微博文本可以发现,一些非观点句明显存在以下特征:句子非常短,观点表述不清;以“调查说明”,“事实表明”开头的句子为对事件的具体介绍;含有“【”,“】”的句子通常都是介绍性内容;此外,根据观点句的定义可知,含有“希望”,“愿意”等或表达个人内心愿望的句子不是观点句。
通过六条非观点句识别规则,通过规则匹配的方式将数据集中能够直接判断为非观点句的句子过滤掉,从而减少文本分类的数据量。
六条非观点句识别规则如下:
规则1:不存在“#话题#”的形式且长度不超过5的句子是非观点句。
规则2:不存在“//@用户名:”的转发形式且长度不超过5的句子是非观点句。
规则3:以“调查说明”,“事实表明”等客观标识词开头的句子是非观点句。
规则4:含有“【”,“】”的句子是非观点句。
规则5:只存在超链接或者表情符号,无实际文字表达的句子是非观点句。
规则6:含有“愿意”,“希望”,“但愿”等意愿情感词的句子是非观点句。
其中,规则1-2和规则4-5直接采用字符串匹配方式进行判别。规则3依赖于建立的客观标识词词典,若句子中存在客观标识词,直接判定为非观点句。规则6依赖于建立的意愿情感词典,若句子中含有意愿情感词,直接判定为非观点句。
S103,根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别,如图3所示。所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型。
S102具体包括:
提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度。显性特征及其取值如表1:
表1
根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果,如图2所示。将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0。
在进行根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果之前还包括:
对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本。
对所述处理后的文本进行词向量化。
为了使语义表达更加准确,在进行根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果之前还包括在所述FastText模型中加入n-gram特征。
根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。利用XGBoost模型来弥补缺失值对训练结果的影响。
隐性特征指从语义角度分析文本,深层次挖掘出的文本特征。由于微博平均每秒钟可产生上千条文本,因此,针对海量文本进行隐性特征挖掘,既要保证快速有效,又要保证高准确性。由于FastText模型提供了简单且高效的有监督文本分类和表征学习的方法,通过加入n-gram特征,将局部词序考虑在内,可以使语义表达更加准确,在准确率上可获得与深度学习模型相匹敌的效果,并且在训练时间上比深度学习模型快了近万倍。
作为一个具体的实施例中FastText模型并如图2所示,首先对经过分词和去停用词处理后的文本进行进行词向量化,得到对应的词向量xi,作为模型的输入。其中,在FastText模型加入了2-gram特征,例如,若不考虑词序,“各位大腕演技”和“各位演技大腕”的特征词均为“各位”,“大腕”,“演技”,无法区分两个短语。而加入2-gram词性后,新增加了“各位大腕”和“大腕演技”两个特征词,就能够和“各位演技大腕”区分开,使得语义表达更加准确。
通过隐藏层对每个句子中的所有词向量xi求平均值,得到对应句子的文档向量yi,由此可得到整个文档向量Y,如式(1)所示:
其中,n代表特征词的个数,(x1i,...,xmi)代表特征词i的m维向量。
文档向量Y与隐藏层的权重矩阵A相乘进而得到分类向量B,如式(2)所示。
最后,在输出层根据分类向量B和参数创建Huffman树,使用分层softmax函数判断分类结果,计算公式如式(3)所示。
XGBoost模型的每一轮训练都是在上一轮训练得到的残差基础上进行的。第t次迭代时,构造生成树的目标函数如式(6)所示。
XGBoost对Obj函数在x=0处进行泰勒二阶展开,从而可以通过调节样本参数来重点关注一些样本。实验通过每一步对已有叶子节点分割,产生新的叶子节点来逐渐优化树结构,当分割的增益值连续小于定值或分割次数达到指定的最大深度时停止分割,得到分类模型。最终,每个样本都会落到一个叶子节点中,每个叶子节点代表一个分数,最后只需将每棵树的叶子分数加起来就是该样本的预测值。
S104,根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘,如图4所示。所MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出。
BiLSTM是由一个前向LSTM和一个后向LSTM组成的双向LSTM模型。LSTM通过训练可以学习到哪些信息需要记忆和哪些信息需要遗忘,因此模型能够更好的捕捉较长词汇的依赖关系;而BiLSTM能够更好的捕捉向前向后的信息。
在BIO序列标注模式中,各个标签之间是相互依赖的,如I必须在B之后,评价对象和评价词的前后标注为O标签。因此,为了解决标签间相互依赖的问题,可在BiLSTM的输出层后加一个CRFs层,从而学习整个句子的标签转移概率。
对于一个输入文本,首先进行词性分割和统计,将每个词映射成180维的词向量作为模型的输入。
然后根据LSTM模型的遗忘门、记忆门和输出门得到与句子长度相同的隐藏状态序列{h0,h1,...,hn-1},即为依赖前向和后向句子的特征。计算过程如式(7)~(12)所示。
ft=σ(Wf·[ht-1,xt]+bf) (7)
it=σ(Wi·[ht-1,xt]+bi) (8)
ot=σ(Wo·[ht-1,xt]+bo] (11)
ht=ot*tanh(Ct) (12)
其中,Wf,Wi,Wc分别为LSTM模型的权重矩阵,bf,bi,bC分别为偏差,σ为sigmoid激活函数。ft表示t时刻的输入xt经过遗忘门需遗忘的信息;it表示t时刻的输入xt经过记忆门需记忆的信息;表示t时刻的临时细胞状态;tanh为激活函数;Ct表示t时刻的细胞状态;ot表示t时刻输出门输出的信息;ht表示最终t时刻的隐藏状态。
因此,前向LSTM学习得到的隐藏状态序列为hf={hf0,hf1,...,hfn-1},后向LSTM向后学习得到的隐藏状态序列为hb={hb0,hb1,...,hbn-1}。在融合层将两个序列进行融合,最终的隐藏状态序列为并将该序列作为CRFs层的输入词序列X={x0,x1,...,xn-1}。
模型的CRFs层采用线性链条件随机场进行序列标注。此时,在条件概率模型P(Y|X)中,Y代表标记序列,作为模型的输出,X代表观测序列,作为模型的输入。那么,当随机变量X取值为x和随机变量Y取值为y时的条件概率如式(13)~(14)所示。
Z(x)=∑yexp[∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)] (14)
其中,λk,μl是权值参数,Z(x)是一种规范化因子,对所有可能的输出序列进行求和。tk是转移特征函数,依赖于当前和前一个位置;sl是状态特征函数,依赖于当前位置。通常,特征函数tk和sl取值为1或0。当满足特征条件时取1,否则取0。
本发明采用两个任务来构建观点挖掘模型MTL-BiLSTM-CRFs。其中,主任务是基于BiLSTM-CRFs实现评价对象和评价词的序列标注;辅助任务是基于BiLSTM-CRFs实现词性标注,借助辅助任务的损失值优化主任务的损失值,使得模型在有限的标注语料中挖掘更加丰富的知识。比如,名词性的评价对象、动词性的评价对象、名词性的评价词、形容词性的评价词、副词+形容词性的评价词等组合特征。辅助任务中需标注的词性分别是名词、动词、形容词、副词和其它词四种。词性标注的BIO标注模式如表2所示:
表2
S104具体包括:
根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2。
对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除。
将每个字经过wordEmbedding形成180维的字向量。
将所述主任务标签y1进行onehot调制,得到5维的y1向量。
将辅助任务标签y2进行onehot调制,得到9维的y2向量。
将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中。
所述共享层BiLSTM层对所述输入向量进行编码。
编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
本发明所提供的MTL-BiLSTM-CRFs模型在训练时,为了防止过拟合,将Epoch设置为10;每次训练,取16个batchsize样本进行训练。采用CRFs的损失函数作为模型的损失函数,同时使用Adam优化器计算不同参数下的自适应学习速率。
图5为本发明所提供的一种文本观点挖掘系统结构示意图,如图5所示,本发明所提供的一种文本观点挖掘系统,包括:待挖掘的文本获取模块501、初步筛选模块502、观点语句识别模块503和观点挖掘模块504。
待挖掘的文本获取模块501用于获取待挖掘的文本;
初步筛选模块502用于对所述待挖掘的文本进行观点语句的初步筛选;
观点语句识别模块503用于根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别;所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
观点挖掘模块504用于根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;所MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出。
所述观点语句识别模块503具体包括:显性特征提取单元、隐性特征提取单元和识别结果确定单元。
显性特征提取单元用于提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度;
隐性特征提取单元用于根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果;将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0;
识别结果确定单元用于根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。
本发明所提供的一种文本观点挖掘系统,还包括:分词和去停词处理模块、词向量化模块和n-gram特征加入模块。
分词和去停词处理模块用于对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本;
词向量化模块用于对所述处理后的文本进行词向量化。
n-gram特征加入模块用于在所述FastText模型中加入n-gram特征。
所述观点挖掘模块504具体包括:标签确定单元、字频统计单元、字向量确定单元、y1向量确定单元、y2向量确定单元、输入单元、编码单元和输出单元。
标签确定单元用于根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2;
字频统计单元用于对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除;
字向量确定单元用于将每个字经过wordEmbedding形成180维的字向量;
y1向量确定单元用于将所述主任务标签y1进行onehot调制,得到5维的y1向量;
y2向量确定单元用于将辅助任务标签y2进行onehot调制,得到9维的y2向量;
输入单元用于将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中;
编码单元用于所述共享层BiLSTM层对所述输入向量进行编码;
输出单元用于编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种文本观点挖掘方法,其特征在于,包括:
获取待挖掘的文本;
对所述待挖掘的文本进行观点语句的初步筛选;
根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别;所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;所述MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出;
所述根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别,具体包括:
提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度;
根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果;将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0;
根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。
2.根据权利要求1所述的一种文本观点挖掘方法,其特征在于,所述根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果,之前还包括:
对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本;
对所述处理后的文本进行词向量化。
3.根据权利要求1所述的一种文本观点挖掘方法,其特征在于,所述根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果,之前还包括:
在所述FastText模型中加入n-gram特征。
4.根据权利要求1所述的一种文本观点挖掘方法,其特征在于,所述根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘,具体包括:
根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2;
对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除;
将每个字经过wordEmbedding形成180维的字向量;
将所述主任务标签y1进行onehot调制,得到5维的y1向量;
将辅助任务标签y2进行onehot调制,得到9维的y2向量;
将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中;
所述共享层BiLSTM层对所述输入向量进行编码;
编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
5.一种文本观点挖掘系统,其特征在于,包括:
待挖掘的文本获取模块,用于获取待挖掘的文本;
初步筛选模块,用于对所述待挖掘的文本进行观点语句的初步筛选;
观点语句识别模块,用于根据筛选后的待挖掘的文本,采用FastText-XGBoost模型进行观点语句的识别;所述FastText-XGBoost模型以所述筛选后的待挖掘的文本为输入,以识别结果为输出;所述识别结果为观点语句或非观点语句;所述FastText-XGBoost模型包括FastText模型和XGBoost模型;
观点挖掘模块,用于根据识别出的观点语句,采用MTL-BiLSTM-CRFs模型进行以评价对象和评价词的标注为主任务,以词性标注为辅助任务的观点挖掘;所述MTL-BiLSTM-CRFs模型包括BiLSTM共享层、第一CRFs层和第二CRFs层;所述BiLSTM共享层用于对所述识别出的观点语句进行编码;所述第一CRFs层以编码后的观点语句为输入,以评价对象和评价词的标注为输出;所述第二CRFs层以编码后的观点语句为输入,以词性标注为输出;
所述观点语句识别模块具体包括:
显性特征提取单元,用于提取所述筛选后的待挖掘的文本的显性特征;所述显性特征包括存在连续的标点符号、反问句或者感叹句、情感词、名词、动词、形容词、表情符号以及语句的长度;
隐性特征提取单元,用于根据所述筛选后的待挖掘的文本,采用FastText模型进行分类,得到分类结果;将所述分类结果作为所述筛选后的待挖掘的文本的隐性特征;所述分类结果为观点语句时,隐性特征为1;所述分类结果为非观点语句时,隐性特征为0;
识别结果确定单元,用于根据所述显性特征和所述隐性特征,采用XGBoost模型进行识别,得到识别结果。
6.根据权利要求5所述的一种文本观点挖掘系统,其特征在于,还包括:
分词和去停词处理模块,用于对所述筛选后的待挖掘的文本进行分词和去停词处理,得到处理后的文本;
词向量化模块,用于对所述处理后的文本进行词向量化。
7.根据权利要求5所述的一种文本观点挖掘系统,其特征在于,还包括:
n-gram特征加入模块,用于在所述FastText模型中加入n-gram特征。
8.根据权利要求5所述的一种文本观点挖掘系统,其特征在于,所述观点挖掘模块具体包括:
标签确定单元,用于根据所述识别出的观点语句确定主任务标签y1和辅助任务标签y2;
字频统计单元,用于对所述识别出的观点语句进行字频统计,将出现次数小于2的字删除;
字向量确定单元,用于将每个字经过wordEmbedding形成180维的字向量;
y1向量确定单元,用于将所述主任务标签y1进行onehot调制,得到5维的y1向量;
y2向量确定单元,用于将辅助任务标签y2进行onehot调制,得到9维的y2向量;
输入单元,用于将所述180维的字向量、所述5维的y1向量和所述9维的y2向量作为输入向量输入所述MTL-BiLSTM-CRFs模型中;
编码单元,用于所述共享层BiLSTM层对所述输入向量进行编码;
输出单元,用于编码后的输入向量分别进行所述第一CRFs层和所述第二CRFs层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612806.1A CN111753058B (zh) | 2020-06-30 | 2020-06-30 | 一种文本观点挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612806.1A CN111753058B (zh) | 2020-06-30 | 2020-06-30 | 一种文本观点挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753058A CN111753058A (zh) | 2020-10-09 |
CN111753058B true CN111753058B (zh) | 2023-06-02 |
Family
ID=72678317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010612806.1A Active CN111753058B (zh) | 2020-06-30 | 2020-06-30 | 一种文本观点挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753058B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256765A (zh) * | 2020-10-29 | 2021-01-22 | 浙江大华技术股份有限公司 | 一种数据挖掘方法、系统及计算机可读存储介质 |
CN112100384B (zh) * | 2020-11-10 | 2021-02-02 | 北京智慧星光信息技术有限公司 | 一种数据观点抽取方法、装置、设备及存储介质 |
TWI780678B (zh) * | 2021-04-26 | 2022-10-11 | 智齡科技股份有限公司 | 護理資訊模組自動化系統與方法 |
CN113160898B (zh) * | 2021-05-18 | 2023-09-08 | 北京信息科技大学 | 一种铁基合金吉布斯自由能预测方法和系统 |
CN114511058B (zh) * | 2022-01-27 | 2023-06-02 | 国网江苏省电力有限公司泰州供电分公司 | 一种用于电力用户画像的负荷元件构建方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107705183A (zh) * | 2017-09-30 | 2018-02-16 | 深圳乐信软件技术有限公司 | 一种商品的推荐方法、装置、存储介质及服务器 |
CN108897815A (zh) * | 2018-06-20 | 2018-11-27 | 淮阴工学院 | 一种基于相似度模型和FastText的多标签文本分类方法 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109657039A (zh) * | 2018-11-15 | 2019-04-19 | 中山大学 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
CN110069252A (zh) * | 2019-04-11 | 2019-07-30 | 浙江网新恒天软件有限公司 | 一种源代码文件多业务标签自动化分类方法 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
CN110287329A (zh) * | 2019-07-04 | 2019-09-27 | 刘凡 | 一种基于商品文本分类的电商类目属性挖掘方法 |
CN110674297A (zh) * | 2019-09-24 | 2020-01-10 | 支付宝(杭州)信息技术有限公司 | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111309910A (zh) * | 2020-02-13 | 2020-06-19 | 南京云问网络技术有限公司 | 文本信息挖掘方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200167429A1 (en) * | 2018-11-26 | 2020-05-28 | Sap France | Efficient use of word embeddings for text classification |
-
2020
- 2020-06-30 CN CN202010612806.1A patent/CN111753058B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107705183A (zh) * | 2017-09-30 | 2018-02-16 | 深圳乐信软件技术有限公司 | 一种商品的推荐方法、装置、存储介质及服务器 |
CN108897815A (zh) * | 2018-06-20 | 2018-11-27 | 淮阴工学院 | 一种基于相似度模型和FastText的多标签文本分类方法 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109657039A (zh) * | 2018-11-15 | 2019-04-19 | 中山大学 | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 |
CN110147445A (zh) * | 2019-04-09 | 2019-08-20 | 平安科技(深圳)有限公司 | 基于文本分类的意图识别方法、装置、设备及存储介质 |
CN110069252A (zh) * | 2019-04-11 | 2019-07-30 | 浙江网新恒天软件有限公司 | 一种源代码文件多业务标签自动化分类方法 |
CN110287329A (zh) * | 2019-07-04 | 2019-09-27 | 刘凡 | 一种基于商品文本分类的电商类目属性挖掘方法 |
CN110674297A (zh) * | 2019-09-24 | 2020-01-10 | 支付宝(杭州)信息技术有限公司 | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111309910A (zh) * | 2020-02-13 | 2020-06-19 | 南京云问网络技术有限公司 | 文本信息挖掘方法及装置 |
Non-Patent Citations (3)
Title |
---|
Roy Levin 等.Enhanced Probabilistic Classify and Count Methods for Multi-Label Text Quantification.《ICTIR '17: Proceedings of the ACM SIGIR International Conference on Theory of Information Retrieval》.2017,229–232. * |
徐杰 ; .广播电视社会化聆听与影响力分析的实现方法研究.广播与电视技术.2019,(12),136-141. * |
王芝辉 等.基于神经网络的文本分类方法研究.《计算机工程》.2019,第46卷(第3期),11-17. * |
Also Published As
Publication number | Publication date |
---|---|
CN111753058A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN111753058B (zh) | 一种文本观点挖掘方法及系统 | |
Mehmood et al. | A precisely xtreme-multi channel hybrid approach for roman urdu sentiment analysis | |
Rashid et al. | Emotion detection of contextual text using deep learning | |
Kshirsagar et al. | A review on application of deep learning in natural language processing | |
CN112328797A (zh) | 一种基于神经网络和注意力机制的情感分类方法及系统 | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配系统 | |
Ahanin et al. | A multi-label emoji classification method using balanced pointwise mutual information-based feature selection | |
Tao et al. | News text classification based on an improved convolutional neural network | |
Srinivasarao et al. | Email thread sentiment sequence identification using PLSA clustering algorithm | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Lin et al. | Multi-channel word embeddings for sentiment analysis | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Akram et al. | Lexicon and heuristics based approach for identification of emotion in text | |
Cai et al. | Multi-view and attention-based bi-lstm for weibo emotion recognition | |
Patil et al. | Hate speech detection using deep learning and text analysis | |
Girija et al. | A comparative review on approaches of aspect level sentiment analysis | |
Aboobaker et al. | A survey on sarcasm detection approaches | |
Li et al. | Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts | |
Lora et al. | Ben-sarc: A corpus for sarcasm detection from bengali social media comments and its baseline evaluation | |
Wei | Research on Internet Text Sentiment Classification Based on BERT and CNN-BiGRU | |
Zouari | French AXA insurance word embeddings: Effects of fine-tuning bert and camembert on AXA france’s data | |
Izadkhah | Detection of multiple emotions in texts using a new deep convolutional neural network | |
Seema | Deep learning approaches for sentiment analysis challenges and future issues | |
Al Azhar et al. | Identifying Author in Bengali Literature by Bi-LSTM with Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |