CN110990565B - 一种用于舆情分析的可扩展文本分析系统及方法 - Google Patents

一种用于舆情分析的可扩展文本分析系统及方法 Download PDF

Info

Publication number
CN110990565B
CN110990565B CN201911138688.9A CN201911138688A CN110990565B CN 110990565 B CN110990565 B CN 110990565B CN 201911138688 A CN201911138688 A CN 201911138688A CN 110990565 B CN110990565 B CN 110990565B
Authority
CN
China
Prior art keywords
model
analysis
public opinion
dictionary
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911138688.9A
Other languages
English (en)
Other versions
CN110990565A (zh
Inventor
梁锦昌
张亦舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Financial Technology Co ltd
Original Assignee
Guangzhou Commodity Clearing Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Commodity Clearing Center Co ltd filed Critical Guangzhou Commodity Clearing Center Co ltd
Priority to CN201911138688.9A priority Critical patent/CN110990565B/zh
Publication of CN110990565A publication Critical patent/CN110990565A/zh
Application granted granted Critical
Publication of CN110990565B publication Critical patent/CN110990565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及舆情分析领域,具体是一种用于舆情分析的可扩展文本分析系统,包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,所述客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接。本发明的有益效果通过采用NLP模型,针对金融行业的NLP模型,能够开发语义分析处理程序,使得部署模型生产环境及训练测试环境,提供程序源代码及相关文档,并提供培训和技术支持,以满足后续对模型调整优化的需要。

Description

一种用于舆情分析的可扩展文本分析系统及方法
技术领域
本发明涉及舆情分析领域,具体是一种用于舆情分析的可扩展文本分析系统及方法。
背景技术
舆情分析作为甲方未来业务发展的重要手段之一,需要一定的扩展性,同时要易于维护,修改,所以各个模块间需要充分的解耦。另一方面如果只是按照传统的IT系统设计,仅仅着眼于当前需求进行实现,势必无法满足未来业务扩展的需求。所以本项目站在平台化角度设计各个功能模块,力求能够轻松扩展系统功能,为甲方未来的业务发展提供足够的技术支撑能力。
申请号CN201711307180.8本发明提供了基于数据特征的舆情分析方法和系统,涉及数据分析技术领域,包括获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。
现有的情感分析模型使用的是Word2Vec和深度学习的BILSTM算法,不是基于贝叶斯的传统方法,已经不会使用局部信息单个词的权重,使用的都是整体特征,所以没有专门设计权重和计算公式缺点,因此亟需研发一种用于舆情分析的可扩展文本分析系统及方法。
发明内容
本发明的目的在于提供一种用于舆情分析的可扩展文本分析系统及方法,以解决上述背景技术中提出的情感分析模型使用的是Word2Vec和深度学习的BILSTM算法,不是基于贝叶斯的传统方法,已经不会使用局部信息单个词的权重,使用的都是整体特征,所以没有专门设计权重和计算公式问题。
本发明的技术方案是:一种用于舆情分析的可扩展文本分析系统及方法,包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,所述客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接,且客户端通过HTTP接口并分析请求至文本分析服务,所述文本分析服务的结果相应通过HTTP接口传递给客户端,所述模型管理服务通过更新模型管理模型训练引擎,所述文本分析服务的发送数据至模型运转时环境,且模型运转时环境的接受结构传递给文本分析服务,所述文本分析服务的输出新词传递给新词标注及词典管理服务,模型训练引擎的输出模型传递至模型测试,所述模型测试的数据传递至模型测试,且模型测试的检测为同步模型传递给模型运转时环境,所述文本数据和词典的输出端均传递至模型训练引脚,所述新词标注及词典管理服务通过处理更新词典至词典中,所述文本分析服务包括有感情分析模型、主体分析模型和主题关键词分析模型,所述客户端通过接收HTTP REST请求传输到文本分析服务,所述文本分析服务传输至模型运行时环境,所述模型运行时环境传输至情感分析模型,所述情感分析模型传输至主体分析模型,所述主体分析模型传输至主题关键词分析模型,且关键词分析模型分析处理之后返回分析结果,舆情语义分析方法包括:通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情数据,有监督的人工给开发集的舆情文本标注类标签,其中包括:舆情情感倾向判定、舆情涉及主体提取和舆情内容关键词提取,所述舆情情感倾向判定具体为:通过人工判定的方式分别将舆情开发集数据标注正面、中性和负面三类标签,对舆情数据的每个词代入嵌入层得到特征向量,使用双向循环神经网络对特征序列进一步编码得到序列信息,将编码的序列信息通过全连接层变换为输出结果,通过此输出结果的所处范围判定舆情情感倾向,所述舆情涉及主体提取判定具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对主体白名单词库,得到基于白名单命中舆情文本中涉及的公司、企业、集体、组织及金融业相关实体的舆情主体可疑度列表,利用词性分析方法和句法分析方法,分别提取文本每句话的主语成分、宾语成分,得到基于词性分析和句法分析的舆情主体可疑度列表,根据所述多种主体可疑度列表及第一预设权重,确定舆情目标主体,所述舆情内容关键词提取具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对关键词白名单词库,得到舆情文本中涉及的表述舆情内容的预设关键词可疑度列表,对数据分词后文本进行聚类,通过计算非白名单词库中文本词与白名单词库文本词的相似度,设置过滤规则,得到舆情文本中涉及的表述舆情内容的新增关键词可疑度列表,所述两种关键词可疑度列表及第一预设权重,确定舆情目标关键词,舆情语义分析模型包括:多维度分析模块,基于舆情文本数据,进行多维度分析,判定舆情情感倾向并提取舆情涉及主体和舆情内容关键词,其中,所述舆情情感倾向包括正面、中性、负面三类;舆情涉及主体包括基于白名单命中主体列表和基于词性、句法分析的主体列表,舆情内容关键词包括预设关键词列表和新增关键词列表,机器学习训练模块,基于舆情文本数据,平台自动调用模型训练脚本,通过内设的训练逻辑,输出新的模型文件所述机器学习训练的具体步骤为:基于所述爬取的现实数据和搜索结果进行分类为两部分:开发集、测试集,开发集为通过的舆情语义分析方法得到的训练数据,测试集为除开发集外的原始所述数据,用开发集的数据训练分类算法得到分类器,再用分类器对测试集里的数据进行分类,给出分类预测得到的标签,对比分类标签和人工标注得到的标签的差异,计算出准确度,通过扩大开发集数据和调整分类器参数提高准确度,最终达到针对上述三类标签的自动化舆情语义分析。
进一步地,所述模型运转时环境启动,将进行扫描模型目录,然后调用代码加载全部分析模型,之后根据配置决定加载多少模型实例,最终返回分析结果,所述模型管理服务包括模型上传,所述客户端将上传模型压缩包至模型管理服务,然后将保存模型到特定路径并且增加时间戳作为版本信息,并且在源数据库中增加该模型的相关信息,最后返回模型编号。
进一步地,所述模型管理服务包括模型查询,所述客户端将接受HTTP REST请求至模型管理服务,然后查询所有元数据库中的模型信息,之后返回模型信息。
进一步地,所述模型管理服务包括模型训练,所述客户端将接受HTTP REST请求至模型管理服务,然后依次进入到模型训练引擎、拉取词典文件和拉取训练数据文件,拉取训练数据文件之后将调用模型目录中的训练脚本或代码开始训练模型判断成功或者失败,若成功,将训练结束保存模型文件到特定目录,若失败,将返回错误代码及错误信息。
进一步地,所述模型管理服务包括模型测试,所述发现待发布模型信息进行拉取测试数据文件,然后运行模型中的测试脚本或者代码开始测试模型,之后进行判断运行模型中的测试脚本或代码开始测试模型的成功或者失败,测试成功将模型更新到特定目录,最终返回模型编号和相关信息,若失败将返回错误代码及错误信息。
进一步地,所述模型管理服务包括模块发布,所述客户端将接受HTTP REST请求至模型管理服务,然后更新指定待发布模型的状态为已发布并且将其移至已发布模型目录,之后调用模型运行时环境加载该模型,最终返回模型编号状态。
进一步地,所述模型管理服务包括模型删除,所述客户端将接受HTTP REST请求至模型管理服务,然后删除指定的模型的元数据信息,之后删除指定模型的相关文件,最终返回成功,所述新词标注及词典管理服务中的客户端将接受HTTP REST请求至新词服务,然后进行查询所有未标注的新词,之后返回新词列表以及对应的模型信息和新词记录编号。
进一步地,所述新词标注及词典管理服务包括有新词标注,所述客户端将接受HTTP REST请求至新词服务,新词服务经过查询请求数据中的新词列表对应模型的词典信息,然后将模型对应的新词列表加入对应词典文件的尾部,之后查询并且删除请求数据中的新词记录和编号,最后返回成功。
进一步地,所述新词标注及词典管理服务包括有词典管理服务,所述词典管理服务包括有词典上传和词典查询,所述客户端通过上传词典文件至词典服务,词典服务将词典文文件保存在特定目录,之后将词典文件相关信息报错在数据库中,最终返还词典编号等信息,所述词典查询中包括有词典服务,所述客户端通过接收HTTP REST请求至词典服务,进行查询数据库中的词典相关信息,最终返还词典编号、文件路径和更新时间等信息。
一种用于舆情分析的可扩展文本分析系统方法,包括以下步骤:
S1、查询:客户端通过HTTP接口输入项模型管理器中输入查询的词语,模型管理服务更新模型至模型训练引擎,模型训练引擎通过输出模型至模型存储中,然后在进入到模型测试内;
S2、文本分析服务:客户端通过HTTP接口分析请求文本分析服务,之后把数据结果发生到模型运转时环境,通过S1中的模型测试利用同步模型进入到模型运转时环境;
S3、查询结果:通过文本数据和词典内的调用所需查的词语,然后输出给模型训练引擎,之后回到S1中的模型存储步骤,通过文本分析服务进行判断文本数据和词典中是否有需要查询的词语;
S4、新词添加:在S3文本分析服务查询有词语时,通过HTTP接口传输给客户端,当没有改客户端所需要查询的词语时,文本分析服务将输出新词至新词标注及词典管理服务,之后新词标注及词典管理服务将进行存入到词典内,进行更新词典,同时传给通过HTTP接口传给客户端再次查询的新词结构。
本发明通过改进在此提供一种用于舆情分析的可扩展文本分析系统及方法,与现有技术相比,具有如下改进及优点:
(1)通过采用NLP模型,针对金融行业的NLP模型,能够开发语义分析处理程序,使得部署模型生产环境及训练测试环境,提供程序源代码及相关文档,并提供培训和技术支持,以满足后续对模型调整优化的需要。
(2)通过数据库迁移至ES,舆情文本数据和模型提取的新词因为可能会涉及到频繁的查询,所以采用数据库进行存储,之后会迁移至ES,提供大规模文本存储及高性能文本检索的能力扩展。
(3)通过设置的增加词库,关键词词库目前是从已有提供的已标注数据里得来的,如果要新增关键词可以人工上传词典,或者通过对分析后的新词进行标注从而对词典进行更新,提高使用者的便利性。
附图说明
下面结合附图和实施例对本发明作进一步解释:
图1是本发明的项目后台服务流程架构图;
图2是本发明的文本分析服务流程图;
图3是本发明的模型运转时环境流程图;
图4是本发明的模型上传流程图;
图5是本发明的模型查询流程图;
图6是本发明的模型训练流程图;
图7是本发明的模型测试流程图;
图8是本发明的模型发布流程图;
图9是本发明的模型删除流程图;
图10是本发明的新词标注及词典管理服务流程图;
图11是本发明的新车标注流程图;
图12是本发明的词典上传流程图;
图13是本发明的词典查询流程图。
具体实施方式
下面将结合附图1至图13对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种用于舆情分析的可扩展文本分析系统及方法,如图1-图13所示,包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接,且客户端通过HTTP接口并分析请求至文本分析服务,文本分析服务的结果相应通过HTTP接口传递给客户端,模型管理服务通过更新模型管理模型训练引擎,文本分析服务的发送数据至模型运转时环境,且模型运转时环境的接受结构传递给文本分析服务,文本分析服务的输出新词传递给新词标注及词典管理服务,模型训练引擎的输出模型传递至模型测试,模型测试的数据传递至模型测试,且模型测试的检测为同步模型传递给模型运转时环境,文本数据和词典的输出端均传递至模型训练引脚,新词标注及词典管理服务通过处理更新词典至词典中,文本分析服务包括有感情分析模型、主体分析模型和主题关键词分析模型,客户端通过接收HTTP REST请求传输到文本分析服务,文本分析服务传输至模型运行时环境,模型运行时环境传输至情感分析模型,情感分析模型传输至主体分析模型,主体分析模型传输至主题关键词分析模型,且关键词分析模型分析处理之后返回分析结果,目前的情感分析模型使用的是Word2Vec和深度学习的BILSTM算法,不是基于贝叶斯的传统方法,已经不会使用局部信息,使用的都是整体特征,所以没有专门设计权重和计算公式,具体模型思路后面会由专门的文档进行描述,也会安排相关交流培训,舆情语义分析方法包括:通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情数据,有监督的人工给开发集的舆情文本标注类标签,其中包括:舆情情感倾向判定、舆情涉及主体提取和舆情内容关键词提取,舆情情感倾向判定包括正面、中性和负面三个分类具体为:通过人工判定的方式分别将舆情开发集数据标注正面、中性和负面三类标签,对舆情数据的每个词代入嵌入层得到特征向量,使用双向循环神经网络对特征序列进一步编码得到序列信息,将编码的序列信息通过全连接层变换为输出结果,通过此输出结果的所处范围判定舆情情感倾向,舆情涉及主体提取判定具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对主体白名单词库,得到基于白名单命中舆情文本中涉及的公司、企业、集体、组织及金融业相关实体的舆情主体可疑度列表,利用词性分析方法和句法分析方法,分别提取文本每句话的主语成分、宾语成分,得到基于词性分析和句法分析的舆情主体可疑度列表,根据多种主体可疑度列表及第一预设权重,确定舆情目标主体,舆情涉及主体提取基于BiLSTM_CRF技术;条件随机场(Conditional random field,CRF)是条件概率分布模型P(Y|X),表示的是给定一组输入变量X的条件下另一组输出随机变量Y的马尔可夫随机场;本方法使用线性链条件随机场来处理序列标注问题,是由输入序列来预测输出序列的判别式模型;概率分布公式为:
其中:t和s为两种特征函数Long Short Term Memory网络一般叫做LSTM,是RNN的一种特殊类型,可以学习长距离依赖信息;所有RNN都具有一种重复神经网络单元的链式形式。在标准的RNN中,这个重复的单元只有一个非常简单的结构,例如一个tanh层;LSTM同样是这样的结构,但是重复的单元拥有一个不同的结构。不同于普通RNN单元,这里是有四个,以一种非常特殊的方式进行交互;LSTM通过三个门结构(输入门,遗忘门,输出门),选择性地遗忘部分历史信息,加入部分当前输入信息,最终整合到当前状态并产生输出状态;BiLSTM模型是双向LSTM层,前向的LSTM与后向的LSTM结合成BiLSTM;BiLSTM_CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成;BiLSTM-CRF已经超过了基于丰富特征的CRF模型,在特征方面,该模型继承了深度学习方法的优势,无需特征工程,使用词向量以及字符向量就可以达到很好的效果;配合高质量的词典特征,此方法进一步提高自动化舆情语义分析的准确度,舆情内容关键词提取具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对关键词白名单词库,得到舆情文本中涉及的表述舆情内容的预设关键词可疑度列表,对数据分词后文本进行聚类,通过计算非白名单词库中文本词与白名单词库文本词的相似度,设置过滤规则,得到舆情文本中涉及的表述舆情内容的新增关键词可疑度列表,两种关键词可疑度列表及第一预设权重,确定舆情目标关键词,舆情语义分析模型包括:多维度分析模块,基于舆情文本数据,进行多维度分析,判定舆情情感倾向并提取舆情涉及主体和舆情内容关键词,其中,舆情情感倾向包括正面、中性、负面三类;舆情涉及主体包括基于白名单命中主体列表和基于词性、句法分析的主体列表,舆情内容关键词包括预设关键词列表和新增关键词列表,机器学习训练模块,基于舆情文本数据,平台自动调用模型训练脚本,通过内设的训练逻辑,输出新的模型文件机器学习训练的具体步骤为:基于爬取的现实数据和搜索结果进行分类为两部分:开发集、测试集,开发集为通过的舆情语义分析方法得到的训练数据,测试集为除开发集外的原始数据,用开发集的数据训练分类算法得到分类器,再用分类器对测试集里的数据进行分类,给出分类预测得到的标签,对比分类标签和人工标注得到的标签的差异,计算出准确度,通过扩大开发集数据和调整分类器参数提高准确度,最终达到针对上述三类标签的自动化舆情语义分析。
进一步地,模型运转时环境启动,将进行扫描模型目录,然后调用代码加载全部分析模型,之后根据配置决定加载多少模型实例,最终返回分析结果,功能描述:用户能够对舆情文本内容进行分析,分析结果目前包含以下三类输出:舆情情感倾向–输出正向,中性,负向中的一个;舆情涉及主体–输出舆情中涉及的公司,企业,集体,组织等与甲方业务相关的实体名称;舆情主题关键词–输出舆情内容可能涉及到的甲方业务关注点的总结性关键词;功能细节:舆情分析请求一次会得到上述三个输出。舆情一旦涉及主题关键词词库中的词,该词一定会输出,否则会检查是否有相近的词并且输出。三个模型分析得到的新词都会被后台存为待标注记录,用于后续的新词标注操作,其中关键词词库目前是从贵司提供的已标注数据里得来的,如果要新增关键词可以人工上传词典,或者通过对分析后的新词进行标注从而对词典进行更新,模型管理服务包括模型上传,客户端将上传模型压缩包至模型管理服务,然后将保存模型到特定路径并且增加时间戳作为版本信息,并且在源数据库中增加该模型的相关信息,最后返回模型编号,模型上传功能描述:用户能够上传自己开发的模型,并且集成进分析平台,模型压缩包需要包括训练脚本,测试脚本,分析脚本及模型相关依赖文件,压缩包格式为zip,一个模型压缩包中的内容等同于该模型运行所需依赖的集合;功能细节:模型名称可以重复,上传模型后系统会返回该模型的ID,使用该模型时需要模型ID,而不是名称。
进一步地,模型管理服务包括模型查询,客户端将接受HTTP REST请求至模型管理服务,然后查询所有元数据库中的模型信息,之后返回模型信息,模型查询功能描述:用户能够查询所有模型,系统返回平台中所有模型信息,目前尚未支持查询条件设置及筛选;功能细节:模型名称可以重复,上传模型后系统会返回该模型的ID,使用该模型时需要模型ID,而不是名称。可以通过设置模型描述信息和模型的创建时间对同一模型上传多个版本,并且根据需要随时调整平台对外发布的模型。
进一步地,模型管理服务包括模型训练,客户端将接受HTTP REST请求至模型管理服务,然后依次进入到模型训练引擎、拉取词典文件和拉取训练数据文件,拉取训练数据文件之后将调用模型目录中的训练脚本或代码开始训练模型判断成功或者失败,若成功,将训练结束保存模型文件到特定目录,若失败,将返回错误代码及错误信息,模型训练功能描述:用户能够通过模型ID启动指定模型的训练过程,平台自动调用模型训练脚本,运行成功或失败系统都会返回相应结果。训练成功后可以对模型进行测试;功能细节:模型训练暂时不支持外部传参,所有训练用参数必须以静态形式存放在模型压缩包的训练脚本里,其中模型包里会提供训练代码,按照训练代码的要求提供数据即可开始模型的训练过程,训练完成后会输出新的模型文件,具体流程已添加流程图。
进一步地,模型管理服务包括模型测试,发现待发布模型信息进行拉取测试数据文件,然后运行模型中的测试脚本或者代码开始测试模型,之后进行判断运行模型中的测试脚本或代码开始测试模型的成功或者失败,测试成功将模型更新到特定目录,最终返回模型编号和相关信息,若失败将返回错误代码及错误信息,模型测试功能描述:用户能够通过模型ID启动指定模型的测试过程,平台自动调用模型测试脚本,运行成功或失败系统都会返回相应结果。测试成功后系统会返回结果指标,如果测试结果达到接受标准便可以对该模型进行发布;功能细节:模型测试脚本需要返回测试结果,失败无返回,成功则需要返回结果指标。至于测试结果是否能够接受,需要用户自行处理,其中已添加测试过程的流程图,模型在训练时会留出一部分数据用来进行测试,训练完成后会使用这部分测试数据对模型进行测试,模型包里会有测试代码,只是这部分是后来我们额外增加的,便于未来扩展功能。
进一步地,模型管理服务包括模块发布,客户端将接受HTTP REST请求至模型管理服务,然后更新指定待发布模型的状态为已发布并且将其移至已发布模型目录,之后调用模型运行时环境加载该模型,最终返回模型编号状态,模型发布功能描述:用户能够通过模型ID对该模型进行发布,发布后的模型才能真正对外提供分析服务;功能细节:模型发布后,平台会记录发布模型的存储路径,并且加载该模型以及初始化相关运行时环境,平台收到模型对应的舆情分析请求后便会使用该模型进行相关分析。
进一步地,模型管理服务包括模型删除,客户端将接受HTTP REST请求至模型管理服务,然后删除指定的模型的元数据信息,之后删除指定模型的相关文件,最终返回成功,模型删除功能描述:用户能够通过模型ID对该模型进行删除操作,删除后的模型无法提供分析服务,也无法进行训练,测试;功能细节:目前模型删除会将相关文件和数据库中的相关信息全部移除,如果甲方认为模型文件有保留的需要,可以修改为只移除数据库中相关信息,模型文件将会被保留,新词标注及词典管理服务中的客户端将接受HTTP REST请求至新词服务,然后进行查询所有未标注的新词,之后返回新词列表以及对应的模型信息和新词记录编号,新词标注及词典管理服务功能描述:用户能够查询所有未标注过的舆情分析请求所产生的新词,用于通过人工的方式对有业务价值的新词进行标注;功能细节:新词标注及词典管理服务只能查询出未标注过的舆情分析请求所产生的新词,一旦分析请求产生新词被标注过,该次请求及新词就会被从待标注新词列表里删除。如果有漏标的新词,只能等下次该新词再次出现时再进行标注,其中人工的方式添加,新词的标注完全是由人工根据业务意义完成的,文本分析模型本身并不能理解文字的实际含义,所以新词标注服务只是为客户提供一个接口对新词进行业务有效性确认,流程和人工一样,就算能进行自动标注,范围也非常小,比如根据某些字词做后缀或前缀,但意义不大。
进一步地,新词标注及词典管理服务包括有新词标注,客户端将接受HTTP REST请求至新词服务,新词服务经过查询请求数据中的新词列表对应模型的词典信息,然后将模型对应的新词列表加入对应词典文件的尾部,之后查询并且删除请求数据中的新词记录和编号,最后返回成功,新词标注功能描述:用户能够对待标注的新词进行手工标注操作,标注过的新词会被加入对应模型的词典,进而支持词典的更新。词典和模型对应有三类,舆情情感、舆情主体和舆情主题关键词;功能细节:词典会以文本文件的方式进行存储,标注过的新词会被写入对应词典文件的尾部,词典得以持续更新。模型训练功能能够定期使用训练数据和词典重新训练并且测试模型,如果符合要求,就可以重新发布新的模型,使系统的分析能力始终能够跟上业务的变化。
进一步地,新词标注及词典管理服务包括有词典管理服务,词典管理服务包括有词典上传和词典查询,客户端通过上传词典文件至词典服务,词典服务将词典文文件保存在特定目录,之后将词典文件相关信息报错在数据库中,最终返还词典编号等信息,词典上传功能描述:用户能够手动上传自定义的词典文件,用于训练模型;功能细节:词典不仅可以支持普通文本文件,还可以支持zip文件,词典查询中包括有词典服务,客户端通过接收HTTP REST请求至词典服务,进行查询数据库中的词典相关信息,最终返还词典编号、文件路径和更新时间等信息,词典查询功能描述:用户能够查询平台中已有的词典文件信息,包括名称,文件路径,更新时间等;功能细节:此功能目前可以用来检查词典是否被更新,未来可以扩展功能便于用户使用,比如下载词典文件等。
一种用于舆情分析的可扩展文本分析系统方法,包括以下步骤:
S1、查询:客户端通过HTTP接口输入项模型管理器中输入查询的词语,模型管理服务更新模型至模型训练引擎,模型训练引擎通过输出模型至模型存储中,然后在进入到模型测试内;
S2、文本分析服务:客户端通过HTTP接口分析请求文本分析服务,之后把数据结果发生到模型运转时环境,通过S1中的模型测试利用同步模型进入到模型运转时环境;
S3、查询结果:通过文本数据和词典内的调用所需查的词语,然后输出给模型训练引擎,之后回到S1中的模型存储步骤,通过文本分析服务进行判断文本数据和词典中是否有需要查询的词语;
S4、新词添加:在S3文本分析服务查询有词语时,通过HTTP接口传输给客户端,当没有改客户端所需要查询的词语时,文本分析服务将输出新词至新词标注及词典管理服务,之后新词标注及词典管理服务将进行存入到词典内,进行更新词典,同时传给通过HTTP接口传给客户端再次查询的新词结构。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种用于舆情分析的可扩展文本分析系统,其特征在于:包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,所述客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接,且客户端通过HTTP接口并分析请求至文本分析服务,所述文本分析服务的结果相应通过HTTP接口传递给客户端,所述模型管理服务通过更新模型管理模型训练引擎,所述文本分析服务的发送数据至模型运转时环境,且模型运转时环境的接受结构传递给文本分析服务,所述文本分析服务的输出新词传递给新词标注及词典管理服务,模型训练引擎的输出模型传递至模型测试,所述模型测试的数据传递至模型测试,且模型测试的检测为同步模型传递给模型运转时环境,所述文本数据和词典的输出端均传递至模型训练引脚,所述新词标注及词典管理服务通过处理更新词典至词典中,所述文本分析服务包括有感情分析模型、主体分析模型和主题关键词分析模型,所述客户端通过接收HTTP REST请求传输到文本分析服务,所述文本分析服务传输至模型运转时环境,所述模型运转时环境传输至情感分析模型,所述情感分析模型传输至主体分析模型,所述主体分析模型传输至主题关键词分析模型,且关键词分析模型分析处理之后返回分析结果,舆情语义分析方法包括:通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情数据,有监督的人工给开发集的舆情文本标注类标签,其中包括:舆情情感倾向判定、舆情涉及主体提取和舆情内容关键词提取,所述舆情情感倾向判定具体为:通过人工判定的方式分别将舆情开发集数据标注正面、中性和负面三类标签,对舆情数据的每个词代入嵌入层得到特征向量,使用双向循环神经网络对特征序列进一步编码得到序列信息,将编码的序列信息通过全连接层变换为输出结果,通过此输出结果的所处范围判定舆情情感倾向,所述舆情涉及主体提取判定具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对主体白名单词库,得到基于白名单命中舆情文本中涉及的公司、企业、集体、组织及金融业相关实体的舆情主体可疑度列表,利用词性分析方法和句法分析方法,分别提取文本每句话的主语成分、宾语成分,得到基于词性分析和句法分析的舆情主体可疑度列表,根据多种主体可疑度列表及第一预设权重,确定舆情目标主体,所述舆情内容关键词提取具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对关键词白名单词库,得到舆情文本中涉及的表述舆情内容的预设关键词可疑度列表,对数据分词后文本进行聚类,通过计算非白名单词库中文本词与白名单词库文本词的相似度,设置过滤规则,得到舆情文本中涉及的表述舆情内容的新增关键词可疑度列表,所述两种关键词可疑度列表及第一预设权重,确定舆情目标关键词,舆情语义分析模型包括:多维度分析模块,基于舆情文本数据,进行多维度分析,判定舆情情感倾向并提取舆情涉及主体和舆情内容关键词,其中,所述舆情情感倾向包括正面、中性、负面三类;舆情涉及主体包括基于白名单命中主体列表和基于词性、句法分析的主体列表,舆情内容关键词包括预设关键词列表和新增关键词列表,机器学习训练模块,基于舆情文本数据,平台自动调用模型训练脚本,通过内设的训练逻辑,输出新的模型文件所述机器学习训练的具体步骤为:基于爬取的现实数据和搜索结果进行分类为两部分:开发集、测试集,开发集为通过的舆情语义分析方法得到的训练数据,测试集为除开发集外的原始所述数据,用开发集的数据训练分类算法得到分类器,再用分类器对测试集里的数据进行分类,给出分类预测得到的标签,对比分类标签和人工标注得到的标签的差异,计算出准确度,通过扩大开发集数据和调整分类器参数提高准确度,最终达到针对上述三类标签的自动化舆情语义分析。
2.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型运转时环境启动,将进行扫描模型目录,然后调用代码加载全部分析模型,之后根据配置决定加载多少模型实例,最终返回分析结果。
3.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模型上传,所述客户端将上传模型压缩包至模型管理服务,然后将保存模型到特定路径并且增加时间戳作为版本信息,并且在源数据库中增加该模型的相关信息,最后返回模型编号。
4.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模型查询,所述客户端将接受HTTP REST请求至模型管理服务,然后查询所有元数据库中的模型信息,之后返回模型信息。
5.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模型训练,所述客户端将接受HTTP REST请求至模型管理服务,然后依次进入到模型训练引擎、拉取词典文件和拉取训练数据文件,拉取训练数据文件之后将调用模型目录中的训练脚本或代码开始训练模型判断成功或者失败,若成功,将训练结束保存模型文件到特定目录,若失败,将返回错误代码及错误信息。
6.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模型测试,所述模型测试采用发现待发布模型信息进行拉取测试数据文件,然后运行模型中的测试脚本或者代码开始测试模型,之后进行判断运行模型中的测试脚本或代码开始测试模型的成功或者失败,测试成功将模型更新到特定目录,最终返回模型编号和相关信息,若失败将返回错误代码及错误信息。
7.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模块发布,所述客户端将接受HTTP REST请求至模型管理服务,然后更新指定待发布模型的状态为已发布并且将其移至已发布模型目录,之后调用模型运行时环境加载该模型,最终返回模型编号状态。
8.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型管理服务包括模型删除,所述客户端将接受HTTP REST请求至模型管理服务,然后删除指定的模型的元数据信息,之后删除指定模型的相关文件,最终返回成功,所述新词标注及词典管理服务中的客户端将接受HTTP REST请求至新词服务,然后进行查询所有未标注的新词,之后返回新词列表以及对应的模型信息和新词记录编号。
9.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述新词标注及词典管理服务包括有新词标注,所述客户端将接受HTTP REST请求至新词服务,新词服务经过查询请求数据中的新词列表对应模型的词典信息,然后将模型对应的新词列表加入对应词典文件的尾部,之后查询并且删除请求数据中的新词记录和编号,最后返回成功。
10.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述新词标注及词典管理服务包括有词典管理服务,所述词典管理服务包括有词典上传和词典查询,所述客户端通过上传词典文件至词典服务,词典服务将词典文文件保存在特定目录,之后将词典文件相关信息报错在数据库中,最终返还词典编号信息,所述词典查询中包括有词典服务,所述客户端通过接收HTTP REST请求至词典服务,进行查询数据库中的词典相关信息,最终返还词典编号、文件路径和更新时间信息。
CN201911138688.9A 2019-11-20 2019-11-20 一种用于舆情分析的可扩展文本分析系统及方法 Active CN110990565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911138688.9A CN110990565B (zh) 2019-11-20 2019-11-20 一种用于舆情分析的可扩展文本分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911138688.9A CN110990565B (zh) 2019-11-20 2019-11-20 一种用于舆情分析的可扩展文本分析系统及方法

Publications (2)

Publication Number Publication Date
CN110990565A CN110990565A (zh) 2020-04-10
CN110990565B true CN110990565B (zh) 2023-12-08

Family

ID=70085235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911138688.9A Active CN110990565B (zh) 2019-11-20 2019-11-20 一种用于舆情分析的可扩展文本分析系统及方法

Country Status (1)

Country Link
CN (1) CN110990565B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831802B (zh) * 2020-06-04 2023-05-26 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
CN111931945A (zh) * 2020-07-31 2020-11-13 北京百度网讯科技有限公司 基于标签引擎的数据处理方法、装置、设备及存储介质
CN112199583B (zh) * 2020-09-22 2021-11-23 黑龙江省网络空间研究中心 基于多规则关联分析的网络舆情信息智能处理方法及系统
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112579738A (zh) * 2020-12-23 2021-03-30 广州博冠信息科技有限公司 目标对象的标签处理方法、装置、设备及存储介质
CN113127577A (zh) * 2021-04-23 2021-07-16 河北网新科技集团有限公司 一种基于大数据的模糊扩张矩阵规则抽取方法及系统
CN113094620B (zh) * 2021-04-23 2023-10-10 中南大学 网络舆情云平台数据分析模型交换方法、系统及平台
CN113992668B (zh) * 2021-10-25 2022-08-23 深圳市华创智慧健康科技有限公司 基于多并发的信息实时传输方法、装置、设备及介质
CN114117042A (zh) * 2021-11-15 2022-03-01 盐城金堤科技有限公司 舆情文本中企业实体的情感预测方法、装置、设备及介质
CN115080973B (zh) * 2022-07-20 2022-12-06 中孚安全技术有限公司 一种基于多模态特征融合的恶意代码检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109977225A (zh) * 2019-03-13 2019-07-05 咪咕文化科技有限公司 舆情分析方法及装置
CN110020159A (zh) * 2017-12-11 2019-07-16 网智天元科技集团股份有限公司 基于数据特征的舆情分析方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN110020159A (zh) * 2017-12-11 2019-07-16 网智天元科技集团股份有限公司 基于数据特征的舆情分析方法和系统
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109977225A (zh) * 2019-03-13 2019-07-05 咪咕文化科技有限公司 舆情分析方法及装置

Also Published As

Publication number Publication date
CN110990565A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110990565B (zh) 一种用于舆情分析的可扩展文本分析系统及方法
US10650188B2 (en) Constructing a narrative based on a collection of images
US11194797B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction
US7788265B2 (en) Taxonomy-based object classification
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
US11687795B2 (en) Machine learning engineering through hybrid knowledge representation
US11194798B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data
CN109408578B (zh) 一种针对异构环境监测数据融合方法
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
US11308083B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies
WO2004070626A2 (en) System method and computer program product for obtaining structured data from text
CN109947902B (zh) 一种数据查询方法、装置和可读介质
US11599666B2 (en) Smart document migration and entity detection
CN109145301B (zh) 信息分类方法及装置、计算机可读存储介质
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN115098706A (zh) 一种网络信息提取方法及装置
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN115935042B (zh) 一种基于融合模型的质押资产智能查重方法及系统
CN116414961A (zh) 基于军事领域知识图谱的问答方法和系统
CN117009455A (zh) 一种知识内容抽取方法、装置及电子设备
CN114648121A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN111581270A (zh) 一种数据抽取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 08, 27th Floor, Building C3, Jiangling North Road and Zongsan Road, Nansha District, Guangzhou City, Guangdong Province, 510000

Patentee after: Guangzhou financial technology Co.,Ltd.

Country or region after: China

Address before: J41, 11th Floor, 1101, Nansha Financial Building, 171 Haibin Road, Nansha District, Guangzhou City, Guangdong Province, 510000

Patentee before: Guangzhou Commodity Clearing Center Co.,Ltd.

Country or region before: China