CN117422063B - 应用智能辅助决策的大数据处理方法及智能辅助决策系统 - Google Patents

应用智能辅助决策的大数据处理方法及智能辅助决策系统 Download PDF

Info

Publication number
CN117422063B
CN117422063B CN202311736135.XA CN202311736135A CN117422063B CN 117422063 B CN117422063 B CN 117422063B CN 202311736135 A CN202311736135 A CN 202311736135A CN 117422063 B CN117422063 B CN 117422063B
Authority
CN
China
Prior art keywords
text
dialogue
semantic
topic
jipu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311736135.XA
Other languages
English (en)
Other versions
CN117422063A (zh
Inventor
曾铭
康健
杨军
钟兵
徐晶
林少疆
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Big Data Technology Service Center
Original Assignee
Sichuan Big Data Technology Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Big Data Technology Service Center filed Critical Sichuan Big Data Technology Service Center
Priority to CN202311736135.XA priority Critical patent/CN117422063B/zh
Publication of CN117422063A publication Critical patent/CN117422063A/zh
Application granted granted Critical
Publication of CN117422063B publication Critical patent/CN117422063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种应用智能辅助决策的大数据处理方法及智能辅助决策系统。通过本发明,首先针对不同文本细粒度的输入的互联网社群对话信息进行针对目标在线话题的识别操作,得到分别对应的对话文本语义关系谱,这样交叉所得的对话文本语义关系谱可以得到表征有目标在线话题(新闻舆情)的评论观点集,然后再进行针对目标在线话题的识别操作,可以有效提高新闻舆情话题的相关文本拆解的准确性,且综合挖掘的评论观点集进行互联网社群对话信息抽取,还能够显著提升对话题热度较低的目标在线话题的敏感性,以实现准确、可靠的话题文本拆解,从而利用精准且噪声率低的话题文本进行实时追踪预警决策,避免舆情爆发带来的服务器崩溃。

Description

应用智能辅助决策的大数据处理方法及智能辅助决策系统
技术领域
本发明涉及大数据技术领域,特别涉及一种应用智能辅助决策的大数据处理方法及智能辅助决策系统。
背景技术
智能辅助决策是一个涵盖了大数据处理、机器学习、人工智能等技术的复杂过程。一些应用于智能辅助决策的大数据处理技术包括数据挖掘、机器学习、分布式存储和处理、实时流处理、数据可视化、云确定和数据湖等。
其中,数据挖掘通过使用各种统计分析方法,如关联性分析、聚类分析、分类分析等,从大规模、复杂、动态变化的数据中提取有价值的信息和知识。机器学习通过训练模型,使其能够从大量数据中学习并预测结果,包括监督学习(如决策树、神经网络和支持向量机)、无监督学习(如聚类和主成分分析)以及强化学习。对于非常大的数据集,通常需要在多台机器上进行分布式存储和处理。Hadoop和Spark是两个广泛使用的开源框架,它们可以处理PB级别的数据。Apache Kafka、Storm、Flink等工具提供了实时流数据处理的功能,这对于需要快速响应的决策系统至关重要。数据可视化可以将复杂的数据以图形方式展示,帮助用户更好地理解数据并做出决策,常用的数据可视化工具有Tableau、PowerBI等。以上各种技术相互结合,可以实现智能辅助决策的全过程,从数据收集、预处理、分析到最终的决策制定。
当智能辅助决策应用在话题分析处理领域时,如何准确地实现话题的实时追踪预警以避免话题爆炸导致的服务器崩溃,是其中一个需要攻克的技术问题。
发明内容
本发明至少提供一种应用智能辅助决策的大数据处理方法及智能辅助决策系统。
本发明的技术方案是通过如下至少部分实施例实现的。
一种应用智能辅助决策的大数据处理方法,应用于智能辅助决策系统,所述方法包括:
对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱;其中,所述目标在线话题为所述第一互联网社群对话信息中包括的新闻舆情话题;
通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱;其中,所述对话文本交叉语义关系谱用于指示所述目标在线话题的评论观点集;
针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本;
利用所述话题文本进行实时追踪预警决策。
优选的,所述第一神经网络分支包括第一特征映射节点和第二特征映射节点;所述第一特征映射节点包括采用设定方式连接的第一文本语义挖掘核和第一文本语义拼接核;所述第一文本语义拼接核中每一可逆层的输出通道皆与所述第二特征映射节点的输入通道相连;
所述对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱,包括针对所述第一互联网社群对话信息和所述第二互联网社群对话信息分别实施以下处理:
通过所述第一文本语义挖掘核,针对输入的互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理;
通过所述第一文本语义拼接核,针对所述第一文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理;
通过所述第二特征映射节点,针对所述第一文本语义拼接核中每一可逆层的输出进行针对所述目标在线话题的文本语义映射处理,得到所述第一神经网络分支生成的对话文本语义关系谱。
优选的,所述通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱,包括:
针对所述第二对话文本语义关系谱进行衍生扩展,以使衍生扩展后的第二对话文本语义关系谱维度与所述第一对话文本语义关系谱一致;
针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱;
针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行作差处理,得到阶段对话文本语义关系谱;
依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱。
优选的,所述针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱,包括:
针对所述衍生扩展后的第二对话文本语义关系谱进行优化,以过滤掉所述第二对话文本语义关系谱中的噪声语义关系集,得到优化后的第二对话文本语义关系谱;
针对所述优化后的第二对话文本语义关系谱,挖掘所述优化后的第二对话文本语义关系谱中所述目标在线话题的评论观点集,并对该评论观点集进行更新,得到更新后的第二对话文本语义关系谱;
将所述第一对话文本语义关系谱和所述更新后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱。
优选的,所述目标在线话题包括话题热度不大于设定热度门限的第一在线话题和话题热度大于所述设定热度门限的第二在线话题;
所述依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱,包括:
针对所述全局对话文本语义关系谱中所述目标在线话题的评论观点集进行挖掘,得到第一评论观点集信息;
针对所述第一评论观点集信息与所述阶段对话文本语义关系谱进行乘积处理,得到所述第一在线话题的评论观点集信息;
针对所述第一评论观点集信息与所述第一在线话题的评论观点集信息进行作差处理,得到所述第二在线话题的评论观点集信息;
针对所述第一在线话题的评论观点集信息指示的评论观点集进行更新,并依据更新后的第一在线话题的评论观点集信息、所述全局对话文本语义关系谱和更新前的第一在线话题的评论观点集信息得到所述第一在线话题除评论观点集信息外的第一文本数据;
依据更新后的第一在线话题的评论观点集信息、所述第二在线话题的评论观点集信息和所述全局对话文本语义关系谱得到所述第二在线话题除评论观点集信息外的第二文本数据;
依据设定变量与所述全局对话文本语义关系谱的比较结果确定所述第一互联网社群对话信息中的非关键文本;
依据所述非关键文本、所述第一在线话题的评论观点集信息、所述第一文本数据、所述第二在线话题的评论观点集信息、所述第二文本数据得到对话文本交叉语义关系谱。
优选的,所述第二神经网络分支包括第三特征映射节点和第四特征映射节点;所述第三特征映射节点包括采用设定方式连接的第二文本语义挖掘核和第二文本语义拼接核;所述第二文本语义挖掘核包括最少两个语义提炼算子,该语义提炼算子包括级联的由最少一个局部聚焦层和与该局部聚焦层连接的特征压缩层构成的最少一个单元,和由最少一个可逆层和与该可逆层连接的特征压缩层构成的最少一个单元;所述第二文本语义拼接核包括最少两个语义拼接算子,该语义拼接算子包括级联的由最少一个可逆层和与该可逆层连接的衍生扩展层构成的最少一个单元,和由最少一个局部聚焦层和与该局部聚焦层连接的衍生扩展层构成的最少一个单元;所述第二文本语义拼接核中的每一可逆层和每一局部聚焦层皆与所述第四特征映射节点连接;
所述针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本,包括:
通过所述第二文本语义挖掘核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第一互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理;
通过所述第二文本语义拼接核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第二文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理;
通过所述第四特征映射节点,针对所述第二文本语义拼接核中每一可逆层和每一局部聚焦层的输出进行针对所述目标在线话题的文本语义映射处理,得到与所述目标在线话题相应的话题文本。
优选的,所述局部聚焦层包括用于依据输入的对话文本语义关系谱进行局部聚焦处理的第一组件和用于依据所述对话文本交叉语义关系谱提取语义特征块的第二组件;所述第一组件包括级联的第一可逆子模型、局部聚焦子模型和第二可逆子模型;所述第一可逆子模型的输出通道与所述第二可逆子模型的输出通道间隔相连;所述第二组件与所述局部聚焦子模型连接;
通过所述局部聚焦层针对输入的对话文本语义关系谱和所述对话文本交叉语义关系谱进行局部聚焦处理,包括:
通过所述第一可逆子模型,针对输入的对话文本语义关系谱进行文本语义映射处理,得到中间对话文本语义关系谱;
通过所述局部聚焦子模型,依据所述中间对话文本语义关系谱针对所述第二组件生成的每一局部文本语义关系谱确定索引特征,针对所述第二组件生成的每一局部文本语义关系谱中的每一语义特征块确定标识特征和属性特征,并依据所述索引特征、所述标识特征和所述属性特征进行局部聚焦处理,得到焦点化文本语义关系谱;
通过所述第二可逆子模型,针对所述焦点化文本语义关系谱进行文本语义映射处理,得到所述第二可逆子模型的输出,并将该输出与第一可逆子模型的输出进行求和得到当前局部聚焦层生成的对话文本语义关系谱。
优选的,通过所述第二组件依据所述对话文本交叉语义关系谱提取语义特征块,包括:
针对所述对话文本交叉语义关系谱进行拆解,得到最少两个局部文本语义关系谱;
针对每一局部文本语义关系谱中包括的高亮语义进行特征集成,得到各高亮语义对应的语义特征块;其中,所述高亮语义包括非关键文本、第一在线话题的评论观点集信息、第一文本数据、第二在线话题的评论观点集信息、第二文本数据;所述第一在线话题包括所述目标在线话题中话题热度不大于设定热度门限的在线话题;所述第二在线话题包括所述目标在线话题中话题热度大于所述设定热度门限的在线话题;所述第一文本数据包括所述第一在线话题中除评论观点集信息外的数据;所述第二文本数据包括所述第二在线话题除评论观点集信息外的数据。
优选的,所述LDA话题抽取网络经由以下步骤调试得到:
获取网络调试样本,所述网络调试样本中包括多个样本互联网社群对话信息,且每一样本互联网社群对话信息具有对应于所述目标在线话题的评论观点集上的先验关键词的注释信息;
依据所述网络调试样本对LDA话题抽取网络进行循环调试,直到符合设定完成要求,得到完成调试的LDA话题抽取网络;
其中,在每一次循环调试中,通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,并依据该目标代价变量进行模型参量改进。
在一些独立性设计思路下,所述设定网络代价指标包括采用交叉熵的第一调试代价;所述通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,包括:
针对当前样本互联网社群对话信息中的每一所述先验关键词,确定当前文本单位到该先验关键词的词向量差异的置信度;
通过所述第一调试代价,依据所述置信度、所述判别信息和所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的交叉熵代价变量,并依据该交叉熵代价变量确定目标代价变量。
在一些独立性设计思路下,所述设定网络代价指标还包括第二调试代价,该第二调试代价包括依据情感特征进行限制的量化指标;
所述通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,包括:
针对当前样本互联网社群对话信息中的每一第一在线话题,依据所述判别信息对应的预测关键词进行识别处理得到预测识别结果,并依据所述注释信息对应的先验关键词进行识别处理得到先验识别结果;所述第一在线话题为所述目标在线话题中话题热度不大于设定热度门限的在线话题;
通过所述第二调试代价,依据所述预测识别结果和所述先验识别结果确定LDA话题抽取网络生成的预测结果与先验结果之间的共性评分;
基于所述交叉熵代价变量和所述共性评分确定目标代价变量。
在一些独立性设计思路下,所述识别处理包括:
以处于所述第一在线话题的评论观点集上的评论词句为基准,以该第一在线话题的平均话题热度的1/2为识别周期,针对评论观点集上的每一个评论词句进行识别,得到与该评论词句相关的剩余设定变量个识别词句,并以该识别词句对应的分布标签得到识别结果。
一种智能辅助决策系统,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连;所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行上述方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行应用智能辅助决策的大数据处理方法。
一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现应用智能辅助决策的大数据处理方法。
本发明实施例提供一种应用智能辅助决策的大数据处理方法,在获取到需要进行互联网社群对话信息拆解的第一互联网社群对话信息时,可以依据该第一互联网社群对话信息进行信息抽取得到第二互联网社群对话信息,并通过预调试的LDA话题抽取网络中的第一神经网络分支,分别对于第一互联网社群对话信息和第二互联网社群对话信息中的目标在线话题进行识别操作,得到与第一互联网社群对话信息对应的第一对话文本语义关系谱和与第二互联网社群对话信息对应的第二对话文本语义关系谱;其中,目标在线话题为互联网社群对话信息中包括的新闻舆情话题;这样,可以对于第一对话文本语义关系谱和第二对话文本语义关系谱进行交叉,得到用于指示目标在线话题(新闻舆情)的评论观点集的对话文本交叉语义关系谱;在该基础上,对于第一互联网社群对话信息和对话文本交叉语义关系谱,可以通过LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对目标在线话题的识别操作,得到与目标在线话题相应的话题文本。最后利用话题文本进行实时追踪预警决策。
可见,本发明的实施能够首先针对不同文本细粒度的输入的互联网社群对话信息进行针对目标在线话题的识别操作,得到分别对应的对话文本语义关系谱,这样交叉所得的对话文本语义关系谱可以得到表征有目标在线话题(新闻舆情)的评论观点集,基于此,再结合对话文本交叉语义关系谱依据局部聚焦策略对第一互联网社群对话信息进行针对目标在线话题的识别操作,可以有效提高新闻舆情话题的相关文本拆解的准确性,且综合挖掘的评论观点集进行互联网社群对话信息抽取,还能够显著提升对话题热度较低的目标在线话题的敏感性,以实现准确、可靠的话题文本拆解。这样一来,可以利用精准且噪声率低的话题文本进行实时追踪预警决策,避免舆情爆发带来的服务器崩溃。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明的技术方案。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本发明的实施例,并与说明书一起用于说明本发明的技术方案。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种智能辅助决策系统的示意图。
图2示出了本发明实施例所提供的一种应用智能辅助决策的大数据处理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例所提供的一种智能辅助决策系统的示意图,智能辅助决策系统100包括处理器110、存储器120以及网络接口130。所述处理器110与所述存储器120、所述网络接口130相连。进一步地,所述网络接口130用于提供数据通信功能,所述存储器120用于存储程序代码,所述处理器110用于调用所述程序代码,以执行应用智能辅助决策的大数据处理方法。
图2是示出可以实现本发明的实施例的应用智能辅助决策的大数据处理方法的流程示意图,应用智能辅助决策的大数据处理方法可以通过图1所示的智能辅助决策系统100实现,应用智能辅助决策的大数据处理方法示例性地包括S110-S140。
S110、对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱;所述目标在线话题为所述第一互联网社群对话信息中包括的新闻舆情话题。
其中,第一互联网社群对话信息指的是从特定的第一互联网社区(例如论坛、微博、聊天室等)收集的对话或讨论数据。在处理大规模数据时,为了减少计算负担,可以选择抽取部分数据进行分析。例如,下采样是一种常见的抽取方法,通常随机或者有针对性地选取原始数据的一部分。第二互联网社群对话信息是通过对第一互联网社群对话信息进行抽取(可能是下采样或其他数据处理方法)所得到的数据。换句话说,它是从第一互联网社群对话信息中提取出的子集或精炼后的数据,以便于更深入或更有效的分析。LDA话题抽取网络是一种使用潜在狄利克雷分配(LDA)算法的神经网络,用于从文本数据中自动提取主题或话题。第一神经网络分支是指LDA话题抽取网络的一部分或一种配置,用于处理第一互联网社群的对话信息。目标在线话题是想要识别或跟踪的特定话题,比如某个新闻事件或舆情。识别操作是一个将输入数据(在这里是对话信息)映射到目标类别(在线话题)的过程。第一对话文本语义关系谱和第二对话文本语义关系谱是表示对话内容中词汇或主题间关系的图表或数据结构。例如,如果两个词经常在同一句子或同一段对话中出现,那么它们之间可能有强烈的语义关联。新闻舆情话题是在新闻报道中被广泛讨论的事件或主题,通常涉及公众的感情反应或观点。
进一步地,潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种用于自然语言处理和机器学习的话题模型,可以涉及文本挖掘和文本分类等任务。
LDA基于这样一个假设:每篇文档都是由多个话题混合而成的,而每个话题又是由多个词汇构成的。例如,在一篇关于“体育”的文章中,可以包含“篮球”、“足球”、“运动员”等相关词汇,这些词汇组成了“体育”这个话题。具体来说,LDA模型会将每个文档表示为话题的概率分布,将每个话题表示为词汇的概率分布。通过迭代训练,LDA可以学习到每个文档的话题分布以及每个话题的词汇分布。使用LDA,可以从大量文档中自动提取出主要的话题,同时得知每篇文档与这些话题的相关程度。因此,LDA在文本数据分析、信息检索、内容推荐等领域有着广泛的应用。
进一步地,对话文本语义关系谱,也可以理解为对话文本语义特征图,它是一种对文本信息进行可视化的方法。在这个语义特征图中,节点可能代表单词或短语,而边则表示它们之间的语义关系。
通过一个更复杂的例子来解释第一对话文本语义关系谱和第二对话文本语义关系谱。假设从一个互联网社群抽取了两组对话数据:
第一互联网社群对话信息(对话1):
“我喜欢听音乐,尤其是摇滚音乐。”
“他也经常听摇滚音乐,他说这种音乐给他带来活力。”
抽取得到的第二互联网社群对话信息(对话2):
“我不太喜欢摇滚音乐,我更喜欢轻音乐。”
“她虽然喜欢轻音乐,但有时候也会听听摇滚音乐。”
基于这些对话信息,可以生成两个对话文本语义关系谱。
在第一对话文本语义关系谱中,“我”、“喜欢”、“听”、“音乐”、“尤其”、“摇滚音乐”、“他”、“经常”、“说”、“这种”、“给”、“他”、“带来”、“活力”都可能是节点。边则表示这些词汇之间的关系。例如,“我”和“喜欢”之间可能有一条边,权重为1.0(表示“我”和“喜欢”紧密相关);“喜欢”和“听”之间也有一条边,权重为0.9(表示“喜欢”和“听”相对较强的关联);以此类推。
同样,在第二对话文本语义关系谱中,“我”、“不太”、“喜欢”、“摇滚音乐”、“更”、“喜欢”、“轻音乐”、“她”、“虽然”、“喜欢”、“但”、“有时候”、“也会”、“听听”等都可能是节点。边则表示这些词汇之间的关系。例如,“我”和“不太”之间可能有一条边,权重为0.8(表示“我”和“不太”有较强的关联);“不太”和“喜欢”之间也有一条边,权重为0.7(表示“不太”和“喜欢”有一定的关联);以此类推。
这样,就生成了两个包含数值型特征值(即边的权重)的对话文本语义关系谱。这些关系谱可以帮助理解对话信息的内在语义结构,并提供有用的信息来进行后续的分析和决策。
假设只考虑每句话中最重要的词汇,然后根据这些词汇生成对应的对话文本语义关系谱。以下是一个可能的表示方式。
首先,需要确定节点(词汇)列表。为了简化问题,只选取每句话中的主要词汇:对于第一互联网社群对话信息,选取“我”、“喜欢”、“音乐”、“摇滚”、“他”、“经常”、“活力”。于第二互联网社群对话信息,选取“我”、“不太”、“喜欢”、“摇滚”、“更”、“轻音乐”、“她”、“有时候”。
然后,可以创建两个矩阵来表示第一对话文本语义关系谱和第二对话文本语义关系谱。在这些矩阵中,行和列都代表词汇,而元素则代表相应的词汇之间的关系强度(权重)。例如,如果“我”和“喜欢”之间的关系强度为1.0,那么在矩阵中对应的元素就是1.0。
这些矩阵通常会是稀疏的(大部分元素都是0),因为并非所有词汇之间都存在直接的关系。此外,这些矩阵也可能是对称的,因为如果词a和词b有关系,那么词b和词a通常也会有关系。
在S110中,第一互联网社群对话信息和经过抽取得到的第二互联网社群对话信息都会通过预调试的LDA话题抽取网络中的第一神经网络分支进行处理。这个过程的目标是识别与目标在线话题相关的内容,然后生成相应的对话文本语义关系谱。
例如,假设第一互联网社群对话信息包含了关于某个热门新闻事件的讨论,而第二互联网社群对话信息则包含了对同一事件的不同观点。在这种情况下,目标在线话题可能就是这个新闻事件。
在对这两组对话信息进行处理时,第一神经网络分支会使用LDA模型来提取每组对话中的主题,并确定它们与目标在线话题的相关性。然后,根据这些信息,系统可以生成两个对话文本语义关系谱。
这两个对话文本语义关系谱可以视为该新闻事件在两个不同社群中的“语义指纹”。通过比较这两个语义关系谱,可以理解不同社群对同一话题的不同观点和态度,这对于分析公众舆论、预测市场趋势和社群服务器过载维护等任务非常有用。
S120、通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱;所述对话文本交叉语义关系谱用于指示所述目标在线话题的评论观点集。
其中,对话文本交叉语义关系谱是通过将第一对话文本语义关系谱和第二对话文本语义关系谱进行交叉融合得到的。具体来说,它可以包括两个语义关系谱中的所有节点(词汇或主题),并且当两个语义关系谱中都存在相同的边(即相同的词汇或主题关系)时,这条边的权重可以根据相应规则(如取平均值、取最大值等)进行调整。这样,对话文本交叉语义关系谱不仅能反映每个社群内部的语义结构,还能展现不同社群之间的语义差异和相似性。而评论观点集则是指关于目标在线话题的所有评论或观点的集合。在S120中,对话文本交叉语义关系谱被用来指示评论观点集。换句话说,可以通过分析对话文本交叉语义关系谱,了解公众对目标在线话题的各种观点。例如,哪些词汇或主题出现得更频繁,可能代表更主流的观点;哪些词汇或主题只在某个社群中出现,可能代表特定群体的观点等。
在S120中,使用第一对话文本语义关系谱和第二对话文本语义关系谱来得到一个对话文本交叉语义关系谱。这个交叉语义关系谱可以帮助理解目标在线话题的评论观点集。
让继续前面的例子,假设正在分析关于某个新闻事件的在线讨论。在S110中,已经从两个互联网社群抽取了对话信息,并生成了两个对话文本语义关系谱。
接下来,在S120阶段,会将这两个语义关系谱进行交叉融合。具体来说,可以将两个关系谱中的所有节点(即词汇或主题)合并起来,形成一个更大的节点集。然后,对于那些在两个关系谱中都出现的边(即词汇或主题关系),可以根据某种规则(如取平均值、取最大值等)来调整它们的权重。通过这种方式,就得到了一个包含更丰富信息的对话文本交叉语义关系谱。
这个交叉语义关系谱可以被看作是关于该新闻事件的评论观点集的指示器。例如,如果“支持”和“反对”这两个词在关系谱中的权重相近,那么可以推测公众对这个新闻事件的观点可能比较分歧;如果“积极”的权重明显高于“消极”,那么可以推测大部分人对这个新闻事件持积极态度。
通过S120所描述的技术方案,不仅可以更深入地理解各个社群内部的语义结构,还可以探索不同社群之间的语义差异和相似性,从而得到更全面、更准确的评论观点集。
S130、针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本。
其中,局部聚焦策略可理解为注意力策略,这是一种让模型在处理数据时更加关注重要部分的方法。在自然语言处理任务中,比如在处理大量的对话信息时,局部聚焦策略可以帮助模型关注到与目标在线话题最相关或最重要的信息,从而提高模型的性能。第二神经网络分支指LDA话题抽取网络的另一部分或另一种配置,用于实现局部聚焦策略。与第一神经网络分支(主要负责提取全局信息)不同,第二神经网络分支可能更专注于捕获细节信息,例如特定的评论观点、具体的情感表达等。识别操作指的是局部文本抽取。这是一个从大量的对话信息中抽取与目标在线话题最相关或最重要的文本片段的过程。例如,如果目标在线话题是某个新闻事件,那么识别操作可以抽取出包含该新闻事件名称、相关人物、发生地点等关键信息的文本片段。话题文本是通过识别操作抽取出的与目标在线话题相关的文本。它可能包括一段或多段对该话题的评论、描述、讨论等。通过分析话题文本,可以了解公众对该话题的观点、情感、态度等,从而为后续的决策提供依据。
在S130中,第一互联网社群对话信息和对话文本交叉语义关系谱会被通过LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行处理,目标是识别出与目标在线话题相应的话题文本。
结合前述示例,假设正在跟踪和分析关于某个热门新闻事件的在线讨论。在S120中,已经从两个互联网社群抽取了对话信息,并生成了对话文本交叉语义关系谱。
接下来,在S130阶段,会利用第二神经网络分支来进一步精细化的分析。这个神经网络分支会使用局部聚焦策略(即注意力机制),专注于那些在交叉语义关系谱中权重较大(即更重要)的部分。具体来说,可以关注那些在讨论中出现频率较高、引发强烈反响或激烈争论的观点。例如,如果“支持”和“反对”这两个词在关系谱中的权重都很高,那么可以抽取出包含“支持”和“反对”观点的所有相关文本。
这样,就得到了与目标在线话题(即该新闻事件)相应的话题文本。这些话题文本可以帮助更深入地理解公众对这个事件的具体观点和情感反应,从而为后续的分析和决策提供更详细的信息。S130描述的技术方案通过使用局部聚焦策略和第二神经网络分支,可以从大量的对话信息中精确地抽取出与目标在线话题最相关的文本,从而得到更深入、更具体的洞见。
S140、利用所述话题文本进行实时追踪预警决策。
其中,实时追踪预警决策是一种动态的、实时的决策过程。它主要涉及对重要话题进行持续监控和分析,以便能够快速响应各种突发情况。当检测到异常情况(如负面舆论突然爆发、特定话题的讨论热度骤增等)时,系统可以立即发出预警,提醒相关人员或系统进行相应的处理。
例如,如果系统监测到某个话题的讨论量突然大幅增加,那么它可以判断社群服务器可能面临过载的风险,并立即发出预警;如果系统检测到大量的负面舆论,那么它可以判断公司或产品可能面临公关危机,并立即通知相关部门进行应对。
这种实时追踪预警决策不仅可以帮助更好地理解在线社群的动态变化,还可以使有足够的时间来应对可能出现的问题,从而避免或减轻因社群服务器过载或崩溃等问题带来的损失。总的来说,实时追踪预警决策是一种非常重要的技术手段,对于管理大规模的在线社群、保障信息系统的稳定运行、应对突发事件等都有极其重要的作用。
应用本发明实施例,在获取到需要进行互联网社群对话信息拆解的第一互联网社群对话信息时,可以依据该第一互联网社群对话信息进行信息抽取得到第二互联网社群对话信息,并通过预调试的LDA话题抽取网络中的第一神经网络分支,分别对于第一互联网社群对话信息和第二互联网社群对话信息中的目标在线话题进行识别操作,得到与第一互联网社群对话信息对应的第一对话文本语义关系谱和与第二互联网社群对话信息对应的第二对话文本语义关系谱;其中,目标在线话题为互联网社群对话信息中包括的新闻舆情话题;这样,可以对于第一对话文本语义关系谱和第二对话文本语义关系谱进行交叉,得到用于指示目标在线话题(新闻舆情)的评论观点集的对话文本交叉语义关系谱;在该基础上,对于第一互联网社群对话信息和对话文本交叉语义关系谱,可以通过LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对目标在线话题的识别操作,得到与目标在线话题相应的话题文本。最后利用话题文本进行实时追踪预警决策。
可见,本发明的实施能够首先针对不同文本细粒度的输入的互联网社群对话信息进行针对目标在线话题的识别操作,得到分别对应的对话文本语义关系谱,这样交叉所得的对话文本语义关系谱可以得到表征有目标在线话题(新闻舆情)的评论观点集,基于此,再结合对话文本交叉语义关系谱依据局部聚焦策略对第一互联网社群对话信息进行针对目标在线话题的识别操作,可以有效提高新闻舆情话题的相关文本拆解的准确性,且综合挖掘的评论观点集进行互联网社群对话信息抽取,还能够显著提升对话题热度较低的目标在线话题的敏感性,以实现准确、可靠的话题文本拆解。这样一来,可以利用精准且噪声率低的话题文本进行实时追踪预警决策,避免舆情爆发带来的服务器崩溃。
此外,通过本发明实施例可知,智能辅助决策在话题挖掘和追踪中发挥着关键作用。一方面,本发明实施例介绍了话题识别、话题跟踪和预警系统相关的技术。另一方面,通过本发明实施例,还可以利用智能辅助决策进行情感分析和推荐分析。可见,通过使用大数据处理技术,智能辅助决策系统可以从海量的文本数据中提取有价值的信息,支持企业做出更快、更准确的决策。
在一些可选的实施例中,所述第一神经网络分支包括第一特征映射节点和第二特征映射节点;特征映射节点可以是卷积节点。所述第一特征映射节点包括采用设定方式(比如U型架构)连接的第一文本语义挖掘核和第一文本语义拼接核;文本语义挖掘核可以是文本语义编码器,文本语义拼接核可以是文本语义译码器。所述第一文本语义拼接核中每一可逆层(卷积层)的输出通道(输出端)皆与所述第二特征映射节点的输入通道(输入端)相连。基于此,S110所描述的所述对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱,包括针对所述第一互联网社群对话信息和所述第二互联网社群对话信息分别实施以下S111-S113。
S111、通过所述第一文本语义挖掘核,针对输入的互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理。
S112、通过所述第一文本语义拼接核,针对所述第一文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理。
S113、通过所述第二特征映射节点,针对所述第一文本语义拼接核中每一可逆层的输出进行针对所述目标在线话题的文本语义映射处理,得到所述第一神经网络分支生成的对话文本语义关系谱。
在上述实施例中,第一特征映射节点、第二特征映射节点、文本语义挖掘核、文本语义拼接核和可逆层是五个关键概念,以下是对相应的名词解释。
第一特征映射节点和第二特征映射节点两个节点是神经网络中的重要组成部分。它们可以执行各种操作,如卷积、池化、归一化等,以提取或转换输入数据的特征。文本语义挖掘核:也可以理解为文本语义编码器,它的作用是将输入的文本数据转换为一种更容易处理和理解的形式,通常是一种高维空间中的表示(即特征向量)。这个过程通常涉及到词嵌入、句子编码、上下文理解等一系列复杂的操作。文本语义拼接核:也可以理解为文本语义译码器,它的作用是将由文本语义挖掘核生成的特征向量转换回原始空间,或转换为其他有用的表示形式。这个过程通常涉及到特征合并、信息重建、上下文生成等一系列操作。可逆层是神经网络中的一种特殊层,它的输入和输出之间存在一种可逆的关系。在卷积神经网络中,可逆层可以是普通的卷积层,但也可以是更复杂的结构,如残差块、稠密块等。
假设正在分析关于某个新闻事件的在线讨论。在S111阶段,会通过第一文本语义挖掘核(即文本语义编码器),对输入的互联网社群对话信息进行针对目标在线话题的文本语义挖掘处理。这个过程可能涉及到词嵌入、句子编码、上下文理解等操作,以提取出与目标在线话题最相关的特征。然后,在S112阶段,会通过第一文本语义拼接核(即文本语义译码器),对第一文本语义挖掘核的输出进行针对目标在线话题的文本语义拼接处理。这个过程可能涉及到特征合并、信息重建、上下文生成等操作,以恢复或生成更丰富的语义信息。最后,在S113阶段,会通过第二特征映射节点,对第一文本语义拼接核中每一可逆层的输出进行针对目标在线话题的文本语义映射处理。这个过程可能涉及到卷积、池化、归一化等操作,以生成最终的对话文本语义关系谱。
通过这个实施方案,可以更有效地从大量的对话信息中提取出与目标在线话题相关的语义特征,并将这些特征组织成易于理解和分析的形式,从而为后续的决策提供有价值的信息。
在一些示例性实施例中,S120中的通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱,包括S121-S124。
S121、针对所述第二对话文本语义关系谱进行衍生扩展,以使衍生扩展后的第二对话文本语义关系谱维度与所述第一对话文本语义关系谱一致。
S122、针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱。
S123、针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行作差处理,得到阶段对话文本语义关系谱。
S124、依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱。
在上述实施例中,衍生扩展是一种使两个或多个数据集具有相同维度的处理方式。它可以包括添加缺失的特征、创建新的特征等操作。进一步地,可以对第二对话文本语义关系谱进行衍生扩展,以使其维度与第一对话文本语义关系谱一致。全局对话文本语义关系谱是通过将第一对话文本语义关系谱和衍生扩展后的第二对话文本语义关系谱进行求和处理得到的。全局对话文本语义关系谱反映了所有社群对目标在线话题的总体观点和态度。阶段对话文本语义关系谱是通过将第一对话文本语义关系谱和衍生扩展后的第二对话文本语义关系谱进行作差处理得到的。阶段对话文本语义关系谱反映了不同社群对目标在线话题的观点和态度的差异。高亮处理是一种突出显示关键信息的方式。在这里,可以通过高亮处理来突出显示那些在全局对话文本语义关系谱和阶段对话文本语义关系谱中具有较大权重(即更重要)的部分。
假设正在分析关于某个新闻事件的在线讨论。在S110中,已经从两个互联网社群抽取了对话信息,并生成了两个对话文本语义关系谱。接着,在S121阶段,可以对第二对话文本语义关系谱进行衍生扩展,以使其维度与第一对话文本语义关系谱一致。这可能涉及到添加缺失的特征、创建新的特征等操作。然后,在S122和S123阶段,会分别对这两个关系谱进行求和处理和作差处理,得到全局对话文本语义关系谱和阶段对话文本语义关系谱。前者反映了所有社群对该新闻事件的总体观点和态度,后者则反映了不同社群之间的观点和态度的差异。最后,在S124阶段,会根据全局对话文本语义关系谱和阶段对话文本语义关系谱,对评论观点集进行挖掘,并得到经高亮处理的对话文本交叉语义关系谱。这个高亮处理的结果可以帮助快速地找到那些在讨论中最重要、最具影响力的观点和态度。
通过这个实施方案,可以更有效地从大量的对话信息中提取出有价值的洞见,并将这些洞见以直观易懂的方式呈现出来,从而为后续的分析和决策提供更全面、更准确的信息。
在一些优选的实施例中,S122中的所述针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱,包括S1221-S1223。
S1221、针对所述衍生扩展后的第二对话文本语义关系谱进行优化,以过滤掉所述第二对话文本语义关系谱中的噪声语义关系集,得到优化后的第二对话文本语义关系谱。
S1222、针对所述优化后的第二对话文本语义关系谱,挖掘所述优化后的第二对话文本语义关系谱中所述目标在线话题的评论观点集,并对该评论观点集进行更新,得到更新后的第二对话文本语义关系谱。
S1223、将所述第一对话文本语义关系谱和所述更新后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱。
在上述实施例中,噪声语义关系集是指那些可能影响数据分析结果准确性的不相关或错误的语义关系。例如,一些偶然出现、与目标在线话题无关或含义模糊的词汇和主题可以被视为噪声。优化后的第二对话文本语义关系谱是通过对衍生扩展后的第二对话文本语义关系谱进行优化(即过滤掉噪声语义关系集)得到的。优化后的关系谱应该更清晰、更准确地反映了社群对目标在线话题的观点和态度。更新后的第二对话文本语义关系谱是通过对优化后的第二对话文本语义关系谱进行挖掘和更新得到的。更新操作可能包括添加新的评论观点、修改已有的评论观点等。
假设正在分析关于某个新闻事件的在线讨论。在S121阶段,已经对第二对话文本语义关系谱进行了衍生扩展。接着,在S1221阶段,会对衍生扩展后的第二对话文本语义关系谱进行优化,过滤掉噪声语义关系集。例如,可以删除那些偶然出现、与新闻事件无关或含义模糊的词汇和主题,得到优化后的关系谱。然后,在S1222阶段,会针对优化后的第二对话文本语义关系谱,挖掘评论观点集,并对该评论观点集进行更新。例如,可以添加新的评论观点、修改已有的评论观点,得到更新后的关系谱。最后,在S1223阶段,会将第一对话文本语义关系谱和更新后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱。
如此,可以更有效地从大量的对话信息中提取出有价值的洞见,并将这些洞见以直观易懂的方式呈现出来,从而为后续的分析和决策提供更全面、更准确的信息。
在一些示例中,所述目标在线话题包括话题热度不大于设定热度门限的第一在线话题和话题热度大于所述设定热度门限的第二在线话题。基于此,S124中的所述依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱,包括S1241-S1247。
S1241、针对所述全局对话文本语义关系谱中所述目标在线话题的评论观点集进行挖掘,得到第一评论观点集信息。
S1242、针对所述第一评论观点集信息与所述阶段对话文本语义关系谱进行乘积处理,得到所述第一在线话题的评论观点集信息。
S1243、针对所述第一评论观点集信息与所述第一在线话题的评论观点集信息进行作差处理,得到所述第二在线话题的评论观点集信息。
S1244、针对所述第一在线话题的评论观点集信息指示的评论观点集进行更新,并依据更新后的第一在线话题的评论观点集信息、所述全局对话文本语义关系谱和更新前的第一在线话题的评论观点集信息得到所述第一在线话题除评论观点集信息外的第一文本数据。
S1245、依据更新后的第一在线话题的评论观点集信息、所述第二在线话题的评论观点集信息和所述全局对话文本语义关系谱得到所述第二在线话题除评论观点集信息外的第二文本数据。
S1246、依据设定变量与所述全局对话文本语义关系谱的比较结果确定所述第一互联网社群对话信息中的非关键文本。
S1247、依据所述非关键文本、所述第一在线话题的评论观点集信息、所述第一文本数据、所述第二在线话题的评论观点集信息、所述第二文本数据得到对话文本交叉语义关系谱。
在上述实施例中,设定热度门限是一个预设的数值,用来判断在线话题的热度。比如可以设置1000次讨论为一个热度门限,大于这个数值的话题被认为是热门话题。第一评论观点集信息是通过对全局对话文本语义关系谱中目标在线话题的评论观点集进行挖掘得到的。乘积处理是一种常见的运算操作,通常用于计算两个或多个数据之间的关联性或相似度。作差处理也是一种常见的运算操作,通常用于计算两个或多个数据之间的差异或变化。设定变量可以是一个预设的数值或参数,用于调整模型的行为或决策。非关键文本可以是那些与目标在线话题无关、重要性较低或不含有有价值信息的文本。
假设正在分析两个互联网社群(社群A和社群B)对某款新手机的讨论。将讨论热度大于1000次的定义为热门话题(设定热度门限),小于1000次的为非热门话题。在这个案例中,第一在线话题可能是关于新手机的电池寿命(讨论次数900次),第二在线话题可能是关于新手机的相机性能(讨论次数1500次)。
在S1241阶段,首先针对全局对话文本语义关系谱(即所有社群对新手机的总体讨论)进行挖掘,得到第一评论观点集信息,比如大家普遍对新手机的电池寿命和相机性能感兴趣。接下来,在S1242阶段,针对这个第一评论观点集信息与阶段对话文本语义关系谱(即社群A和社群B对新手机的讨论差异)进行乘积处理,从而得到针对新手机电池寿命(第一在线话题)的评论观点集信息,例如,社群A的用户更关注电池寿命。然后,在S1243阶段,针对第一评论观点集信息与新手机电池寿命的评论观点集信息进行作差处理,得到新手机相机性能(第二在线话题)的评论观点集信息,例如,社群B的用户更关注相机性能。在S1244阶段,根据更新后的第一在线话题的评论观点集信息、全局对话文本语义关系谱和更新前的第一在线话题的评论观点集信息,得到第一在线话题除评论观点集信息外的第一文本数据,如新手机电池寿命的具体细节讨论。在S1245阶段,根据更新后的第一在线话题的评论观点集信息、第二在线话题的评论观点集信息和全局对话文本语义关系谱得到第二在线话题除评论观点集信息外的第二文本数据,如新手机相机性能的具体细节讨论。接着,在S1246阶段,依据设定变量(比如设定非关键文本为讨论次数少于500次的话题)与全局对话文本语义关系谱的比较结果,确定非关键文本,例如其他不太受关注的手机特性(如重量、屏幕尺寸等)。最后,在S1247阶段,依据这些非关键文本、第一在线话题和第二在线话题的评论观点集信息,以及第一文本数据和第二文本数据,得到对话文本交叉语义关系谱。这个关系谱可能会以可视化的方式展示出社群A和社群B对新手机的主要关注点以及各自的独特观点。
通过以上步骤,能够更准确地理解和分析两个社群对新手机的讨论,并找出共同关注点和不同观点,为后续的市场营销策略提供有价值的参考。
在另外一些示例中,所述第二神经网络分支包括第三特征映射节点和第四特征映射节点;所述第三特征映射节点包括采用设定方式连接的第二文本语义挖掘核和第二文本语义拼接核;所述第二文本语义挖掘核包括最少两个语义提炼算子,该语义提炼算子包括级联的由最少一个局部聚焦层和与该局部聚焦层连接的特征压缩层构成的最少一个单元,和由最少一个可逆层和与该可逆层连接的特征压缩层构成的最少一个单元;所述第二文本语义拼接核包括最少两个语义拼接算子,该语义拼接算子包括级联的由最少一个可逆层和与该可逆层连接的衍生扩展层构成的最少一个单元,和由最少一个局部聚焦层和与该局部聚焦层连接的衍生扩展层构成的最少一个单元;所述第二文本语义拼接核中的每一可逆层和每一局部聚焦层皆与所述第四特征映射节点连接。基于此,S130所描述的所述针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本,包括S130a-S130c。
S130a、通过所述第二文本语义挖掘核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第一互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理。
S130b、通过所述第二文本语义拼接核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第二文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理。
S130c、通过所述第四特征映射节点,针对所述第二文本语义拼接核中每一可逆层和每一局部聚焦层的输出进行针对所述目标在线话题的文本语义映射处理,得到与所述目标在线话题相应的话题文本。
在上述实施例中,第二文本语义挖掘核是一个处理单元,用于执行文本语义挖掘的任务。它包含最少两个语义提炼算子,以便从文本中抽取有价值的语义信息。语义提炼算子是一个算法或模型,用于抽取和提炼文本的语义信息。它包括级联的由最少一个局部聚焦层和与该局部聚焦层连接的特征压缩层构成的最少一个单元,以及由最少一个可逆层和与该可逆层连接的特征压缩层构成的最少一个单元。局部聚焦层是一个处理层,专门用于处理那些对当前任务或问题具有高度相关性的信息。特征压缩层是一个处理层,用于减少数据的维度,同时保持重要的特征信息。可逆层是一个处理层,可以对输入数据进行某种可逆的变换或操作,如卷积、反卷积等。第二文本语义拼接核是一个处理单元,用于执行文本语义拼接的任务。它包含最少两个语义拼接算子,以便将多个不同的语义信息整合在一起。语义拼接算子是一个算法或模型,用于将多个不同的语义信息整合在一起。它包括级联的由最少一个可逆层和与该可逆层连接的衍生扩展层构成的最少一个单元,以及由最少一个局部聚焦层和与该局部聚焦层连接的衍生扩展层构成的最少一个单元。衍生扩展层是一个处理层,用于对数据进行某种衍生或扩展的操作,如添加新的特征、创建新的维度等。
假设正在分析关于“环保”这个在线话题的互联网社群对话信息。在S130a阶段,可能会通过第二文本语义挖掘核,结合对话文本交叉语义关系谱,依据局部聚焦策略对这些对话信息进行文本语义挖掘处理,如抽取出与“环保”相关的关键词和主题。接着,在S130b阶段,可能会通过第二文本语义拼接核,结合对话文本交叉语义关系谱,依据局部聚焦策略对第二文本语义挖掘核的输出进行文本语义拼接处理,如将抽取出的关键词和主题整合在一起,形成一个更完整、更丰富的“环保”话题描述。最后,在S130c阶段,可能会通过第四特征映射节点,对第二文本语义拼接核中每一可逆层和每一局部聚焦层的输出进行文本语义映射处理,得到与“环保”话题相应的话题文本,如一个详细的“环保”话题报告或概述。
通过这个实施方案,可以更有效地从大量的对话信息中提取出有价值的洞见,并将这些洞见以直观易懂的方式呈现出来,从而为后续的分析和决策提供更全面、更准确的信息。
在一些示例中,所述局部聚焦层包括用于依据输入的对话文本语义关系谱进行局部聚焦处理的第一组件和用于依据所述对话文本交叉语义关系谱提取语义特征块的第二组件;所述第一组件包括级联的第一可逆子模型、局部聚焦子模型和第二可逆子模型;所述第一可逆子模型的输出通道与所述第二可逆子模型的输出通道间隔相连;所述第二组件与所述局部聚焦子模型连接。基于此,通过所述局部聚焦层针对输入的对话文本语义关系谱和所述对话文本交叉语义关系谱进行局部聚焦处理,包括S210-S230。
S210、通过所述第一可逆子模型,针对输入的对话文本语义关系谱进行文本语义映射处理,得到中间对话文本语义关系谱。
S220、通过所述局部聚焦子模型,依据所述中间对话文本语义关系谱针对所述第二组件生成的每一局部文本语义关系谱确定索引特征,针对所述第二组件生成的每一局部文本语义关系谱中的每一语义特征块确定标识特征和属性特征,并依据所述索引特征、所述标识特征和所述属性特征进行局部聚焦处理,得到焦点化文本语义关系谱。
S230、通过所述第二可逆子模型,针对所述焦点化文本语义关系谱进行文本语义映射处理,得到所述第二可逆子模型的输出,并将该输出与第一可逆子模型的输出进行求和得到当前局部聚焦层生成的对话文本语义关系谱。
在一些可能的实施例中,局部聚焦层是一个处理层,专门用于对输入数据进行局部聚焦处理,即对那些对当前任务或问题具有高度相关性的信息进行处理。第一组件和第二组件都是局部聚焦层的一部分。第一组件用于依据输入的对话文本语义关系谱进行局部聚焦处理;第二组件用于依据对话文本交叉语义关系谱提取语义特征块。第一可逆子模型和第二可逆子模型是两个子模型,它们可以对输入数据进行某种可逆的变换或操作,如卷积、反卷积等。局部聚焦子模型是一个子模型,专门用于执行局部聚焦的任务,即对那些对当前任务或问题具有高度相关性的信息进行处理。中间对话文本语义关系谱是通过第一可逆子模型对输入的对话文本语义关系谱进行处理得到的中间结果。索引特征、标识特征和属性特征用于描述或定位语义特征块的特征。索引特征可能用于定位语义特征块在语义关系谱中的位置;标识特征可能用于描述语义特征块的内容或类型;属性特征可能用于描述语义特征块的其他属性,如权重、相关性等。
假设正在分析互联网社群对“全球变暖”这个在线话题的讨论。在S210阶段,可能会通过第一可逆子模型,对输入的对话文本语义关系谱(即所有关于“全球变暖”的讨论)进行文本语义映射处理,得到中间对话文本语义关系谱。接着,在S220阶段,可能会通过局部聚焦子模型,依据中间对话文本语义关系谱确定每一个局部文本语义关系谱(即关于“全球变暖”的各个子主题)的索引特征、标识特征和属性特征,进行局部聚焦处理,得到焦点化文本语义关系谱。最后,在S230阶段,可能会通过第二可逆子模型,对焦点化文本语义关系谱进行文本语义映射处理,得到第二可逆子模型的输出。然后,将该输出与第一可逆子模型的输出进行求和,得到当前局部聚焦层生成的对话文本语义关系谱。
通过这个实施方案,可以更有效地从大量的对话信息中提取出有价值的洞见,并将这些洞见以直观易懂的方式呈现出来,从而为后续的分析和决策提供更全面、更准确的信息。
在另外的一些实施例中,通过所述第二组件依据所述对话文本交叉语义关系谱提取语义特征块,包括S310-320。
S310、针对所述对话文本交叉语义关系谱进行拆解,得到最少两个局部文本语义关系谱。
S320、针对每一局部文本语义关系谱中包括的高亮语义进行特征集成,得到各高亮语义对应的语义特征块。
其中,所述高亮语义包括非关键文本、第一在线话题的评论观点集信息、第一文本数据、第二在线话题的评论观点集信息、第二文本数据;所述第一在线话题包括所述目标在线话题中话题热度不大于设定热度门限的在线话题;所述第二在线话题包括所述目标在线话题中话题热度大于所述设定热度门限的在线话题;所述第一文本数据包括所述第一在线话题中除评论观点集信息外的数据;所述第二文本数据包括所述第二在线话题除评论观点集信息外的数据。
在一些示例中,拆解是一个处理步骤,用于将复杂的数据或模型分解为更小、更易于管理和理解的部分。局部文本语义关系谱是对话文本交叉语义关系谱的一个子集,只包含某个特定部分或方面的语义信息。特征集成是一种算法或方法,用于将多个不同的特征整合在一起,形成一个更全面、更丰富的特征描述。语义特征块是由特征集成得到的结果,包含了一组相关的语义特征。高亮语义指的是那些被特别强调或突出显示的语义信息,如非关键文本、评论观点集信息、文本数据等。
假设正在分析互联网社群对“保健品”这个在线话题的讨论。在S310阶段,可能会针对对话文本交叉语义关系谱进行拆解,得到最少两个局部文本语义关系谱,如关于“保健品效果”的讨论和关于“保健品副作用”的讨论。接着,在S320阶段,可能会针对每一局部文本语义关系谱中包含的高亮语义进行特征集成,得到各高亮语义对应的语义特征块。例如,对于“保健品效果”的讨论,可能会将所有相关的评论观点、非关键文本、文本数据等整合在一起,形成一个关于“保健品效果”的语义特征块;对于“保健品副作用”的讨论,可能会做同样的处理,形成一个关于“保健品副作用”的语义特征块。
通过这个实施方案,可以更有效地从大量的对话信息中提取出有价值的洞见,并将这些洞见以直观易懂的方式呈现出来,从而为后续的分析和决策提供更全面、更准确的信息。
在一些可独立的实施例中,所述LDA话题抽取网络经由以下步骤S410-S420调试得到。
S410、获取网络调试样本,所述网络调试样本中包括多个样本互联网社群对话信息,且每一样本互联网社群对话信息具有对应于所述目标在线话题的评论观点集上的先验关键词的注释信息。
S420、依据所述网络调试样本对LDA话题抽取网络进行循环调试,直到符合设定完成要求,得到完成调试的LDA话题抽取网络。
其中,在每一次循环调试中,通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,并依据该目标代价变量进行模型参量改进。
在上述实施例中,网络调试样本是一组用于训练或调试神经网络的数据样本。每一个样本都包含一个互联网社群对话信息以及与目标在线话题相关的评论观点集上的先验关键词的注释信息。先验关键词的注释信息是对样本数据进行标注的信息,通常由人工提供。例如,在处理自然语言处理任务时,这可能包括对关键词的标签或类别。循环调试是一个迭代的过程,通过多次对网络进行训练和调整,以优化其性能。设定完成要求是一个停止条件,当满足这个条件时,循环调试过程将停止。这可能是达到预设的迭代次数,或者网络的性能达到某个预设的阈值。网络代价指标是一个度量网络性能的指标,如交叉熵损失、平方误差等。优化网络的目标通常是最小化这个代价指标。预测关键词的判别信息是网络预测结果中的一部分,包含了对预测关键词的信息,如预测的类别、置信度等。目标代价变量是一个根据网络代价指标和实际结果计算得到的值,表示网络预测结果与实际结果之间的差距。模型参数改进是一个优化步骤,通过调整网络的参数以减小目标代价变量。
假设正在使用LDA话题抽取网络分析互联网社群对“保健品”的讨论。在S410阶段,可能会获取一组网络调试样本,每一个样本都包含一个关于“保健品”的互联网社群对话信息,以及与该话题相关的评论观点集上的先验关键词的注释信息,如“有效性”、“副作用”等。接着,在S420阶段,可能会依据这些样本对LDA话题抽取网络进行循环调试。在每一次迭代中,可能会计算出网络的预测结果与先验结果之间的目标代价变量,然后依据这个变量进行模型参数改进,如使用梯度下降法更新网络的权重。这个过程会一直持续,直到满足设定完成要求,如达到预设的迭代次数,或者网络的性能达到某个预设的阈值。
通过这个实施方案,可以训练出一个高效的LDA话题抽取网络,它可以更准确地从大量的对话信息中提取出与目标在线话题相关的关键信息,为后续的分析和决策提供更全面、更准确的支持。
在一些示例下,所述设定网络代价指标包括采用交叉熵的第一调试代价。基于此,所述通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,包括:针对当前样本互联网社群对话信息中的每一所述先验关键词,确定当前文本单位到该先验关键词的词向量差异的置信度;通过所述第一调试代价,依据所述置信度、所述判别信息和所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的交叉熵代价变量,并依据该交叉熵代价变量确定目标代价变量。
其中,设定网络代价指标为预设或确定用于评估和优化网络性能的评价标准。在训练神经网络的过程中,这个代价指标常常被用作优化目标,试图通过调整网络的参数来最小化这个代价指标。比如在分类问题中,交叉熵损失就是一种常见的代价指标,它衡量的是实际输出(概率分布)与期望输出(真实标签)之间的差异。而在回归问题中,均方误差则是常用的代价指标,它衡量的是网络预测值与真实值之间的平方差的平均值。那么,在上述示例中,设定网络代价指标就是指采用交叉熵作为第一调试代价。在每次迭代中,会计算当前的预测结果与注释信息(即真实标签)之间的交叉熵代价,然后根据这个代价进行模型参数的改进,以便在下一次迭代中得到更好的预测结果。
进一步地,交叉熵的第一调试代价是一个特殊的代价函数,基于交叉熵的理论,用于评估网络的预测结果与真实结果之间的差距。词向量差异的置信度是一个度量,表示当前文本单位到先验关键词的词向量差异的大小。这种差异的大小可能反映了网络对某个特定关键词的识别准确性。交叉熵代价变量是一个值,根据网络的预测结果和真实结果计算得到。它表示网络预测结果与真实结果之间的差距。目标代价变量是一个值,用于指导网络的训练过程。它可能由交叉熵代价变量计算得到,并用于优化网络的参数。
假设正在使用LDA话题抽取网络分析互联网社群对“保健品”的讨论。在每一次迭代中,可能会针对当前样本互联网社群对话信息中的每一先验关键词,如“有效性”、“副作用”等,确定当前文本单位到该先验关键词的词向量差异的置信度。然后,通过交叉熵的第一调试代价,依据这个置信度以及网络的预测结果和真实结果,确定LDA话题抽取网络生成的预测结果与先验结果之间的交叉熵代价变量。最后,会依据这个交叉熵代价变量确定目标代价变量,并用它来指导网络的训练过程。
通过这个实施方案,可以有效地训练和优化LDA话题抽取网络,使其能够更准确地从大量的对话信息中提取出与目标在线话题相关的关键信息,为后续的分析和决策提供更全面、更准确的支持。
在一些示例下,所述设定网络代价指标还包括第二调试代价,该第二调试代价包括依据情感特征进行限制的量化指标(比如正则项)。基于此,所述通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,包括:针对当前样本互联网社群对话信息中的每一第一在线话题,依据所述判别信息对应的预测关键词进行识别处理得到预测识别结果,并依据所述注释信息对应的先验关键词进行识别处理得到先验识别结果;所述第一在线话题为所述目标在线话题中话题热度不大于设定热度门限的在线话题;通过所述第二调试代价,依据所述预测识别结果和所述先验识别结果确定LDA话题抽取网络生成的预测结果与先验结果之间的共性评分;基于所述交叉熵代价变量和所述共性评分确定目标代价变量。
在上述实施例中,第二调试代价是一个额外的损失函数或评估标准,用于调整或优化网络的性能。它可能与第一调试代价一起使用,以实现多目标优化。量化指标(如正则项)是机器学习中常用的一种技术,用于防止模型过拟合。它通常通过对模型的复杂性进行惩罚(如权重的大小或数量)来实现。预测识别结果是网络根据判别信息对应的预测关键词进行识别处理得到的结果。先验识别结果是网络根据注释信息对应的先验关键词进行识别处理得到的结果。共性评分是一个度量,表示预测识别结果和先验识别结果之间的相似度或共性。
假设正在使用LDA话题抽取网络分析互联网社群对“保健品”的讨论。在每一次迭代中,可能会针对当前样本互联网社群对话信息中的每一个第一在线话题(如关于“保健品有效性”的讨论),依据判别信息对应的预测关键词进行识别处理得到预测识别结果,并依据注释信息对应的先验关键词进行识别处理得到先验识别结果。然后,可能会通过第二调试代价,依据预测识别结果和先验识别结果确定预测结果与先验结果之间的共性评分。这个共性评分可能反映了网络对第一在线话题的理解程度。最后,可能会基于交叉熵代价变量和共性评分确定目标代价变量,然后用它来指导网络的训练过程。
通过这个实施方案,可以更全面地评估和优化LDA话题抽取网络的性能,使其能够更准确地从大量的对话信息中提取出与目标在线话题相关的关键信息,为后续的分析和决策提供更全面、更准确的支持。
在另一些可能的实施例中,所述识别处理包括:以处于所述第一在线话题的评论观点集上的评论词句为基准,以该第一在线话题的平均话题热度的1/2为识别周期,针对评论观点集上的每一个评论词句进行识别,得到与该评论词句相关的剩余设定变量个识别词句,并以该识别词句对应的分布标签得到识别结果。
在一些可能的示例中,识别处理是一个步骤,用于从评论观点集中提取或识别出与特定话题相关的信息。评论观点集是一个数据集,包含了关于某个特定话题的所有评论或观点。识别周期是一个时间段,用于确定何时对评论观点集进行识别处理。在这里,识别周期被定义为第一在线话题的平均话题热度的1/2。剩余设定变量个识别词句是识别处理的结果,包含了与某个评论词句相关的识别词句。分布标签是一种标签,表示识别词句在某种分布(如主题分布)下的位置或状态。
假设正在使用LDA话题抽取网络分析互联网社群对“保健品”的讨论。在每一次迭代中,可能会以处于第一在线话题(如关于“保健品有效性”的讨论)的评论观点集上的评论词句为基准,以该第一在线话题的平均话题热度的1/2为识别周期,针对评论观点集上的每一个评论词句进行识别处理。
例如,如果某个评论词句是“我认为这款保健品非常有效”,可能会识别出与这个词句相关的剩余设定变量个识别词句,如“保健品”、“有效”等。然后,可能会以这些识别词句对应的分布标签得到识别结果,如它们在关于“保健品有效性”的主题分布下的位置或状态。
上述实施例的设计旨在通过对在线话题的评论观点集进行深度识别处理,获取更精确和全面的关键信息,从而改进LDA话题抽取网络的性能。
详细地,应用上述实施例至少包括如下有益效果。
(1)提高了模型的灵敏度:将话题热度作为识别周期的依据,可以使模型对热门话题的关键词识别更为敏感,从而提高模型对热门问题的解析能力。
(2)增加了模型的可解释性:基于词句的识别处理以及分布标签的引入,使得模型预测结果更具可解释性。这样不仅有助于理解模型的工作机制,还可以帮助人们更好地理解和解读模型的预测结果。
(3)加强了模型的准确性:以评论词句为基准进行识别处理,使得模型可以更精准地识别出与目标话题相关的关键词,从而提高模型的准确性。
(4)提升了模型的泛化能力:识别周期的引入可以有效防止模型过拟合,使模型具有更好的泛化能力,即模型在面对未见过的数据时也能给出较好的预测结果。
(5)增强了模型的鲁棒性:通过剩余设定变量个识别词句的引入,使得模型对于输入数据的小扰动更加稳健,增强了模型的鲁棒性。
综上,这种实施方案通过精细的识别处理,有效地提高了LDA话题抽取网络在面对复杂互联网社群对话信息时的解析和预测能力。
基于上述相同或相似的技术构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行应用智能辅助决策的大数据处理方法。
基于上述相同或相似的技术构思,本发明实施例还提供了一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现应用智能辅助决策的大数据处理方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明相关内容所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种应用智能辅助决策的大数据处理方法,其特征在于,应用于智能辅助决策系统,所述方法包括:
对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱;其中,所述目标在线话题为所述第一互联网社群对话信息中包括的新闻舆情话题;
通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱;其中,所述对话文本交叉语义关系谱用于指示所述目标在线话题的评论观点集;
针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本;
利用所述话题文本进行实时追踪预警决策;
所述第二神经网络分支包括第三特征映射节点和第四特征映射节点;所述第三特征映射节点包括采用设定方式连接的第二文本语义挖掘核和第二文本语义拼接核;所述第二文本语义挖掘核包括最少两个语义提炼算子,该语义提炼算子包括级联的由最少一个局部聚焦层和与该局部聚焦层连接的特征压缩层构成的最少一个单元,和由最少一个可逆层和与该可逆层连接的特征压缩层构成的最少一个单元;所述第二文本语义拼接核包括最少两个语义拼接算子,该语义拼接算子包括级联的由最少一个可逆层和与该可逆层连接的衍生扩展层构成的最少一个单元,和由最少一个局部聚焦层和与该局部聚焦层连接的衍生扩展层构成的最少一个单元;所述第二文本语义拼接核中的每一可逆层和每一局部聚焦层皆与所述第四特征映射节点连接;
所述针对所述第一互联网社群对话信息和所述对话文本交叉语义关系谱,通过所述LDA话题抽取网络中依据局部聚焦策略的第二神经网络分支进行针对所述目标在线话题的识别操作,得到与所述目标在线话题相应的话题文本,包括:
通过所述第二文本语义挖掘核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第一互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理;
通过所述第二文本语义拼接核,结合所述对话文本交叉语义关系谱,依据局部聚焦策略针对所述第二文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理;
通过所述第四特征映射节点,针对所述第二文本语义拼接核中每一可逆层和每一局部聚焦层的输出进行针对所述目标在线话题的文本语义映射处理,得到与所述目标在线话题相应的话题文本。
2.如权利要求1所述的方法,其特征在于,所述第一神经网络分支包括第一特征映射节点和第二特征映射节点;所述第一特征映射节点包括采用设定方式连接的第一文本语义挖掘核和第一文本语义拼接核;所述第一文本语义拼接核中每一可逆层的输出通道皆与所述第二特征映射节点的输入通道相连;
所述对于第一互联网社群对话信息和依据该第一互联网社群对话信息抽取所得的第二互联网社群对话信息,分别通过预调试的LDA话题抽取网络中的第一神经网络分支进行针对目标在线话题的识别操作,得到对应的第一对话文本语义关系谱和第二对话文本语义关系谱,包括针对所述第一互联网社群对话信息和所述第二互联网社群对话信息分别实施以下处理:
通过所述第一文本语义挖掘核,针对输入的互联网社群对话信息进行针对所述目标在线话题的文本语义挖掘处理;
通过所述第一文本语义拼接核,针对所述第一文本语义挖掘核的输出进行针对所述目标在线话题的文本语义拼接处理;
通过所述第二特征映射节点,针对所述第一文本语义拼接核中每一可逆层的输出进行针对所述目标在线话题的文本语义映射处理,得到所述第一神经网络分支生成的对话文本语义关系谱。
3.如权利要求1所述的方法,其特征在于,所述通过所述第一对话文本语义关系谱和所述第二对话文本语义关系谱,得到对话文本交叉语义关系谱,包括:
针对所述第二对话文本语义关系谱进行衍生扩展,以使衍生扩展后的第二对话文本语义关系谱维度与所述第一对话文本语义关系谱一致;
针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱;
针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行作差处理,得到阶段对话文本语义关系谱;
依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱。
4.如权利要求3所述的方法,其特征在于,所述针对所述第一对话文本语义关系谱和所述衍生扩展后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱,包括:
针对所述衍生扩展后的第二对话文本语义关系谱进行优化,以过滤掉所述第二对话文本语义关系谱中的噪声语义关系集,得到优化后的第二对话文本语义关系谱;
针对所述优化后的第二对话文本语义关系谱,挖掘所述优化后的第二对话文本语义关系谱中所述目标在线话题的评论观点集,并对该评论观点集进行更新,得到更新后的第二对话文本语义关系谱;
将所述第一对话文本语义关系谱和所述更新后的第二对话文本语义关系谱进行求和处理,得到全局对话文本语义关系谱。
5.如权利要求3所述的方法,其特征在于,所述目标在线话题包括话题热度不大于设定热度门限的第一在线话题和话题热度大于所述设定热度门限的第二在线话题;
所述依据所述全局对话文本语义关系谱和所述阶段对话文本语义关系谱,针对所述目标在线话题的评论观点集进行挖掘,得到经高亮处理的对话文本交叉语义关系谱,包括:
针对所述全局对话文本语义关系谱中所述目标在线话题的评论观点集进行挖掘,得到第一评论观点集信息;
针对所述第一评论观点集信息与所述阶段对话文本语义关系谱进行乘积处理,得到所述第一在线话题的评论观点集信息;
针对所述第一评论观点集信息与所述第一在线话题的评论观点集信息进行作差处理,得到所述第二在线话题的评论观点集信息;
针对所述第一在线话题的评论观点集信息指示的评论观点集进行更新,并依据更新后的第一在线话题的评论观点集信息、所述全局对话文本语义关系谱和更新前的第一在线话题的评论观点集信息得到所述第一在线话题除评论观点集信息外的第一文本数据;
依据更新后的第一在线话题的评论观点集信息、所述第二在线话题的评论观点集信息和所述全局对话文本语义关系谱得到所述第二在线话题除评论观点集信息外的第二文本数据;
依据设定变量与所述全局对话文本语义关系谱的比较结果确定所述第一互联网社群对话信息中的非关键文本;
依据所述非关键文本、所述第一在线话题的评论观点集信息、所述第一文本数据、所述第二在线话题的评论观点集信息、所述第二文本数据得到对话文本交叉语义关系谱。
6.如权利要求1所述的方法,其特征在于,所述局部聚焦层包括用于依据输入的对话文本语义关系谱进行局部聚焦处理的第一组件和用于依据所述对话文本交叉语义关系谱提取语义特征块的第二组件;所述第一组件包括级联的第一可逆子模型、局部聚焦子模型和第二可逆子模型;所述第一可逆子模型的输出通道与所述第二可逆子模型的输出通道间隔相连;所述第二组件与所述局部聚焦子模型连接;
通过所述局部聚焦层针对输入的对话文本语义关系谱和所述对话文本交叉语义关系谱进行局部聚焦处理,包括:
通过所述第一可逆子模型,针对输入的对话文本语义关系谱进行文本语义映射处理,得到中间对话文本语义关系谱;
通过所述局部聚焦子模型,依据所述中间对话文本语义关系谱针对所述第二组件生成的每一局部文本语义关系谱确定索引特征,针对所述第二组件生成的每一局部文本语义关系谱中的每一语义特征块确定标识特征和属性特征,并依据所述索引特征、所述标识特征和所述属性特征进行局部聚焦处理,得到焦点化文本语义关系谱;
通过所述第二可逆子模型,针对所述焦点化文本语义关系谱进行文本语义映射处理,得到所述第二可逆子模型的输出,并将该输出与第一可逆子模型的输出进行求和得到当前局部聚焦层生成的对话文本语义关系谱。
7.如权利要求6所述的方法,其特征在于,通过所述第二组件依据所述对话文本交叉语义关系谱提取语义特征块,包括:
针对所述对话文本交叉语义关系谱进行拆解,得到最少两个局部文本语义关系谱;
针对每一局部文本语义关系谱中包括的高亮语义进行特征集成,得到各高亮语义对应的语义特征块;其中,所述高亮语义包括非关键文本、第一在线话题的评论观点集信息、第一文本数据、第二在线话题的评论观点集信息、第二文本数据;所述第一在线话题包括所述目标在线话题中话题热度不大于设定热度门限的在线话题;所述第二在线话题包括所述目标在线话题中话题热度大于所述设定热度门限的在线话题;所述第一文本数据包括所述第一在线话题中除评论观点集信息外的数据;所述第二文本数据包括所述第二在线话题除评论观点集信息外的数据。
8.如权利要求1所述的方法,其特征在于,所述LDA话题抽取网络经由以下步骤调试得到:
获取网络调试样本,所述网络调试样本中包括多个样本互联网社群对话信息,且每一样本互联网社群对话信息具有对应于所述目标在线话题的评论观点集上的先验关键词的注释信息;
依据所述网络调试样本对LDA话题抽取网络进行循环调试,直到符合设定完成要求,得到完成调试的LDA话题抽取网络;
其中,在每一次循环调试中,通过设定网络代价指标,依据LDA话题抽取网络生成的话题预测文本中对应于所述目标在线话题的评论观点集上的预测关键词的判别信息与所述注释信息,确定LDA话题抽取网络生成的预测结果与先验结果之间的目标代价变量,并依据该目标代价变量进行模型参量改进。
9.一种智能辅助决策系统,其特征在于,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连;所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-8任一项所述的应用智能辅助决策的大数据处理方法。
CN202311736135.XA 2023-12-18 2023-12-18 应用智能辅助决策的大数据处理方法及智能辅助决策系统 Active CN117422063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311736135.XA CN117422063B (zh) 2023-12-18 2023-12-18 应用智能辅助决策的大数据处理方法及智能辅助决策系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311736135.XA CN117422063B (zh) 2023-12-18 2023-12-18 应用智能辅助决策的大数据处理方法及智能辅助决策系统

Publications (2)

Publication Number Publication Date
CN117422063A CN117422063A (zh) 2024-01-19
CN117422063B true CN117422063B (zh) 2024-02-23

Family

ID=89532818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311736135.XA Active CN117422063B (zh) 2023-12-18 2023-12-18 应用智能辅助决策的大数据处理方法及智能辅助决策系统

Country Status (1)

Country Link
CN (1) CN117422063B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035922A1 (zh) * 2015-09-02 2017-03-09 杨鹏 一种基于改进lda模型的互联网话题在线挖掘方法
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统
CN110633373A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种基于知识图谱和深度学习的汽车舆情分析方法
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112749341A (zh) * 2021-01-22 2021-05-04 南京莱斯网信技术研究院有限公司 重点舆情推荐方法、可读存储介质及数据处理装置
CN112883286A (zh) * 2020-12-11 2021-06-01 中国科学院深圳先进技术研究院 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质
CN112905800A (zh) * 2021-01-25 2021-06-04 北京工业大学 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN114265931A (zh) * 2021-11-29 2022-04-01 武汉理工大学 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN114579833A (zh) * 2022-03-03 2022-06-03 重庆邮电大学 一种基于主题挖掘和情感分析的微博舆情可视分析方法
CN114722896A (zh) * 2022-03-05 2022-07-08 昆明理工大学 融合近邻标题图的新闻话题发现方法
CN116304087A (zh) * 2023-02-20 2023-06-23 浙江工业大学 一种基于知识图谱的微博事件热度预测方法
CN116628168A (zh) * 2023-06-12 2023-08-22 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、系统及云平台
CN116795985A (zh) * 2023-06-25 2023-09-22 北京计算机技术及应用研究所 网络舆情异常识别与处理方法
CN117112909A (zh) * 2023-09-12 2023-11-24 厦门登谷网络科技有限公司 应用于云数字业务的大数据推荐方法及大数据挖掘系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052375A (zh) * 2020-09-30 2020-12-08 北京百度网讯科技有限公司 舆情获取和词粘度模型训练方法及设备、服务器和介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035922A1 (zh) * 2015-09-02 2017-03-09 杨鹏 一种基于改进lda模型的互联网话题在线挖掘方法
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN110633373A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种基于知识图谱和深度学习的汽车舆情分析方法
CN110046260A (zh) * 2019-04-16 2019-07-23 广州大学 一种基于知识图谱的暗网话题发现方法和系统
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112883286A (zh) * 2020-12-11 2021-06-01 中国科学院深圳先进技术研究院 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质
CN112749341A (zh) * 2021-01-22 2021-05-04 南京莱斯网信技术研究院有限公司 重点舆情推荐方法、可读存储介质及数据处理装置
CN112905800A (zh) * 2021-01-25 2021-06-04 北京工业大学 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN114265931A (zh) * 2021-11-29 2022-04-01 武汉理工大学 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN114579833A (zh) * 2022-03-03 2022-06-03 重庆邮电大学 一种基于主题挖掘和情感分析的微博舆情可视分析方法
CN114722896A (zh) * 2022-03-05 2022-07-08 昆明理工大学 融合近邻标题图的新闻话题发现方法
CN116304087A (zh) * 2023-02-20 2023-06-23 浙江工业大学 一种基于知识图谱的微博事件热度预测方法
CN116628168A (zh) * 2023-06-12 2023-08-22 深圳市逗娱科技有限公司 基于大数据的用户个性分析处理方法、系统及云平台
CN116795985A (zh) * 2023-06-25 2023-09-22 北京计算机技术及应用研究所 网络舆情异常识别与处理方法
CN117112909A (zh) * 2023-09-12 2023-11-24 厦门登谷网络科技有限公司 应用于云数字业务的大数据推荐方法及大数据挖掘系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Iteratively Tracking Hot Topics on Public Opinion Based on Parallel Intelligence;Xin Liu 等;《IEEE JOURNAL OF RADIO FREQUENCY IDENTIFICATION》;20221013;第7卷;158-162 *
RESEARCH ON HOTSPOT MINING METHOD OF TWITTER NEWS REPORT BASED ON LDA AND SENTIMENT ANALYSIS;LING-FEI ZHANG 等;《2020 International Conference on Machine Learning and Cybernetics》;20210705;40-44 *
基于LDA 与注意力机制BiLSTM 的微博舆情分析模型;曾莉 等;《南京理工大学学报》;20221231;第46卷(第6期);742-748 *
基于深度学习的医患舆情多维演化仿真分析;谭旭 等;《计算机工程与应用》;20231031;第59卷(第19期);82-91 *

Also Published As

Publication number Publication date
CN117422063A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN111581983B (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN106294618A (zh) 搜索方法及装置
CN113378565A (zh) 多源数据融合的事件分析方法、装置、设备及存储介质
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN117666546B (zh) 一种分布式控制系统故障诊断方法及装置
Yan et al. Enhancing large language model capabilities for rumor detection with knowledge-powered prompting
CN114330482A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN113674846A (zh) 基于lstm网络的医院智慧服务舆情监控平台
CN113449508A (zh) 一种基于事件链的网络舆情关联推演预测分析方法
CN117422063B (zh) 应用智能辅助决策的大数据处理方法及智能辅助决策系统
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
Ahmadi et al. Inductive and transductive link prediction for criminal network analysis
Lisjana et al. Classifying complaint reports using rnn and handling imbalanced dataset
Salehi et al. Domestic violence risk prediction in Iran using a machine learning approach by analyzing Persian textual content in social media
CN111242520B (zh) 特征合成模型的生成方法、装置及电子设备
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
Tan et al. Constructing and Interpreting Causal Knowledge Graphs from News
Lee et al. Exploiting online social data in ontology learning for event tracking and emergency response
Thethi et al. Stock Market Prediction and Portfolio Management using ML techniques
Huang et al. An Entity-Level Sentiment Analysis of Financial Text Based on Pre-Trained Language Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant