CN113157871B - 应用人工智能的新闻舆情文本处理方法、服务器及介质 - Google Patents
应用人工智能的新闻舆情文本处理方法、服务器及介质 Download PDFInfo
- Publication number
- CN113157871B CN113157871B CN202110584711.8A CN202110584711A CN113157871B CN 113157871 B CN113157871 B CN 113157871B CN 202110584711 A CN202110584711 A CN 202110584711A CN 113157871 B CN113157871 B CN 113157871B
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- news
- opinion text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能和文本分析技术领域,具体而言,涉及应用人工智能的新闻舆情文本处理方法、服务器及介质,能够将目标网络新闻文本和各个新闻参考文本映射到同一基准规范下进行比对分析,根据事先存储的各个基准舆情文本片段之间的相关性系数,确定第一基准网络新闻文本集与每个第二基准网络新闻文本集之间片段集相关性,从而获得目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度,进而有效简化确定目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度的过程,提高了新闻舆情文本分析的效率,避免在一些时段内处理大量的新闻舆情文本而导致服务器崩溃。
Description
技术领域
本申请实施例涉及人工智能和文本分析技术领域,具体涉及一种应用人工智能的新闻舆情文本处理方法、服务器及介质。
背景技术
现目前,随着互联网的发展,网络媒体平台的兴起,新闻媒体传播渠道越来越多样化,传播形式也越来越丰富,给新闻舆情的传播提供了广阔的空间。为了实现对大量新闻舆情信息的有效处理和归类,相关技术会借助人工智能(Artificial Intelligence,AI)技术进行文本处理。
然而在实际处理过程中,由于新闻文本的数量不断激增,传统的文本分析方法存在效率低下的问题,在一些情况下可能导致服务器崩溃。
发明内容
有鉴于此,本申请实施例提供了一种应用人工智能的新闻舆情文本处理方法、服务器及介质。
本申请实施例提供了一种应用人工智能的新闻舆情文本处理方法,应用于人工智能服务器,所述方法包括:
根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,以及,与新闻参考文本之间的相关性系数满足所述第一设定相关性判定条件的第二基准舆情文本片段集;其中,所述第一基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第一基准舆情文本片段构成;所述新闻参考文本是事先存储的各个新闻参考文本中的新闻参考文本,所述第二基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第二基准舆情文本片段构成;
分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,获得所述目标网络新闻文本与所述每个新闻参考文本之间的新闻文本相关度。
可选的,在根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集之前,还包括:
将每个所述新闻参考文本分别拆分为相同数目的多个舆情文本参考片段,获得每个所述新闻参考文本分别对应的舆情文本参考片段集;其中,所述舆情文本参考片段集中的各个舆情文本参考片段按照各个舆情文本参考片段在对应的新闻参考文本中的分布区域整理;
基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
可选的,基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段,包括:
将每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段作为一个文本片段描述序列,对每个文本片段描述序列进行特征分析处理,获得每个文本片段描述序列分别对应的一个或者多个基准舆情文本片段;
根据每个所述文本片段描述序列分别对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
可选的,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,包括:
将所述目标网络新闻文本拆分为多个目标舆情文本片段,获得所述目标网络新闻文本的目标舆情文本片段集;其中,所述目标舆情文本片段集中的各个目标舆情文本片段按照各个目标舆情文本片段在目标网络新闻文本中的分布区域整理;
确定所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,与所述目标舆情文本片段之间的相关性系数满足第二设定相关性判定条件的第一基准舆情文本片段;其中,所述目标舆情文本片段在所述目标舆情文本片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同;
在每个所述目标舆情文本片段皆存在一个对应的所述第一基准舆情文本片段的前提下,确定由各个所述第一基准舆情文本片段构成的所述第一基准舆情文本片段集,与所述目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件,获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集。
可选的,在事先存储的各个基准舆情文本片段分别具有文本片段标签,在所述文本片段标签用于唯一表示每个基准舆情文本片段的前提下,获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集,包括:
根据各个所述第一基准舆情文本片段的文本片段标签,获得所述目标网络新闻文本对应的第一基准舆情文本片段集。
可选的,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,根据事先存储的各个基准舆情文本片段,确定分别与各个事先存储的新闻参考文本之间的相关性系数满足第一设定相关性判定条件的各个第二基准舆情文本片段集,包括:
在所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,确定与所述舆情文本参考片段之间的相关性系数满足第二设定相关性判定条件的第二基准舆情文本片段;其中,所述舆情文本参考片段在所述舆情文本参考片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同;
在每个所述舆情文本参考片段皆存在一个对应的所述第二基准舆情文本片段的前提下,确定由各个所述第二基准舆情文本片段构成的所述第二基准舆情文本片段集,与所述新闻参考文本之间的相关性系数满足第一设定相关性判定条件,获得所述新闻参考文本对应的所述第二基准舆情文本片段集。
可选的,在所述第一基准舆情文本片段集中第一基准舆情文本片段的数目与所述第二基准舆情文本片段集中第二基准舆情文本片段的数目一致的前提下,分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,包括:
分别确定所述第一基准舆情文本片段集中每个第一基准舆情文本片段,与所述第二基准舆情文本片段集中对应分布区域的第二基准舆情文本片段之间的文本片段相关性系数;
对获得的文本片段相关性系数进行全局优化处理,获得所述第一基准舆情文本片段集与所述第二基准舆情文本片段集之间的片段集相关性。
可选的,所述方法还包括:
根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库;
相应的,根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库,包括:
根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息;
在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息;
根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库。
本申请实施例还提供了一种人工智能服务器,包括处理器、通信总线和存储器;所述处理器和所述存储器通过所述通信总线通信,所述处理器从所述存储器中读取计算机程序并运行,以执行上述的方法。
本申请实施例还提供了一种计算机用可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。
相较于现有技术,本申请实施例提供的应用人工智能的新闻舆情文本处理方法、服务器及介质具有以下技术效果:在事先存储的各个基准舆情文本片段中,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的一个或者多个第一基准舆情文本片段,获得目标网络新闻文本对应的第一基准网络新闻文本集,以及与新闻参考文本之间的相关性系数满足第一设定相关性判定条件的一个或者多个第二基准舆情文本片段,获得各个新闻参考文本对应的第二基准文本片段集。如此设计,能够将目标网络新闻文本和各个新闻参考文本映射到同一基准规范下进行比对分析,根据事先存储的各个基准舆情文本片段之间的相关性系数,确定第一基准网络新闻文本集与每个第二基准网络新闻文本集之间片段集相关性,从而获得目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度,进而有效简化确定目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度的过程,提高了新闻舆情文本分析的效率,避免在一些时段内处理大量的新闻舆情文本而导致服务器崩溃。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种人工智能服务器的方框示意图。
图2为本申请实施例所提供的一种应用人工智能的新闻舆情文本处理方法的流程图。
图3为本申请实施例所提供的一种应用人工智能的新闻舆情文本处理装置的框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1示出了本申请实施例所提供的一种人工智能服务器10的方框示意图。本申请实施例中的人工智能服务器10可以为具有数据存储、传输、处理功能的服务端,如图1所示,人工智能服务器10包括:存储器11、处理器12、通信总线13和应用人工智能的新闻舆情文本处理装置20。
存储器11、处理器12和通信总线13之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有应用人工智能的新闻舆情文本处理装置20,所述应用人工智能的新闻舆情文本处理装置20包括至少一个可以软件或固件(firmware)的形式储存于所述存储器11中的软件功能模块,所述处理器12通过运行存储在存储器11内的软件程序以及模块,例如本申请实施例中的应用人工智能的新闻舆情文本处理装置20,从而执行各种功能应用以及数据处理,即实现本申请实施例中的应用人工智能的新闻舆情文本处理方法。
其中,所述存储器11可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。
所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器 (Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等。可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通信总线13用于通过网络建立人工智能服务器10与其他通信终端设备之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,人工智能服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供了一种计算机用可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。
图2示出了本申请实施例所提供的一种应用人工智能的新闻舆情文本处理方法的流程图。所述方法有关的流程所定义的方法步骤应用于人工智能服务器10,可以由所述处理器12实现,所述方法包括以下步骤100-步骤300所描述的技术方案。
步骤100:人工智能服务器根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,以及,与新闻参考文本之间的相关性系数满足所述第一设定相关性判定条件的第二基准舆情文本片段集。
本申请实施例中,网络新闻文本和舆情文本片段之间的关系可以是包含关系,比如网络新闻文本为文本1、文本2、文本3、文本4和文本5,那么舆情文本片段可以是文本3或者文本4。应当理解,网络新闻文本和舆情文本片段之间的关系仅作示例解释,并不是对本方案的限定。
例如,基准舆情文本片段可以是标准舆情文本片段,比如具有参考价值和分析价值的舆情文本片段。
目标网络新闻文本可以是人工智能服务器实时获取到的,比如体育新闻、金融新闻、娱乐新闻等。
举例而言,相关性系数可以理解为文本相似度、词向量余弦距离,在一些情况下,也可以通过皮尔森相关性系数或者斯皮尔曼相关性系数进行表达,本申请实施例不作限制。
在步骤100中,所述第一基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第一基准舆情文本片段构成。进一步地,所述新闻参考文本是事先存储的各个新闻参考文本中的新闻参考文本,所述第二基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第二基准舆情文本片段构成。
在一些可能的实施例中,在实施上述步骤100所描述的根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集的步骤之前,该方法还可以包括以下步骤210和步骤220所描述的技术方案。
步骤210:将每个所述新闻参考文本分别拆分为相同数目的多个舆情文本参考片段,获得每个所述新闻参考文本分别对应的舆情文本参考片段集。
在本申请实施例中,所述舆情文本参考片段集中的各个舆情文本参考片段按照各个舆情文本参考片段在对应的新闻参考文本中的分布区域整理。
例如,各个舆情文本参考片段在对应的新闻参考文本中的分布区域可以理解为各个舆情文本参考片段在对应的新闻参考文本中的位置。舆情文本参考片段集中的各个舆情文本参考片段可以按照各个舆情文本参考片段在对应的新闻参考文本中的位置进行排序或者排列。
步骤220:基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
相应的,相同分布区域上的舆情文本参考片段可以理解为相同位置对应的舆情文本参考片段。在一些可能的实施例中,上述步骤220所描述的基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段,可以包括以下步骤221和步骤222所描述的技术方案。
步骤221:将每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段作为一个文本片段描述序列,对每个文本片段描述序列进行特征分析处理,获得每个文本片段描述序列分别对应的一个或者多个基准舆情文本片段。
例如,文本片段描述序列可以理解为文本特征数据集合。
步骤222:根据每个所述文本片段描述序列分别对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
如此设计,通过上述步骤221和步骤222,能够确保得到的基准舆情文本片段的完整性。
在一些可能的示例中,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,上述步骤100所描述的根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,可以包括以下步骤110-步骤130所描述的技术方案。
步骤110:将所述目标网络新闻文本拆分为多个目标舆情文本片段,获得所述目标网络新闻文本的目标舆情文本片段集。
在步骤110中,所述目标舆情文本片段集中的各个目标舆情文本片段按照各个目标舆情文本片段在目标网络新闻文本中的分布区域整理。
步骤120:确定所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,与所述目标舆情文本片段之间的相关性系数满足第二设定相关性判定条件的第一基准舆情文本片段。
可以理解的是,所述目标舆情文本片段在所述目标舆情文本片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同。
步骤130:在每个所述目标舆情文本片段皆存在一个对应的所述第一基准舆情文本片段的前提下,确定由各个所述第一基准舆情文本片段构成的所述第一基准舆情文本片段集,与所述目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件,获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集。
可以理解的是,在本方案中,确定由各个所述第一基准舆情文本片段构成的所述第一基准舆情文本片段集,与所述目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件是基于每个所述目标舆情文本片段皆存在一个对应的所述第一基准舆情文本片段实现的,这样能够有效减少人工智能服务器的计算量,从而释放人工智能服务器的内存资源,使得人工智能服务器能够在相同时段内处理更多的网络新闻文本。
相应的,第二设定相关性判定条件可以根据第一设定相关性判定条件进行对应设置,本申请实施例不作进一步说明。
在一些可能的实施例中,在事先存储的各个基准舆情文本片段分别具有文本片段标签,在所述文本片段标签用于唯一表示每个基准舆情文本片段的前提下,步骤130中所描述的获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集,可以包括以下技术方案:根据各个所述第一基准舆情文本片段的文本片段标签,获得所述目标网络新闻文本对应的第一基准舆情文本片段集。
在相关的实施例中,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,步骤100中所对应的根据事先存储的各个基准舆情文本片段,确定分别与各个事先存储的新闻参考文本之间的相关性系数满足第一设定相关性判定条件的各个第二基准舆情文本片段集,可以包括以下步骤(1)和步骤(2)所描述的技术方案。
(1)在所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,确定与所述舆情文本参考片段之间的相关性系数满足第二设定相关性判定条件的第二基准舆情文本片段。
在步骤(1)中,所述舆情文本参考片段在所述舆情文本参考片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同。相应的,邻居分布区域可以理解为关联分布区域。
(2)在每个所述舆情文本参考片段皆存在一个对应的所述第二基准舆情文本片段的前提下,确定由各个所述第二基准舆情文本片段构成的所述第二基准舆情文本片段集,与所述新闻参考文本之间的相关性系数满足第一设定相关性判定条件,获得所述新闻参考文本对应的所述第二基准舆情文本片段集。
可以理解的是,通过上述步骤(1)和步骤(2),能够将文本片段描述序列的邻居分布区域考虑在内,并结合对应的设定相关性判定条件完整、准确地确定新闻参考文本对应的所述第二基准舆情文本片段集。
步骤300:人工智能服务器分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,获得所述目标网络新闻文本与所述每个新闻参考文本之间的新闻文本相关度。
在本申请实施例中,片段集相关性用于表征基准舆情文本片段集之间的相似度或者相关度,相应的,新闻文本相关度用于从整体层面确定目标网络新闻文本与每个新闻参考文本之间的文本相似度,这样可以快速确定目标网络新闻文本与每个新闻参考文本之间的文本相似度,以实现对目标网络新闻文本的分类处理,便于后续进行全局层面的分析。
在一些选择性的实施例中,可以基于片段集相关性进行加权处理,从而得到目标网络新闻文本与每个新闻参考文本之间的新闻文本相关度,这样可以在确保新闻文本相关度的准确性和可靠性的前提下有效减少相关度的计算复杂度,从而减少人工智能服务器的文本处理压力,避免在一些时段处理大量的新闻文本而导致人工智能服务器崩溃。
在一些可能的实施例中,在所述第一基准舆情文本片段集中第一基准舆情文本片段的数目与所述第二基准舆情文本片段集中第二基准舆情文本片段的数目一致的前提下,上述步骤300所描述的分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,可以包括以下步骤310和步骤320。
步骤310:分别确定所述第一基准舆情文本片段集中每个第一基准舆情文本片段,与所述第二基准舆情文本片段集中对应分布区域的第二基准舆情文本片段之间的文本片段相关性系数。
在本申请实施例中,文本片段相关性系数可以是文本关键词的词向量余弦距离。
步骤320:对获得的文本片段相关性系数进行全局优化处理,获得所述第一基准舆情文本片段集与所述第二基准舆情文本片段集之间的片段集相关性。
在本申请实施例中,全局优化处理可以理解为对获得的文本片段相关性系数进行加权,从而从整体层面确定出第一基准舆情文本片段集与第二基准舆情文本片段集之间的片段集相关性。
在一些选择性的实施例中,在上述步骤300所描述的获得所述目标网络新闻文本与所述每个新闻参考文本之间的新闻文本相关度之后,该方法还可以包括以下技术方案:根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库。
在实际实施过程中,与目标网络新闻文本对应的目标话题互动客户端可以是浏览目标网络新闻文本、转发目标网络新闻文本或者评论目标网络新闻文本的客户端。
在一些选择性的实施例中,上述步骤“根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库”进一步可以通过以下实施方式实现:根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息;在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息;根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库。
在一些选择性的实施例中,上述步骤“根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息;在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息;根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库”进一步可以通过以下实施方式实现。
S21、人工智能服务器根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息。
例如,人工智能服务器与目标话题互动客户端通信,并在获得目标话题互动客户端授权的前提下获取对应的目标话题评论内容。目标话题评论内容可以是文本内容。第一组话题观点文本可以是用户输入的文字性观点评论。目标在线评论用户可以是通过账号登录的互联网用户。相应的,评论情感极性信息可以包括积极、消极和中立三种情感极性,也可以包括其他类型的极性,本方案不一一列举。
在本申请实施例中,可以通过相关神经网络模型对第一组话题观点文本进行分析从而得到第一评论情感极性信息,比如可以预先对神经网络模型进行训练,然后调用神经网络模型对第一组话题观点文本进行分析,具体实施方式可以参阅相关现有技术。
S22、人工智能服务器在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息。
例如,第二组话题观点文本的生成时刻可以在第一组话题观点文本之前,第二组话题观点文本中存在的所述目标在线评论用户可以理解为第二组话题观点文本中存在所述目标在线评论用户的在线状态标识。
关联观点文本可以是其他用户的话题观点文本,用以辅助确定目标在线评论用户的第二评论情感极性信息,比如,可以根据关联观点文本与第二组话题观点文本之间的语义关联情况确定目标在线评论用户的第二评论情感极性信息,这样可以尽可能确保第二评论情感极性信息的完整性。
在一些可以替换的实施例中,在S22所描述的根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息的步骤之前,该方法还可以包括以下技术方案:根据所述目标话题互动客户端获取第一组话题观点文本中所述目标在线评论用户的第二目标策略信息;获取所述第二目标策略信息的情感关键描述,并根据所述情感关键描述调整得到第二解析策略信息;获取所述第二解析策略信息的策略描述特征;通过对所述第二解析策略信息的策略描述特征进行迭代处理得到所述文本同步更新线程的样本训练序列;根据所述样本训练序列以及线性回归模型确定所述文本同步更新线程。
这样一来,能够对文本同步更新线程进行配置和优化,从而确保文本同步更新线程在后续运行时的稳定性。
在一些可以替换的实施例中,在S22所描述的根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息之前,该方法还可以包括以下技术方案:获取同步更新的关联观点文本的最大关联度;获取同步更新的关联观点文本与预设自然语言文本特征分布之间的匹配程度;根据所述最大关联度和所述匹配程度确定所述目标在线评论用户的话题评论可信系数;在所述话题评论可信系数大于第四设定阈值的前提下,确定所述第二组话题观点文本中存在所述目标在线评论用户。
如此设计,可以基于话题评论可信系数准确判断第二组话题观点文本中是否存在所述目标在线评论用户,从而为后续的知识库搭建提供准确可靠的数据依据。
S23、人工智能服务器根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库。
在本申请实施例中,话题评论画像知识库可以理解为话题评判画像的知识图谱,知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
可以理解,通过不同的评论情感极性信息能够确保话题评论画像知识库在搭建过程中的完整性,避免遗漏部分评论情感极性而导致题评论画像知识库出现缺失。
在一些选择性的实施例中,上述S23所描述的根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库,可以包括以下S231-S236。
S231、根据所述第一评论情感极性信息以及所述第二评论情感极性信息获取评论语义情绪内容集合,其中,所述评论语义情绪内容集合包括相关的x组评论语义情绪内容,所述x为大于1的整数。
S232、根据所述评论语义情绪内容集合获取情绪内容噪声集合,其中,所述情绪内容噪声集合包括相关的x组情绪内容噪声。
例如,情绪内容噪声是存在干扰的情绪内容。
S233、基于所述评论语义情绪内容集合,通过评论语义识别网络所包括的第一描述识别单元获取评论语义关键描述集合,其中,所述评论语义关键描述集合包括x个评论语义关键描述。
S234、基于所述情绪内容噪声集合,通过所述评论语义识别网络所包括的第二描述识别单元获取噪声关键描述集合,其中,所述噪声关键描述集合包括x个噪声关键描述。
S235、基于所述评论语义关键描述集合以及所述噪声关键描述集合,通过所述评论语义识别网络所包括的情绪极性聚类单元获取所述评论语义情绪内容集合所对应的情绪画像聚类结果;根据所述情绪画像聚类结果确定所述评论语义情绪内容集合的情绪画像拼接策略。
例如,情绪画像拼接策略包括标签节点之间的连接关系和标签节点的属性配置信息等。
S236、利用所述情绪画像拼接策略对所述第一评论情感极性信息的情绪画像标签以及以及所述第二评论情感极性信息的情绪画像标签进行图数据化处理,得到所述话题评论画像知识库;
例如,图数据化处理可以理解为将不同的情绪画像标签进行节点化处理,从而形成话题评论画像知识库(知识图谱)。
可以理解,通过实施上述S231-S236,能够将评论语义情绪内容以及情绪内容噪声考虑在内,从而得到情绪画像拼接策略,以通过情绪画像拼接策略对所述第一评论情感极性信息的情绪画像标签以及以及所述第二评论情感极性信息的情绪画像标签进行图数据化处理,得到所述话题评论画像知识库,这样可以确保话题评论画像知识库的完整性,避免出现部分画像节点或者画像节点之间的连边的缺失,以提高话题评论画像知识库的质量。
在一些选择性的实施例中,S235所描述的基于所述评论语义关键描述集合以及所述噪声关键描述集合,通过所述评论语义识别网络所包括的情绪极性聚类单元获取所述评论语义情绪内容集合所对应的情绪画像聚类结果,可以包括以下S2351-S2355。
S2351、基于所述评论语义关键描述集合,通过所述评论语义识别网络所包括的第一全局特征识别层获取x个第一语义特征图,其中,每个第一语义特征图对应于一个评论语义关键描述。
S2352、基于所述噪声关键描述集合,通过所述评论语义识别网络所包括的第二全局特征识别层获取x个第二语义特征图,其中,每个第二语义特征图对应于一个噪声关键描述。
S2353、对所述x个第一语义特征图以及所述x个第二语义特征图进行整合处理,得到x个目标语义特征图,其中,每个目标语义特征图包括一个第一语义特征图以及一个第二语义特征图。
S2354、基于所述x个目标语义特征图,通过所述评论语义识别网络所包括的时间域关注单元获取融合语义特征图,其中,所述融合语义特征图为根据所述x个目标语义特征图以及x个时序权重确定的,每个目标语义特征图对应于一个时序权重。
S2355、基于所述融合语义特征图,通过所述评论语义识别网络所包括的情绪极性聚类单元获取所述评论语义情绪内容集合所对应的情绪画像聚类结果。
在一些可能的实施例中,在S23所描述的根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库的步骤之后,所述方法包括以下S241-S244。
S241、在所述目标在线评论用户在第三组至第四组话题观点文本内不存在互动评论记录的前提下,根据所述话题评论画像知识库分析所述目标在线评论用户在第三组话题观点文本中的第三评论情感极性信息,其中,所述第三组与所述第四组之间间隔n组,n为大于1、且小于第一设定阈值的正整数。
例如,互动评论记录可以是与目标在线评论用户对应的评论记录。
S242、根据所述第三评论情感极性信息确定所述目标在线评论用户的第一解析策略信息。
例如,第一解析策略信息用于确定关联观点文本。
相应的,在一些示例中,S242所描述的根据所述第三评论情感极性信息确定所述目标在线评论用户的第一解析策略信息,包括:以所述目标在线评论用户在第二组话题观点文本中的第一目标策略信息的事理图谱传递路径为所述第一解析策略信息的事理图谱传递路径,以所述目标在线评论用户在所述第二组话题观点文本中所述第一目标策略信息的情感关键描述的特征加权结果为所述第一解析策略信息的情感关键描述,确定所述第一解析策略信息。
例如,事理图谱为一个事理逻辑知识库,描述了事件之间的演化规律和模式。在结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。因此,为了准确将不同分类标识对应的新闻事件的事件内容准确、并高效的呈现给用户,以实现新闻预警的目的,将事件内容以具有逻辑关系的方式映射到事理图谱对应的节点处。进一步地,情感关键描述可以是特征向量。
S243、根据所述文本同步更新线程获取所述第一解析策略信息的关联观点文本的最大关联度。
例如,文本同步更新线程可以是预先配置完成的,用以进行评论文本同步,以避免相关文本信息的丢失。
在一些可能的实施例中,S243所描述的根据所述文本同步更新线程获取所述第一解析策略信息的关联观点文本的最大关联度的步骤,可以包括以下S2431-S2434。
S2431、获取所述第一解析策略信息的策略描述特征。
例如,策略描述特征用于从不同维度表达解析策略信息。
S2432、在所述第一解析策略信息的策略描述特征中确定出m个局部策略描述特征。
在本申请实施例中,所述m个局部策略描述特征的特征维度和特征分布相同,所述m个局部策略描述特征第一个局部策略描述特征的一个特征值为所述策略描述特征的第一特征值,所述m个局部策略描述特征最后一个局部策略描述特征的一个特征值为所述策略描述特征的第二特征值,所述第一特征值和所述第二特征值存在关联,所述m个局部策略描述特征中每相邻的两个局部策略描述特征之间存在相同特征维度的共有策略信息,所述m为大于1的正整数。
S2433、根据所述文本同步更新线程获取所述m个局部策略描述特征对应的m个关联观点文本。
S2434、将所述m个关联观点文本中的最大关联度确定为所述第一解析策略信息的关联观点文本的最大关联度。
如此设计,通过上述S2431-S2434,能够尽可能完整地获取关联观点文本,从而确保第一解析策略信息的关联观点文本的最大关联度的可信度。
S244、在所述最大关联度大于第二设定阈值的前提下,确定所述第三评论情感极性信息为所述目标在线评论用户的话题评论画像知识库的信息。
可以理解的是,通过确定第三评论情感极性信息为所述目标在线评论用户的话题评论画像知识库的信息,能够结合第三评论情感极性信息进一步优化和完善话题评论画像知识库,从而确保话题评论画像知识库处于持续的更新状态中。
在另外的一些实施例中,S23所描述的根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库之后,所述方法还可以包括以下S251-S255。
S251、在所述目标在线评论用户在第三组至第五组话题观点文本内不存在互动评论记录的前提下,根据所述目标话题互动客户端确定所述第三组话题观点文本中所述目标在线评论用户的所有目标备选策略信息,其中所述第三组与所述第五组之间间隔k组,k为大于第一设定阈值的正整数;
S252、将所述所有目标备选策略信息的事理图谱传递路径和策略优先级优化与所述第二组话题观点文本中所述目标在线评论用户所在的第一目标策略信息的事理图谱传递路径和策略优先级一致。
S253、提取所有优化后的所述目标备选策略信息的策略描述向量。
S254、计算每个所述目标备选策略信息的策略描述向量与目标策略描述向量的余弦距离,其中,所述目标策略描述向量是从所述第一目标策略信息中提取所述目标在线评论用户得到的向量。
S255、在最大余弦距离大于第三设定阈值的前提下,将所述最大余弦距离对应的目标备选策略信息中目标在线评论用户的第四评论情感极性信息确定为所述话题评论画像知识库的信息。
可以理解,通过确定第四评论情感极性信息为所述目标在线评论用户的话题评论画像知识库的信息,能够结合第四评论情感极性信息进一步优化和完善话题评论画像知识库,从而确保话题评论画像知识库处于持续的更新状态中。
在一些相关的实施例中,该方法还可以包括以下S31-S34。
S31、根据所述目标话题互动客户端获取所述目标话题评论内容的第一组话题观点文本中所述目标在线评论用户的第一用户绑定信息。
例如,用户绑定信息用于检测目标在线评论用户。
S32、在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据事理图谱传递路径和策略优先级关联线程关联观点文本的最大评论情感极性获取所述目标在线评论用户在所述第二组话题观点文本中的事理图谱传递路径和策略优先级。
例如,评论情感极性可以量化表达,比如消极极性为0,积极极性为1。
S33、根据所述第二评论情感极性信息、所述事理图谱传递路径和策略优先级确定所述目标在线评论用户在所述第二组话题观点文本中的第二用户绑定信息。
在一些可能的示例中,S33所描述的根据所述第二评论情感极性信息、所述事理图谱传递路径和策略优先级输出所述目标在线评论用户在所述第二组话题观点文本中的第二用户绑定信息之后,所述方法还可以包括以下步骤a1-步骤a4。
步骤a1、根据所述第一组话题观点文本中所述目标在线评论用户的目标策略描述向量、所述第二组话题观点文本中的第二用户绑定信息数据以及第一全局线程配置参数确定所述目标在线评论用户在所述第二组话题观点文本中的目标策略描述向量。
步骤a2、根据所述第一组话题观点文本中的文本同步更新线程、所述第二组话题观点文本中的第二用户绑定信息数据以及第二全局线程配置参数确定所述第二组话题观点文本中的文本同步更新线程。
步骤a3、根据所述第一组话题观点文本中的事理图谱传递路径和策略优先级关联线程、所述第二组话题观点文本中的第二用户绑定信息数据以及第三全局线程配置参数确定所述第二组话题观点文本中的事理图谱传递路径和策略优先级关联线程。
步骤a4、依次按照以上步骤a1-a3,根据前一组话题观点文本中所述目标在线评论用户的目标策略描述向量、当前组话题观点文本中的用户绑定信息数据以及全局线程配置参数确定所述当前组话题观点文本中所述目标在线评论用户的目标策略描述向量、文本同步更新线程以及事理图谱传递路径和策略优先级关联线程。
S34、通过所述第一用户绑定信息和所述第二用户绑定信息对所述目标在线评论用户进行持续性画像挖掘。
在本申请实施例中,持续性画像挖掘可以是对目标在线评论用户的相关评论文本或者用户操作进行实时不间断的画像分析,从而为知识库的更新提供尽可能多的素材。
如此,能够通过根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息;在目标话题评论内容的第二组话题观点文本中存在的目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定目标在线评论用户的第二评论情感极性信息;根据第一评论情感极性信息和第二评论情感极性信息确定目标在线评论用户的话题评论画像知识库,达到了根据文本同步更新线程获取的关联观点文本确定目标话题评论内容中每组话题观点文本中目标在线评论用户的评论情感极性信息的目的,从而实现了根据同步更新的关联观点文本完整确定目标在线评论用户评论情感极性信息的技术效果,进而解决了相关技术中,在较为繁杂的话题交互环境下目标在线评论用户的话题评论画像知识库出现缺失的技术问题。
综上所述,本申请实施例中,在事先存储的各个基准舆情文本片段中,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的一个或者多个第一基准舆情文本片段,获得目标网络新闻文本对应的第一基准网络新闻文本集,以及与新闻参考文本之间的相关性系数满足第一设定相关性判定条件的一个或者多个第二基准舆情文本片段,获得各个新闻参考文本对应的第二基准文本片段集。如此设计,能够将目标网络新闻文本和各个新闻参考文本映射到同一基准规范下进行比对分析,根据事先存储的各个基准舆情文本片段之间的相关性系数,确定第一基准网络新闻文本集与每个第二基准网络新闻文本集之间片段集相关性,从而获得目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度,进而有效简化确定目标网络新闻文本与各个新闻参考文本之间的新闻文本相关度的过程,提高了新闻舆情文本分析的效率,避免在一些时段内处理大量的新闻舆情文本而导致服务器崩溃。
基于上述同样的发明构思,还提供了一种应用人工智能的新闻舆情文本处理装置20,应用于人工智能服务器10,所述装置包括:
文本片段确定模块21,用于根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,以及,与新闻参考文本之间的相关性系数满足所述第一设定相关性判定条件的第二基准舆情文本片段集;其中,所述第一基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第一基准舆情文本片段构成;所述新闻参考文本是事先存储的各个新闻参考文本中的新闻参考文本,所述第二基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第二基准舆情文本片段构成。
文本相关分析模块22,用于分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,获得所述目标网络新闻文本与所述每个新闻参考文本之间的新闻文本相关度。
关于上述功能模块的描述请参阅对图2所示的方法的描述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,人工智能服务器10,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种应用人工智能的新闻舆情文本处理方法,其特征在于,应用于人工智能服务器,所述方法至少包括:
根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,以及,与新闻参考文本之间的相关性系数满足所述第一设定相关性判定条件的第二基准舆情文本片段集;其中,所述第一基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第一基准舆情文本片段构成;所述新闻参考文本是事先存储的各个新闻参考文本中的新闻参考文本,所述第二基准舆情文本片段集是由各个基准舆情文本片段中的一个或者多个第二基准舆情文本片段构成;
分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,获得所述目标网络新闻文本与所述每个新闻参考文本之间的新闻文本相关度。
2.根据权利要求1所述的方法,其特征在于,在根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集之前,还包括:
将每个所述新闻参考文本分别拆分为相同数目的多个舆情文本参考片段,获得每个所述新闻参考文本分别对应的舆情文本参考片段集;其中,所述舆情文本参考片段集中的各个舆情文本参考片段按照各个舆情文本参考片段在对应的新闻参考文本中的分布区域整理;
基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
3.根据权利要求2所述的方法,其特征在于,基于每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段,确定对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段,包括:
将每个所述舆情文本参考片段集中,相同分布区域上的舆情文本参考片段作为一个文本片段描述序列,对每个文本片段描述序列进行特征分析处理,获得每个文本片段描述序列分别对应的一个或者多个基准舆情文本片段;
根据每个所述文本片段描述序列分别对应的一个或者多个基准舆情文本片段,获得事先存储的各个基准舆情文本片段。
4.根据权利要求3所述的方法,其特征在于,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,根据事先存储的各个基准舆情文本片段,确定与目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件的第一基准舆情文本片段集,包括:
将所述目标网络新闻文本拆分为多个目标舆情文本片段,获得所述目标网络新闻文本的目标舆情文本片段集;其中,所述目标舆情文本片段集中的各个目标舆情文本片段按照各个目标舆情文本片段在目标网络新闻文本中的分布区域整理;
确定所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,与所述目标舆情文本片段之间的相关性系数满足第二设定相关性判定条件的第一基准舆情文本片段;其中,所述目标舆情文本片段在所述目标舆情文本片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同;
在每个所述目标舆情文本片段皆存在一个对应的所述第一基准舆情文本片段的前提下,确定由各个所述第一基准舆情文本片段构成的所述第一基准舆情文本片段集,与所述目标网络新闻文本之间的相关性系数满足第一设定相关性判定条件,获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集。
5.根据权利要求4项所述的方法,其特征在于,在事先存储的各个基准舆情文本片段分别具有文本片段标签,在所述文本片段标签用于唯一表示每个基准舆情文本片段的前提下,获得所述目标网络新闻文本对应的所述第一基准舆情文本片段集,包括:
根据各个所述第一基准舆情文本片段的文本片段标签,获得所述目标网络新闻文本对应的第一基准舆情文本片段集。
6.根据权利要求3所述的方法,其特征在于,在文本片段描述序列与文本片段描述序列中包括的舆情文本参考片段在对应的新闻参考文本中的分布区域关联的前提下,根据事先存储的各个基准舆情文本片段,确定分别与各个事先存储的新闻参考文本之间的相关性系数满足第一设定相关性判定条件的各个第二基准舆情文本片段集,包括:
在所述文本片段描述序列对应的一个或者多个基准舆情文本片段中,确定与所述舆情文本参考片段之间的相关性系数满足第二设定相关性判定条件的第二基准舆情文本片段;其中,所述舆情文本参考片段在所述舆情文本参考片段集中的分布区域,与所述文本片段描述序列的邻居分布区域相同;
在每个所述舆情文本参考片段皆存在一个对应的所述第二基准舆情文本片段的前提下,确定由各个所述第二基准舆情文本片段构成的所述第二基准舆情文本片段集,与所述新闻参考文本之间的相关性系数满足第一设定相关性判定条件,获得所述新闻参考文本对应的所述第二基准舆情文本片段集。
7.根据权利要求1所述的方法,其特征在于,在所述第一基准舆情文本片段集中第一基准舆情文本片段的数目与所述第二基准舆情文本片段集中第二基准舆情文本片段的数目一致的前提下,分别确定所述第一基准舆情文本片段集与每个所述第二基准舆情文本片段集之间的片段集相关性,包括:
分别确定所述第一基准舆情文本片段集中每个第一基准舆情文本片段,与所述第二基准舆情文本片段集中对应分布区域的第二基准舆情文本片段之间的文本片段相关性系数;
对获得的文本片段相关性系数进行全局优化处理,获得所述第一基准舆情文本片段集与所述第二基准舆情文本片段集之间的片段集相关性。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库;
相应的,根据与目标网络新闻文本对应的目标话题互动客户端确定目标话题评论内容,通过所述目标话题评论内容确定话题评论画像知识库,包括:
根据目标话题互动客户端获取目标话题评论内容的第一组话题观点文本中目标在线评论用户的第一评论情感极性信息;
在所述目标话题评论内容的第二组话题观点文本中存在的所述目标在线评论用户的前提下,根据同步更新的具有最大关联度的关联观点文本的评论情感极性确定所述目标在线评论用户的第二评论情感极性信息;
根据所述第一评论情感极性信息和所述第二评论情感极性信息确定所述目标在线评论用户的话题评论画像知识库。
9.一种人工智能服务器,其特征在于,包括处理器、通信总线和存储器;所述处理器和所述存储器通过所述通信总线通信,所述处理器从所述存储器中读取计算机程序并运行,以执行权利要求1-8任一项所述的方法。
10.一种计算机用可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序在运行时实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584711.8A CN113157871B (zh) | 2021-05-27 | 2021-05-27 | 应用人工智能的新闻舆情文本处理方法、服务器及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584711.8A CN113157871B (zh) | 2021-05-27 | 2021-05-27 | 应用人工智能的新闻舆情文本处理方法、服务器及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113157871A CN113157871A (zh) | 2021-07-23 |
CN113157871B true CN113157871B (zh) | 2021-12-21 |
Family
ID=76877929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110584711.8A Active CN113157871B (zh) | 2021-05-27 | 2021-05-27 | 应用人工智能的新闻舆情文本处理方法、服务器及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157871B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704504B (zh) * | 2021-08-30 | 2023-09-19 | 平安银行股份有限公司 | 基于聊天记录的情绪识别方法、装置、设备及存储介质 |
CN115688742B (zh) * | 2022-12-08 | 2023-10-31 | 北京国联视讯信息技术股份有限公司 | 基于人工智能的用户数据分析方法及ai系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN105608075A (zh) * | 2014-09-26 | 2016-05-25 | 北大方正集团有限公司 | 一种相关知识点的获取方法及系统 |
CN108319690A (zh) * | 2018-02-01 | 2018-07-24 | 中国人民解放军火箭军工程大学 | 一种网络论坛消息的内容相似度测量方法及系统 |
CN110069650A (zh) * | 2017-10-10 | 2019-07-30 | 阿里巴巴集团控股有限公司 | 一种搜索方法和处理设备 |
CN110413730A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN111026868A (zh) * | 2019-12-05 | 2020-04-17 | 厦门市美亚柏科信息股份有限公司 | 一种多维度舆情危机预测方法、终端设备及存储介质 |
CN111414455A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 舆情分析方法、装置、电子设备及可读存储介质 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN111814770A (zh) * | 2020-09-04 | 2020-10-23 | 中山大学深圳研究院 | 一种新闻视频的内容关键词提取方法、终端设备及介质 |
CN112395385A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 基于人工智能的文本生成方法、装置、计算机设备及介质 |
CN112749532A (zh) * | 2019-10-30 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 地址文本处理方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548930B2 (en) * | 2002-10-18 | 2009-06-16 | Neighborhood America | Platform for management of internet based public communications and public comment |
US8326630B2 (en) * | 2008-08-18 | 2012-12-04 | Microsoft Corporation | Context based online advertising |
-
2021
- 2021-05-27 CN CN202110584711.8A patent/CN113157871B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN105608075A (zh) * | 2014-09-26 | 2016-05-25 | 北大方正集团有限公司 | 一种相关知识点的获取方法及系统 |
CN110069650A (zh) * | 2017-10-10 | 2019-07-30 | 阿里巴巴集团控股有限公司 | 一种搜索方法和处理设备 |
CN108319690A (zh) * | 2018-02-01 | 2018-07-24 | 中国人民解放军火箭军工程大学 | 一种网络论坛消息的内容相似度测量方法及系统 |
CN110413730A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN112749532A (zh) * | 2019-10-30 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 地址文本处理方法、装置及设备 |
CN111026868A (zh) * | 2019-12-05 | 2020-04-17 | 厦门市美亚柏科信息股份有限公司 | 一种多维度舆情危机预测方法、终端设备及存储介质 |
CN111414455A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 舆情分析方法、装置、电子设备及可读存储介质 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN111814770A (zh) * | 2020-09-04 | 2020-10-23 | 中山大学深圳研究院 | 一种新闻视频的内容关键词提取方法、终端设备及介质 |
CN112395385A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 基于人工智能的文本生成方法、装置、计算机设备及介质 |
Non-Patent Citations (2)
Title |
---|
A BERT-based Hierarchical Model for Vietnamese Aspect Based Sentiment Analysis;Oanh Thi Tran 等;《2020 12th International Conference on Knowledge and Systems Engineering (KSE)》;20201216;1-8 * |
基于文本相关性的高校网络舆情监控系统的设计与实现;刘丽员 等;《泉州师范学院学报》;20160415;第34卷(第2期);50-54 * |
Also Published As
Publication number | Publication date |
---|---|
CN113157871A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
CN106557695B (zh) | 一种恶意应用检测方法和系统 | |
CN113157899B (zh) | 一种大数据画像分析方法、服务器及可读存储介质 | |
Zhao et al. | Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog | |
WO2022218186A1 (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
US9286379B2 (en) | Document quality measurement | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
WO2015053236A1 (ja) | 矛盾表現収集装置及びそのためのコンピュータプログラム | |
CN108021660B (zh) | 一种基于迁移学习的话题自适应的微博情感分析方法 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN104731958A (zh) | 一种面向用户需求倾向的云制造服务推荐方法 | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
KR102001375B1 (ko) | 금융뉴스 스팸구별 장치 및 그 방법 | |
CN114511085A (zh) | 实体属性值的识别方法、装置、设备、介质及程序产品 | |
Khan et al. | Possible effects of emoticon and emoji on sentiment analysis web services of work organisations | |
CN112735564A (zh) | 心理健康状态预测方法、设备、介质及计算机程序产品 | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN114492310B (zh) | 文本标注方法、文本标注装置、电子设备和存储介质 | |
US20220050884A1 (en) | Utilizing machine learning models to automatically generate a summary or visualization of data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211203 Address after: 223808 Room 201, building B19, insurance Town, Hubin new area, Suqian City, Jiangsu Province Applicant after: Suqian silicon based Intelligent Technology Co.,Ltd. Address before: 523000 201D, 2 / F, building 11, innovation and Technology Park, Songshan Lake high tech Industrial Development Zone, Dongguan, Guangdong Applicant before: Dongguan xinqihang Lianmao Network Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |