发明内容
为改善相关技术中存在的技术问题,本发明提供了一种基于人工智能的话题分析预警方法、系统及云平台。
第一方面,本发明实施例提供了一种基于人工智能的话题分析预警方法,应用于人工智能云平台,所述方法至少包括:获得情绪分析辅助数据集;其中,所述情绪分析辅助数据集是通过对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的;从实时获取的在线用户会话文本中,确定与所述情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本;结合所述第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定所述第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句及其关联文本信息集;利用事先设定的情绪极性知识网,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签。
对于一种可能的实施例而言,所述获得情绪分析辅助数据集,包括:
对收集的所述第一在线用户会话文本进行专家知识挖掘,得到会话文本知识向量;其中,所述第一在线用户会话文本为多个;
通过对所述会话文本知识向量进行向量分簇操作,得到多个会话文本记录;确定每个会话文本记录对应的评论语句关键词;
结合属于所述每个会话文本记录的第一在线用户会话文本的提取时刻与收集场景,确定每个话题评论语句对应的联合特征数据;
将所述多个会话文本记录、所述每个会话文本记录对应的评论语句关键词,以及所述每个评论语句关键词对应的联合特征数据,确定为所述情绪分析辅助数据集。
对于一种可能的实施例而言,所述确定每个会话文本记录对应的评论语句关键词,包括:
确定出所述每个会话文本记录中的显著会话文本;
将所述显著会话文本与所述事先设定的情绪极性知识网中的每个事先设定的参考会话文本进行比较,得到文本比较结果;
在所述文本比较结果反映存在与所述显著会话文本配对的事先设定的参考会话文本的基础上,将该事先设定的参考会话文本对应的先验主题,确定为所述每个会话文本记录对应的评论语句关键词;
在所述文本比较结果反映所述显著会话文本与所述事先设定的情绪极性知识网中的事先设定的参考会话文本皆不配对的基础上,将所述每个会话文本记录的会话主题确定为所述每个会话文本记录对应的评论语句关键词。
对于一种可能的实施例而言,所述方法还包括:
从实时获取的在线用户会话文本中,确定与所述情绪分析辅助数据集中的多个会话文本记录皆不配对的第三在线用户会话文本;
对所述第三在线用户会话文本进行向量分簇操作,得到第二会话文本记录;
确定每个第二会话文本记录对应的目标评论语句关键词;
结合属于所述每个第二会话文本记录的第三在线用户会话文本的提取时刻与收集场景,确定每个目标话题评论语句对应的联合特征数据;
将所述第二会话文本记录、所述目标评论语句关键词和所述每个目标评论语句关键词对应的联合特征数据,增添到所述情绪分析辅助数据集,得到完成优化的情绪分析辅助数据集。
对于一种可能的实施例而言,所述从实时获取的在线用户会话文本中,确定与所述情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本,包括:
从所述情绪分析辅助数据集包含的每个会话文本记录中确定显著会话文本;
通过将每个显著会话文本与实时获取的每个在线用户会话文本进行比较,得到不少于一组互相配对的显著会话文本与在线用户会话文本;
将所述不少于一组互相配对的显著会话文本与在线用户会话文本中,显著会话文本所对应的会话文本记录,确定为所述第一会话文本记录;
将所述不少于一组互相配对的显著会话文本与在线用户会话文本中的在线用户会话文本,确定为所述第二在线用户会话文本。
对于一种可能的实施例而言,所述通过将每个显著会话文本与实时获取的每个在线用户会话文本进行比较,得到不少于一组互相配对的显著会话文本与在线用户会话文本,包括:
挖掘每个显著会话文本的第一会话文本知识向量,以及实时获取的每个在线用户会话文本的第二会话文本知识向量;
确定所述第一会话文本知识向量与所述第二会话文本知识向量之间的向量共性值;
在所述向量共性值达到共性分析指标的基础上,确定所述每个显著会话文本与所述每个在线用户会话文本存在配对关系,以获得所述不少于一组互相配对的显著会话文本与在线用户会话文本。
对于一种可能的实施例而言,所述每个话题评论语句对应的联合特征数据包括:所述每个话题评论语句对应的提取时刻与收集场景;
所述结合所述第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定所述第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句及其关联文本信息集,包括:结合所述第一会话文本记录对应的话题评论语句,以及所述每个话题评论语句对应的提取时刻,确定每个第一会话文本记录对应的话题评论语句的互动热力指数;结合所述互动热力指数,确定所述互动热力指数达到设定限值的待处理话题评论语句;结合所述每个话题评论语句对应的收集场景,确定每个待处理话题评论语句对应的关联文本信息集。
对于一种可能的实施例而言,所述结合所述第一会话文本记录对应的话题评论语句,以及所述每个话题评论语句对应的提取时刻,确定每个第一会话文本记录对应的话题评论语句的互动热力指数,包括:
利用每个第一会话文本记录对应的话题评论语句,以及所述每个话题评论语句对应的提取时刻,确定每个第一会话文本记录对应的话题评论语句在设定分析时段内的输出统计值;
将所述输出统计值,确定为所述每个话题评论语句的互动热力指数。
对于一种可能的实施例而言,所述利用事先设定的情绪极性知识网,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签,包括以下至少一项:
在确定所述每个待处理话题评论语句在事先设定的情绪极性知识网中存在对应的设定情绪极性特征的基础上,利用所述对应的设定情绪极性特征,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签;
在确定所述每个待处理话题评论语句在事先设定的情绪极性知识网中不存在对应的设定情绪极性特征的基础上,确定所述每个待处理话题评论语句在对应的关联文本信息集内属于第二情绪极性标签。
对于一种可能的实施例而言,所述事先设定的情绪极性知识网包括:设定情绪极性特征,以及每个设定情绪极性特征对应的先验主题;
所述确定所述每个待处理话题评论语句在事先设定的情绪极性知识网中存在对应的设定情绪极性特征,包括:将所述每个待处理话题评论语句对应的评论语句关键词,与所述事先设定的情绪极性知识网中的每个先验主题进行配对,得到配对信息;在所述配对信息反映存在与所述每个待处理话题评论语句对应的评论语句关键词配对的先验主题的基础上,确定所述每个待处理话题评论语句存在对应的设定情绪极性特征。
对于一种可能的实施例而言,所述确定所述每个待处理话题评论语句在事先设定的情绪极性知识网中不存在对应的设定情绪极性特征,包括:在所述配对信息反映不存在与所述每个待处理话题评论语句对应的评论语句关键词配对的先验主题的基础上,确定所述每个待处理话题评论语句不存在对应的设定情绪极性特征。
对于一种可能的实施例而言,所述利用所述对应的设定情绪极性特征,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签,包括:
将所述对应的设定情绪极性特征所处文本信息集,与所述每个待处理话题评论语句对应的每个关联文本信息集进行配对,得到配对信息;
在所述配对信息反映存在与所述设定情绪极性特征所处文本信息集配对的关联文本信息集的基础上,确定所述每个待处理话题评论语句在该关联文本信息集内的情绪极性标签为第一情绪极性标签,以及确定所述每个待处理话题评论语句在对应的、且在与所述设定情绪极性特征所处文本信息集不配对的关联文本信息集内的情绪极性标签都是第二情绪极性标签;
在所述配对信息反映所述每个待处理话题评论语句对应的关联文本信息集与所述设定情绪极性特征所处文本信息集皆不配对的基础上,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签都是第二情绪极性标签。
对于一种可能的实施例而言,所述方法还包括:
结合所述第一会话文本记录对应的话题评论语句、每个话题评论语句对应的联合特征数据,确定所述互动热力指数不达到设定限值的候选话题评论语句及其关联文本信息集;
确定所述每个候选话题评论语句在对应的每个关联文本信息集内为第二情绪极性标签。
第二方面,本发明还提供了一种基于人工智能的话题分析预警系统,该系统包括互相通信的人工智能云平台和在线用户会话端;其中,人工智能云平台用于:获得情绪分析辅助数据集;其中,所述情绪分析辅助数据集是通过对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的;从实时获取的在线用户会话文本中,确定与所述情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本;结合所述第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定所述第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句及其关联文本信息集;利用事先设定的情绪极性知识网,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签。
第三方面,本发明还提供了一种人工智能云平台,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述所述的方法。
通过获得对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的情绪分析辅助数据集,从实时获取的在线用户会话文本中,确定与情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本,并利用第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句,可以利用每个话题评论语句在之前时段到实时时段对应的联合特征数据,确定出待处理话题评论语句,能够提升确定出的待处理话题评论语句的精度和可信度,有助于对话题评论语句的高效、合理化情绪分析;以及通过确定每个待处理话题评论语句对应的关联文本信息集,并利用事先设定的情绪极性知识网,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签,可以对待处理话题评论语句在每个对应的关联文本信息集内进行情绪极性标签的准确区分,进而可以对话题评论语句进行基于文本信息集的识别处理,能够实现对在线交互环境内的话题评论语句的精准可靠的情绪分析。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例所提供的方法实施例可以在人工智能云平台、计算机设备或者类似的运算装置中执行。以运行在人工智能云平台上为例,人工智能云平台10可以包括一个或多个处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述人工智能云平台还可以包括用于通信功能的传输装置106。本领域普通技术人员可以理解,上述结构仅为示意,其并不对上述人工智能云平台的结构造成限定。例如,人工智能云平台10还可包括比上述所示更多或者更少的组件,或者具有与上述所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种基于人工智能的话题分析预警方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至人工智能云平台10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括人工智能云平台10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图1,图1是本发明实施例所提供的一种基于人工智能的话题分析预警方法的流程示意图,该方法应用于人工智能云平台,进一步可以包括步骤101-步骤104所描述的技术方案。
步骤101、获得情绪分析辅助数据集,情绪分析辅助数据集是通过对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的。
对于本发明实施例而言,在先收集的第一在线用户会话文本可以是通过会话检测线程(比如,文本采集器等合法网页蜘蛛)在当前之前收集的多组在线用户会话文本;并且,合法网页蜘蛛可以是人工智能云平台自身的程序,也可以是人工智能云平台之外的程序。
对于本发明实施例而言,情绪分析辅助数据集可以包括:通过对第一在线用户会话文本进行向量分簇操作(比如聚类处理)后所得的多个会话文本记录、每个会话文本记录对应的评论语句关键词(可以理解为标识信息)(每个评论语句关键词用于反映一个话题评论语句),以及每个评论语句关键词对应的联合特征数据(比如多维特征),其中,联合特征数据包括提取时刻(时序特征)和收集场景(场景特征)。
在一些示例下,人工智能云平台可以从云服务器等其他系统侧中获得通过对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的情绪分析辅助数据集。
步骤102、从实时获取的在线用户会话文本中,确定与情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本。
在本发明实施例中,情绪分析辅助数据集包括的每个会话文本记录中,携带了至少一组属于同一话题评论语句的在线用户会话文本。人工智能云平台可以利用获得的情绪分析辅助数据集,以及利用当前时段内收集的在线用户会话文本,确定出实时获取的在线用户会话文本中的哪部分在线用户会话文本,与情绪分析辅助数据集中包含的哪部分会话文本记录达到设定对应条件(比如可以理解为存在对应关系),从而确定出情绪分析辅助数据集中的第一会话文本记录,以及实时获取的在线用户会话文本中的第二在线用户会话文本。
在一些示例下,实时获取的可以理解为当前的,在先获取的可以理解为历史的,具体的时间计量方式可以根据实际情况灵活设置。
步骤103、基于第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句及其关联文本信息集。
在本发明实施例中,情绪分析辅助数据集中包括了每个第一会话文本记录对应的评论语句关键词,以及每个评论语句关键词对应的联合特征数据,人工智能云平台可以利用每个第一会话文本记录对应的评论语句关键词,以及每个评论语句关键词对应的联合特征数据,从所有第一会话文本记录对应的评论语句关键词所反映的全部话题评论语句(也可以理解为话题评论事件)中,确定出每个话题评论语句的互动热力指数(比如可以理解为活跃指数),并确定出互动热力指数达到设定限值的待处理话题评论语句,以及确定出每个待处理话题评论语句对应的关联文本信息集(该关联文本信息可以反映待处理话题评论语句所涉及的文本内容区域,从而便于进行完整可信的情绪分析挖掘)。
在本发明实施例中,一个话题评论语句的互动热力指数为:该话题评论语句在设定分析时段内被确定出的次数(输出统计值)。其中,设定分析时段可以利用实际情况灵活设置。
步骤104、利用事先设定的情绪极性知识网,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签。
在本发明实施例中,事先设定的情绪极性知识网可以是通过已认证的方式从一些具有安全校验要求的服务器(比如,情绪极性特征对应的存储服务器)中获得的。事先设定的情绪极性知识网中可以包括:多个先验主题、多个设定情绪极性特征和多组事先设定的参考文本信息,且每个先验主题反映一个话题评论语句,以及每个先验主题对应一条设定情绪极性特征,以及对应一组或多组事先设定的参考文本信息。
在本发明实施例中,利用事先设定的情绪极性知识网和每个待处理话题评论语句对应的评论语句关键词,人工智能云平台可以确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签。举例而言,情绪极性标签可以包括:第二情绪极性标签和第一情绪极性标签,其中,第一情绪极性标签比如可以是积极情绪标签。比如,在一个待处理话题评论语句对应的评论语句关键词为label_z,且该待处理话题评论语句对应了关联文本信息text set1和关联文本信息text set2的基础上,人工智能云平台可以利用事先设定的情绪极性知识网和评论语句关键词label_z,分析出该待处理话题评论语句在关联文本信息text set1内属于第二情绪极性标签还是第一情绪极性标签,以及分析出该待处理话题评论语句在关联文本信息text set2内属于第二情绪极性标签还是第一情绪极性标签,以便分别得到该待处理话题评论语句在关联文本信息text set1内的情绪极性标签,以及在关联文本信息text set2内的情绪极性标签。
对于本发明实施例而言,通过获得对在先收集的第一在线用户会话文本进行会话文本分团处理和联合特征解析所得的情绪分析辅助数据集,从实时获取的在线用户会话文本中,确定与情绪分析辅助数据集中的第一会话文本记录达到设定对应条件的第二在线用户会话文本,并利用第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的联合特征数据,确定第一会话文本记录对应的话题评论语句中,互动热力指数达到设定限值的每个待处理话题评论语句,可以利用每个话题评论语句在之前时段到实时时段对应的联合特征数据,确定出待处理话题评论语句,能够提升确定出的待处理话题评论语句的精度和可信度,有助于对话题评论语句的高效、合理化情绪分析;以及通过确定每个待处理话题评论语句对应的关联文本信息集,并利用事先设定的情绪极性知识网,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签,可以对待处理话题评论语句在每个对应的关联文本信息集内进行情绪极性标签的准确区分,进而可以对话题评论语句进行基于文本信息集的识别处理,能够实现对在线交互环境内的话题评论语句的精准可靠的情绪分析。比如可以根据消极情绪对应的情绪极性标签进行情绪分析,以确定实时获取的在线用户会话文本可能存在一些负面影响,从而实现智能化的文本情绪分析。
在一些示例下,人工智能云平台可以通过对在先收集的第一在线用户会话文本进行处理,得到情绪分析辅助数据集的思路获得情绪分析辅助数据集。
在一些可独立实施的实施例中,以上步骤101可以通过步骤1011-步骤1015实现。
步骤1011、对收集的第一在线用户会话文本进行专家知识挖掘,得到会话文本知识向量。
其中,第一在线用户会话文本为多个。
步骤1012、通过对会话文本知识向量进行向量分簇操作,得到多个会话文本记录。
在本发明实施例中,人工智能云平台可以对每个第一在线用户会话文本进行专家知识挖掘(比如基于专家系统模型进行特征提取处理),得到每个第一在线用户会话文本对应的会话文本知识向量,然后,利用相关的分簇规则(比如聚类算法)对挖掘的全部会话文本知识向量进行向量分簇操作,以便得到多个会话文本记录。相关的分簇规则比如可以为K均值分簇规则。
步骤1013、确定每个会话文本记录对应的评论语句关键词。
在本发明实施例中,人工智能云平台可以通过文本关键词配对思路,确定每个会话文本记录对应的评论语句关键词。
在一些示例下,对于每一个会话文本记录,人工智能云平台可以确定出该会话文本记录中的显著会话文本,将该显著会话文本与事先设定的情绪极性知识网中的每个事先设定的参考会话文本进行比较,得到文本比较结果,并在文本比较结果反映存在与该显著会话文本配对的事先设定的参考会话文本的基础上,将该事先设定的参考会话文本对应的先验主题确定为该会话文本记录对应的评论语句关键词;而在文本比较结果反映该显著会话文本与事先设定的情绪极性知识网中的事先设定的参考会话文本皆不配对的基础上,将该会话文本记录的会话主题确定为该会话文本记录对应的评论语句关键词。会话文本记录的会话主题可以是人工智能云平台按照设定的区分规则为会话文本记录设定的、且区别于先验主题的会话主题(可以理解为区分标签)。
在本发明实施例中,对于每一个会话文本记录,人工智能云平台可以从该会话文本记录中确定出一组在线用户会话文本确定为显著会话文本,其中,显著会话文本(比如具有代表性的会话文本)可以是个人主观抒发文字比较多的在线用户会话文本。比如,在一个会话文本记录由3组第一在线用户会话文本构成,其中第一组第一在线用户会话文本是话题评论语句的一组个人观点文本,第二组第一在线用户会话文本是该话题评论语句的辩论观点文本,第三组第一在线用户会话文本是该话题评论语句的另一组个人观点文本的基础上,可以将第二组第一在线用户会话文本确定为该会话文本记录的显著会话文本。
对于每一个会话文本记录的显著会话文本,人工智能云平台可以将该显著会话文本与事先设定的情绪极性知识网中的每个事先设定的参考会话文本进行比较,以确定事先设定的情绪极性知识网中的事先设定的参考会话文本中是否存在与该显著会话文本配对的事先设定的参考会话文本,并在存在与该显著会话文本配对的事先设定的参考会话文本的基础上,将与该显著会话文本配对的事先设定的参考会话文本对应的先验主题,确定为该会话文本记录对应的评论语句关键词,而在事先设定的情绪极性知识网中的事先设定的参考会话文本中,不存在与该显著会话文本配对的事先设定的参考会话文本的基础上,将该会话文本记录的会话主题确定为该会话文本记录对应的评论语句关键词。这里,会话文本记录的会话主题可以是人工智能云平台按照设定的区分规则为会话文本记录设定的、且区别于先验主题的会话主题。
在本发明实施例中,人工智能云平台可以通过确定向量共性值(比如特征相似值)的思路,实现一组显著会话文本与一组事先设定的参考会话文本之间的比较。人工智能云平台可以分别挖掘该显著会话文本的会话文本知识向量和该事先设定的参考会话文本的会话文本知识向量,并确定挖掘的会话文本知识向量之间的向量共性值,将所得的向量共性值与设定限值或设定限值区间进行比较,以获得该向量共性值与该设定限值之间的比较情况,或得到该向量共性值与该设定限值区间之间的从属联系。在所得的该向量共性值不小于该设定限值,或所得的该向量共性值属于该设定限值区间的基础上,人工智能云平台可以确定该显著会话文本与该事先设定的参考会话文本相匹配;而在所得的该向量共性值小于该设定限值或不属于该设定限值区间的基础上,人工智能云平台可以确定该显著会话文本与该事先设定的参考会话文本不匹配。
对于本发明实施例而言,采用每个会话文本记录的显著会话文本与事先设定的参考会话文本进行比较,能够减少确定每个会话文本记录对应的评论语句关键词的过程的运算开销,以便提高整体方案的时效性。
步骤1014、结合属于每个会话文本记录的第一在线用户会话文本的提取时刻与收集场景,确定每个话题评论语句对应的联合特征数据。
对于本发明实施例而言,每个第一在线用户会话文本均对应有提取时刻(比如,具体时间)和收集场景(比如具体会话环境或者聊天室),其中,收集场景为采集该第一在线用户会话文本的合法网页蜘蛛所对应的在线互动场景;比如,在三个不同在线互动场景内分别设置三个合法网页蜘蛛,则每个合法网页蜘蛛所爬取到的第一在线用户会话文本对应的收集场景与其他的合法网页蜘蛛收集的第一在线用户会话文本对应的收集场景不同。
在本发明实施例中,对于每个会话文本记录,人工智能云平台可以利用属于该会话文本记录的每个第一在线用户会话文本对应的提取时刻和收集场景,确定该会话文本记录对应的话题评论语句在哪部分提取时刻对应哪部分收集场景,以获得该话题评论语句的联合特征数据。比如,话题评论语句sentenceA的联合特征数据可以为:【T1,话题评论语句sentenceA,在线互动场景scene1】、【T2,话题评论语句sentenceA:在线互动场景scene2】。
在一些示例下,每个话题评论语句对应的联合特征数据可以是该话题评论语句在每个单位时段内对应的提取时刻与收集场景。这里,人工智能云平台可以利用属于该会话文本记录的每个第一在线用户会话文本对应的提取时刻和收集场景,确定每个单位时段内该会话文本记录对应的话题评论语句是否对应有提取时刻与收集场景,以及对应了哪部分提取时刻和哪部分不同的收集场景。比如,在单位时段为每小时,且每个第一在线用户会话文本的提取时刻为T1的基础上,人工智能云平台可以确定每小时内该会话文本记录对应的话题评论语句是否对应了提取时刻与收集场景,以及对应了哪部分提取时刻和哪部分不同的收集场景。
步骤1015、将多个会话文本记录、每个会话文本记录对应的评论语句关键词,以及每个评论语句关键词对应的联合特征数据,确定为情绪分析辅助数据集。
在一些示例下,在以上步骤101之后,所述方法还包括步骤201-步骤205,其中,步骤201-步骤205可以与步骤102-步骤104并行实施,也可以在步骤102-步骤104中任意步骤之后执行。
步骤201、从实时获取的在线用户会话文本中,确定与情绪分析辅助数据集中的多个会话文本记录皆不配对的第三在线用户会话文本。
在本发明实施例中,人工智能云平台可以从当前时段内收集的在线用户会话文本中,确定哪部分在线用户会话文本与情绪分析辅助数据集中包含的每个会话文本记录皆不匹配,并将当前时段内收集的在线用户会话文本中与情绪分析辅助数据集中包含的每个会话文本记录皆不配对的在线用户会话文本确定为第三在线用户会话文本。
步骤202、对第三在线用户会话文本进行向量分簇操作,得到第二会话文本记录。
在本发明实施例中,人工智能云平台可以对每个第三在线用户会话文本进行专家知识挖掘,得到会话文本知识向量,并通过对会话文本知识向量进行向量分簇操作,得到至少一个第二会话文本记录。
步骤203、确定每个第二会话文本记录对应的目标评论语句关键词。
在本发明实施例中,每个第二会话文本记录对应的评论语句关键词为目标评论语句关键词。人工智能云平台可以采用与以上步骤1013类似的思路,确定每个第二会话文本记录对应的目标评论语句关键词。
步骤204、结合属于每个第二会话文本记录的第三在线用户会话文本的提取时刻与收集场景,确定每个目标话题评论语句对应的联合特征数据。
可以理解的是,人工智能云平台可以结合与以上步骤1014类似的思路,确定每个目标话题评论语句对应的联合特征数据。
步骤205、将第二会话文本记录、目标评论语句关键词和每个目标评论语句关键词对应的联合特征数据,添加到情绪分析辅助数据集,得到完成优化的情绪分析辅助数据集。
在本发明实施例中,完成优化的情绪分析辅助数据集可以用于确定出下一次的实时获取的在线用户会话文本中的第二在线用户会话文本。比如,在“当前”为当前单位时段的基础上,完成优化的情绪分析辅助数据集可以用于确定当前单位时段的下一个单位时段内收集的在线用户会话文本中的第二在线用户会话文本。
在本发明实施例中,通过以上方法对情绪分析辅助数据集进行更新调整,能够使完成优化的情绪分析辅助数据集包含足够多的会话文本记录与话题评论语句,能够提升确定后一轮的实时获取的在线用户会话文本中的第二在线用户会话文本时的精度和可信度,从而有助于对话题评论语句的高效、合理化情绪分析。
在一些示例下,以上步骤102可以通过步骤1021-步骤1024实现。
步骤1021、从情绪分析辅助数据集包含的每个会话文本记录中确定显著会话文本。
对于本发明实施例而言,对于情绪分析辅助数据集包含的每个会话文本记录,人工智能云平台可以从该会话文本记录中确定出一组显著会话文本,其中,显著会话文本可以是个人主观抒发文字比较多的在线用户会话文本。比如,在一个会话文本记录由3组第一在线用户会话文本构成,其中第一组第一在线用户会话文本是话题评论语句的一组个人观点文本,第二组第一在线用户会话文本是该话题评论语句的辩论观点文本,第三组第一在线用户会话文本是该话题评论语句的另一组个人观点文本的基础上,可以将第二组第一在线用户会话文本确定为该会话文本记录的显著会话文本。
步骤1022、通过将每个显著会话文本与实时获取的每个在线用户会话文本进行比较,得到不少于一组互相配对的显著会话文本与在线用户会话文本。
在本发明实施例中,人工智能云平台可以将每个显著会话文本与实时获取的每个在线用户会话文本进行比较,并利用所得的文本比较结果,得到一组或多组互相配对的用户会话文本,其中,每一组互相配对的用户会话文本包含一组显著会话文本与一组实时获取的在线用户会话文本。
举例而言,人工智能云平台可以挖掘每个显著会话文本的第一会话文本知识向量,以及挖掘实时获取的每个在线用户会话文本的第二会话文本知识向量,确定第一会话文本知识向量与第二会话文本知识向量之间的向量共性值;在向量共性值达到共性分析指标的基础上,确定该显著会话文本与该在线用户会话文本存在配对关系,以获得不少于一组互相配对的显著会话文本与在线用户会话文本。
在本发明实施例中,通过确定向量共性值实现用户会话文本之间的比较,可以提高所得的文本比较结果的精度和效率。
步骤1023、将不少于一组互相配对的显著会话文本与在线用户会话文本中,显著会话文本所对应的会话文本记录,确定为第一会话文本记录。
步骤1024、将不少于一组互相配对的显著会话文本与在线用户会话文本中的在线用户会话文本,确定为第二在线用户会话文本。
在一些示例下,每个话题评论语句对应的联合特征数据包括:每个话题评论语句对应的提取时刻与收集场景;在此基础上,以上步骤103可以通过步骤1031-步骤1033实现。
步骤1031、基于第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的提取时刻,确定每个第一会话文本记录对应的话题评论语句的互动热力指数。
对于本发明实施例而言,人工智能云平台可以利用每个第一会话文本记录对应的话题评论语句,以及每个话题评论语句对应的提取时刻,确定每个第一会话文本记录对应的话题评论语句在设定分析时段内的输出统计值,并将输出统计值确定为话题评论语句的互动热力指数。
在本发明实施例中,设定分析时段可以是当前时段至某个在先时段之间的时长,且本发明实施例对设定分析时段不作限定。
举例而言,在设定分析时段是从第X个小时开始的前30个小时,且一个话题评论语句对应的提取时刻为从第X个小时开始的前30个小时中的第二个小时和第五个小时的基础上,该话题评论语句在设定分析时段内的输出统计值为2。
步骤1032、基于互动热力指数,确定互动热力指数达到设定限值的待处理话题评论语句。
对于本发明实施例而言,设定限值可以灵活设置。
步骤1033、基于每个话题评论语句对应的收集场景,确定每个待处理话题评论语句对应的关联文本信息集。
在本发明实施例中,人工智能云平台可以利用所有第一会话文本记录的话题评论语句所对应的收集场景,确定每个待处理话题评论语句在设定分析时段内对应的收集场景,并从确定出的收集场景中进行筛选,得到最准确的收集场景,并基于收集场景中的文本数据确定该待处理话题评论语句对应的一个或多个不同的关联文本信息集。
在一些示例下,以上步骤104可以通过步骤1041与步骤1042实现,也可以通过步骤1041或步骤1042实现。
步骤1041、在确定每个待处理话题评论语句在事先设定的情绪极性知识网中存在对应的设定情绪极性特征的基础上,利用对应的设定情绪极性特征,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签。
比如,在待处理话题评论语句为舆情观点、且人工智能云平台确定该舆情观点在事先设定的情绪极性知识网中存在对应的设定情绪极性特征的基础上,可以利用该设定情绪极性特征所对应的数据集,确定该舆情观点在对应的每个关联文本信息集内的情绪极性标签,比如,在每个关联文本信息集内属于积极情绪还是消极情绪。
步骤1042、在确定每个待处理话题评论语句在事先设定的情绪极性知识网中不存在对应的设定情绪极性特征的基础上,确定每个待处理话题评论语句在对应的关联文本信息集内属于第二情绪极性标签。
基于上述的待处理话题评论语句为舆情观点为例,在人工智能云平台确定该舆情观点在事先设定的情绪极性知识网中不存在对应的设定情绪极性特征的基础上,可以确定该舆情观点在对应的每个关联文本信息集内属于消极情绪。
在一些示例下,事先设定的情绪极性知识网包括:设定情绪极性特征,以及每个设定情绪极性特征对应的先验主题,从而以上步骤1041中的确定每个待处理话题评论语句在事先设定的情绪极性知识网中存在对应的设定情绪极性特征,可以通过下述方式实现:将每个待处理话题评论语句对应的评论语句关键词,与事先设定的情绪极性知识网中的每个先验主题进行配对,得到配对信息;在配对信息反映存在与每个待处理话题评论语句对应的评论语句关键词配对的先验主题的基础上,确定每个待处理话题评论语句存在对应的设定情绪极性特征。
在本发明实施例中,对于一个待处理话题评论语句,在配对信息反映存在与该待处理话题评论语句对应的评论语句关键词配对的先验主题的基础上,人工智能云平台可以将该先验主题对应的设定情绪极性特征,确定为该待处理话题评论语句对应的设定情绪极性特征。
在一些示例下,以上步骤1042中的确定每个待处理话题评论语句在事先设定的情绪极性知识网中不存在对应的设定情绪极性特征,可以通过下述方式实现:在配对信息反映不存在与每个待处理话题评论语句对应的评论语句关键词配对的先验主题的基础上,确定每个待处理话题评论语句不存在对应的设定情绪极性特征。
在一些示例下,以上步骤1041中的利用对应的设定情绪极性特征,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签,可以通过步骤301-步骤303,或通过步骤301,以及步骤302或步骤303实现。
步骤301、将对应的设定情绪极性特征所处文本信息集,与每个待处理话题评论语句对应的每个关联文本信息集进行配对,得到配对信息。
通过以上的待处理话题评论语句为舆情观点为例,人工智能云平台可以将该舆情观点对应的设定情绪极性特征所对应的数据集,与该舆情观点对应的每个关联文本信息集进行配对,以确定配对信息(比如匹配结果)。
步骤302、在配对信息反映存在与设定情绪极性特征所处文本信息集配对的关联文本信息集的基础上,确定每个待处理话题评论语句在该关联文本信息集内的情绪极性标签为第一情绪极性标签,以及确定每个待处理话题评论语句在对应的、且在与设定情绪极性特征所处文本信息集不配对的关联文本信息集内的情绪极性标签都是第二情绪极性标签。
比如,在一个待处理话题评论语句对应了Y个关联文本信息集,Y为不小于2的整数,且人工智能云平台已确定该待处理话题评论语句对应的设定情绪极性特征所处文本信息集已与Y个关联文本信息集中的某个关联文本信息集配对的基础上,人工智能云平台可以确定该待处理话题评论语句在该关联文本信息集内属于第一情绪极性标签,以及确定该待处理话题评论语句在剩余的Y-1个关联文本信息集内均属于第二情绪极性标签;比如,人工智能云平台可以将该待处理话题评论语句在该关联文本信息集内的情绪极性设置为第一情绪极性标签,以及将该待处理话题评论语句在剩余的Y-1个关联文本信息集内的情绪极性都设置为第二情绪极性标签。
在本发明实施例中,对于该待处理话题评论语句对应的Y个关联文本信息集,人工智能云平台可以将第1个关联文本信息集与该待处理话题评论语句对应的设定情绪极性特征所处文本信息集进行比较,在确定该设定情绪极性特征所处文本信息集与第1个关联文本信息集不配对的基础上,人工智能云平台可以确定该待处理话题评论语句在第1个关联文本信息集内属于第二情绪极性标签,并继续判断该设定情绪极性特征所处文本信息集是否与第2个关联文本信息集相匹配,直至确定Y个关联文本信息集中的某个关联文本信息集与该设定情绪极性特征所处文本信息集相配对的基础上,终止判断,并确定该待处理话题评论语句在该关联文本信息集内属于第一情绪极性标签,以及确定该待处理话题评论语句在其他对应的关联文本信息集内均属于第二情绪极性标签;或者直到确定Y个关联文本信息集均与该设定情绪极性特征所处文本信息集不配对的基础上,终止判断。
如此设计,通过以上的确定情绪极性标签的思路,可以有效削减对情绪极性标签的挖掘分析耗时,有助于提高话题评论语句分析的时效性。
步骤303、在配对信息反映每个待处理话题评论语句对应的关联文本信息集与设定情绪极性特征所处文本信息集皆不配对的基础上,确定每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签都是第二情绪极性标签。
举例而言,在待处理话题评论语句为舆情观点的基础上,第一情绪极性标签可以为积极情绪,第二情绪极性标签可以为消极情绪。
在一些示例下,对于一个设定情绪极性特征所处文本信息集和一个关联文本信息集,在该关联文本信息集归属于该设定情绪极性特征所处文本信息集,或,该设定情绪极性特征所处文本信息集与该关联文本信息集为相同的数据集的基础上,可以确定该设定情绪极性特征所处文本信息集与该关联文本信息集相匹配。
在一些示例下,在人工智能云平台确定出一个待处理话题评论语句在一个关联文本信息集内属于第二情绪极性标签的基础上,人工智能云平台可以发出用于提示对第二情绪极性标签预警的信息,从而实现对消极负面情绪极性的预警分析处理。
在一些示例下,人工智能云平台还可以接收情绪极性标签调整指令,并利用该类型调整指令,将该类型调整指令对应的待处理话题评论语句的情绪极性标签,从第二情绪极性标签更改为可忽略的情绪极性标签。举例而言,在待处理话题评论语句为舆情观点的基础上,可忽略的情绪极性标签为反语型情绪标签,比如以“快乐开心”来反映“鄙视嘲讽”的情绪标签。
在一些示例下,在人工智能云平台确定出一个待处理话题评论语句在一个关联文本信息集内属于第二情绪极性标签的基础上,人工智能云平台可以将该待处理话题评论语句对应的评论语句关键词和在线用户会话文本存储至事先设定的存储空间中,以便用于之后调用。
对于本发明实施例而言,将待处理话题评论语句在对应的关联文本信息集内划分为第一情绪极性标签和第二情绪极性标签,能够实现对话题评论语句进行基于文本信息集的识别处理,使得对话题评论语句的情绪挖掘分析更加准确可靠;同时,在话题评论语句为舆情观点的基础上,能够实现针对舆情观点情绪的智能化、合理化分析挖掘。
在本发明实施例中,先通过确定每个待处理话题评论语句在事先设定的情绪极性知识网中是否存在对应的设定情绪极性特征,来确定出部分第二情绪极性标签,然而,继续分析在事先设定的情绪极性知识网中存在对应的设定情绪极性特征的待处理话题评论语句的情绪极性标签,并得到一些关联文本信息集内的第一情绪极性标签(比如积极情绪标签)或第二情绪极性标签,这样一来,通过递进式处理来进行信息集内的话题评论语句情绪挖掘,可以提高识别待处理话题评论语句在对应的关联文本信息集内的情绪极性标签的时效性。
在一些示例下,以上方法还包括步骤401-步骤402;步骤401-步骤402可以与步骤103-步骤104并行实施,也可以在步骤103或步骤104之后实施。
步骤401、基于第一会话文本记录对应的话题评论语句、每个话题评论语句对应的联合特征数据,确定互动热力指数不达到设定限值的候选话题评论语句及其关联文本信息集。
在本发明实施例中,人工智能云平台可以在采用以上步骤1041的思路确定出每个第一会话文本记录对应的话题评论语句的互动热力指数的基础上,利用每个第一会话文本记录对应的话题评论语句的互动热力指数,确定互动热力指数不达到以上设定限值的话题评论语句为候选话题评论语句,之后,通过以上步骤1043所述的思路,确定每个候选话题评论语句对应的一个或多个不同的关联文本信息集。
步骤402、确定每个候选话题评论语句在对应的每个关联文本信息集内为第二情绪极性标签。
在一些可独立实施的设计思路下,在利用事先设定的情绪极性知识网,确定所述每个待处理话题评论语句在对应的关联文本信息集内的情绪极性标签之后,该方法还可以包括如下内容:针对所述每个待处理话题评论语句中的其中一个待处理话题评论语句,如果该待处理话题评论语句在对应的关联文本信息集内的情绪极性标签为第一情绪极性标签且关联文本信息集为与产品推送业务匹配的文本信息集,则对该待处理话题评论语句在对应的关联文本信息集进行推送需求挖掘,得到推送需求挖掘结果;利用所述推送需求挖掘结果进行大数据推送。
如此一来,可以基于积极的第一情绪极性标签以及与产品推送业务匹配的文本信息集进行针对性的大数据推送需求挖掘,以提高后续的业务/产品/数据推送的准确性和智能化程度。
在一些可独立实施的设计思路下,对该待处理话题评论语句在对应的关联文本信息集进行推送需求挖掘,得到推送需求挖掘结果,可以包括如下内容:获取该待处理话题评论语句在对应的关联文本信息集中目标推送反馈文本;对所述目标推送反馈文本中的多个推送反馈消息分别进行储备需求意向分析和使用需求意向分析,得到储备需求意向分析结果集和使用需求意向分析结果集;通过第一设定噪声优化算法,对所述储备需求意向分析结果集进行第一噪声优化处理,得到包括有储备需求意向的第一推送反馈文本队列;通过第二设定噪声优化算法,对所述使用需求意向分析结果集进行第二噪声优化处理,得到包括有使用需求意向的第二推送反馈文本队列;基于所述第一推送反馈文本队列和所述第二推送反馈文本队列进行合并处理,得到所述目标推送反馈文本中与目标意向相匹配的候选推送反馈文本队列;所述目标意向包括储备需求意向和使用需求意向中的至少一种;将所述候选推送反馈文本队列输入预先训练完成的需求挖掘模型,得到推送需求挖掘结果;其中,预先训练完成的需求挖掘模型为决策树模型。
如此一来,可以基于储备需求和使用需求两个角度分别进行需求意向分析处理,这样可以得到综合且全面的候选推送反馈文本队列,以便结合需求挖掘模型准确完整地确定出推送需求挖掘结果,为数据推送提供可信的决策依据。
基于上述相同或相似的发明构思,请结合参阅图2,还提供了一种基于人工智能的话题分析预警系统30的架构示意图,包括互相之间通信的人工智能云平台10和在线用户会话端20,人工智能云平台10和在线用户会话端20在运行时实现或者部分实现上述方法实施例所描述的技术方案。
进一步地,还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,媒体业务服务器10,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。