CN114443853A - 基于大数据的话题观点画像图谱处理方法及系统 - Google Patents
基于大数据的话题观点画像图谱处理方法及系统 Download PDFInfo
- Publication number
- CN114443853A CN114443853A CN202111632710.2A CN202111632710A CN114443853A CN 114443853 A CN114443853 A CN 114443853A CN 202111632710 A CN202111632710 A CN 202111632710A CN 114443853 A CN114443853 A CN 114443853A
- Authority
- CN
- China
- Prior art keywords
- topic
- information
- comment
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的基于大数据的话题观点画像图谱处理方法及系统,在判定出观点画像图谱存在异常的前提下,获取目标话题用户与预设话题参与角色之间的相关性信息,根据观点画像图谱和获取到的相关性信息确定目标话题用户的优化画像图谱,利用与目标话题用户存在关联的预设话题参与角色的画像图谱对观点画像图谱进行填补得到尽可能完整的目标话题用户的优化画像图谱。通过自动化、智能化地确定目标话题用户的优化画像图谱,减少确定优化画像图谱的资源消耗,并避免人工手动分析存在的误差和非客观因素影响较大的问题,提高优化画像图谱的完整性和质量,为后续画像分析提供准确的画像图谱,避免因画像图谱的完整性和质量存在问题而导致画像分析出现偏差。
Description
技术领域
本申请涉及大数据和话题分析技术领域,更具体地,涉及一种基于大数据的话题观点画像图谱处理方法及系统。
背景技术
大数据智能涉及大数据、人工智能和自然语言处理三个相辅相成的关键技术,大数据为大数据智能提供了关键的数据基础和大数据计算平台,人工智能为大数据提供了算法基础,自然语言处理直接面对数据中的语义内容。在当今时代信息爆炸的情况下,一方面网络信息的规模急剧膨胀,另一方面有价值的信息湮没在大量荣誉信息中,为了提高信息的智能化处理程度,话题识别与跟踪技术应运而生。
话题识别与跟踪技术是建立在用户的话题观点画像图谱的基础上的,因此,为了实现有效的话题识别与跟踪,需要确保话题观点画像图谱的质量。然而发明人在实际研究中发现,常见的话题观点画像图谱容易出现缺失等问题。
发明内容
本申请的一个目的是提供一种用于进行话题观点画像图谱处理的新技术方案。
根据本申请的第一方面,提供一种基于大数据的话题观点画像图谱处理方法,所述方法包括:响应于对目标话题用户的画像调取申请,确定所述目标话题用户的观点画像图谱;在确定所述观点画像图谱存在异常的前提下,获取所述目标话题用户与预设话题参与角色之间的相关性信息;预设话题参与角色用于表征所述目标话题用户的关联话题用户;根据所述观点画像图谱和获取到的相关性信息,确定所述目标话题用户的优化画像图谱。
根据本申请的第二方面,提供一种话题观点画像图谱处理系统,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述话题观点画像图谱处理系统执行上述的方法。
根据本申请的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。
根据本申请的一个实施例,在实施上述技术方案时,能够在确定得到目标话题用户的观点画像图谱并判定出观点画像图谱存在异常的前提下,获取目标话题用户与预设话题参与角色之间的相关性信息,进而根据观点画像图谱和获取到的相关性信息确定目标话题用户的优化画像图谱。如此设计,可以利用与目标话题用户存在关联的预设话题参与角色的画像图谱,对观点画像图谱进行填补,得到尽可能完整的目标话题用户的优化画像图谱。进一步地,通过自动化、智能化地确定目标话题用户的优化画像图谱,减少了确定优化画像图谱的资源消耗,并避免了人工手动分析存在的误差和非客观因素影响较大的问题,提高了优化画像图谱的完整性和质量,从而为后续的画像分析提供准确的画像图谱,避免因画像图谱的完整性和质量存在问题而导致画像分析出现偏差。
通过以下参照附图对本申请的示例性实施例的详细描述,本申请的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且连同其说明一起用于解释本申请的原理。
图1是示出可以实现本申请的实施例的话题观点画像图谱处理系统100的一种硬件配置的框图。
图2是示出可以实现本申请的实施例的话题观点画像图谱处理系统100的另一种硬件配置的框图。
图3是示出可以实现本申请的实施例的基于大数据的话题观点画像图谱处理方法的流程图。
图4是示出可以实现本申请的实施例的基于大数据的话题观点画像图谱处理方法的实施环境的架构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本申请的实施例的话题观点画像图谱处理系统100的一种硬件配置的框图,话题观点画像图谱处理系统100可以包括处理器110和存储器120,存储器120用于存储可执行的指令,处理器110用于根据可执行的指令的控制,运行话题观点画像图谱处理系统100执行本申请中的基于大数据的话题观点画像图谱处理方法。
图2是示出可以实现本申请的实施例的话题观点画像图谱处理系统100的另一种硬件配置的框图,话题观点画像图谱处理系统100可以包括处理器110、存储器120和基于大数据的话题观点画像图谱处理装置400,基于大数据的话题观点画像图谱处理装置400包括至少一个可以软件或固件(firmware)的形式储存于所述存储器120中的软件功能模块,所述处理器110通过运行存储在存储器120内的软件程序以及模块,例如本申请实施例中的基于大数据的话题观点画像图谱处理装置400,从而执行各种功能应用以及数据处理,即实现本申请实施例中的基于大数据的话题观点画像图谱处理方法。
<方法实施例>
图3是示出可以实现本申请的实施例的基于大数据的话题观点画像图谱处理方法的流程图,基于大数据的话题观点画像图谱处理方法可以通过图1或图2所示的话题观点画像图谱处理系统100实现,如图3所示,本申请实施例提供的基于大数据的话题观点画像图谱处理方法包括S301-S303。
S301、响应于对目标话题用户的画像调取申请,确定目标话题用户的观点画像图谱。
与话题观点画像图谱处理系统100连接的话题互动智能设备可接收到使用者对目标话题用户的画像图谱调取操作,则生成目标话题用户的画像调取申请,并向话题观点画像图谱处理系统100发送该画像调取申请。话题观点画像图谱处理系统100响应于该画像调取申请,获取目标话题用户的观点画像图谱。
然后,话题观点画像图谱处理系统100判断该观点画像图谱是否存在异常。
若该观点画像图谱存在异常(该观点画像图谱不完整),则话题观点画像图谱处理系统100执行S302。
若该观点画像图谱不存在异常(该观点画像图谱完整),则话题观点画像图谱处理系统100可以向该话题互动智能设备发送该观点画像图谱,以指示该话题互动智能设备输出该观点画像图谱。
其中,话题观点画像图谱处理系统100可获取设定时段内目标话题用户的话题观点评论;话题观点评论包括目标话题用户的观点标签、目标话题用户的评论帐号登录时段和目标话题用户的评论文本信息。话题观点画像图谱处理系统100再按照话题观点评论中的评论帐号登录时段的时间先后,对话题观点评论中与评论帐号登录时段对应的评论文本信息进行整理,得到目标话题参与角色的观点画像图谱。观点画像图谱除了包括整理后的评论文本信息,还可包括与整理后的评论文本信息对应的评论帐号登录时段。
在一些可能的示例中,画像图谱调取操作可包括观点标签,则话题观点画像图谱处理系统100可获取与该观点标签对应的设定时段内目标话题用户的话题观点评论。其中,画像调取申请中携带的观点标签,可以是观点描述字符、观点可视化内容等能够表征某个话题用户的信息,该目标话题用户的话题观点评论中的观点标签和画像图谱调取操作中的观点标签均表征目标话题用户。该目标话题用户的话题观点评论中的观点标签和画像图谱调取操作中的观点标签可相同,也可不同。
在一些可能的示例中,画像图谱调取操作可包括观点标签和调用时间段,则话题观点画像图谱处理系统100可获取与该观点标签对应的调用时间段内目标话题用户的话题观点评论。其中,画像调取申请中携带的观点标签,可以是观点描述字符、观点可视化内容等能够表征某个话题用户的信息,该目标话题用户的话题观点评论中的观点标签和画像图谱调取操作中的观点标签均表征目标话题用户。该目标话题用户的话题观点评论中的观点标签和画像图谱调取操作中的观点标签可相同,也可不同。话题观点画像图谱处理系统100基于调用时间段,返回目标话题用户在调用时间段内的画像图谱。
在一些可能的示例中,本实施例中设定时段可以为一周、一个月等预设值,也可以是用户指定的调用时间段。其中,画像调取申请中未携带调用时间段信息时,话题观点画像图谱处理系统100可以基于预设值,返回目标话题用户在设定时段内的画像图谱。
本申请实施例中,话题观点画像图谱处理系统100在观点画像图谱中的每两个在时序上关联的评论文本信息之间的文本特征差异大于第一预设特征差异阈值,或者该每两个在时序上关联的评论文本信息所对应的评论帐号登录时段之间的时段差异值大于第一预设时段差异阈值时,确定观点画像图谱存在异常。
话题观点画像图谱处理系统100在观点画像图谱中的每两个在时序上关联的评论文本信息之间的文本特征差异不大于(小于或等于)第一预设特征差异阈值、且该每两个在时序上关联的评论文本信息所对应的评论帐号登录时段之间的时段差异值不大于第一预设时段差异阈值时,确定观点画像图谱不存在异常。
其中,观点画像图谱中的每两个在时序上关联的评论文本信息在文本层面上是关联的,在对应的评论帐号登录时段上也是关联的。
在一些可能的示例中,第一预设特征差异阈值可以为0.6(阈值范围为0~1),第一预设时段差异阈值可以为10min。
S302、在确定观点画像图谱存在异常的前提下,获取目标话题用户与预设话题参与角色之间的相关性信息;预设话题参与角色用于表征目标话题用户的关联话题用户。
话题观点画像图谱处理系统100在确定观点画像图谱存在异常的前提下,可以从存储的话题用户与预设话题参与角色之间的相关性信息中,获取该目标话题用户与预设话题参与角色之间的相关性信息。或者,话题观点画像图谱处理系统100可以先获取设定时段内预设话题参与角色的话题参与角色信息;再根据如S301中所述的目标话题用户的话题观点评论、以及该预设话题参与角色的话题参与角色信息,得到该目标话题用户与预设话题参与角色之间的相关性信息。
其中,目标话题用户的关联话题用户是指与目标话题用户存在话题互动的用户。例如,针对某个话题或者某个主题的话题发起用户。预设话题参与角色用于表征目标话题用户的关联话题用户,则预设话题参与角色可以包括关联话题用户,还可以包括关联话题用户的标识信息。
在一些可能的示例中,预设话题参与角色可包括话题发起用户和其他话题参与角色,其他话题参与角色与话题发起用户不同。相应地,话题参与角色信息可包括:与话题发起用户相关的用户交互信息和话题发起用户信息,以及该其他话题参与角色的其他话题参与角色信息。目标话题用户与预设话题参与角色之间的相关性信息可包括:目标话题用户与话题发起用户之间的相关性信息、目标话题用户与其他话题参与角色之间的相关性信息。
在一些可能的示例中,其他话题参与角色可包括个人角色和工作室角色中的一个或多个。其他话题参与角色信息包括其他话题参与角色的话题参与角色标识(比如可以是个人角色或工作室角色)、其他话题参与角色的评论帐号登录时段和其他话题参与角色的评论文本信息。
本申请实施例中,目标话题用户的话题观点评论包括目标话题用户的观点标签、目标话题用户的评论帐号登录时段和目标话题用户的评论文本信息。预设话题参与角色的话题参与角色信息包括预设话题参与角色的话题参与角色标识、预设话题参与角色的评论帐号登录时段和预设话题参与角色的评论文本信息。
话题观点画像图谱处理系统100可以根据目标话题用户的话题观点评论和预设话题参与角色的话题参与角色信息,确定评论帐号登录时段相同或相近、且评论文本信息相同或相近的每一个话题观点评论和每一个话题参与角色信息,并对该每一个话题观点评论和该每一个话题参与角色信息建立一个相关性信息,进而得到该目标话题用户与预设话题参与角色之间的相关性信息。例如,相关性信息可以是关联关系。
其中,若存在多个话题观点评论中的观点标签相同、评论帐号登录时段和评论文本信息不同,并且,与该多个话题观点评论建立相关性信息的多个话题参与角色信息中的话题参与角色标识相同、评论帐号登录时段和评论文本信息不同,则该目标话题用户与预设话题参与角色之间的相关性信息包括重复存在的同一个相关性信息,并且,重复存在的同一个相关性信息包括由该多个话题观点评论和该多个话题参与角色信息建立的相关性信息。
S303、根据观点画像图谱和获取到的相关性信息,确定目标话题用户的优化画像图谱。
话题观点画像图谱处理系统100可以先确定存在异常的观点画像图谱中待补全的观点评论内容和待补全的评论时段。话题观点画像图谱处理系统100再从获取到的相关性信息中确定与目标话题用户存在相关性信息的话题参与角色,并将其话题参与角色信息中存在评论文本信息与待补全的观点评论内容相近、且存在评论帐号登录时段与待补全的评论时段相近的话题参与角色确定为目标话题参与角色,目标话题用户与目标话题参与角色的关系作为目标相关性信息。最后,话题观点画像图谱处理系统100补全观点画像图谱和由该目标相关性信息所确定的画像图谱,得到该优化画像图谱。
其中,待补全的观点评论内容可包括至少一组观点评论内容,待补全的评论时段可包括至少一组时段信息。至少一组观点评论内容和至少一组时段是唯一对应的。每一组观点评论内容包括两个观点评论内容,每一组时段包括热点时间节点。
可以理解的是,话题观点画像图谱处理系统100除了获取目标话题用户的观点画像图谱,还可以根据目标话题用户与预设话题参与角色之间的相关性信息,确定与目标话题用户存在关联的预设话题参与角色。然后,可以利用与目标话题用户存在关联的预设话题参与角色的画像图谱,对观点画像图谱进行填补,得到尽可能完整的目标话题用户的优化画像图谱。
其次,话题观点画像图谱处理系统100自动化、智能化地确定目标话题用户的优化画像图谱,减少了确定优化画像图谱的资源消耗,并避免了人工手动分析存在的误差和非客观因素影响较大的问题,提高了优化画像图谱的完整性和质量。
接下来将对一些可选实施例进行说明,这些实施例应当理解为示例,不应理解为实现本方案所必不可少的技术特征。
在一些可能的实施例中,上述S301可包括S3011-S3012,上述S302可以包括S3021-S3025,上述S303可以包括S3031-S3034。
S3011、响应于对目标话题用户的画像调取申请,确定设定时段内目标话题用户的话题观点评论。
其中,话题观点评论包括目标话题用户的观点标签及其对应的评论帐号登录时段和评论文本信息。
本申请实施例中,话题观点画像图谱处理系统100可从话题服务平台接收设定时段内的包括话题用户特征的话题用户信息。话题用户信息还包括话题用户特征对应的评论帐号登录时段和评论文本信息。然后,话题观点画像图谱处理系统100可对话题用户信息中的话题用户特征进行观点识别,得到目标话题用户的观点标签(比如可以是观点描述字符、观点可视化内容等能够表征目标话题用户的信息)。话题观点画像图谱处理系统100还确定目标话题用户的观点标签对应的评论帐号登录时段和评论文本信息。话题观点评论包括目标话题用户的观点标签及其对应的评论帐号登录时段和评论文本信息。
可以理解的是,话题观点画像图谱处理系统100可从多个话题服务平台接收上述话题用户信息,每个话题服务平台发送的话题用户信息中所有话题用户信息中的评论文本信息相同,皆是每个话题服务平台的观点评论内容。进而可知根据同一个话题服务平台采集的话题用户信息所得到的多个话题观点评论对应的评论文本信息相同。
S3012、按照话题观点评论中的评论帐号登录时段的时间先后,对话题观点评论中与评论帐号登录时段对应的评论文本信息进行整理,得到目标话题参与角色的观点画像图谱。
本申请实施例中,话题观点画像图谱处理系统100可在预设的舆情话题特征中,标记出话题观点评论中的评论文本信息;再按照话题观点评论中的与评论文本信息对应的评论帐号登录时段的时间先后,整合舆情话题特征中的评论文本信息,得到目标话题参与角色的观点画像图谱。
S3021、获取设定时段内预设话题参与角色的话题参与角色信息。
其中,预设话题参与角色可包括话题发起用户和上述其他话题参与角色;预设话题参与角色的话题参与角色信息包括上述用户交互信息、上述话题发起用户信息和上述其他话题参与角色信息。相应地,上述目标话题用户与预设话题参与角色之间的相关性信息可包括:目标话题用户与话题发起用户之间的第一目标相关性信息、目标话题用户与其他话题参与角色之间的第二目标相关性信息。
可以理解的是,话题观点画像图谱处理系统100可以同时执行S3021和S3011,或者先执行S3011再执行S3021,又或者先执行S3021再执行S3011,本申请实施例对S3011和S3021的执行顺序不进行限制。
S3022、对用户交互信息中的可视化交互内容进行相关性分析,得到第一相关性信息。
话题观点画像图谱处理系统100对用户交互信息中的可视化交互内容分别进行观点识别和话题发起用户识别,得到目标话题用户的观点标签(比如可以是观点描述字符、观点可视化内容等能够表征目标话题用户的信息)、以及与该观点标签对应的话题发起用户标识(比如可以是话题发起用户的身份ID和身份状态)。话题观点画像图谱处理系统100确定由该观点标签和该观点标签对应的评论帐号登录时段和评论文本信息组成一个话题观点评论,由该话题发起用户标识和该话题发起用户标识对应的评论帐号登录时段和评论文本信息组成一个话题发起用户信息;然后,对每一个话题观点评论和每一个话题观点评论对应的话题发起用户信息建立一个相关性信息,由建立的所有相关性信息组成目标话题用户与话题发起用户之间的第一相关性信息。
其中,该观点标签对应的评论帐号登录时段和评论文本信息、以及该话题发起用户标识对应的评论帐号登录时段和评论文本信息皆是用户交互信息中的评论帐号登录时段和评论文本信息。每一个话题观点评论对应的话题发起用户信息是指该话题观点评论中的观点标签和该话题发起用户信息中的话题发起用户标识对应。
可以理解的是,针对包括主流话题用户和边缘话题用户的可视化交互内容,话题观点画像图谱处理系统100分别进行观点和话题发起用户识别,得到主流话题用户的观点标签及其对应的话题发起用户标识、以及边缘话题用户的观点标签及其对应的话题发起用户标识。话题观点画像图谱处理系统100可从主流话题用户的观点标签和边缘话题用户的观点标签中确定目标话题用户的观点标签。其中,主流话题用户的观点标签对应的话题发起用户标识和边缘话题用户的观点标签对应的话题发起用户标识相同。
S3023、对话题观点评论、话题发起用户信息和其他话题参与角色信息进行大数据分析,得到第二相关性信息、第三相关性信息、第二相关性信息对应的可信描述、以及第三相关性信息对应的可信描述。
本申请实施例中,话题观点画像图谱处理系统100可根据话题观点评论中的评论文本信息和评论帐号登录时段、以及其他话题参与角色信息中的评论文本信息和评论帐号登录时段,拆分话题观点评论和其他话题参与角色信息,得到一个或多个第一数据聚类。话题观点画像图谱处理系统100还根据话题发起用户信息中的评论文本信息和评论帐号登录时段、以及其他话题参与角色信息中的评论文本信息和评论帐号登录时段,拆分话题发起用户信息和其他话题参与角色信息,得到一个或多个第二数据聚类。
然后,话题观点画像图谱处理系统100可根据一个或多个第一数据聚类,得到第三相关性信息、第三相关性信息对应的可信描述;还根据一个或多个第二数据聚类,得到话题发起用户和其他话题参与角色之间的过渡相关性信息、过渡相关性信息对应的可信描述。话题观点画像图谱处理系统100再根据第三相关性信息、以及话题发起用户和其他话题参与角色之间的过渡相关性信息,得到第二相关性信息;还根据第三相关性信息对应的可信描述和过渡相关性信息对应的可信描述,确定得到第二相关性信息对应的可信描述。可信描述均用于表征对应的相关性信息的可信程度。
其中,每个第一数据聚类中的每两个评论文本信息(即话题观点评论中的评论文本信息和其他话题参与角色信息中的评论文本信息)之间的文本特征差异小于第二预设特征差异阈值、且每个第一数据聚类中的每两个评论帐号登录时段(即话题观点评论中的评论帐号登录时段和其他话题参与角色信息中的评论帐号登录时段)之间的时段差异值小于第二预设时段差异阈值。每个第二数据聚类中的每两个评论文本信息(即话题发起用户信息中的评论文本信息和其他话题参与角色信息中的评论文本信息)之间的文本特征差异小于第三预设特征差异阈值、且每个第二数据聚类中的每两个评论帐号登录时段(即话题发起用户信息中的评论帐号登录时段和其他话题参与角色信息中的评论帐号登录时段)之间的时段差异值小于第三预设时段差异阈值。
其中,第二预设特征差异阈值和第三预设特征差异阈值可以相同,也可以不同。第二预设时段差异阈值和第三预设时段差异阈值可以相同,也可以不同。
在一些可能的示例中,以其他话题参与角色信息包括的个人角色信息为例,话题观点画像图谱处理系统100可先根据话题观点评论中的评论文本信息和个人角色信息中的评论文本信息,从话题观点评论和个人角色信息中确定文本层面相同或文本层面相近的数据聚类。每个文本层面相同或文本层面相近的数据聚类中的话题观点评论中的评论文本信息和个人角色信息中的评论文本信息之间的文本特征差异小于第二预设特征差异阈值。话题观点画像图谱处理系统100再从文本层面相同或文本层面相近的数据聚类中,确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第一数据聚类。每一个第一数据聚类中的话题观点评论中的评论帐号登录时段和个人角色信息中的评论帐号登录时段之间的时段差异值小于第二预设时段差异阈值。
可以理解的是,话题观点画像图谱处理系统100拆分话题发起用户信息和其他话题参与角色信息得到一个或多个第二数据聚类的具体过程,可以参见上述话题观点画像图谱处理系统100拆分话题观点评论和个人角色信息得到一个或多个第一数据聚类的进一步说明,本申请实施例这里不予赘述。
本申请实施例中,话题观点画像图谱处理系统100得到由话题观点评论和其他话题参与角色信息组成的一个或多个第一数据聚类后,可以对每一个第一数据聚类建立一个相关性信息,进而得到目标话题用户与其他话题参与角色信息之间的第三相关性信息。同样的道理地,话题观点画像图谱处理系统100得到由话题发起用户信息和其他话题参与角色组成的一个或多个第二数据聚类后,可以对每一个第二数据聚类建立一个相关性信息,进而得到话题发起用户和其他话题参与角色之间的过渡相关性信息(中间关联信息)。
进一步地,话题观点画像图谱处理系统100可对上述第三相关性信息中的每一个相关性信息中的话题观点评论、与上述过渡相关性信息中对应的一个相关性信息中的话题发起用户信息建立一个相关性信息,进而得到目标话题用户和话题发起用户之间的第二相关性信息。其中,第三相关性信息中的每一个相关性信息和过渡相关性信息中对应的一个相关性信息都对应相同的其他话题参与角色信息。该第二相关性信息是目标话题用户与话题发起用户之间的间接相关性信息。上述第一相关性信息是目标话题用户与话题发起用户之间的直接相关性信息。
其中,第二相关性信息可以包括以每一个其他话题参与角色为桥梁的间接相关性信息,以每一个其他话题参与角色为桥梁的间接相关性信息中的每个相关性信息中的话题观点评论和话题发起用户信息对应相同的其他话题参与角色信息。
本申请实施例中,话题观点画像图谱处理系统100根据一个或多个第一数据聚类,得到第三相关性信息中的同一个相关性信息在设定时段内的在先可信描述、以及同一个相关性信息在当前第一时间段内的当前可信描述。话题观点画像图谱处理系统100再根据预设在先可信描述的描述处理网络、同一个相关性信息的在先可信描述及其对应的预设影响因子(权重)、以及同一个相关性信息的当前可信描述及其对应的预设影响因子,确定得到同一个相关性信息的可信描述(置信度或者可信度)。
其中,若第三相关性信息中的一个或多个相关性信息中的观点标签和其他话题参与角色标识都相同,则该一个或多个相关性信息被确定为同一个相关性信息。
其中,设定时段包括一个或多个第一时间段,一个或多个第一时间段包括当前第一时间段。当前第一时间段与当前时间节点之间的最小时段差异值小于其他第一时间段与当前时间节点之间的最小时段差异值,其他第一时间段是一个或多个第一时间段中除当前第一时间段之外的第一时间段。
在一些可能的示例中,设定时段是一周,一个或多个第一时间段包括一周中的星期一、星期二、星期三、星期四、星期五、星期六和星期日,当前第一时间段是一周中的星期日。
本申请实施例中,由于第二相关性信息中的每一个相关性信息是根据上述第三相关性信息中的一个相关性信息和上述过渡相关性信息中对应的一个相关性信息得到的,则话题观点画像图谱处理系统100可用第三相关性信息中的这个相关性信息的可信描述和过渡相关性信息中的对应的这个相关性信息的可信描述进行加权处理,得到第二相关性信息中的每一个相关性信息的可信描述。
可以理解的是,上述过渡相关性信息中的同一个相关性信息是指话题发起用户标识和其他话题参与角色标识都相同的一个或多个相关性信息。话题观点画像图谱处理系统100根据上述一个或多个第二数据聚类得到上述过渡相关性信息对应的可信描述的具体过程,与话题观点画像图谱处理系统100根据上述一个或多个第一数据聚类得到上述第三相关性信息对应的可信描述的具体过程同样的道理,本申请实施例这里不予赘述。
本申请实施例中,第二预设特征差异阈值和第三预设特征差异阈值均可小于第一预设特征差异阈值。第二预设时段差异阈值和第三预设时段差异阈值均可小于第一预设时段差异阈值。
在一些可能的示例中,第二预设特征差异阈值可以为0~1之间的其他值比如0.24,第二预设时段差异阈值可以为1min。第三预设特征差异阈值可以为0~1之间的其他值比如0.81,第三预设时段差异阈值可以为1min。
S3024、获取第一相关性信息对应的预存的可信描述。
话题观点画像图谱处理系统100可将预存的可信描述作为目标话题用户与话题发起用户之间的第一相关性信息的可信描述。其中,话题观点画像图谱处理系统100可根据可视化交互内容的可信程度设置该预存的可信描述。
S3025、分别根据第一相关性信息对应的预存的可信描述、第二相关性信息对应的可信描述、第三相关性信息对应的可信描述,从第一相关性信息和第二相关性信息中确定第一目标相关性信息,从第三相关性信息中确定第二目标相关性信息。
话题观点画像图谱处理系统100可根据第一相关性信息对应的预存的可信描述、以及第二相关性信息对应的可信描述,从第一相关性信息和第二相关性信息中选择可信描述较大的第一目标相关性信息;还根据第三相关性信息对应的可信描述,从第三相关性信息中选择可信描述较大的第二目标相关性信息。
其中,第一目标相关性信息对应的可信描述大于第二相关性信息中除第一目标相关性信息之外的其他相关性信息对应的可信描述;第二目标相关性信息对应的可信描述大于第三相关性信息中除第二目标相关性信息之外的其他相关性信息对应的可信描述。
其中,第一目标相关性信息可包括目标话题用户与话题发起用户之间的直接相关性信息、和/或目标话题用户与话题发起用户之间的间接相关性信息。
在一些可能的示例中,以第一目标相关性信息为例,话题观点画像图谱处理系统100根据第一相关性信息对应的预存的可信描述、以及第二相关性信息对应的可信描述,从第一相关性信息和第二相关性信息中确定可信描述大于预设可信描述阈值(例如可以是0.7)的第一目标相关性信息。或者,话题观点画像图谱处理系统100从第一相关性信息和第二相关性信息中确定预设个数(例如可以是5)的第一目标相关性信息,该第一目标相关性信息的可信描述大于第二相关性信息中除第一目标相关性信息以外的其他相关性信息对应的可信描述。
可以理解的是,由于所有第一相关性信息对应的可信描述都是预存的可信描述,即所有第一相关性信息对应同一个可信描述。因此,若所选择的第一目标相关性信息只符合大于预设可信描述阈值的要求,则第一目标相关性信息可以包括所有的第一相关性信息,或者不包括所有的第一相关性信息。
在一些可能的示例中,以第二目标相关性信息为例,话题观点画像图谱处理系统100根据第三相关性信息对应的可信描述,从第三相关性信息中确定可信描述大于预设可信描述阈值(例如可以是0.7)的第二目标相关性信息。或者,话题观点画像图谱处理系统100从第三相关性信息中确定预设个数(例如可以是5)的第二目标相关性信息,该第二目标相关性信息的可信描述大于第三相关性信息中除第二目标相关性信息以外的其他相关性信息对应的可信描述。
可以理解的是,由于第三相关性信息对应的可信描述包括第三相关性信息中同一个相关性信息的可信描述,换言之,第三相关性信息中的一个或多个相关性信息被确定为同一个相关性信息,则该一个或多个相关性信息的可信描述都一样。因此,话题观点画像图谱处理系统100从第三相关性信息中选择的可信描述较大的第二目标相关性信息包括一个或多个可信描述较大的同一个相关性信息。每个可信描述较大的同一个相关性信息可以是一个或多个相关性信息,则每个可信描述较大的同一个相关性信息包括一个或多个评论文本信息、一个或多个评论帐号登录时段。
同样的道理,第二相关性信息对应的可信描述也包括第二相关性信息中的同一个相关性信息的可信描述。其次,第一相关性信息也可以被拆分成观点标签和话题发起用户标识皆相同的同一个相关性信息,第一相关性信息包括的所有同一个相关性信息对应同一个可信描述。进而,话题观点画像图谱处理系统100从第一相关性信息和第二相关性信息中选择的可信描述较大的第一目标相关性信息,可以包括以下至少一项:第一相关性信息中的一个或多个的同一个相关性信息、第二相关性信息中的可信描述较大的同一个相关性信息。
S3031、根据观点画像图谱,确定待补全的观点评论内容和待补全的评论时段。
其中,S3031中的待补全的观点评论内容和待补全的评论时段的进一步说明,可参加上述S303中对待补全的观点评论内容和待补全的评论时段的进一步说明。
本申请实施例中,话题观点画像图谱处理系统100在观点画像图谱中的每两个在时序上关联的评论文本信息之间的文本特征差异大于第一预设特征差异阈值,或者每两个在时序上关联的评论文本信息所对应的评论帐号登录时段之间的时段差异值大于第一预设时段差异阈值时,确定每两个在时序上关联的评论文本信息为一组观点评论内容、每两个在时序上关联的评论文本信息所对应的评论帐号登录时段为一组时段。进而得到包括至少一组观点评论内容的待补全的观点评论内容、以及包括至少一组时段的待补全的评论时段。
S3032、根据待补全的观点评论内容和待补全的评论时段,从相关性信息中确定目标相关性信息。
话题观点画像图谱处理系统100可根据待补全的观点评论内容和待补全的评论时段,从相关性信息包括的第一目标相关性信息和第二目标相关性信息中,确定目标相关性信息。
话题观点画像图谱处理系统100可以先获取与目标话题用户存在第一目标相关性信息的第一话题参与角色在设定时段内的话题参与角色信息(包括多个评论文本信息和对应的多个评论帐号登录时段信息)、获取与目标话题用户存在第二目标相关性信息的第二话题参与角色在设定时段内的话题参与角色信息(包括多个评论文本信息和对应的多个评论帐号登录时段信息),再基于待补全的观点评论内容和待补全的评论时段,将其话题参与角色信息中存在评论文本信息与待补全的观点评论内容相近、且评论帐号登录时段与待补全的评论时段相近的话题参与角色确定为目标话题参与角色,目标话题用户与目标话题参与角色的关系作为目标相关性信息。
其中,目标相关性信息对应的评论文本信息与待补全的观点评论内容之间的最小文本特征差异小于或等于第一预设特征差异阈值,目标相关性信息对应的评论帐号登录时段与待补全的评论时段之间的最小时段差异值或等于小于第一预设时段差异阈值。
本申请实施例中,待补全的观点评论内容包括上述至少一组观点评论内容,待补全的评论时段包括上述至少一组时段。相应地,目标话题参与角色的话题参与角色信息中包括与每一组观点评论内容和每一组时段对应的至少一组关联画像图谱。每一组关联画像图谱包括两个评论文本信息及对应的两个评论帐号登录时段。
其中,每一组关联画像图谱中的评论文本信息与每一个组关联画像图谱对应的一组观点评论内容之间的最小文本特征差异小于或等于第一预设特征差异阈值,每一组关联画像图谱中的评论帐号登录时段与每一组关联画像图谱对应的一组时段之间的最小时段差异值小于或等于第一预设时段差异阈值。
本申请实施例中,上述至少一组关联画像图谱可以包括以下至少一项:从第一目标相关性信息中确定的至少一组关联画像图谱、从第二目标相关性信息中确定的至少一组关联画像图谱。
S3033、按照目标相关性信息对应的评论帐号登录时段的时间先后,对目标相关性信息中与评论帐号登录时段对应的评论文本信息进行整理,得到待补全画像图谱。
其中,目标相关性信息是指目标话题用户与目标话题参与角色的相关性信息。目标相关性信息中的目标话题参与角色的话题参与角色信息包括与每一组观点评论内容和每一组时段对应的至少一组关联画像图谱,每一组关联画像图谱包括两个评论文本信息及对应的两个评论帐号登录时段。则话题观点画像图谱处理系统100可对每一组关联画像图谱中的两个评论文本信息对应的评论帐号登录时段的时间先后,对每一组关联画像图谱中的两个评论文本信息进行整理,得到一个待补全画像图谱。
在一些可能的示例中,话题观点画像图谱处理系统100可在预设的舆情话题特征中,标记出每一组关联画像图谱中的两个评论文本信息;再按照每一组关联画像图谱中的两个评论文本信息对应的评论帐号登录时段的时间先后,整合舆情话题特征中的两个评论文本信息,得到一个待补全画像图谱。
S3034、融合观点画像图谱和待补全画像图谱,得到优化画像图谱。
其中,待补全画像图谱包括:目标相关性信息中的至少一组关联画像图谱所确定的一个或多个待补全画像图谱。一个或多个关联画像图谱对应待补全观点评论内容中的一组观点评论内容和一组时段,则一个或多个待补全画像图谱也对应待补全观点评论内容中的一组观点评论内容和一组时段。话题观点画像图谱处理系统100可将一个或多个待补全画像图谱与观点画像图谱中的对应的一组观点评论内容进行补全,得到优化画像图谱。
在一些可能的示例中,话题观点画像图谱处理系统100可对舆情话题特征中的每个待补全画像图谱与观点画像图谱中的对应的一组观点评论内容进行邦定融合,得到优化画像图谱。其中,每个待补全画像图谱包括两个评论文本信息,每个待补全画像图谱对应的一组观点评论内容也包括两个评论文本信息,话题观点画像图谱处理系统100可将每个待补全画像图谱中的评论文本信息与对应的一组观点评论内容中的较为相似的评论文本信息进行邦定融合。
本申请实施例中,与上述S3021中的目标话题用户与预设话题参与角色之间的相关性信息不同,目标话题用户与预设话题参与角色之间的相关性信息还可以包括:上述目标话题用户与话题发起用户之间的第一相关性信息、上述目标话题用户与话题发起用户之间的第二相关性信息、上述目标话题用户与其他话题参与角色之间的第三相关性信息、上述第一相关性信息对应的可信描述、上述第二相关性信息对应的可信描述、上述第三相关性信息对应的可信描述。此时,话题观点画像图谱处理系统100可在获取该目标话题用户与预设话题参与角色之间的相关性信息之后,根据上述待补全的观点评论内容、上述待补全的评论时段、该第一相关性信息对应的可信描述、该第二相关性信息对应的可信描述和该第三相关性信息对应的可信描述,从第一相关性信息、第二相关性信息和第三相关性信息中确定目标相关性信息。
在一些可能的示例中,话题观点画像图谱处理系统100可先获取与目标话题用户存在第一相关性信息的第一话题参与角色在设定时段内的话题参与角色信息、获取与目标话题用户存在第二相关性信息的第二话题参与角色在设定时段内的话题参与角色信息、获取与目标话题用户存在第三相关性信息的第三话题参与角色在设定时段内的话题参与角色信息;再基于待补全的观点评论内容和待补全的评论时段,将话题参与角色信息中存在评论文本信息与待补全的观点评论内容相近、且评论帐号登录时段与待补全的评论时段相近的第一话题参与角色确定为第一候选话题参与角色,将话题参与角色信息中存在评论文本信息与待补全的观点评论内容相近、且评论帐号登录时段与待补全的评论时段相近的第二话题参与角色确定为第二候选话题参与角色,将话题参与角色信息中存在评论文本信息与待补全的观点评论内容相近、且评论帐号登录时段与待补全的评论时段相近的第三话题参与角色确定为第三候选话题参与角色。
其中,目标话题用户与第一候选话题参与角色的相关性信息作为第一候选相关性信息,目标话题用户与第二候选话题参与角色的相关性信息作为第二候选相关性信息,目标话题用户与第三候选话题参与角色的相关性信息作为第三候选相关性信息。然后,话题观点画像图谱处理系统100根据该第一相关性信息对应的可信描述和该第二相关性信息对应的可信描述,从第一候选相关性信息和第二候选相关性信息中确定可信描述较大的第一目标相关性信息;还根据该第三相关性信息对应的可信描述,从第三候选相关性信息中确定可信描述较大的第二目标相关性信息。上述目标相关性信息包括第一目标相关性信息和第二目标相关性信息。
本申请实施例中,上述S3023中的话题观点画像图谱处理系统100根据上述一个或多个第一数据聚类得到第三相关性信息对应的可信描述的过程,可具体包括步骤step1-步骤step3。
步骤step1、针对第三相关性信息中的同一个相关性信息,执行以下操作以得到同一个相关性信息在设定时段内的在先可信描述:统计同一个相关性信息在每个第一时间段内的激活累计值、同一个相关性信息在每个第一时间段内的激活天数、在每个第一时间段内包括同一个相关性信息的数据聚类个数;根据激活累计值及其对应的预设第一影响因子、激活天数及其对应的预设第二影响因子、数据聚类个数及其对应的预设第三影响因子,确定得到同一个相关性信息在每个第一时间段内的局部可信描述;获取可信度调整指数;利用可信度调整指数和局部可信描述,确定得到在先可信描述。
其中,可信度调整指数可包括每个第一时间段和上述当前第一时间段相差的时间段数量、设定时段内激活同一个相关性信息的第一时间段的个数、一个或多个第一时间段的总个数。
其中,第一预设影响因子、第二预设影响因子和第三预设影响因子的总和等于1。例如,第一预设影响因子是0.45,第二预设影响因子是0.2,第三预设影响因子是0.35。
可以理解的是,不同相关性信息的激活累计值对应的预设第一影响因子都相同。不同相关性信息的激活累计值对应的预设第二影响因子都相同。不同相关性信息的数据聚类个数对应的预设第三影响因子都相同。
步骤step2、针对第三相关性信息中的同一个相关性信息,执行以下操作以得到同一个相关性信息在当前第一时间段内的当前可信描述:获取当前激活累计值、激活时间段数量、当前数据聚类个数;根据当前激活累计值及其对应的预设第一影响因子、激活时间段数量及其对应的预设第二影响因子、当前数据聚类个数及其对应的预设第三影响因子,确定得到当前可信描述。
其中,当前第一时间段包括一个或多个第二时段,例如,当前第一时间段为一周中的星期日,一个或多个第二时段就是星期日所包括的24个小时。当前激活累计值是同一个相关性信息在当前第一时间段内的激活累计值;激活时间段数量是当前第一时间段内激活同一个相关性信息的第二时段的个数;当前数据聚类个数是在当前第一时间段内包括同一个相关性信息的数据聚类个数。
步骤step3、根据预设在先可信描述的描述处理网络、同一个相关性信息的在先可信描述及其对应的预设影响因子(可以作为第四预设影响因子)、以及同一个相关性信息的当前可信描述及其对应的预设影响因子(可以作为第五预设影响因子),确定得到同一个相关性信息的可信描述。
其中,第四预设影响因子和第五预设影响因子的总和等于1。例如,第四预设影响因子是0.24,第五预设影响因子是0.76。
可以理解的是,不同相关性信息的在先可信描述对应的第四预设影响因子都相同。不同相关性信息的当前可信描述对应的第五预设影响因子都相同。
其中,预设在先可信描述的描述处理网络可以用于将同一个相关性信息的在先可信描述和第三相关性信息对应的预设可信描述中的最大值作为更新后的在先可信描述。
或者,预设在先可信描述的描述处理网络可以用于根据同一个相关性信息的在先可信描述、同一个相关性信息的在先可信描述对应的第六预设影响因子、第三相关性信息对应的预设可信描述、以及第三相关性信息对应的预设可信描述的第七预设影响因子,确定得到更新后的在先可信描述。第六预设影响因子和第七预设影响因子的总和等于1。
本申请实施例中,话题观点画像图谱处理系统100可将同一个相关性信息的在先可信描述输入到预设在先可信描述的描述处理网络,输出更新后的在先可信描述。再对更新后的在先可信描述和第四预设影响因子的加权值,与同一个相关性信息的当前可信描述和第五预设影响因子的加权值相加,得到同一个相关性信息的可信描述。
在一些可能的示例中,以预设话题参与角色包括话题发起用户、个人角色和工作室角色,预设话题参与角色的话题参与角色信息包括用户交互信息、话题发起用户信息、个人角色信息和工作室角色信息为例。例如,话题观点画像图谱处理系统100可以先根据话题观点评论中的评论文本信息和个人角色信息中的评论文本信息,从话题观点评论和个人角色信息中确定文本层面相同或文本层面相近的数据聚类。话题观点画像图谱处理系统100再从文本层面相同或文本层面相近的数据聚类中,确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第一数据聚类。最后,话题观点画像图谱处理系统100根据该一个或多个第一数据聚类,得到目标话题用户与个人角色之间的第三相关性信息。
其中,该文本层面相同或文本层面相近的每个数据聚类中的话题观点评论中的评论文本信息和个人角色信息中的评论文本信息之间的文本特征差异小于第二预设特征差异阈值。每一个第一数据聚类中的话题观点评论中的评论帐号登录时段和个人角色信息中的评论帐号登录时段之间的时段差异值小于第二预设时段差异阈值。从话题观点评论和个人角色信息中确定文本层面相同或文本层面相近的数据聚类的过程可以作为文本特征清洗。从文本层面相同或文本层面相近的数据聚类中确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第一数据聚类的过程可以作为时序特征清洗。
又例如,话题观点画像图谱处理系统100可以先根据话题观点评论中的评论文本信息和工作室角色信息中的评论文本信息,从话题观点评论和工作室角色信息中确定文本层面相同或文本层面相近的数据聚类。话题观点画像图谱处理系统100再从文本层面相同或文本层面相近的数据聚类中,确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第一数据聚类。最后,话题观点画像图谱处理系统100根据该一个或多个第一数据聚类,得到目标话题用户与工作室角色之间的第三相关性信息。
其中,该文本层面相同或文本层面相近的每个数据聚类中的话题观点评论中的评论文本信息和工作室角色信息中的评论文本信息之间的文本特征差异小于第二预设特征差异阈值。每一个第一数据聚类中的话题观点评论中的评论帐号登录时段和工作室角色信息中的评论帐号登录时段之间的时段差异值小于第二预设时段差异阈值。从话题观点评论和工作室角色信息中确定文本层面相同或文本层面相近的数据聚类的过程可以作为文本特征清洗。从文本层面相同或文本层面相近的数据聚类中确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第一数据聚类的过程可以作为时序特征清洗。
此外,话题观点画像图谱处理系统100可以先根据话题发起用户信息中的评论文本信息和个人角色信息中的评论文本信息,从话题发起用户信息和个人角色信息中确定文本层面相同或文本层面相近的数据聚类。话题观点画像图谱处理系统100再从文本层面相同或文本层面相近的数据聚类中,确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第二数据聚类。最后,话题观点画像图谱处理系统100根据该一个或多个第二数据聚类,得到话题发起用户与个人角色之间的过渡相关性信息。
其中,该文本层面相同或文本层面相近的每个数据聚类中的话题发起用户信息中的评论文本信息和个人角色信息中的评论文本信息之间的文本特征差异小于第三预设特征差异阈值。每一个第二数据聚类中的话题发起用户信息中的评论帐号登录时段和个人角色信息中的评论帐号登录时段之间的时段差异值小于第三预设时段差异阈值。从话题发起用户信息和个人角色信息中确定文本层面相同或文本层面相近的数据聚类的过程可以作为文本特征清洗。从文本层面相同或文本层面相近的数据聚类中确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第二数据聚类的过程可以作为时序特征清洗。
进一步地,话题观点画像图谱处理系统100可以先根据话题发起用户信息中的评论文本信息和工作室角色信息中的评论文本信息,从话题发起用户信息和工作室角色信息中确定文本层面相同或文本层面相近的数据聚类。话题观点画像图谱处理系统100再从文本层面相同或文本层面相近的数据聚类中,确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第二数据聚类。最后,话题观点画像图谱处理系统100根据该一个或多个第二数据聚类,得到话题发起用户与工作室角色之间的过渡相关性信息。
其中,该文本层面相同或文本层面相近的每个数据聚类中的话题发起用户信息中的评论文本信息和工作室角色信息中的评论文本信息之间的文本特征差异小于第三预设特征差异阈值。每一个第二数据聚类中的话题发起用户信息中的评论帐号登录时段和工作室角色信息中的评论帐号登录时段之间的时段差异值小于第三预设时段差异阈值。从话题发起用户信息和工作室角色信息中确定文本层面相同或文本层面相近的数据聚类的过程可以作为文本特征清洗。从文本层面相同或文本层面相近的数据聚类中确定评论帐号登录时段相同或评论帐号登录时段相近的一个或多个第二数据聚类的过程可以作为时序特征清洗。
在另外的一些示例中,话题观点画像图谱处理系统100根据上述用户交互信息确定主流话题用户的观点标签及其对应的话题发起用户标识、以及边缘话题用户的观点标签及其对应的话题发起用户标识;再根据包括主流话题用户的观点标签的话题观点评论以及与该话题观点评论对应的包括话题发起用户标识的话题发起用户信息、以及包括边缘话题用户的观点标签的话题观点评论以及与该话题观点评论对应的包括话题发起用户标识的话题发起用户信息,确定目标话题用户与话题发起用户之间的第一相关性信息。话题观点画像图谱处理系统100还根据目标话题用户与个人角色之间的第三相关性信息、以及话题发起用户与个人角色之间的过渡相关性信息,得到以个人角色为桥梁的目标话题用户和话题发起用户之间的间接相关性信息。话题观点画像图谱处理系统100还根据目标话题用户与工作室角色之间的第三相关性信息、以及话题发起用户与工作室角色之间的过渡相关性信息,得到以工作室角色为桥梁的目标话题用户和话题发起用户之间的间接相关性信息。
在一些可能的示例中,继续以上述示例为例,话题观点画像图谱处理系统100在得到上述示例所对应的相关性信息后,可先确定目标话题用户的观点画像图谱;再根据目标话题用户的观点画像图谱,确定待补全的观点评论内容和待补全的评论时段;然后,根据待补全的观点评论内容、待补全的评论时段、第一相关性信息、第一相关性信息对应的预存的可信描述、第二相关性信息、第二相关性信息对应的可信描述、第三相关性信息、以及第三相关性信息对应的可信描述,确定目标相关性信息。话题观点画像图谱处理系统100再按照目标相关性信息对应的评论帐号登录时段的时间先后,对目标相关性信息中与评论帐号登录时段对应的评论文本信息进行整理,得到待补全画像图谱。最后,话题观点画像图谱处理系统100融合观点画像图谱和待补全画像图谱,得到优化画像图谱。
在一些可能的示例中,话题观点画像图谱处理系统100确定的目标话题用户的观点画像图谱包括按照评论帐号登录时段的时间先后整理的第一时间、第二时间、第三时间、第四时间和第五时间。然后,话题观点画像图谱处理系统100对该观点画像图谱确定待补全的观点评论内容和待补全的评论时段。其中,该待补全的观点评论内容包括的一组观点评论内容是第二时间的观点评论内容和第三时间的观点评论内容,另一组观点评论内容是第四时间的观点评论内容和第五时间的观点评论内容。该待补全的评论时段包括的与这一组观点评论内容对应的一组时段是第二时间的评论时段和第三时间的评论时段,与另一组观点评论内容对应的一组时段是第四时间的评论时段和第五时间的评论时段。
进而,话题观点画像图谱处理系统100可以确定出的目标相关性信息中的目标话题参与角色的话题参与角色信息可包括:与第二时间和第三时间对应的至少一组关联画像图谱、与第四时间和第五时间对应的至少一组关联画像图谱。其中,与第二时间和第三时间对应的一组关联画像图谱可以包括:话题发起用户c1的话题发起用户信息中的一组关联画像图谱(即两个评论文本信息和对应的两个评论帐号登录时段)、话题发起用户c2的话题发起用户信息中的一组关联画像图谱、个人角色p1的个人角色信息中的一组关联画像图谱、个人角色p2的个人角色信息中的一组关联画像图谱、工作室角色w1的工作室角色信息中的一组关联画像图谱。与第四时间和第五时间对应的至少一组关联画像图谱可以包括:工作室角色w1的工作室角色信息中的一组关联画像图谱、工作室角色w2的工作室角色信息中的一组关联画像图谱、个人角色p1的个人角色信息中的一组关联画像图谱。最后,话题观点画像图谱处理系统100可以确定上述目标相关性信息对应的待补全画像图谱,将该观点画像图谱和确定的待补全画像图谱融合,得到优化画像图谱。
在一些可能的示例中,继续以上述的第二时间和第三时间、与第二时间和第三时间对应的个人角色p1的个人角色信息中的一组关联画像图谱为例,该个人角色信息中的一组关联画像图谱包括两个评论文本信息和对应的两个评论帐号登录时段,分别是第一时间的评论文本信息和评论帐号登录时段,第二时间的评论文本信息和评论帐号登录时段。可以知道,第一时间的评论文本信息与第二时间的观点评论内容之间的文本特征差异小于或等于第一预设特征差异阈值(比如可以是0.6),第一时间的评论帐号登录时段与第二时间的评论时段之间的时段差异值小于或等于第一预设时段差异阈值(比如可以是30min)。第二时间的评论文本信息与第三时间的观点评论内容之间的文本特征差异小于或等于第一预设特征差异阈值(比如可以是0.6),第二时间的评论帐号登录时段与第三时间的评论时段之间的时段差异值小于或等于第一预设时段差异阈值(比如可以是30min)。
综上,在实施上述技术方案时,能够在确定得到目标话题用户的观点画像图谱并判定出观点画像图谱存在异常的前提下,获取目标话题用户与预设话题参与角色之间的相关性信息,进而根据观点画像图谱和获取到的相关性信息确定目标话题用户的优化画像图谱。如此设计,可以利用与目标话题用户存在关联的预设话题参与角色的画像图谱,对观点画像图谱进行填补,得到尽可能完整的目标话题用户的优化画像图谱。进一步地,通过自动化、智能化地确定目标话题用户的优化画像图谱,减少了确定优化画像图谱的资源消耗,并避免了人工手动分析存在的误差和非客观因素影响较大的问题,提高了优化画像图谱的完整性和质量,从而为后续的画像分析提供准确的画像图谱,避免因画像图谱的完整性和质量存在问题而导致画像分析出现偏差。
在一些选择性的实施例中,在得到目标话题用户的优化画像图谱的基础上,该方法还可以包括以下内容:对所述优化画像图谱进行用户倾向性分析,得到所述目标话题用户的倾向性分析结果;基于所述倾向性分析结果进行话题推送。
如此设计,可以基于完整的且具有较高质量的优化画像图谱实现用户倾向性分析,进而根据倾向性分析结果进行精准话题推送,避免频繁的话题推送所造成的网络资源浪费。
在一些选择性的实施例中,上述步骤所描述的“对所述优化画像图谱进行用户倾向性分析,得到所述目标话题用户的倾向性分析结果”,可以包括以下步骤100-步骤500所描述的技术方案。
步骤100、通过预设用户倾向性分析网络获取所述优化画像图谱对应的待进行倾向性挖掘的目标图谱描述信息。
步骤200、对所述目标图谱描述信息中的多个图谱描述特征分别进行积极类情感识别和消极类情感识别,得到积极类情感识别结果集和消极类情感识别结果集。
步骤300、通过第一预设筛分策略,对所述积极类情感识别结果集进行第一筛分处理,得到包括有积极类情感的第一挖掘参考信息集。
步骤400、通过第二预设筛分策略,对所述消极类情感识别结果集进行第二筛分处理,得到包括有消极类情感的第二挖掘参考信息集;基于所述第一挖掘参考信息集和所述第二挖掘参考信息集进行描述信息优化处理,得到所述目标图谱描述信息中与目标情感相匹配的目标挖掘参考信息集;所述目标情感包括积极类情感和消极类情感中的至少一种,所述目标挖掘参考信息集用于对所述目标图谱描述信息进行倾向性挖掘。
步骤500、基于所述目标挖掘参考信息集对所述目标图谱描述信息进行倾向性挖掘,得到所述目标话题用户的倾向性分析结果。
可以理解,通过实施上述步骤100-步骤500,能够对图谱描述特征分别进行积极类情感识别和消极类情感识别,从而综合考虑积极类情感和消极类情感,这样可以确保目标挖掘参考信息集尽可能包含完整的情感极性记录情况,进而确保倾向性挖掘的质量,保证目标话题用户的倾向性分析结果的准确性。
在一些选择性的实施例中,步骤200所描述的对所述目标图谱描述信息中的多个图谱描述特征分别进行积极类情感识别和消极类情感识别,得到积极类情感识别结果集和消极类情感识别结果集,可以包括:对所述目标图谱描述信息中的多个图谱描述特征分别进行积极类情感识别,得到各个图谱描述特征中的积极类情感识别内容、以及各积极类情感识别内容所对应的原始画像情感类别;基于各图谱描述特征中的积极类情感识别内容和相应的原始画像情感类别,确定积极类情感识别结果集;对所述目标图谱描述信息中的多个图谱描述特征分别进行消极类情感识别,得到消极类情感识别结果集。
在一些选择性的实施例中,上述步骤所描述的对所述目标图谱描述信息中的多个图谱描述特征分别进行消极类情感识别,得到消极类情感识别结果集,可以包括:对所述目标图谱描述特征中的多个图谱描述特征分别进行显性需求识别,得到各图谱描述特征分别对应的显性需求识别结果;对所述目标图谱描述特征中的多个图谱描述特征分别进行潜在需求识别,得到各图谱描述特征分别对应的潜在需求识别结果;将对应于相同用户对象的显性需求识别结果和潜在需求识别结果进行绑定;基于所述目标图谱描述特征中与目标显性需求识别结果相绑定的潜在需求识别结果进行消极类情感识别处理,得到消极类情感识别结果集。
在一些选择性的实施例中,步骤300所描述的通过第一预设筛分策略,对所述积极类情感识别结果集进行第一筛分处理,得到包括有积极类情感的第一挖掘参考信息集,可以包括:对所述积极类情感识别结果集中的每个图谱描述特征分别进行情感类别筛选,得到每个图谱描述特征各自对应的不重复的画像情感类别;基于每个图谱描述特征中与相应不重复的画像情感类别对应的积极类情感识别内容的极性分布情况,分别进行识别内容调整处理,得到更新后的积极类情感识别结果集;对所述更新后的积极类情感识别结果集进行不间断调整处理,得到多个包括有积极类情感的第一备选挖掘参考信息集;根据各所述第一备选挖掘参考信息集分别所属的积极类别,对属于相同积极类别的第一备选挖掘参考信息集进行情感极性校正,得到包括有积极类情感的第一挖掘参考信息集。
可以理解,步骤400的实施方式与步骤300的实施方式类似,在此不作赘述。
<实施环境>
在上述的方法实施例的基础上,本申请实施例还提出了一种实施环境,也即基于大数据的话题观点画像图谱处理方法的实施环境,请结合参阅图4,基于大数据的话题观点画像图谱处理方法的实施环境30可以包括互相通信的话题观点画像图谱处理系统100和话题互动智能设备200。进一步地,基于大数据的话题观点画像图谱处理方法的实施环境30的功能性描述如下。
话题观点画像图谱处理系统100响应于话题互动智能设备200对目标话题用户的画像调取申请,确定所述目标话题用户的观点画像图谱;在确定所述观点画像图谱存在异常的前提下,获取所述目标话题用户与预设话题参与角色之间的相关性信息;预设话题参与角色用于表征所述目标话题用户的关联话题用户;根据所述观点画像图谱和获取到的相关性信息,确定所述目标话题用户的优化画像图谱。
以上已经结合附图描述了本申请的实施例,根据本实施例,能够在确定得到目标话题用户的观点画像图谱并判定出观点画像图谱存在异常的前提下,获取目标话题用户与预设话题参与角色之间的相关性信息,进而根据观点画像图谱和获取到的相关性信息确定目标话题用户的优化画像图谱。如此设计,可以利用与目标话题用户存在关联的预设话题参与角色的画像图谱,对观点画像图谱进行填补,得到尽可能完整的目标话题用户的优化画像图谱。进一步地,通过自动化、智能化地确定目标话题用户的优化画像图谱,减少了确定优化画像图谱的资源消耗,并避免了人工手动分析存在的误差和非客观因素影响较大的问题,提高了优化画像图谱的完整性和质量,从而为后续的画像分析提供准确的画像图谱,避免因画像图谱的完整性和质量存在问题而导致画像分析出现偏差。
本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此,对于电子信息技术领域的普通技术人员来说,更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下,本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。
本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本申请的范围由所附权利要求来限定。
Claims (10)
1.一种基于大数据的话题观点画像图谱处理方法,其特征在于,所述方法包括:
响应于对目标话题用户的画像调取申请,确定所述目标话题用户的观点画像图谱;
在确定所述观点画像图谱存在异常的前提下,获取所述目标话题用户与预设话题参与角色之间的相关性信息;预设话题参与角色用于表征所述目标话题用户的关联话题用户;
根据所述观点画像图谱和获取到的相关性信息,确定所述目标话题用户的优化画像图谱。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标话题用户的观点画像图谱,包括:
获取设定时段内所述目标话题用户的话题观点评论;所述话题观点评论包括所述目标话题用户的评论帐号登录时段和所述目标话题用户的评论文本信息;
按照所述目标话题用户的评论帐号登录时段的时间先后,对所述话题观点评论中与所述评论帐号登录时段对应的评论文本信息进行整理,得到所述目标话题参与角色的观点画像图谱。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述观点画像图谱存在异常,包括:
在所述观点画像图谱中的每两个在时序上关联的评论文本信息之间的文本特征差异大于第一预设特征差异阈值,或者所述每两个在时序上关联的评论文本信息所对应的评论帐号登录时段之间的时段差异值大于第一预设时段差异阈值时,确定所述观点画像图谱存在异常。
4.根据权利要求2所述的方法,其特征在于,所述获取所述目标话题用户与预设话题参与角色之间的相关性信息,包括:
获取所述设定时段内所述预设话题参与角色的话题参与角色信息;
根据所述话题观点评论和所述话题参与角色信息,确定所述相关性信息。
5.根据权利要求4所述的方法,其特征在于,所述预设话题参与角色包括话题发起用户和其他话题参与角色,所述其他话题参与角色与所述话题发起用户不同;所述话题参与角色信息包括用户交互信息、话题发起用户信息和其他话题参与角色信息;所述相关性信息包括:所述目标话题用户与话题发起用户之间的第一相关性信息、所述目标话题用户与话题发起用户之间的第二相关性信息、所述目标话题用户与所述其他话题参与角色之间的第三相关性信息、所述第一相关性信息对应的可信描述、所述第二相关性信息对应的可信描述、所述第三相关性信息对应的可信描述;所述可信描述用于表征对应的相关性信息的可信程度;
其中,所述根据所述话题观点评论和所述话题参与角色信息,确定所述相关性信息,包括:
对所述用户交互信息中的可视化交互内容进行相关性分析,得到所述第一相关性信息;
对所述话题观点评论、所述话题发起用户信息和所述其他话题参与角色信息进行大数据分析,得到所述第二相关性信息、所述第三相关性信息、所述第二相关性信息对应的可信描述、以及所述第三相关性信息对应的可信描述;
获取所述第一相关性信息对应的预存的可信描述。
6.根据权利要求5所述的方法,其特征在于,所述对所述话题观点评论、所述话题发起用户信息和所述其他话题参与角色信息进行大数据分析,得到所述第二相关性信息、所述第三相关性信息、所述第二相关性信息对应的可信描述、以及所述第三相关性信息对应的可信描述,包括:
根据所述话题观点评论中的评论文本信息和评论帐号登录时段、以及所述其他话题参与角色信息中的评论文本信息和评论帐号登录时段,拆分所述话题观点评论和所述其他话题参与角色信息,得到一个或多个第一数据聚类;每个所述第一数据聚类中的每两个评论文本信息之间的文本特征差异小于第二预设特征差异阈值、且每个所述第一数据聚类中的每两个评论帐号登录时段之间的时段差异值小于第二预设时段差异阈值;
根据所述话题发起用户信息中的评论文本信息和评论帐号登录时段、以及所述其他话题参与角色信息中的评论文本信息和评论帐号登录时段,拆分所述话题发起用户信息和所述其他话题参与角色信息,得到一个或多个第二数据聚类;每个所述第二数据聚类中的每两个评论文本信息之间的文本特征差异小于第三预设特征差异阈值、且每个所述第二数据聚类中的每两个评论帐号登录时段之间的时段差异值小于第三预设时段差异阈值;
根据所述一个或多个第一数据聚类,得到所述第三相关性信息、以及所述第三相关性信息对应的可信描述;根据所述一个或多个第二数据聚类,得到话题发起用户和所述其他话题参与角色之间的过渡相关性信息、以及所述过渡相关性信息对应的可信描述;
根据所述第三相关性信息、所述第三相关性信息对应的可信描述、所述话题发起用户和所述其他话题参与角色之间的过渡相关性信息、以及所述过渡相关性信息对应的可信描述,得到所述第二相关性信息、以及所述第二相关性信息对应的可信描述;其中,所述第二相关性信息对应的可信描述是根据所述第三相关性信息对应的可信描述和所述过渡相关性信息对应的可信描述确定得出的;
相应的,所述设定时段包括一个或多个第一时间段;其中,所述根据所述一个或多个第一数据聚类,得到所述第三相关性信息、以及所述第三相关性信息对应的可信描述,包括:
对所述一个或多个第一数据聚类中的每一个数据聚类建立对应的相关性信息,得到所述第三相关性信息;
根据所述一个或多个第一数据聚类,得到所述第三相关性信息中的同一个相关性信息在所述设定时段内的在先可信描述、以及所述同一个相关性信息在当前第一时间段内的当前可信描述;所述当前第一时间段与当前时间节点之间的最小时段差异值小于其他第一时间段与所述当前时间节点之间的最小时段差异值,所述其他第一时间段是所述一个或多个第一时间段中除所述当前第一时间段之外的第一时间段;
根据预设在先可信描述的描述处理网络、所述同一个相关性信息的在先可信描述及其对应的预设影响因子、以及所述同一个相关性信息的当前可信描述及其对应的预设影响因子,确定得到所述同一个相关性信息的可信描述。
7.根据权利要求4所述的方法,其特征在于,所述预设话题参与角色包括话题发起用户和其他话题参与角色,所述其他话题参与角色与所述话题发起用户不同;所述话题参与角色信息包括用户交互信息、话题发起用户信息和其他话题参与角色信息;所述相关性信息包括第一目标相关性信息和第二目标相关性信息;其中,所述根据所述话题观点评论和所述话题参与角色信息,确定所述相关性信息,包括:
对所述用户交互信息中的可视化交互内容进行相关性分析,得到所述目标话题用户与话题发起用户之间的第一相关性信息;对所述话题观点评论、所述话题发起用户信息和所述其他话题参与角色信息进行大数据分析,得到所述目标话题用户与话题发起用户之间的第二相关性信息、所述目标话题用户与所述其他话题参与角色之间的第三相关性信息、所述第二相关性信息对应的可信描述、以及所述第三相关性信息对应的可信描述;
获取所述第一相关性信息对应的预存的可信描述;分别根据所述第一相关性信息对应的预存的可信描述、所述第二相关性信息对应的可信描述、所述第三相关性信息对应的可信描述,从所述第一相关性信息和所述第二相关性信息中确定所述第一目标相关性信息,从所述第三相关性信息中确定所述第二目标相关性信息;其中,所述第一目标相关性信息对应的可信描述大于所述第二相关性信息中除所述第一目标相关性信息之外的其他相关性信息对应的可信描述;所述第二目标相关性信息对应的可信描述大于所述第三相关性信息中除所述第二目标相关性信息之外的其他相关性信息对应的可信描述。
8.根据权利要求1或2所述的方法,其特征在于,所述根据所述观点画像图谱和获取到的相关性信息,确定所述目标话题用户的优化画像图谱,包括:
根据所述观点画像图谱,确定待补全的观点评论内容和待补全的评论时段;根据所述待补全的观点评论内容和所述待补全的评论时段,从所述相关性信息中确定目标相关性信息;其中,所述目标相关性信息对应的评论文本信息与所述待补全的观点评论内容之间的最小文本特征差异小于第一预设特征差异阈值,所述目标相关性信息对应的评论帐号登录时段与所述待补全的评论时段之间的最小时段差异值小于第一预设时段差异阈值;
按照所述目标相关性信息对应的评论帐号登录时段的时间先后,对所述目标相关性信息中与所述评论帐号登录时段对应的评论文本信息进行整理,得到待补全画像图谱;
融合所述观点画像图谱和所述待补全画像图谱,得到所述优化画像图谱。
9.一种话题观点画像图谱处理系统,其特征在于,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述话题观点画像图谱处理系统执行如权利要求1-8任一项所述方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时执行如权利要求1-8任一项方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632710.2A CN114443853A (zh) | 2021-12-28 | 2021-12-28 | 基于大数据的话题观点画像图谱处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632710.2A CN114443853A (zh) | 2021-12-28 | 2021-12-28 | 基于大数据的话题观点画像图谱处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443853A true CN114443853A (zh) | 2022-05-06 |
Family
ID=81366447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111632710.2A Withdrawn CN114443853A (zh) | 2021-12-28 | 2021-12-28 | 基于大数据的话题观点画像图谱处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443853A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880535A (zh) * | 2022-06-09 | 2022-08-09 | 昕新讯飞科技(北京)有限公司 | 一种基于通讯大数据的用户画像生成方法 |
-
2021
- 2021-12-28 CN CN202111632710.2A patent/CN114443853A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880535A (zh) * | 2022-06-09 | 2022-08-09 | 昕新讯飞科技(北京)有限公司 | 一种基于通讯大数据的用户画像生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598157B (zh) | 目标信息识别方法、装置、设备及存储介质 | |
US10679143B2 (en) | Multi-layer information fusing for prediction | |
US20170199866A1 (en) | Adaptive learning of actionable statements in natural language conversation | |
US11093774B2 (en) | Optical character recognition error correction model | |
US10904191B2 (en) | Cleaning chat history based on relevancy | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
US10958958B2 (en) | Intelligent updating of media data in a computing environment | |
US11594054B2 (en) | Document lineage management system | |
US11080487B2 (en) | Intelligent communication message completion | |
CN108494938A (zh) | 头像信息处理方法、装置、服务器及计算机可读介质 | |
CN113691556A (zh) | 一种应用于信息防护检测的大数据处理方法及服务器 | |
CN114443853A (zh) | 基于大数据的话题观点画像图谱处理方法及系统 | |
US11216500B1 (en) | Provisioning mailbox views | |
US11010446B2 (en) | Intelligent feedback and context driven web navigation | |
CN114398973A (zh) | 一种媒体内容标签识别方法、装置、设备及存储介质 | |
CN113158069A (zh) | 基于大数据的互动话题场景分析方法、服务器及介质 | |
CN113590751A (zh) | 基于人工智能的话题大数据分析方法及话题分析服务器 | |
CN114443799A (zh) | 基于大数据和人工智能的热点话题处理方法及服务器 | |
WO2022206307A1 (en) | Method for electronic messaging using image based noisy content | |
KR102243275B1 (ko) | 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체 | |
CN115576789A (zh) | 流失用户识别方法和系统 | |
CN113298360B (zh) | 一种用于资源分配的风险控制方法、装置和系统 | |
CN112948251B (zh) | 软件自动测试方法及装置 | |
CN115062119A (zh) | 政务事件办理推荐方法、装置 | |
CN114699773A (zh) | 结合数字化和云游戏的数据分析方法及云游戏平台系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220506 |
|
WW01 | Invention patent application withdrawn after publication |