CN108920675B - 一种信息处理的方法、装置、计算机存储介质及终端 - Google Patents
一种信息处理的方法、装置、计算机存储介质及终端 Download PDFInfo
- Publication number
- CN108920675B CN108920675B CN201810745029.0A CN201810745029A CN108920675B CN 108920675 B CN108920675 B CN 108920675B CN 201810745029 A CN201810745029 A CN 201810745029A CN 108920675 B CN108920675 B CN 108920675B
- Authority
- CN
- China
- Prior art keywords
- information
- chat
- user
- determining
- instant chat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种信息处理的方法、装置、计算机存储介质及终端,包括:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;确定即时聊天文档中包含的每一条即时聊天信息的信息标签;根据确定的信息标签及用户标签,推送即时聊天信息。本发明实施例根据信息标签和用户标签进行信息推送,减少了用户读取群组中关注内容的时间,提升了获取信息的准确度和处理效率。
Description
技术领域
本文涉及但不限于即时通信技术,尤指一种信息处理的方法、装置、计算机存储介质及终端。
背景技术
随着移动通信技术的发展,即时通信应用成为大部分用户日常使用的交流工具;越来越多的应用拥有多个聊天通道及多个聊天群组,如何有效的获取群组中用户关注的信息,成为大多数用户需要解决的一个重要问题。例如、一些企业管理者、从业人员、社团组织者、社团参与者、项目负责人及项目参与者等,往往拥有多个聊天通道和多个聊天群组,如果逐条关注群组中的信息,势必会耗费大量的时间和精力、且容易出现疏漏,处理效率低。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种信息处理的方法、装置、计算机存储介质及终端,能够减少用户读取群组中关注内容的时间,提升获取信息的准确度和处理效率。
本发明实施例提供了一种信息处理的方法,包括:
对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
根据确定的信息标签及用户标签,推送即时聊天信息;
其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;所述确定即时聊天文档中包含的每一条即时聊天信息的信息标签,包括:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
可选的,所述确定对应于用户的用户标签之前,所述方法还包括:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理。
可选的,所述即时聊天文档的所属分类与用户标签相同时,所述方法还包括:
将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
可选的,所述方法还包括:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
可选的,所述进行即时聊天信息的推送包括:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
可选的,所述方法还包括:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
可选的,所述推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
另一方面,本发明实施例还提供一种信息处理的装置,包括:确定用户标签单元、确定信息标签单元和推送单元;其中,
确定用户标签单元用于:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;
确定信息标签单元用于:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的信息分类模型,确定实时采集的即时聊天文档的所属分类;即时聊天文档的所属分类与所述用户标签相同时,对当前的即时聊天文档的每一条即时聊天信息进行处理,确定每一条即时聊天信息的信息标签;
推送单元用于:根据确定的信息标签及用户标签,推送即时聊天信息。
可选的,所述确定用户标签单元具体用于:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理。
可选的,所述确定信息标签单元还用于:
即时聊天文档的所属分类与用户标签相同时,将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
可选的,所述确定用户标签单元还用于:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
可选的,所述推送单元具体用于:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
可选的,所述推送单元还用于:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
可选的,所述推送单元用于推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令上述信息处理的方法。
还一方面,本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
根据确定的信息标签及用户标签,推送即时聊天信息;
其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;所述确定即时聊天文档中包含的每一条即时聊天信息的信息标签,包括:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
与相关技术相比,本申请技术方案包括:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;确定即时聊天文档中包含的每一条即时聊天信息的信息标签;根据确定的信息标签及用户标签,推送即时聊天信息。本发明实施例根据信息标签和用户标签进行信息推送,减少了用户读取群组中关注内容的时间,提升了获取信息的准确度和处理效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例信息处理的方法的流程图;
图2为本发明实施例信息处理的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例信息处理的方法的流程图,如图1所示,包括:
步骤101、对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
可选的,本发明实施例确定对应于用户的用户标签包括:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理及聚类后,确定对应于用户的所述用户标签。
可选的,本发明实施例预处理包括:对表情、图片链接、文件链接及停用词进行删除处理;进行中文分词;进行简称、缩略语、同义词的词语替换;
聚类处理包括:潜在狄利克雷分配(LDA)聚类。
其中,LDA聚类的算法的运算公式包括:
对每一个用户的部分或全部即时通信应用的历史聊天记录集合D={d1,d2,d3,...,dn},确定聚类的话题数量;需要聚类的话题数量可以设定为10到20,具体数值根据历史聊天记录的条数确定;需要说明的是,话题数量可以由本领域技术人员分析确定和调整;一般的,历史聊天记录条数较多时,聚类话题的数量较多,历史聊天记录的条数较少时,聚类话题的数量较少。
根据确定的聚类的话题数量,按照预设策略确定聚类的话题;本发明实施例确定聚类的话题可以包括:对历史聊天记录进行词频统计;根据词频排序及预设话题策略,选择预设数量的词语作为话题;这里,预设话题策略可以包括:根据生成信息分类模型时预先设定的分类,确定部分或全部分类为话题;接收外部指令,确定词频排序中部分词语为话题;另外预设话题策略也可以包括:直接根据词频排序,选择预设数量的词语作为话题;话题的确定方法可以由本领域技术人员根据应用场景进行分析确定。
确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;需要说明的是,计算每一条历史聊天记录在所有话题的概率及每一个词语对应每一个主题的概率的方法,可以是相关技术中,已有的运算处理方法。
根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;
可选的,本发明实施例可以将各词语对应于各个话题的概率进行排序后,选择排序在前的预设数值个词语,作为对应于用户的用户标签。
步骤102、确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
可选的,本发明实施例确定即时聊天文档中包含的每一条即时聊天信息的信息标签包括:
根据预先采集的训练语料,训练生成信息分类模型;
需要说明的是,本发明实施例训练语料可以包括预先收集的各即时通信应用(包括但不限于微博客户端、微信客户端和腾讯客户端的聊天记录)的历史聊天记录;训练预料的训练方法可以包括相关技术中已有的方法,鉴于即时通信应用的聊天记录相对较短,本发明实施例采用相关技术中已有的短文本分类算法(fasttext是脸书(facebook)开源的一个短文本分类的算法);其处理过程可以包括:
针对训练语料,对表情、图片链接、文件链接及停用词进行删除处理;中文分词;进行简称、缩略语、同义词等词的词语替换;
将完成上述处理的训练语料,按照短文本分类算法的格式进行整理;例如、聊天记录为“边总,竞品的信息导一份呗!”,可以整理为:边总竞品信息导一份__标签(label)__日常事务;其中,label前边的是数据“边总,竞品的信息导一份呗!”原始内容的类型,label后面是类别“日常事务”;
调用短文本分类算法工具包,根据预先设定的分类对完成格式整理的训练语料进行训练,生成所述信息分类模型;本发明实施例预先设定的分类可以包括:将历史聊天记录分为日常事务、业务处理、电话会议、重要提醒及面谈等。生成的信息分类模型可以包括文本分类模型。
通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;
所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
需要说明的是,确定实时采集的即时聊天文档的所属分类之前,本发明实施例方法还包括:对实时采集的即时聊天文档进行以下部分或全部处理:对表情、图片链接、文件链接及停用词进行删除处理;中文分词;进行简称、缩略语、同义词等词的词语替换。
步骤103、根据确定的信息标签及用户标签,推送即时聊天信息。
可选的,本发明实施例进行即时聊天信息的推送包括:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
本发明实施例,可以按照优先级顺序,推送即时聊天信息;以信息量作为主要考量因素时,也可以按照信息量由大到小的顺序,进行即时聊天信息的推送。
可选的,即时聊天文档的所属分类与用户标签相同时,本发明实施例方法还包括:
将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
可选的,本发明实施例方法还包括:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
可选的,本发明实施例可以根据接收到的外部指令,确定是否将发言者的属性信息添加至所述用户标签。
可选的,本发明实施例方法还包括:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
可选的,本发明实施例推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
可选的,本发明实施例方法还包括:
解析各种类即时通信应用的协议,以获取所述训练语料和即时聊天文档。
与相关技术相比,本申请技术方案包括:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;确定即时聊天文档中包含的每一条即时聊天信息的信息标签;根据确定的信息标签及用户标签,推送即时聊天信息。本发明实施例根据信息标签和用户标签进行信息推送,减少了用户读取群组中关注内容的时间,提升了获取信息的准确度和处理效率。
图2为本发明实施例信息处理的装置的结构框图,如图2所示,包括:确定用户标签单元、确定信息标签单元和推送单元;其中,
确定用户标签单元用于:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
可选的,本发明实施例确定用户标签单元具体用于:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理及聚类后,确定对应于用户的所述用户标签。
可选的,本发明实施例预处理包括:对表情、图片链接、文件链接及停用词进行删除处理;进行中文分词;进行简称、缩略语、同义词的词语替换;
聚类处理包括:潜在狄利克雷分配(LDA)聚类。
其中,LDA聚类的算法的运算公式包括:
对每一个用户的部分或全部即时通信应用的历史聊天记录集合D={d1,d2,d3,...,dn},确定聚类的话题数量;需要聚类的话题数量可以设定为10到20,具体数值根据历史聊天记录的条数确定;需要说明的是,话题数量可以由本领域技术人员分析确定和调整;一般的,历史聊天记录条数较多时,聚类话题的数量较多,历史聊天记录的条数较少时,聚类话题的数量较少。
根据确定的聚类的话题数量,按照预设策略确定聚类的话题;本发明实施例确定聚类的话题可以包括:对历史聊天记录进行词频统计;根据词频排序及预设话题策略,选择预设数量的词语作为话题;这里,预设话题策略可以包括:根据生成信息分类模型时预先设定的分类,确定部分或全部分类为话题;接收外部指令,确定词频排序中部分词语为话题;另外预设话题策略也可以包括:直接根据词频排序,选择预设数量的词语作为话题;话题的确定方法可以由本领域技术人员根据应用场景进行分析确定。
确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;需要说明的是,计算每一条历史聊天记录在所有话题的概率及每一个词语对应每一个主题的概率的方法,可以是相关技术中,已有的运算处理方法。
根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;
可选的,本发明实施例可以将各词语对应于各个话题的概率进行排序后,选择排序在前的预设数值个词语,作为对应于用户的用户标签。
可选的,本发明实施例确定用户标签单元还用于:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
可选的,本发明实施例可以根据接收到的外部指令,确定是否将发言者的属性信息添加至所述用户标签。
确定信息标签单元用于:确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
可选的,本发明实施例确定信息标签单元具体用于:
根据预先采集的训练语料,训练生成信息分类模型;
需要说明的是,本发明实施例训练语料可以包括预先收集的各即时通信应用(包括但不限于微博客户端、微信客户端和腾讯客户端的聊天记录)的历史聊天记录;训练预料的训练方法可以包括相关技术中已有的方法,鉴于即时通信应用的聊天记录相对较短,本发明实施例采用相关技术中已有的短文本分类算法(fasttext是脸书(facebook)开源的一个短文本分类的算法);其处理过程可以包括:
针对训练语料,对表情、图片链接、文件链接及停用词进行删除处理;中文分词;进行简称、缩略语、同义词等词的词语替换;
将完成上述处理的训练语料,按照短文本分类算法的格式进行整理;例如、聊天记录为“边总,竞品的信息导一份呗!”,可以整理为:边总竞品信息导一份__标签(label)__日常事务;其中,label前边的是数据“边总,竞品的信息导一份呗!”原始内容的类型,label后面是类别“日常事务”;
调用短文本分类算法工具包,根据预先设定的分类对完成格式整理的训练语料进行训练,生成所述信息分类模型;本发明实施例预先设定的分类可以包括:将历史聊天记录分为日常事务、业务处理、电话会议、重要提醒及面谈等。生成的信息分类模型可以包括文本分类模型。
通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;
所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
需要说明的是,确定实时采集的即时聊天文档的所属分类之前,本发明实施例方法还包括:对实时采集的即时聊天文档进行以下部分或全部处理:对表情、图片链接、文件链接及停用词进行删除处理;中文分词;进行简称、缩略语、同义词等词的词语替换。
可选的,本发明实施例确定信息标签单元还用于:
即时聊天文档的所属分类与用户标签相同时,将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
推送单元用于:根据确定的信息标签及用户标签,推送即时聊天信息。
可选的,本发明实施例推送单元具体用于:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
本发明实施例,可以按照优先级顺序,推送即时聊天信息;以信息量作为主要考量因素时,也可以按照信息量由大到小的顺序,进行即时聊天信息的推送。
可选的,本发明实施例推送单元还用于:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
可选的,本发明实施例推送单元用于推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
可选的,本发明实施例方法还包括:
解析各种类即时通信应用的协议,以获取所述训练语料和即时聊天文档。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述信息处理的方法。
本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
根据确定的信息标签及用户标签,推送即时聊天信息。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (16)
1.一种信息处理的方法,其特征在于,包括:
对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
根据确定的信息标签及用户标签,推送即时聊天信息;
其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;所述确定即时聊天文档中包含的每一条即时聊天信息的信息标签,包括:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
2.根据权利要求1所述的方法,其特征在于,所述确定对应于用户的用户标签之前,所述方法还包括:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理。
3.根据权利要求1所述的方法,其特征在于,所述即时聊天文档的所属分类与用户标签相同时,所述方法还包括:
将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述进行即时聊天信息的推送包括:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
6.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
8.一种信息处理的装置,其特征在于,包括:确定用户标签单元、确定信息标签单元和推送单元;其中,
确定用户标签单元用于:对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;
确定信息标签单元用于:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的信息分类模型,确定实时采集的即时聊天文档的所属分类;即时聊天文档的所属分类与所述用户标签相同时,对当前的即时聊天文档的每一条即时聊天信息进行处理,确定每一条即时聊天信息的信息标签;
推送单元用于:根据确定的信息标签及用户标签,推送即时聊天信息。
9.根据权利要求8所述的装置,其特征在于,所述确定用户标签单元具体用于:
获取用户即时通信应用的部分或全部历史聊天记录;
对获取的所述历史聊天记录进行预处理。
10.根据权利要求8所述的装置,其特征在于,所述确定信息标签单元还用于:
即时聊天文档的所属分类与用户标签相同时,将所述即时聊天文档的所属的分类信息,添加至所述即时聊天文档包含的每一个即时聊天信息的所述信息标签中。
11.根据权利要求8或9所述的装置,其特征在于,所述确定用户标签单元还用于:
根据预设的标签处理策略,将发言者的一个或一个以上属性信息添加至所述用户标签;
其中,所述属性信息包括:名称、职务、涉及成员、涉及业务、关注内容。
12.根据权利要求8~10任一项所述的装置,其特征在于,所述推送单元具体用于:
根据预先设定的各用户标签的优先级、和/或即时聊天信息的信息量,确定所述即时聊天信息的推送顺序;
其中,所述信息量与所述即时聊天信息的推送量成正比。
13.根据权利要求8~10任一项所述的装置,其特征在于,所述推送单元还用于:根据接收的外部指令,确定是否推送以下部分或全部即时聊天信息:
所有即时聊天应用的群组中包含第一预设关键字的即时聊天信息;
部分即时聊天应用的群组中包含第二预设关键字的即时聊天信息;
所有即时聊天应用的群组中,指定用户的所有即时聊天信息;
所有即时聊天应用的群组中,指定用户的包含第三预设关键字的即时聊天信息;
部分即时聊天应用的群组中,指定用户的包含第四预设关键字的即时聊天信息;
预设时间段中包含第五预设关键字的即时聊天信息。
14.根据权利要求8~10任一项所述的装置,其特征在于,所述推送单元用于推送即时聊天信息包括:
按照预设的推送时间推送所述即时聊天信息。
15.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~7中任一项所述的信息处理的方法。
16.一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
对每一个用户,根据该用户历史聊天记录,确定对应于用户的用户标签;
确定即时聊天文档中包含的每一条即时聊天信息的信息标签;
根据确定的信息标签及用户标签,推送即时聊天信息;
其中,所述确定对应于用户的用户标签,包括:对每一个用户的部分或全部即时通信应用的历史聊天记录集合,确定聚类的话题数量;根据确定的聚类的话题数量,按照预设策略确定聚类的话题;确定每一条历史聊天记录在确定的各个话题上的概率值;获得历史聊天记录集合中每一条历史聊天记录的概率的集合Pi=(dp1,dp2,...,dpm);确定每一条历史聊天记录中,每一个词语对应每一个话题的概率wi=(wp1,wp2,wp3,...,wpm);确定对应于每一个话题,每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率;根据确定的每一条历史聊天记录的概率及历史聊天记录中的每一个词语的概率,确定对应于用户的用户标签;所述确定即时聊天文档中包含的每一条即时聊天信息的信息标签,包括:根据预先采集的训练语料,训练生成信息分类模型;通过训练生成的所述信息分类模型,确定实时采集的所述即时聊天文档的所属分类;所述即时聊天文档的所属分类与所述用户标签相同时,对当前的所述即时聊天文档的每一条即时聊天信息进行处理,确定每一条所述即时聊天信息的信息标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810745029.0A CN108920675B (zh) | 2018-07-09 | 2018-07-09 | 一种信息处理的方法、装置、计算机存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810745029.0A CN108920675B (zh) | 2018-07-09 | 2018-07-09 | 一种信息处理的方法、装置、计算机存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920675A CN108920675A (zh) | 2018-11-30 |
CN108920675B true CN108920675B (zh) | 2021-05-07 |
Family
ID=64424956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810745029.0A Active CN108920675B (zh) | 2018-07-09 | 2018-07-09 | 一种信息处理的方法、装置、计算机存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920675B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109725968B (zh) * | 2018-12-18 | 2022-04-05 | 北京世纪超星信息技术发展有限责任公司 | 基于群聊的人机交互管理器、服务器、系统及方法 |
CN110401545B (zh) * | 2019-06-18 | 2023-07-25 | 平安科技(深圳)有限公司 | 聊天群组创建方法、装置、计算机设备和存储介质 |
CN110413875A (zh) * | 2019-06-26 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种文本信息推送的方法以及相关装置 |
CN110545233B (zh) * | 2019-08-09 | 2022-03-04 | 五八有限公司 | 一种信息推送方法、装置、电子设备及存储介质 |
CN111177489A (zh) * | 2019-12-26 | 2020-05-19 | 贝壳技术有限公司 | 对象数据的展示方法及系统 |
CN111767396A (zh) * | 2020-05-18 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN111782971B (zh) * | 2020-08-07 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、设备及存储介质 |
CN112380419B (zh) * | 2020-10-29 | 2024-02-09 | 中国人寿保险股份有限公司 | 一种竞品数据查询方法、系统及电子设备 |
CN113656530A (zh) * | 2021-08-06 | 2021-11-16 | 姜政毫 | 大数据金融信息智能存储方法、系统及存储介质 |
CN113704399A (zh) * | 2021-08-06 | 2021-11-26 | 姜政毫 | 大数据金融信息智能识别和存储方法、系统及存储介质 |
CN114997817B (zh) * | 2022-05-13 | 2023-10-27 | 北京百度网讯科技有限公司 | 一种参会推荐方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104184887A (zh) * | 2014-07-29 | 2014-12-03 | 小米科技有限责任公司 | 消息提醒方法、装置及终端设备 |
CN105893562A (zh) * | 2016-03-31 | 2016-08-24 | 北京小米移动软件有限公司 | 会话消息处理方法、装置及终端 |
CN106407209A (zh) * | 2015-07-29 | 2017-02-15 | 南京酷派软件技术有限公司 | 一种信息的分类方法、装置及移动终端 |
CN107317688A (zh) * | 2017-07-25 | 2017-11-03 | 薛江炜 | 基于分类标签创建通信群组的装置及方法 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550231B (zh) * | 2015-12-07 | 2019-08-16 | 小米科技有限责任公司 | 信息交互的方法、装置及设备 |
KR101835588B1 (ko) * | 2016-05-24 | 2018-03-07 | 라인 가부시키가이샤 | 메시지 제공 방법을 실행하기 위하여 기록 매체에 저장된 컴퓨터 프로그램 및 방법 |
CN107517153B (zh) * | 2017-07-27 | 2021-01-01 | 努比亚技术有限公司 | 消息推送控制方法及终端 |
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
-
2018
- 2018-07-09 CN CN201810745029.0A patent/CN108920675B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104184887A (zh) * | 2014-07-29 | 2014-12-03 | 小米科技有限责任公司 | 消息提醒方法、装置及终端设备 |
CN106407209A (zh) * | 2015-07-29 | 2017-02-15 | 南京酷派软件技术有限公司 | 一种信息的分类方法、装置及移动终端 |
CN105893562A (zh) * | 2016-03-31 | 2016-08-24 | 北京小米移动软件有限公司 | 会话消息处理方法、装置及终端 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
CN107317688A (zh) * | 2017-07-25 | 2017-11-03 | 薛江炜 | 基于分类标签创建通信群组的装置及方法 |
Non-Patent Citations (1)
Title |
---|
《多标签隐含狄利克雷分配及其并行化应用》;朱运;《中国优秀硕士学位论文全文数据库》;20130315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108920675A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920675B (zh) | 一种信息处理的方法、装置、计算机存储介质及终端 | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
CN112511410B (zh) | 用于确定回复内容的方法、系统和介质 | |
US10397157B2 (en) | Message management in a social networking environment | |
US20130066818A1 (en) | Automatic Crowd Sourcing for Machine Learning in Information Extraction | |
US20150278764A1 (en) | Intelligent Social Business Productivity | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
Piao et al. | A feasibility study on extracting twitter users' interests using nlp tools for serendipitous connections | |
US10021061B1 (en) | Message presentation management in a social networking environment | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
US11436446B2 (en) | Image analysis enhanced related item decision | |
CN111917560B (zh) | 通信方法、装置和设备 | |
CN112733042A (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN108133058B (zh) | 一种视频检索方法 | |
CN104869048A (zh) | 微博数据的分组处理方法、装置及系统 | |
CN108768835B (zh) | 一种邮件解析方法、装置、服务器和存储介质 | |
CN111027838A (zh) | 一种众包任务推送方法、装置、设备及其存储介质 | |
CN112307318B (zh) | 一种内容发布方法、系统及装置 | |
CN110737845A (zh) | 一种实现信息分析的方法、计算机存储介质及系统 | |
CN107506407B (zh) | 一种文件分类、调用的方法及装置 | |
US20080147651A1 (en) | Pre-Entry Text Enhancement For Text Environments | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
US20210319481A1 (en) | System and method for summerization of customer interaction | |
US20190206385A1 (en) | Vocal representation of communication messages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |