CN106649405A - 一种获取聊天发起句的回复提示内容的方法及装置 - Google Patents

一种获取聊天发起句的回复提示内容的方法及装置 Download PDF

Info

Publication number
CN106649405A
CN106649405A CN201510741085.3A CN201510741085A CN106649405A CN 106649405 A CN106649405 A CN 106649405A CN 201510741085 A CN201510741085 A CN 201510741085A CN 106649405 A CN106649405 A CN 106649405A
Authority
CN
China
Prior art keywords
chat
sentence
topic
entry
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510741085.3A
Other languages
English (en)
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510741085.3A priority Critical patent/CN106649405A/zh
Priority to PCT/CN2016/103422 priority patent/WO2017076205A1/zh
Publication of CN106649405A publication Critical patent/CN106649405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Abstract

本发明公开了一种获取聊天发起句的回复提示内容的方法及装置,该方法通过建立与预设话题对应的话题数据库,获取通讯终端接收的聊天发起句所属的话题分类;利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果;如果未获得第一语义匹配结果,则基于分布式云计算方式对通讯终端的用户网络数据进行数据采集,并利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果,解决了采用传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容,从而导致聊天的智能化程度低以及用户体验不佳的技术问题,提高了回复提示内容获取的准确度,体现了较高的智能化水平,提升了用户体验。

Description

一种获取聊天发起句的回复提示内容的方法及装置
技术领域
本发明涉及通信技术领域,具体涉及一种获取聊天发起句的回复提示内容的方法及装置。
背景技术
目前,不管是智能聊天机器人系统提供的智能聊天回复提示内容,还是通讯终端提供给通讯双方用于选择或智能回复的聊天回复提示内容,大多是通过数据库匹配的方式获取。这种通过数据库匹配方法获取聊天回复提示内容的方法主要分为二个步骤,即首先对聊天发起句进行预处理,获得分词文本,然后将获得的分词文本与预先建立的数据库进行匹配,从而获得聊天回复提示内容。
但采用这种传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容,从而导致聊天的智能化程度低以及用户体验不佳。
发明内容
本发明提供了一种获取聊天发起句的回复提示内容的方法及装置,以解决采用传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容导致聊天的智能化程度低以及用户体验不佳的技术问题。
根据本发明的一方面,提供了一种获取聊天发起句的回复提示内容的方法,包括:
建立与预设话题对应的话题数据库,
获取通讯终端接收的聊天发起句所属的话题分类;
利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果,并将第一语义匹配结果作为聊天发起句的回复提示内容;
如果未获得第一语义匹配结果,则基于分布式云计算方式对通讯终端的用户网络数据进行数据采集,并利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果,并将第二语义匹配结果作为聊天发起句的回复提示内容。
进一步地,建立与预设话题对应的话题数据库包括:
设定与预设话题关联的场景条目,以及与场景条目对应的场景选项;
创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
进一步地,获取通讯终端接收的聊天发起句所属的话题分类包括:
获取聊天发起句的上文聊天内容,并将聊天发起句和聊天发起句的上文聊天内容合并成文本格式的合并文本;
提取合并文本的关键词;
根据关键词获取聊天发起句所属的话题分类。
进一步地,利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果包括:
获取与话题分类相同的预设话题对应的话题数据库;
采集与话题分类关联的场景条目的内容信息,获得场景信息;
在话题数据库中匹配与聊天发起句相同的样本发起句,并根据场景信息获取第一语义匹配结果。
进一步地,利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果包括:
对用户网络数据进行预处理获得预处理文本,预处理包括分词处理、语义消歧处理、词性标注处理、去除停用词处理、标点符号处理、表情字符处理;
利用K均值聚类算法对预处理文本进行文本聚类,获得文本聚类中心;
提取文本聚类中心的关键词作为与文本聚类中心对应的聚类话题;
获取与聊天发起句所属的话题分类最接近的聚类话题;
在与聚类话题对应的用户网络数据中对聊天发起句进行匹配,获得第二语义匹配结果。
进一步地,场景条目包括:
发送和接收聊天发起句的通讯终端的关系条目、姓名条目、性别条目、年龄条目、即时通讯账号条目、电子邮箱地址条目、家庭地址条目、职业类别条目、职务条目、工作单位条目、单位地址条目、银行账号条目、好友印象条目、兴趣爱好条目、朋友圈状态条目、心情条目、最近关注话题条目、当前通讯状态条目、场景图像条目、时间条目、节日条目、季节条目、地理位置信息条目、距离条目、通讯频率条目、通讯次数条目、通讯时长条目、发起历史通讯的选择方式条目,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式。
进一步地,采集场景条目中的发送或接收聊天发起句的通讯终端的场景图像条目的内容信息包括:
采集发送或接收聊天发起句的通讯终端的场景图像;
采用DOG算子提取场景训练图像的感兴趣区域,并计算场景训练图像的感兴趣区域的SIFT特征;
采用K均值聚类算法对场景训练图像的感兴趣区域的SIFT特征进行聚类,获得多个聚类中心,并建立由与每一个聚类中心对应的视觉单词构成的视觉单词词典;
采用DOG算子提取场景图像的感兴趣区域,并在视觉单词词典中匹配与场景图像的感兴趣区域的SIFT特征最接近的视觉单词;
根据场景图像的感兴趣区域的视觉单词的分布对场景图像采用预先训练好的支持向量机分类器进行分类,获得发送或接收聊天发起句的通讯终端的场景图像条目的内容信息。
根据本发明的另一方面,提供了一种获取聊天发起句的回复提示内容的装置,包括:
话题数据库创建装置,用于建立与预设话题对应的话题数据库,
话题分类获取装置,用于获取通讯终端接收的聊天发起句所属的话题分类;
第一语义匹配装置,用于利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果,并将第一语义匹配结果作为聊天发起句的回复提示内容;
第二语义匹配装置,用于如果未获得第一语义匹配结果,则基于分布式云计算方式对通讯终端的用户网络数据进行数据采集,并利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果,并将第二语义匹配结果作为聊天发起句的回复提示内容。
进一步地,话题数据库创建装置包括:
设定装置,用于设定与预设话题关联的场景条目,以及与场景条目对应的场景选项;
样本聊天对创建装置,用于创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
进一步地,话题分类获取装置包括:
合并文本获取装置,用于获取聊天发起句的上文聊天内容,并将聊天发起句和聊天发起句的上文聊天内容合并成文本格式的合并文本;
关键字提取装置,用于提取合并文本的关键词;
话题分类确定装置,用于根据关键词获取聊天发起句所属的话题分类。
本发明具有以下有益效果:
本发明提供的获取聊天发起句的回复提示内容的方法及装置,该方法通过获取通讯终端接收的聊天发起句所属的话题分类,并利用自定义的与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获得第一语义匹配结果,并在未获得第一语义匹配结果的前提下采集通讯终端的用户网络数据,并利用该用户网络数据对聊天发起句进行语义匹配,获得第二语义匹配结果,解决了采用传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容,从而导致聊天的智能化程度低以及用户体验不佳的技术问题,充分利用通讯终端的用户网络数据获取聊天发起句的回复提示内容,提高了回复提示内容获取的准确度,体现了较高的智能化水平,提升了用户体验。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的获取聊天发起句的回复提示内容的方法流程图;
图2是本发明优选实施例假设采集的接收聊天发起句的通讯终端的场景图像;
图3是本发明优选实施例对假设采集的接收聊天发起句的通讯终端的场景图像与视觉单词词典匹配后获得的视觉单词结果图;
图4是本发明优选实施例针对第一个精简实施例获取聊天发起句的回复提示内容的方法流程图;
图5是本发明优选实施例针对第二个精简实施例获取聊天发起句的回复提示内容的方法流程图;
图6是本发明优选实施例针对第三个精简实施例获取聊天发起句的回复提示内容的方法流程图;
图7是本发明优选实施例的获取聊天发起句的回复提示内容的装置的结构框图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种获取聊天发起句的回复提示内容的方法,包括:
步骤S101,建立与预设话题对应的话题数据库,
步骤S102,获取通讯终端接收的聊天发起句所属的话题分类;
步骤S103,利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果,并将第一语义匹配结果作为聊天发起句的回复提示内容;
步骤S104,如果未获得第一语义匹配结果,则基于分布式云计算方式对通讯终端的用户网络数据进行数据采集,并利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果,并将第二语义匹配结果作为聊天发起句的回复提示内容。
本发明提供的获取聊天发起句的回复提示内容的方法,通过获取通讯终端接收的聊天发起句所属的话题分类,并利用自定义的与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获得第一语义匹配结果,并在未获得第一语义匹配结果的前提下采集通讯终端的用户网络数据,并利用该用户网络数据对聊天发起句进行语义匹配,获得第二语义匹配结果,解决了采用传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容,从而导致聊天的智能化程度低以及用户体验不佳的技术问题,充分利用通讯终端的用户网络数据获取聊天发起句的回复提示内容,提高了回复提示内容获取的准确度,体现了较高的智能化水平,提升了用户体验。
本实施例中的通讯终端的用户网络数据包括通讯终端的个人信息数据、社交信息数据(微博、微信、论坛、博客等等)、通讯信息数据、网上购物信息数据、上网足迹信息数据等等。通讯信息又包括用户自己的历史通讯记录、使用同一通讯应用软件的其他用户的历史通讯记录以及第三方应用软件提供的通讯记录。具体地,通讯记录又包括通话记录和短信记录,且短信记录又包括手机短信记录和即时通讯消息记录,通话记录又包括手机通话记录和即时通讯语音和视频通话记录。需要说明的是,由于本实施例主要是基于用户网络数据获取聊天过程中与聊天发起句匹配的回复提示内容,故本实施例主要是针对通讯终端的用户网络数据中具有上下文交互的网络聊天数据进行采集,例如微信、QQ的即时通讯聊天记录、与淘宝客服的聊天数据、百度问答、微博私信中的交互或聊天数据等等。此外,在实际的实施过程中,本实施例既可以利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,也可以利用与话题分类最相近的预设话题对应的话题数据库对聊天发起句进行语义匹配。
本实施例对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台,其核心包括HDFS(Hadoop Distributed Files System,Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase(Hadoop DataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。本实施例通过分布式存储设备存储采集的网络数据,且分布式存储设备基于HDFS实现。
可选地,建立与预设话题对应的话题数据库包括:
设定与预设话题关联的场景条目,以及与场景条目对应的场景选项;
创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
由于针对同一个聊天发起句(例如“一起去旅游吗?”)在现实生活中往往需要有不同的回复结果(例如“天气不好,下次再去,怎么样?”、“我比较喜欢宅在家,不喜欢旅游。”、“最近工作太忙了,抽不出时间去旅游。”等等),也即针对同一个聊天发起句,通讯终端用户往往需要根据不同的环境或场景给予不同的回复。针对该问题,本实施例在建立与预设话题对应的话题数据库时,首先设定与预设话题关联的场景条目,以及与场景条目对应的场景选项,然后创建以预设话题为聊天主题的样本聊天对,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句;并将与预设话题为聊天主题的样本聊天对作为与预设话题对应的话题数据库。
具体地,本实施例设定与预设话题关联的场景条目是根据日常经验设定的。参照表1,表1给出了几种不同的预设话题及与其关联的场景条目。例如,如果预设话题为“旅游”预设话题时,则通过日常经验可知,通讯终端对属于“旅游”预设话题的聊天发起句进行回复时,务必会要考虑到天气好坏的因素、有没有时间的因素、地点因素以及是否有旅游兴趣爱好因素等等,而对预设话题为“发邮件”预设话题时,则通过日常经验可知,通讯终端对属于“发邮件”预设话题的聊天发起句进行回复时,务必会考虑到电子邮箱发送或接收的电子邮箱地址因素,而基本不会考虑天气好坏的因素,需要说明的是,本实施例针对不同的预设话题设定的与之关联的场景条目并非是固定的,而仅仅是根据日常经验人为给定的,也即用户可以根据需要自行设定与预设话题关联的场景条目。
表1
本实施例设定与场景条目对应的场景选项也是由用户根据需要自定义的。例如,设置与天气条目对应的场景选项时,既可以包括三个场景选项(“1”表示晴朗,“2”表示下雨,“3”表示下雪),也可以仅仅包括二个场景选项(“1”表示天气好,“2”表示天气差);同样地,设置与时间条目对应的场景选项时,既可以包括三个场景选项(“1”表示上午,“2”表示下午,“3”表示晚上),也可以仅仅包括二个场景选项(“1”表示白天,“2”表示晚间)。
需要说明的是,本实施例在根据场景选项设置与样本发起句对应的样本回复句时,需充分考虑与预设话题关联的所有场景条目的所有场景选项的组合。参照表2,表2为与“逛街”预设话题关联的三个场景条目分别对应的场景选项的代号,其中的关系条目具体指接收和发送聊天发起句的通讯终端的关系条目。从表2中可以看出,通讯终端用户自定义与关系条目对应的场景选项为六项,与距离条目对应的场景选项为三项,与天气条目对应的场景选项为五项。故本实施例所有场景条目的所有场景选项的组合数=6*3*5种,也即在创建与“逛街”预设话题对应的话题数据库中的样本聊天对时,针对每一个样本发起句,最多可以设置与其对应的90个样本回复句。
本实施例在创建针对样本发起句的样本回复句时,可以根据需要设置场景选项的组合数目和组合方式的样本回复句,也即针对每一个样本发起句并不需要设置所有场景选项组合情况下的样本答复句。且在具体的实施过程中,本实施例针对每一个场景条目均设置内容信息包含为“空”的场景选项(具体用“0”代号表示),这是因为在实际的实施过程中,可能出现没法获取场景条目对应的内容信息,例如若接收聊天发起句的通讯终端没有安装GPS定位或没有开通获取地理位置权限时,则系统返回的数据为空。又例如在一些需要依靠互联网查询和搜索获取场景条目内容信息的情况,在通讯终端断开网络链接或进入无网络信号区域时是不能获取相关的搜索结果。此外,在创建话题数据库中的样本聊天对时,例如针对一些具有固定回复的聊天发起句,通讯终端用户只需设置场景选项内容均为空即可。
表2
本实施例通过设定与预设话题关联的场景条目,以及与场景条目对应的场景选项,并将创建的与预设话题为聊天主题的样本聊天对作为与预设话题对应的话题数据库,大大丰富了针对同一个样本发起句的样本回复句种类,符合实际需要,增强用户体验,且通过考虑与预设话题关联的场景条目,实现从不同的场景及其组合条件出发对样本发起句设置样本回复句,符合人类进行聊天信息回复的逻辑思维,具有较高的智能化和个性化水平。
可选地,获取通讯终端接收的聊天发起句所属的话题分类包括:
获取聊天发起句的上文聊天内容,并将聊天发起句和聊天发起句的上文聊天内容合并成文本格式的合并文本;
提取合并文本的关键词;
根据关键词获取聊天发起句所属的话题分类。
本实施例确定聊天发起句所属的话题分类并不仅仅是基于聊天发起句,而是基于聊天发起句和聊天发起句的上文聊天内容,而在实际的实施过程中,聊天发起句相对于聊天发起句的上文聊天内容对获取聊天发起句所属的话题分类更具有参考价值,故本实施例可以采用对合并文本分词后获得的分词文本的加权词频统计提取合并文本的关键词,也即对离聊天发起句越接近的聊天内容赋予权重更大的权重系数。本实施例在根据合并文本获得关键词后,可以采用关键词对应的内容作为聊天发起句所属的话题分类,也可以根据预设的关键词与话题分类的关联映射表查询与关键词对应的话题分类。
本实施例通过结合聊天发起句和聊天发起句的上文聊天内容获取聊天发起句所属的话题分类,充分考虑了聊天发起句所处的聊天语境,相对于仅仅依靠聊天发起句获得其所属的话题分类的准确度更高。且通过加权的方式对合并文本分词后获得的分词文本的词频统计确定关键词,使得获取的聊天发起句的所属话题分类更精确。
需要说明的是,当本实施例中聊天发起句没有聊天上文内容时,本实施例则仅仅根据聊天发起句获取其所属的话题分类,且本实施例中获取聊天发起句的上文聊天内容的范围由用户自定义,例如可以获取一定时间内的上文聊天内容,或一定内容条数内的上文聊天内容。
可选地,利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果包括:
获取与话题分类相同的预设话题对应的话题数据库;
采集与话题分类关联的场景条目的内容信息,获得场景信息;
在话题数据库中匹配与聊天发起句相同的样本发起句,并根据场景信息获取第一语义匹配结果。
本实施例采集与话题分类的场景条目的内容信息可以采用计算、推理、查询、搜索或其任意组合的方式。具体地,可以通过对通讯终端的个人信息、社交信息、通讯信息、网上购物信息、上网足迹信息、用户行为信息、用户业务信息等数据的计算、推理、查询、搜索或其任意组合的方式获取与场景条目对应的内容信息,其中,用户行为信息是指用户寻求他所需求的信息时所表现出来的需求表达、信息获取、信息利用等行为的信息。通讯信息又包括用户自己的历史通讯记录、使用同一通讯应用软件的其他用户的历史通讯记录以及第三方应用软件提供的通讯记录。具体地,通讯记录又包括通话记录和短信记录,且短信记录又包括手机短信记录和即时通讯消息记录,通话记录又包括手机通话记录和即时通讯语音和视频通话记录。
例如当场景条目为地理位置信息条目时,可通过查询GPS定位的信息获取,当场景条目为距离条目时,则可以通过计算接收和发送聊天发起句的通讯终端的地理位置差获取,当场景条目为最近关注话题条目时,可通过搜索通讯终端最近的网页浏览记录获取,当场景条目为天气条目时,既可以通过查询天气网页获取,也可通过采集的温度、风向、湿度等气象信息推理获取。
本实施例根据场景信息获取第一语义匹配结果具体包括:首先对场景信息进行标识,获得标识ID,具体地,参照表2,假设本实施例仅仅采集到发送聊天发起句和接收聊天发起句的通讯终端的关系条目的内容信息为“同事”,发送聊天发起句的通讯终端的天气条目的内容信息为“晴朗”,则获得的标识ID号为“3+0+1”,然后在与话题分类相同的预设话题对应的话题数据库匹配与聊天发起句相同的样本发起句,以及在与样本发起句对应的场景选项中匹配与标识ID号对应的组合代号,并将与标识ID相同的组合代号对应的样本答复句作为与聊天发起句对应的回复提示内容。在实际的实施过程中,本实施例在与话题分类相同的预设话题对应的话题数据库匹配与聊天发起句相同的样本发起句时,既可以采用精确匹配获取与聊天发起句相同的样本发起句,也可以采用模糊匹配的方式获取与聊天发起句相似的样本发起句。本实施例采用模糊匹配的方式获取与聊天发起句相似的样本发起句具体包括:首先对聊天发起句进行预处理,预处理包括分词、语义消歧、词性标注、去除停用词等操作,然后将预处理后的聊天发起句与话题数据库中的样本发起句进行文本匹配,并将文本匹配相似度大于预设阈值的样本发起句作为与聊天发起句匹配的样本发起句。这样,针对同一个聊天发起句,根据不同的场景信息可匹配不同的样本答复句,从而实现了根据通讯终端的场景信息智能获取与聊天发起句对应的回复提示内容,具有较高的智能化程度和个性化水平。
需要说明的是,本实施例中创建的与预设话题对应的话题数据库具有自动学习和自动更新的功能,具体地,当采集到场景条目的内容信息不包含在已创建的话题数据库中场景条目的内容信息时,例如当天气条目的场景选项仅仅包括三个时,分别为:“1”表示晴朗,“2”表示下雨,“3”表示下雪,则当采集到天气场景条目的内容信息为“阴天”时,系统将在天气场景条目下创建代号“4”表示“阴天”的场景选项,以及对应更新场景选项组合及与其对应的样本回复句。另外,本实施例针对每一个场景选项组合的样本答复句可以为一条会话内容,也可以为多条会话内容。
可选地,利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果包括:
对用户网络数据进行预处理获得预处理文本,预处理包括分词处理、语义消歧处理、词性标注处理、去除停用词处理、标点符号处理、表情字符处理;
利用K均值聚类算法对预处理文本进行文本聚类,获得文本聚类中心;
提取文本聚类中心的关键词作为与文本聚类中心对应的聚类话题;
获取与聊天发起句所属的话题分类最接近的聚类话题;
在与聚类话题对应的用户网络数据中对聊天发起句进行匹配,获得第二语义匹配结果。
本实施例获取第二语义匹配结果主要是通过将聊天发起句与采集的用户网络数据进行匹配实现的,然而由于用户网络数据一般为大数据的数据信息,故当直接在用户网络数据中对聊天发起句进行匹配时,可能会获得多个匹配结果或获取的回复提示内容完全不相关,针对该问题,本实施例首先对采集的用户网络数据进行预处理,并对预处理后的预处理文本进行文本聚类,获得文本聚类中心,以及提取文本聚类中心的关键词作为聚类话题,最后在与聊天发起句所属的话题分类最接近的聚类话题对应的用户网络数据中对聊天发起句进行匹配,从而获得第二语义匹配结果。
具体地,本实施例基于K-means聚类算法对预处理文本进行文本聚类,获得文本聚类中心,具体包括以下步骤:
a、随机选取K个数据作为中心点,本实施例中的中心点既可以是一个词也可以是一句话。
b、然后计算每一个样本与中心点的距离,选取最小的距离对应的中心点即为所属的类。具体地,本实施例通过计算每一个样本对应的词向量与中心点对应的词向量之间的距离获取每一个样本与中心点的距离。
c、对应每一个类,重新计算中心点(该类别中所有样本的均值)。
d、重复迭代b、c步骤直至收敛,即聚类中心不再变化。
在具体的实施过程中,为了提高根据用户网络数据获得第二语义匹配结果的精确度,通讯终端用户一般会对采集的用户网络数据进行一次或多次筛选后再进行预处理和文本聚类。此外,本实施例获取与聊天发起句所属的话题分类最接近的聚类话题时,既可以通过计算聊天发起句所属的话题分类与聚类话题之间的相似度获得,也可以通过预设的话题分类与聚类话题的关联度获得。
本实施例通过K均值聚类算法提取用户网络数据的聚类话题,以及在与聊天发起句最接近的聚类话题对应的用户网络数据中对聊天发起句进行匹配,节省了在大量的用户网络数据对聊天发起句进行匹配的匹配时间,从而提高了回复提示内容获取的速度和效率,且通过只在与聊天发起句最接近的聚类话题对应的用户网络数据中对聊天发起句进行匹配,使得获取的回复提示内容更准确、更智能化。
可选地,场景条目包括:
发送和接收聊天发起句的通讯终端的姓名条目、性别条目、年龄条目、即时通讯账号条目、电子邮箱地址条目、家庭地址条目、职业类别条目、职务条目、工作单位条目、单位地址条目、银行账号条目、好友印象条目、兴趣爱好条目、朋友圈状态条目、心情条目、最近关注话题条目、当前通讯状态条目、场景图像条目、时间条目、节日条目、季节条目、地理位置信息条目、距离条目、通讯频率条目、通讯次数条目、通讯时长条目、发起历史通讯的选择方式条目,其中,选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式。
本实施例的场景条目不限于只包括上述的场景条目,同时也不限于包括上述全部的场景条目,具体由用户自定义或根据需要和系统设计复杂度和设计精度进行选取。
可选地,采集场景条目中的发送或接收聊天发起句的通讯终端的场景图像条目的内容信息包括:
采集发送或接收聊天发起句的通讯终端的场景图像;
采用DOG算子提取场景训练图像的感兴趣区域,并计算场景训练图像的感兴趣区域的SIFT特征;
采用K均值聚类算法对场景训练图像的感兴趣区域的SIFT特征进行聚类,获得多个聚类中心,并建立由与每一个聚类中心对应的视觉单词构成的视觉单词词典;
采用DOG算子提取场景图像的感兴趣区域,并在视觉单词词典中匹配与场景图像的感兴趣区域的SIFT特征最接近的视觉单词;
根据场景图像的感兴趣区域的视觉单词的分布对场景图像采用预先训练好的支持向量机分类器进行分类,获得发送或接收聊天发起句的通讯终端的场景图像条目的内容信息。
本实施例中的SIFT特征是一种尺度不变特征转换,是在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。具体地,本实施例在视觉单词词典中匹配与场景图像的感兴趣区域的SIFT特征最接近的视觉单词的具体过程为:将场景图像的每一个感兴趣区域的SIFT特征与视觉单词词典中每一个视觉单词对应的聚类中心的SIFT特征进行相似度计算,当计算出感兴趣区域与视觉单词的相似度大于预设阈值时,就认为该视觉单词是与该感兴趣区域最接近的视觉单词。这样,就能将场景图像的所有感兴趣区域用视觉单词表示,并基于场景图像中的视觉单词的分布情况设计和训练分类器,从而最终获得发送和/或接收聊天发起句的通讯终端的场景图像条目的内容信息。
参照图2,图2为本实施例假设采集的接收聊天发起句的通讯终端接收聊天发起句的场景图像,通过对该场景图像的五个感兴趣区域的SIFT特征提取,以及通过计算每一个感兴趣区域的SIFT特征与视觉单词词典的相似度,从而获得与上述五个感兴趣区域最接近的视觉单词,分别为“天空”、“国旗”、“建筑物”、“狮子”、“桥”,具体参照图3,然后再根据获得的与上述五个感兴趣区域最接近的视觉单词,采用预先训练好的支持向量机获得接收聊天发起句的通讯终端的场景图像条目的内容信息。
本实施例通过采集通讯终端的场景图像获得通讯终端的场景图像条目的内容信息,使得基于场景图像信息获取的场景信息更接近真实场景信息,并且使得采用基于场景图像信息获得的与聊天发起句对应的回复提示内容更加具有个性化,以及更符合通讯语境。
下面针对三个精简实施例对本发明的获取聊天发起句的回复提示内容的过程和原理进行更进一步说明。
精简实施例一针对的通讯情景为:通讯终端A给通讯终端B发送内容为“要不要一起去逛街?”的文本格式的聊天发起句,参照图4,通讯终端B获取聊天发起句的回复提示内容的方法包括:
步骤S201,设定与预设话题关联的场景条目,以及与场景条目对应的场景选项。具体地,假设本实施例预设话题的数目足够多,且预设话题中与“逛街”话题关联的场景条目包括发送和接收聊天发起句的通讯终端的关系条目、距离条目、接收聊天发起句的通讯终端的天气条目,且与关系条目对应的场景选项共6项,与距离条目对应的场景选项共3项,与天气条目对应的场景选项共5项,具体参照表2。
步骤S202,创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
具体地,本实施例创建与“逛街”话题对应的样本聊天对,且针对每一个样本聊天对中的样本发起句均设置自定义组合数目的样本回复句,例如针对样本答复句“要不要一起去逛街?”设置根据场景选项所有组合(共90种)的样本回复句,针对样本答复句“逛街用英语怎么翻译?”设置一个场景选项组合(代号0+0+0)的样本回复句,然后将创建的与“逛街”话题对应的样本聊天对作为与“逛街”话题对应的话题数据库。
步骤S203,获取聊天发起句的上文聊天内容,并将聊天发起句和聊天发起句的上文聊天内容合并成文本格式的合并文本。具体地,假设本实施例中聊天发起句的上文内容一共包括四条对话内容,具体为:通讯终端A:忙吗?/通讯终端B:还好。/通讯终端A:最近感觉没有合适的衣服穿了!/通讯终端B:是吧。则获取的合并文本为{忙吗?/还好。/最近感觉没有合适的衣服穿了!/是吧。/要不要一起去逛街呢?}。
步骤S204,提取合并文本的关键词。通过对合并文本进行分词、去除停用词、词性标注、语义消歧等操作后,假设提取的分词文本包括{“忙”、“衣服”、“穿”、“逛街”},且本实施例采取加权词频统计的方式进行词频统计,并选取最大加权词频统计值对应的分词文本为合并文本的关键词。具体地,由于本实施例的合并文本一共包括五条聊天内容,则分别设置的五个加权系数分别为k1=0.5、k2=0.2、k3=0.15、k4=0.1、k5=0.05,其中加权系数随合并文本中的聊天内容离聊天发起句时间间隔由小至大逐渐递减,而加权系数的具体值由用户根据需要自定义。
由于本实施例提取的分词文本的词频数都为一,故经过对每个分词文本进行加权词频计算后,可以获得关键词为“逛街”。
步骤S205,根据关键词确定聊天发起句所属的话题分类。具体地,本实施例采用关键词对应的内容作为聊天发起句所属的话题分类,即本实施例中聊天发起句所属的话题分类为“逛街”。
步骤S206,获取与话题分类相同的预设话题对应的话题数据库。
步骤S207,采集与话题分类关联的场景条目的内容信息,获得场景信息。具体地,由于本实施例预设话题中与“逛街”话题关联的场景条目包括:f1=发送聊天发起句和接收聊天发起句的通讯终端的关系条目、f2=发送聊天发起句和接收聊天发起句的通讯终端的距离条目、f3=接收聊天发起句的通讯终端的天气条目,具体见表1。且假设本实施例通过查询接收聊天发起句的通讯终端的通讯录备注信息,获得f1=发送聊天发起句和接收聊天发起句的通讯终端的关系条目的内容信息为“朋友”,且通过计算发送聊天发起句和接收聊天发起句的通讯终端的地理位置差获得f2=发送聊天发起句和接收聊天发起句的通讯终端的距离条目的内容信息为“远”(预先定义地理位置差大于10公里时返回“远”内容信息至距离条目),且通过在互联网上搜索接收聊天发起句的通讯终端所在地理位置的天气信息获得f3=接收聊天发起句的通讯终端的天气条目的内容信息为“晴朗”。
步骤S208,在话题数据库中匹配与聊天发起句相同的样本发起句,并根据场景信息获取第一语义匹配结果。具体地,首先对场景信息进行标识,获得标识ID,参照表2,则获得的标识ID号为“2+1+1”,然后在与话题分类相同的预设话题对应的话题数据库匹配与聊天发起句相同的样本发起句,以及在与样本发起句对应的场景选项中匹配与标识ID号对应的组合代号,并将与标识ID相同的组合代号对应的样本答复句作为与聊天发起句对应的回复提示内容。假设本实施例针对样本聊天发起句“要不要一起去逛街呢”,获取的与回复条件ID号“2+1+1”对应的结论内容为3条,分别为“亲,我离你那太远了,下次再约可否?”、“今天天气不错,我正好也想出来逛逛。”、“虽然我离你那挺远的,但今天天气不错,所以还是想出来逛逛”。在实际的聊天回复时,系统将提供该三条回复提示内容供用户选择。
可以看出,当采集的场景条目的内容信息不同时,获取的场景信息不同,从而获取的回复提示内容不同,故解决了现有获取回复提示内容的方法没有结合参与聊天的通讯终端的场景信息,导致获取的回复提示内容单一固定,聊天的智能化程度低以及用户体验不佳的技术问题,实现了根据不同的场景信息获取不同的回复提示内容,且获取的回复提示内容充分结合了通讯双方的场景信息,并与通讯双方息息相关,体现了较高的智能化和个性化水平。此外,本实施例通过话题数据库获取回复提示内容无需人工编辑,提高了聊天会话速度,提升了用户体验。
精简实施例二针对的通讯情景为:通讯终端A给通讯终端B发送内容为“忙吗?”的文本格式的聊天发起句,参照图5,通讯终端B获取聊天发起句的回复提示内容的方法包括:
步骤S301,设定与预设话题关联的场景条目,以及与场景条目对应的场景选项。具体地,假设本实施例预设话题的数目足够多,且预设话题中与“打招呼”话题关联的场景条目仅仅包括接收聊天发起句的通讯终端的场景图像条目,且与场景图像条目对应的场景选项共9项,分别为机场、海洋、森林、村庄、街道、树木、高楼、高速公路、办公室。
步骤S302,创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
具体地,本实施例在创建与“打招呼”为聊天主题的样本聊天对时,针对每一个样本聊天对中的样本发起句均设置与场景选项对应的样本回复句,例如针对样本答复句“你在哪呢?”既可以设置与所有场景选项对应的样本回复句(共9种),也可以设置与部分场景选项对应的样本回复句。
步骤S303,获取通讯终端接收的聊天发起句所属的话题分类。具体地,假设本实施例中聊天发起句的上文内容为空,且鉴于聊天发起句的内容简单,故易获取聊天发起句所属的话题分类为“打招呼”。
步骤S304,获取与话题分类相同的预设话题对应的话题数据库。
步骤S305,采集与话题分类关联的场景条目的内容信息,获得场景信息。具体地,由于本实施例预设话题中与“打招呼”话题关联的场景条目仅包括f1=接收聊天发起句的通讯终端的场景图像条目。
步骤S306,采集接收聊天发起句的通讯终端的场景图像。
步骤S307,提取场景图像的感兴趣区域,并在视觉单词词典中匹配与场景图像的感兴趣区域的SIFT特征最接近的视觉单词。
具体地,本实施例首先通过DOG(Difference of Gaussian)算子提取场景图像的感兴趣区域,然后计算每一个感兴趣区域的SIFT特征,并在视觉单词词典中匹配与场景图像的感兴趣区域的SIFT特征最接近的视觉单词。假设通过匹配后,本实施例匹配出与三个感兴趣区域对应的视觉单词分别为“路标”、“车道”、“距离指示牌”。
步骤S308,根据场景图像的感兴趣区域的视觉单词的分布对场景图像采用预先训练好的支持向量机分类器进行分类,获得场景条目的内容信息。具体地,本实施例采用支持向量机的方法设计分类器,且在训练阶段对已知场景分类的9类图像进行训练(机场、海洋、森林、村庄、街道、树木、高楼、高速公路、办公室),每类图像均包括100幅不同的训练样本图像。通过将步骤S307得到的包含三个视觉单词的场景图像(“路标”、“车道”、“距离指示牌”)输入到预先训练好的支持向量机分类器,可以得到接收聊天发起句的通讯终端的场景图像条目的内容信息为“高速公路”。
步骤S309,在话题数据库中匹配与聊天发起句相同的样本发起句,并根据场景信息获取第一语义匹配结果。具体地,假设本实施例预先设定的与话题分类“打招呼”对应的话题数据库中,针对样本发起句“忙吗?”,且场景选项为“高速公路”的样本回复句包括多项,例如“我在高速上,不方便回信息,下高速和您联系。”、“不好意思,现在不方便回信息,稍后和您联系”等等,则分别将这些回复提示内容显示在通讯终端供用户选择。
本实施例通过采集接收聊天发起句的通讯终端的场景图像,并基于采集的场景图像获取场景条目的内容信息,使得基于该内容信息获得的场景信息更接近真实场景信息,从而使得采用基于场景信息获得的与聊天发起句匹配的回复提示内容智能化程度高、具有个性化。
精简实施例三针对的通讯情景为:通讯终端A给通讯终端B发送内容为“苹果价格是多少?”的文本格式的聊天发起句,且针对该聊天发起句,本实施例不能根据建立的话题数据库获得与之匹配的第一语义匹配结果,参照图6,通讯终端B获取聊天发起句的回复提示内容的方法包括:
步骤S401,获取通讯终端接收的聊天发起句所属的话题分类。本实施例获取聊天发起句所属的话题分类可参照精简实施例一采取的方法,故在此不再具体论述,假设本实施例获取的话题分类为“苹果手机”。
步骤S402,基于分布式云计算方式对通讯终端的用户网络数据进行数据采集。具体地,本实施例中用户网络数据的采集是通过网络爬虫实现的,通过分布式存储设备存储采集的网络数据,其中分布式存储设备基于HDFS实现。
步骤S403,对用户网络数据进行预处理获得预处理文本,预处理包括分词处理、语义消歧处理、词性标注处理、去除停用词处理、标点符号处理、表情字符处理。具体地,本实施例去除停用词时,首先建立一个停用词词典,然后匹配去除那些出现频率很高但是有没有实际意义的词,例如“的”“了”“吗”等。在实际的实施过程中,还可以对采集的用户网络数据进行词性标注和词性过滤,其中词性过滤又建立在词性标注的基础上,对不同性质的词汇分门别类的处理,实验证明,形容词和副词对聚类的效果的提高没有太大的改善,所以应予以去除,只保留名词、动词和缩略词。
步骤S404,利用K均值聚类算法对预处理文本进行文本聚类,获得文本聚类中心。本实施例基于K-means聚类算法对预处理文本进行文本聚类,获得文本聚类中心,具体包括以下步骤:
a、随机选取K个数据作为中心点,本实施例中的中心点既可以是一个词也可以是一句话。
b、然后计算每一个样本与中心点的距离,选取最小的距离对应的中心点即为所属的类。具体地,本实施例通过计算每一个样本对应的词向量与中心点对应的词向量之间的距离获取每一个样本与中心点的距离。
c、对应每一个类,重新计算中心点(该类别中所有样本的均值)。
d、重复迭代b、c步骤直至收敛,即聚类中心不再变化。
具体地,假设本实施例获取的文本聚类中心为两个,分别为:“苹果-手机”和“水果-苹果”。
步骤S405,提取文本聚类中心的关键词作为与文本聚类中心对应的聚类话题。具体地,本实施例获取的聚类话题也为两个,分别为“苹果-手机”和“水果-苹果”。
步骤S406,获取与聊天发起句所属的话题分类最接近的聚类话题。具体地,本实施例获取与聊天发起句所属的话题分类最接近的聚类话题时,既可以通过计算聊天发起句所属的话题分类与聚类话题之间的相似度获得,也可以通过预设的话题分类与聚类话题的关联度获得,通过计算聊天发起句所属的话题分类与聚类话题之间的相似度很容易获得与聊天发起句所属的话题分类(“苹果手机”)最接近的聚类话题为“苹果-手机”。
步骤S407,在与聚类话题对应的用户网络数据中对聊天发起句进行匹配,获得第二语义匹配结果。具体地,本实施例通过在与聚类话题对应的用户网络数据中对聊天发起句(“苹果价格是多少?”)进行匹配,很容易获得与之对应的价格是苹果手机的价格而非水果中的苹果的价格。
本实施例通过K均值聚类算法提取用户网络数据的聚类话题,以及在与聊天发起句最接近的聚类话题对应的用户网络数据中对聊天发起句进行匹配,节省了在大量的用户网络数据对聊天发起句进行匹配的匹配时间,从而提高了回复提示内容获取的速度和效率,且通过只在与聊天发起句最接近的聚类话题对应的用户网络数据中对聊天发起句进行匹配,使得获取的回复提示内容更准确、更智能化。
参照图7,本发明的优选实施例提供的获取聊天发起句的回复提示内容的装置,包括:
话题数据库创建装置10,用于建立与预设话题对应的话题数据库,
话题分类获取装置20,用于获取通讯终端接收的聊天发起句所属的话题分类;
第一语义匹配装置30,用于利用与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获取第一语义匹配结果,并将第一语义匹配结果作为聊天发起句的回复提示内容;
第二语义匹配装置40,用于如果未获得第一语义匹配结果,则基于分布式云计算方式对通讯终端的用户网络数据进行数据采集,并利用用户网络数据对聊天发起句进行语义匹配,获取第二语义匹配结果,并将第二语义匹配结果作为聊天发起句的回复提示内容。
可选地,话题数据库创建装置10包括:
设定装置,用于设定与预设话题关联的场景条目,以及与场景条目对应的场景选项;
样本聊天对创建装置,用于创建以预设话题为聊天主题的样本聊天对,并将样本聊天对作为与预设话题对应的话题数据库,样本聊天对包括样本发起句、根据场景选项设置的与样本发起句对应的样本回复句。
可选地,话题分类获取装置20包括:
合并文本获取装置,用于获取聊天发起句的上文聊天内容,并将聊天发起句和聊天发起句的上文聊天内容合并成文本格式的合并文本;
关键字提取装置,用于提取合并文本的关键词;
话题分类确定装置,用于根据关键词获取聊天发起句所属的话题分类。
本发明提供的获取聊天发起句的回复提示内容的装置,通过获取通讯终端接收的聊天发起句所属的话题分类,并利用自定义的与话题分类相同的预设话题对应的话题数据库对聊天发起句进行语义匹配,获得第一语义匹配结果,并在未获得第一语义匹配结果的前提下采集通讯终端的用户网络数据,并利用该用户网络数据对聊天发起句进行语义匹配,获得第二语义匹配结果,解决了采用传统的数据库匹配方式并不一定能获取与聊天发起句匹配的聊天回复提示内容,从而导致聊天的智能化程度低以及用户体验不佳的技术问题,充分利用通讯终端的用户网络数据获取聊天发起句的回复提示内容,提高了回复提示内容获取的准确度,体现了较高的智能化水平,提升了用户体验。
本实施例获取聊天发起句的回复提示内容的装置的具体工作过程和工作原理可参照本实施例的获取聊天发起句的回复提示内容的方法的工作过程和工作原理。本发明实施例中的通讯终端设备可以是台式电脑、平板电脑、个人数字助理、手机、电视机、车载电脑、可穿戴通信设备等。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取聊天发起句的回复提示内容的方法,其特征在于,包括:
建立与预设话题对应的话题数据库,
获取通讯终端接收的聊天发起句所属的话题分类;
利用与所述话题分类相同的所述预设话题对应的话题数据库对所述聊天发起句进行语义匹配,获取第一语义匹配结果,并将所述第一语义匹配结果作为所述聊天发起句的回复提示内容;
如果未获得所述第一语义匹配结果,则基于分布式云计算方式对所述通讯终端的用户网络数据进行数据采集,并利用所述用户网络数据对所述聊天发起句进行语义匹配,获取第二语义匹配结果,并将所述第二语义匹配结果作为所述聊天发起句的回复提示内容。
2.根据权利要求1所述的获取聊天发起句的回复提示内容的方法,其特征在于,建立与预设话题对应的话题数据库包括:
设定与预设话题关联的场景条目,以及与所述场景条目对应的场景选项;
创建以所述预设话题为聊天主题的样本聊天对,并将所述样本聊天对作为与所述预设话题对应的话题数据库,所述样本聊天对包括样本发起句、根据所述场景选项设置的与所述样本发起句对应的样本回复句。
3.根据权利要求2所述的获取聊天发起句的回复提示内容的方法,其特征在于,获取通讯终端接收的聊天发起句所属的话题分类包括:
获取所述聊天发起句的上文聊天内容,并将所述聊天发起句和所述聊天发起句的上文聊天内容合并成文本格式的合并文本;
提取所述合并文本的关键词;
根据所述关键词获取所述聊天发起句所属的话题分类。
4.根据权利要求3所述的获取聊天发起句的回复提示内容的方法,其特征在于,利用与所述话题分类相同的所述预设话题对应的话题数据库对所述聊天发起句进行语义匹配,获取第一语义匹配结果包括:
获取与所述话题分类相同的所述预设话题对应的话题数据库;
采集与所述话题分类关联的场景条目的内容信息,获得场景信息;
在所述话题数据库中匹配与所述聊天发起句相同的样本发起句,并根据所述场景信息获取第一语义匹配结果。
5.根据权利要求1-4任一所述的获取聊天发起句的回复提示内容的方法,其特征在于,利用所述用户网络数据对所述聊天发起句进行语义匹配,获取第二语义匹配结果包括:
对所述用户网络数据进行预处理获得预处理文本,所述预处理包括分词处理、语义消歧处理、词性标注处理、去除停用词处理、标点符号处理、表情字符处理;
利用K均值聚类算法对所述预处理文本进行文本聚类,获得文本聚类中心;
提取所述文本聚类中心的关键词作为与所述文本聚类中心对应的聚类话题;
获取与所述聊天发起句所属的话题分类最接近的所述聚类话题;
在与所述聚类话题对应的用户网络数据中对所述聊天发起句进行匹配,获得第二语义匹配结果。
6.根据权利要求5所述的获取聊天发起句的回复提示内容的方法,其特征在于,所述场景条目包括:
发送和接收所述聊天发起句的通讯终端的关系条目、姓名条目、性别条目、年龄条目、即时通讯账号条目、电子邮箱地址条目、家庭地址条目、职业类别条目、职务条目、工作单位条目、单位地址条目、银行账号条目、好友印象条目、兴趣爱好条目、朋友圈状态条目、心情条目、最近关注话题条目、当前通讯状态条目、场景图像条目、时间条目、节日条目、季节条目、地理位置信息条目、距离条目、通讯频率条目、通讯次数条目、通讯时长条目、发起历史通讯的选择方式条目,其中,所述选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式。
7.根据权利要求6所述的获取聊天发起句的回复提示内容的方法,其特征在于,采集所述场景条目中的发送或接收所述聊天发起句的通讯终端的场景图像条目的内容信息包括:
采集发送或接收所述聊天发起句的通讯终端的场景图像;
采用DOG算子提取场景训练图像的感兴趣区域,并计算所述场景训练图像的感兴趣区域的SIFT特征;
采用K均值聚类算法对所述场景训练图像的感兴趣区域的SIFT特征进行聚类,获得多个聚类中心,并建立由与每一个所述聚类中心对应的视觉单词构成的视觉单词词典;
采用DOG算子提取所述场景图像的感兴趣区域,并在所述视觉单词词典中匹配与所述场景图像的感兴趣区域的SIFT特征最接近的视觉单词;
根据所述场景图像的感兴趣区域的视觉单词的分布对所述场景图像采用预先训练好的支持向量机分类器进行分类,获得发送或接收所述聊天发起句的通讯终端的场景图像条目的内容信息。
8.一种获取聊天发起句的回复提示内容的装置,其特征在于,
话题数据库创建装置,用于建立与预设话题对应的话题数据库,
话题分类获取装置,用于获取通讯终端接收的聊天发起句所属的话题分类;
第一语义匹配装置,用于利用与所述话题分类相同的所述预设话题对应的话题数据库对所述聊天发起句进行语义匹配,获取第一语义匹配结果,并将所述第一语义匹配结果作为所述聊天发起句的回复提示内容;
第二语义匹配装置,用于如果未获得所述第一语义匹配结果,则基于分布式云计算方式对所述通讯终端的用户网络数据进行数据采集,并利用所述用户网络数据对所述聊天发起句进行语义匹配,获取第二语义匹配结果,并将所述第二语义匹配结果作为所述聊天发起句的回复提示内容。
9.根据权利要求8所述的获取聊天发起句的回复提示内容的装置,其特征在于,所述话题数据库创建装置包括:
设定装置,用于设定与预设话题关联的场景条目,以及与所述场景条目对应的场景选项;
样本聊天对创建装置,用于创建以所述预设话题为聊天主题的样本聊天对,并将所述样本聊天对作为与所述预设话题对应的话题数据库,所述样本聊天对包括样本发起句、根据所述场景选项设置的与所述样本发起句对应的样本回复句。
10.根据权利要求9所述的获取聊天发起句的回复提示内容的装置,其特征在于,所述话题分类获取装置包括:
合并文本获取装置,用于获取所述聊天发起句的上文聊天内容,并将所述聊天发起句和所述聊天发起句的上文聊天内容合并成文本格式的合并文本;
关键字提取装置,用于提取所述合并文本的关键词;
话题分类确定装置,用于根据所述关键词获取所述聊天发起句所属的话题分类。
CN201510741085.3A 2015-11-04 2015-11-04 一种获取聊天发起句的回复提示内容的方法及装置 Pending CN106649405A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510741085.3A CN106649405A (zh) 2015-11-04 2015-11-04 一种获取聊天发起句的回复提示内容的方法及装置
PCT/CN2016/103422 WO2017076205A1 (zh) 2015-11-04 2016-10-26 一种获取聊天发起句的回复提示内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510741085.3A CN106649405A (zh) 2015-11-04 2015-11-04 一种获取聊天发起句的回复提示内容的方法及装置

Publications (1)

Publication Number Publication Date
CN106649405A true CN106649405A (zh) 2017-05-10

Family

ID=58661751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510741085.3A Pending CN106649405A (zh) 2015-11-04 2015-11-04 一种获取聊天发起句的回复提示内容的方法及装置

Country Status (2)

Country Link
CN (1) CN106649405A (zh)
WO (1) WO2017076205A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107453980A (zh) * 2017-07-26 2017-12-08 北京小米移动软件有限公司 即时通信中问题响应方法及装置
CN107623627A (zh) * 2017-09-27 2018-01-23 珠海市魅族科技有限公司 一种信息回复方法及装置、终端和可读存储介质
CN108121799A (zh) * 2017-12-21 2018-06-05 广东欧珀移动通信有限公司 回复语句的推荐方法、装置、存储介质及移动终端
CN108460159A (zh) * 2018-03-29 2018-08-28 广东欧珀移动通信有限公司 一种信息的回复方法、终端设备及计算机可读存储介质
CN109242706A (zh) * 2018-08-20 2019-01-18 中国平安人寿保险股份有限公司 辅助坐席人员沟通的方法、装置、计算机设备和存储介质
CN109547323A (zh) * 2018-10-17 2019-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、服务器、终端及存储介质
TWI656448B (zh) * 2017-11-01 2019-04-11 中華電信股份有限公司 主題提供裝置及其雲儲存檔案提示方法
CN109842549A (zh) * 2019-03-21 2019-06-04 天津字节跳动科技有限公司 即时通讯交互方法、装置及电子设备
CN110532565A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 语句处理方法及装置、以及电子设备
CN110555094A (zh) * 2018-03-30 2019-12-10 北京金山安全软件有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN111263016A (zh) * 2020-01-10 2020-06-09 深圳追一科技有限公司 通讯辅助方法、装置、计算机设备和计算机可读存储介质
CN111897943A (zh) * 2020-08-17 2020-11-06 腾讯科技(深圳)有限公司 会话记录搜索方法、装置、电子设备及存储介质
CN111914073A (zh) * 2020-07-15 2020-11-10 中国联合网络通信集团有限公司 客服应答方法、装置、设备及存储介质
CN112905770A (zh) * 2021-02-10 2021-06-04 华南师范大学 基于语料库面向专业职业的人工智能心理健康聊天机器人
CN113535926A (zh) * 2021-07-26 2021-10-22 深圳市优必选科技股份有限公司 主动对话方法、装置及语音终端
CN113595886A (zh) * 2021-07-29 2021-11-02 北京达佳互联信息技术有限公司 即时通讯消息的处理方法、装置、电子设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263318B (zh) * 2018-04-23 2022-10-28 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN110633410A (zh) * 2018-06-21 2019-12-31 中兴通讯股份有限公司 信息处理方法及装置、存储介质、电子装置
CN111061865A (zh) * 2018-10-17 2020-04-24 武汉斗鱼网络科技有限公司 一种会话场景文本挖掘的方法及计算装置
CN109871492B (zh) * 2018-12-24 2022-09-20 深圳市珍爱捷云信息技术有限公司 任务处理方法、装置、计算机设备及计算机存储介质
CN110413770B (zh) * 2019-06-12 2023-01-31 创新先进技术有限公司 将群消息归类到群话题的方法及装置
CN113127613B (zh) * 2020-01-10 2024-01-09 北京搜狗科技发展有限公司 聊天信息处理方法及装置
CN112822093B (zh) * 2021-01-07 2022-06-03 南京绛门信息科技股份有限公司 一种基于5g的多终端消息聚合系统及方法
CN113037932B (zh) * 2021-02-26 2022-09-23 北京百度网讯科技有限公司 回复消息生成方法、装置、电子设备和存储介质
CN113139061B (zh) * 2021-05-14 2023-07-21 东北大学 一种基于词向量聚类的案件特征提取方法
US11769501B2 (en) * 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth
CN114374572B (zh) * 2021-12-30 2023-12-01 广州趣丸网络科技有限公司 一种语音信息处理方法和装置
CN115002053B (zh) * 2022-06-14 2024-02-13 北京百度网讯科技有限公司 互动方法、装置和电子设备
CN115934923B (zh) * 2023-03-15 2023-05-05 威海海洋职业学院 一种基于大数据的电商回复方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103079008A (zh) * 2013-01-07 2013-05-01 北京播思软件技术有限公司 根据短信内容自动生成回复建议的方法和系统
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071418B (zh) * 2007-03-29 2010-06-23 腾讯科技(深圳)有限公司 聊天方法与系统
CN104268129B (zh) * 2014-08-28 2018-07-06 小米科技有限责任公司 消息回复的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103079008A (zh) * 2013-01-07 2013-05-01 北京播思软件技术有限公司 根据短信内容自动生成回复建议的方法和系统
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107453980A (zh) * 2017-07-26 2017-12-08 北京小米移动软件有限公司 即时通信中问题响应方法及装置
CN107623627A (zh) * 2017-09-27 2018-01-23 珠海市魅族科技有限公司 一种信息回复方法及装置、终端和可读存储介质
TWI656448B (zh) * 2017-11-01 2019-04-11 中華電信股份有限公司 主題提供裝置及其雲儲存檔案提示方法
CN108121799A (zh) * 2017-12-21 2018-06-05 广东欧珀移动通信有限公司 回复语句的推荐方法、装置、存储介质及移动终端
CN108460159A (zh) * 2018-03-29 2018-08-28 广东欧珀移动通信有限公司 一种信息的回复方法、终端设备及计算机可读存储介质
CN108460159B (zh) * 2018-03-29 2022-04-29 Oppo广东移动通信有限公司 一种信息的回复方法、终端设备及计算机可读存储介质
CN110555094A (zh) * 2018-03-30 2019-12-10 北京金山安全软件有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN109242706A (zh) * 2018-08-20 2019-01-18 中国平安人寿保险股份有限公司 辅助坐席人员沟通的方法、装置、计算机设备和存储介质
CN109547323A (zh) * 2018-10-17 2019-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、服务器、终端及存储介质
CN109547323B (zh) * 2018-10-17 2019-11-12 北京达佳互联信息技术有限公司 信息处理方法、装置、服务器、终端及存储介质
US11483263B2 (en) 2018-10-17 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method and terminal for facilitating chat between users of two terminals
CN109842549B (zh) * 2019-03-21 2021-06-04 天津字节跳动科技有限公司 即时通讯交互方法、装置及电子设备
CN109842549A (zh) * 2019-03-21 2019-06-04 天津字节跳动科技有限公司 即时通讯交互方法、装置及电子设备
CN110532565B (zh) * 2019-08-30 2022-03-25 联想(北京)有限公司 语句处理方法及装置、以及电子设备
CN110532565A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 语句处理方法及装置、以及电子设备
CN111263016A (zh) * 2020-01-10 2020-06-09 深圳追一科技有限公司 通讯辅助方法、装置、计算机设备和计算机可读存储介质
CN111914073A (zh) * 2020-07-15 2020-11-10 中国联合网络通信集团有限公司 客服应答方法、装置、设备及存储介质
CN111897943A (zh) * 2020-08-17 2020-11-06 腾讯科技(深圳)有限公司 会话记录搜索方法、装置、电子设备及存储介质
CN112905770A (zh) * 2021-02-10 2021-06-04 华南师范大学 基于语料库面向专业职业的人工智能心理健康聊天机器人
CN113535926A (zh) * 2021-07-26 2021-10-22 深圳市优必选科技股份有限公司 主动对话方法、装置及语音终端
CN113535926B (zh) * 2021-07-26 2023-11-10 深圳市优必选科技股份有限公司 主动对话方法、装置及语音终端
CN113595886A (zh) * 2021-07-29 2021-11-02 北京达佳互联信息技术有限公司 即时通讯消息的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2017076205A1 (zh) 2017-05-11

Similar Documents

Publication Publication Date Title
CN106649405A (zh) 一种获取聊天发起句的回复提示内容的方法及装置
Dahal et al. Topic modeling and sentiment analysis of global climate change tweets
CN106656732A (zh) 一种基于场景信息获取聊天回复内容的方法及装置
Zannettou et al. What is gab: A bastion of free speech or an alt-right echo chamber
CN109033180A (zh) 一种信息推送方法、装置、计算机装置及计算机可读存储介质
CN107315778A (zh) 一种基于大数据情感分析的自然语言舆情分析方法
Rings The Other in contemporary migrant cinema: Imagining a new Europe?
TW201409261A (zh) 發掘可疑帳號之分身群組的方法與系統
CN111708901A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN102750299B (zh) 一种网上信息汇聚的方法
CN103279515B (zh) 基于微群的推荐方法及微群推荐装置
CN106649409A (zh) 一种基于场景信息显示搜索结果的方法及装置
CN106658441A (zh) 一种快捷回复未读信息的方法及装置
CN103279479A (zh) 一种面向微博客平台文本流的突发话题检测方法及系统
KR20150096295A (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
US11436446B2 (en) Image analysis enhanced related item decision
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN104142936A (zh) 匹配音视频的方法和装置
lvaro Cuesta et al. A Framework for massive Twitter data extraction and analysis
CN106649410B (zh) 一种获取聊天回复内容的方法及装置
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
CN106886296A (zh) 输入法的词库的处理方法和装置
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
US20220394435A1 (en) System and method for short message service (sms) content classification
US11438346B2 (en) Restrict transmission of manipulated content in a networked environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170510