CN105245680A - 对移动终端的新增联系人进行通讯录分组的方法及装置 - Google Patents

对移动终端的新增联系人进行通讯录分组的方法及装置 Download PDF

Info

Publication number
CN105245680A
CN105245680A CN201510569962.3A CN201510569962A CN105245680A CN 105245680 A CN105245680 A CN 105245680A CN 201510569962 A CN201510569962 A CN 201510569962A CN 105245680 A CN105245680 A CN 105245680A
Authority
CN
China
Prior art keywords
similarity
term vector
newly
address list
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510569962.3A
Other languages
English (en)
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510569962.3A priority Critical patent/CN105245680A/zh
Publication of CN105245680A publication Critical patent/CN105245680A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明对移动终端的新增联系人进行通讯录分组的方法及装置,通过获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,和移动终端与新增联系人的历史联系文本作为第二历史联系文本;提取第一历史联系文本中的关键词作为第一关键词,将第一关键词转换成词向量作为第一词向量;提取第二历史联系文本中的关键词作为第二关键词,将第二关键词转换成词向量作为第二词向量;计算第一词向量与第二词向量之间的相似度,将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别,解决了手动添加新增联系人到设置的通讯录组别中操作复杂、过程繁琐的技术问题,节省了通讯录分组的时间,提高了分类效率,提升了用户体验。

Description

对移动终端的新增联系人进行通讯录分组的方法及装置
技术领域
本发明涉及通讯录分组领域,特别地,涉及一种对移动终端的新增联系人进行通讯录分组的方法及装置。
背景技术
通常,在终端设备的通讯录中设置有通讯录分组功能,用户可以根据自己的使用习惯或需求制定多个通讯录组别,如家人、同事、朋友、大学同学、中学同学组别等,并将隶属于该通讯录组别的新增联系人手动加入其中,从而方便用户按通讯录组别进行操作,如群发短信等。但是,这种手动添加新增联系人到设置的通讯录组别中的方法,大大增加了用户操作的时间,而且操作方法十分繁琐。
发明内容
本发明提供了一种对移动终端的新增联系人进行通讯录分组的方法及装置,以解决现有采用手动添加新增联系人到设置的通讯录组别中导致操作复杂、过程繁琐的技术问题。
根据本发明的一方面,提供了一种对移动终端的新增联系人进行通讯录分组的方法,包括:
获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与移动终端的新增联系人的历史联系文本作为第二历史联系文本;
提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;
提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;
计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别。
进一步地,计算第一词向量与第二词向量之间的相似度包括:
利用预先建立的语义信息库对第一关键词进行语义匹配,获得第一关键词的同义词或近义词作为关联词,并将关联词转换成词向量,得到关联词向量,其中,语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库相关联的语义关系库;
计算第一词向量与第二词向量之间的相似度,作为第一相似度,以及计算关联词向量与第二词向量之间的相似度,作为第二相似度;
将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
进一步地,将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度包括:
利用预先建立的语义信息库以及语义规则库,对第一关键词进行语义推理,获得第一关键词的推理词,并将推理词转换成词向量,得到推理词向量,其中,语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
计算推理词向量与第二词向量之间的相似度,作为第三相似度,将第一相似度、第二相似度以及第三相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
进一步地,第一词向量为多个,计算第一词向量与第二词向量之间的相似度,作为第一相似度包括:
依次计算第二词向量和多个第一词向量中的每一个第一词向量的相似度集合;
获取相似度集合中值最大的相似度作为第一相似度。
进一步地,将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别包括:
判断最大的相似度是否大于预设的相似度阈值,若是,则将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别;
若否,则新建通讯录组别,并将新增联系人归类到新建通讯录组别。
进一步地,新建通讯录组别,并将新增联系人归类到新建通讯录组别之后还包括:
根据第二关键词对新建通讯录组别的名称进行命名。
进一步地,历史联系文本包括历史聊天文本和/或历史语音文本,历史语音文本为转换成文本格式的历史语音数据。
根据本发明的另一方面,提供了一种对移动终端的新增联系人进行通讯录分组的装置,包括:
历史联系文本获取装置,用于获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与移动终端的新增联系人的历史联系文本作为第二历史联系文本;
第一关键词提取装置,用于提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;
第二关键词提取装置,用于提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;
相似度计算装置,用于计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别。
进一步地,相似度计算装置包括:
关联词获取装置,用于利用预先建立的语义信息库对第一关键词进行语义匹配,获得第一关键词的同义词或近义词作为关联词,并将关联词转换成词向量,得到关联词向量,其中,语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库相关联的语义关系库;
第一相似度计算装置,用于计算第一词向量与第二词向量之间的相似度,作为第一相似度,以及计算关联词向量与第二词向量之间的相似度,作为第二相似度;
第二相似度计算装置,用于将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
进一步地,第二相似度计算装置包括:
推理词获取装置,用于利用预先建立的语义信息库以及语义规则库,对第一关键词进行语义推理,获得第一关键词的推理词,并将推理词转换成词向量,得到推理词向量,其中,语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
第三相似度计算装置,用于计算推理词向量与第二词向量之间的相似度,作为第三相似度,将第一相似度、第二相似度以及第三相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
本发明具有以下有益效果:
本发明的对移动终端的新增联系人进行通讯录分组的方法及装置,通过获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与移动终端的新增联系人的历史联系文本作为第二历史联系文本;提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别,解决了手动添加新增联系人到设置的通讯录组别中操作复杂、过程繁琐的技术问题,实现了利用移动终端与通讯录好友的历史联系文本,以及移动终端与新增联系人的历史联系文本对移动终端的新增联系人进行通讯录分组,大量节省了手动对新增联系人进行通讯录分组的时间,提高了分类效率,提升了用户体验。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的对移动终端的新增联系人进行通讯录分组的方法的流程图;
图2是本发明针对一个精简的实施例对移动终端的新增联系人进行通讯录分组的方法的流程图;
图3是本发明优选实施例的对移动终端的新增联系人进行通讯录分组的装置的结构框图。
附图说明:
10、历史联系文本获取装置;20、第一关键词提取装置;30、第二关键词提取装置;40、相似度计算装置。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种对移动终端的新增联系人进行通讯录分组的方法,包括:
步骤S101,获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与新增联系人的历史联系文本作为第二历史联系文本;
步骤S102,提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;
步骤S103,提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;
步骤S104,计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别。
本发明的对移动终端的新增联系人进行通讯录分组的方法,通过获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与移动终端的新增联系人的历史联系文本作为第二历史联系文本;提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别,解决了手动添加新增联系人到设置的通讯录组别中操作复杂、过程繁琐的技术问题,实现了利用移动终端与通讯录好友的历史联系文本,以及移动终端与新增联系人的历史联系文本对移动终端的新增联系人进行通讯录分组,大量节省了手动对新增联系人进行通讯录分组的时间,提高了分类效率,提升了用户体验。
本实施例中的词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hotRepresentation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为1,其余维度值都为0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小,例如,一个词表包含10个词语,则该词表的所有词语转换成10维的向量,例如,“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0],“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0],向量中数值为1的位置对应该词在词表的位置,即“话筒”位于词表中第6个位置,“麦克”位于词表中第2个位置。另一种表示方法为分布式描述方法(DistributedRepresentation),该方法是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如[0.792,-0.177,-0.107,0.109,-0.542],这种方式能够大大减少向量的维数。
由于稀疏描述法一方面存在“词汇鸿沟”的问题,即得到的词向量之间相互孤立,从两个词向量中不能得出两个词之间的相似关系,另一方面该方法容易出现“维数灾难”,即词向量维数过大,导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近,所谓的距离即余弦夹角的距离。此外,分布式描述方法表示的词向量具有较低的维度,适合于进行机器训练,训练的效率都较高,所占用的内存相对于稀疏描述法较少。因此,本实施例采用分布式描述方法将关键词转换为词向量。
本实施例中的相似度是指第一关键词与第二关键词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过与第一关键词和第二关键词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度的计算公式为:其中,X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1],cosθ越接近1时,则表示两词语之间的相似度越高,反之,cosθ值越接近0,则表示两词语之间的相似度越低。通过计算词向量的夹角余弦值能够较为直观的反映出两个关键词的相似度。
可选地,计算第一词向量与第二词向量之间的相似度包括:
利用预先建立的语义信息库对第一关键词进行语义匹配,获得第一关键词的同义词或近义词作为关联词,并将关联词转换成词向量,得到关联词向量,其中,语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库相关联的语义关系库;
计算第一词向量与第二词向量之间的相似度,作为第一相似度,以及计算关联词向量与第二词向量之间的相似度,作为第二相似度;
将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
由于仅仅根据第一词向量和第二词向量的相似度决定新增联系人所属的通讯录组别可能出现准确度不高的问题,故本实施例通过对第一关键词进行语义匹配,获得第一关键词的同义词或近义词作为关联词,然后再基于第一关键词向量计算第一相似度以及基于关联词向量计算第二相似度,最后将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度。本实施例中第一相似度和第二相似度的加权系数可以根据实际情况或用户自定义进行设定,在具体的实施过程中,一般定义第一相似度的加权系数大于第二相似度的加权系数。
此外,本实施例除了根据预先建立的语义信息库获得关联词外,还可以采用模糊搜索机制在预先建立的数据库和/或互联网上搜索第一关键词的同义词或近义词作为关联词。本实施例通过结合基于第一关键词向量计算的第一相似度以及基于关联词向量计算的第二相似度,获取新增联系人所属的通讯录组别,解决了仅仅依据基于第一词向量与第二词向量计算出的相似度获取新增联系人所属的通讯录组别准确度不高的问题,并且结合基于关联词计算的第二相似度,使得计算出的相似度更加切合实际情况,同时也更精准。
可选地,将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度包括:
利用预先建立的语义信息库以及语义规则库,对第一关键词进行语义推理,获得第一关键词的推理词,并将推理词转换成词向量,得到推理词向量,其中,语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
计算推理词向量与第二词向量之间的相似度,作为第三相似度,将第一相似度、第二相似度以及第三相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
由于在实际实施过程中,仅仅根据第一关键词和关联词计算出的第一相似度和第二相似度并没有考虑第一关键词内部隐藏的语义信息,故本实施例利用预先建立的语义信息库以及语义规则库,对第一关键词进行语义推理,获得推理词,并基于推理词向量和第二词向量计算第一相似度,以及将第一相似度、第二相似度以及第一相似度的加权相似度作为最终的相似度。采用增设第一相似度的加权相似度作为最终的相似度,充分考虑了第一关键词的语义信息和根据第一关键词获得的推理信息,从而使得计算出的最终的相似度更切合实际情况,以及更精准。
可选地,第一词向量为多个,计算第一词向量与第二词向量之间的相似度,作为第一相似度包括:
依次计算第二词向量和多个第一词向量中的每一个第一词向量的相似度集合;
获取相似度集合中值最大的相似度作为第一相似度。
当第一关键词为多个时,其对应的第一词向量也为多个,此时依次计算第二词向量与每一个第一词向量的相似度,得到一个相似度集合。本实施例可以通过统计相似度集合中的最大值作为第一相似度。例如,假设移动终端的通讯录中包括A通讯录好友,且经过对第一历史联系文本提取关键词后,获得第一词向量为{A1},{A2},则在计算A与新增联系人D的第二词向量{D1}的相似度时,分别计算第一词向量{A1}与第二词向量{D1}以及第一词向量{A2}与第二词向量{D1}的夹角余弦值,并选取最大的夹角余弦值作为第一相似度。可选地,本实施例不限于采用最大的夹角余弦值作为第一相似度,例如本实施例还可以选取{A1}与{D1}以及{A2}与{D1}的夹角余弦值的平均值作为第一相似度。通过选取多个第一关键词向量,避免了第一词向量选取不准确的问题,提高了第一相似度计算的准确性和可靠性,同时为后续选取第一关键词的关联词和推理词奠定了基础。
可选地,本实施例中的关联词向量也可以为多个,且当关联词向量为多个时,本实施例计算第二相似度与当第一词向量为多个时计算第一相似度的方法类似。具体地,当关联词向量为多个时,依次计算第二词向量与每一个关联词向量的相似度,,得到一个相似度集合,并获取相似度集合中值最大的相似度作为第二相似度。可选地,推理词向量也可以为多个,且当推理词向量为多个时,本实施例计算第三相似度与当第一词向量为多个时计算第一相似度的方法类似。
可选地,将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别包括:
判断最大的相似度是否大于预设的相似度阈值,若是,则将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别;
若否,则新建通讯录组别,并将新增联系人归类到新建通讯录组别。
由于在实际情况中,移动终端预先设置的通讯录分组有限,如果将任何一个新增联系人根据相似度值直接归类到预先设置的通讯录分组中,可能出现由于通讯录分组的数量太少导致对新增联系人的通讯录分组不准确或不合理。针对该问题,本实施例在将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别之前判断最大的相似度是否大于预设的相似度阈值,若是,则将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别,若否,则新建通讯录组别,并将新增联系人归类到新建通讯录组别。通过设置预设的相似度阈值智能地将新增联系人分类到通讯录好友的隶属通讯录组别或新建的通讯录组别中,从而实现了对新增联系人的隶属通讯录组别的准确分类。可选地,新建通讯录组别,并将新增联系人归类到新建通讯录组别之后还包括:根据第二关键词对新建通讯录组别的名称进行命名。
可选地,历史联系文本包括历史聊天文本和/或历史语音文本,历史语音文本为转换成文本格式的历史语音数据。
本实施例中的历史联系文本可以是历史聊天文本,也可以是历史语音文本或两者的结合,其中历史语音文本为转换成文本格式的历史语音数据,且历史语音数据又包括通话历史语音数据或聊天历史语音数据。
可选地,移动终端的新增联系人为移动终端新增加的联系人或移动终端中没有隶属通讯录组别的联系人。具体地,本实施例可以对移动终端新增加的联系人进行通讯录自动分类,也可以对移动终端中没有隶属通讯录组别的联系人进行通讯录自动分类。
可选地,通讯录好友为移动终端的通讯录中的部分通讯录好友或全部通讯录好友。本实施例中移动终端可以选择部分通讯录好友或全部通讯录好友作为对新增联系人进行通讯录分组的参考和依据对象。
下面以一个精简的实施例对本实施例的对移动终端的新增联系人进行通讯录分组的方法进行更进一步的说明,该精简的实施例进行通讯录分组的情景为:移动终端A的通讯录中包括C和D两个通讯录好友,移动终端A的通讯录好友C在移动终端A的联系人中的隶属通讯录组别为“朋友”,通讯录好友D在移动终端A的联系人中的隶属通讯录组别为“同事”。且新增联系人B为待进行通讯录分组的对象,参照图2,该方法主要包括以下步骤:
步骤S201,获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与新增联系人的历史联系文本作为第二历史联系文本。具体地,本实施例的第一历史联系文本包括移动终端A与通讯录好友C的历史联系文本以及移动终端A与通讯录好友D的历史联系文本,第二历史联系文本为移动终端A与新增联系人B的历史联系文本。
步骤S202,提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量,提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量。
步骤S203,利用预先建立的语义信息库以及语义规则库对第一关键词进行语义匹配和语义推理,获得第一关键词的关联词和推理词,并对应转换成关联词向量和推理词向量。
步骤S204,计算第一词向量与第二词向量之间的相似度,作为第一相似度,计算关联词向量与第二词向量之间的相似度,作为第二相似度,以及计算推理词向量与第二词向量之间的相似度,作为第三相似度。例如,当本实施例得到第二词向量为T4(2.5,1,0,1,0,1.1),与通讯录好友C对应的第一词向量为TC3(0.354,0,0.708,2.064,0.258,0),关联词向量为TC5(0,0.258,1.416,1.032,0,0),推理词向量为TC6(0,0,0.708,0.516,0,0)时,则可以依次得到与通讯录好友C对应的第一相似度为cosθC3=0.431,第二相似度为cosθC5=0.237,第三相似度为cosθC6=0.191;同理,与通讯录好友D对应的第一词向量为TD3(1.77,0.258,0,0,0,0.354),关联词向量具体为TD5(2.832,0.258,0,0,0.258,0),推理词向量具体为TD6(0.708,1.032,0.354,0.258,0,0)时,则可以依次得到与通讯录好友D对应的第一相似度为cosθD3=0.904,第二相似度为cosθD5=0.835,第三相似度为cosθD6=0.750。
步骤S205,将第一相似度、第二相似度以及第三相似度的加权相似度作为第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别。本实施例取与第一、第二、第三相似度分别对应的加权系数为k1=0.6,k2=0.2,k3=0.2,则可以计算出与通讯录好友C对应的最终的相似度为:LC=k1*cosθC3+k2*cosθC5+k3*cosθC6=0.333,与通讯录好友D对应的最终的相似度为:LD=k1*cosθD3+k2*cosθD5+k3*cosθD6=0.859,故可以看出,新增联系人B与通讯录好友D的相似度大于新增联系人B与通讯录好友C的相似度,故最终将新增联系人B归类到通讯录好友D在移动终端A的联系人当中的隶属通讯录组别,即“同事”通讯录组别。
本实施例通过结合基于第一关键词向量计算的第一相似度以及基于关联词向量计算的第二相似度,以及基于推理词向量计算的第三相似度,计算出第一词向量与第二词向量之间的相似度,并基于该相似度将新增联系人归类到最大的相似度对应的通讯录好友的隶属通讯录组别,解决了手动添加新增联系人到设置的通讯录组别中操作复杂、过程繁琐的技术问题,实现了基于移动终端与通讯录好友的历史联系文本,以及移动终端与新增联系人的历史联系文本对移动终端的新增联系人进行通讯录分组,大量节省了手动对新增联系人进行通讯录分组的时间,提高了分类效率,提升了用户体验。
参照图3,本实施例提供了一种对移动终端的新增联系人进行通讯录分组的装置,包括:
历史联系文本获取装置10,用于获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及移动终端与移动终端的新增联系人的历史联系文本作为第二历史联系文本;
第一关键词提取装置20,用于提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向量作为第一词向量;
第二关键词提取装置30,用于提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向量作为第二词向量;
相似度计算装置40,用于计算第一词向量与第二词向量之间的相似度,并将新增联系人归类到最大的相似度对应的第一词向量对应的通讯录好友的隶属通讯录组别。
可选地,相似度计算装置40包括:
关联词获取装置,用于利用预先建立的语义信息库对第一关键词进行语义匹配,获得第一关键词的同义词或近义词作为关联词,并将关联词转换成词向量,得到关联词向量,其中,语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库相关联的语义关系库;
第一相似度计算装置,用于计算第一词向量与第二词向量之间的相似度,作为第一相似度,以及计算关联词向量与第二词向量之间的相似度,作为第二相似度;
第二相似度计算装置,用于将第一相似度和第二相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
可选地,第二相似度计算装置包括:
推理词获取装置,用于利用预先建立的语义信息库以及语义规则库,对第一关键词进行语义推理,获得第一关键词的推理词,并将推理词转换成词向量,得到推理词向量,其中,语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
第三相似度计算装置,用于计算推理词向量与第二词向量之间的相似度,作为第三相似度,将第一相似度、第二相似度以及第三相似度的加权相似度作为第一词向量与第二词向量之间的相似度。
本实施例的对移动终端的新增联系人进行通讯录分组的装置的具体工作过程和工作原理可参照本实施例中的对移动终端的新增联系人进行通讯录分组的方法的工作过程和工作原理。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种对移动终端的新增联系人进行通讯录分组的方法,其特征在于,包括:
获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及所述移动终端与所述移动终端的新增联系人的历史联系文本作为第二历史联系文本;
提取所述第一历史联系文本中的关键词作为第一关键词,并将所述第一关键词转换成词向量作为第一词向量;
提取所述第二历史联系文本中的关键词作为第二关键词,并将所述第二关键词转换成词向量作为第二词向量;
计算所述第一词向量与所述第二词向量之间的相似度,并将所述新增联系人归类到最大的所述相似度对应的第一词向量对应的所述通讯录好友的隶属通讯录组别。
2.根据权利要求1所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,计算所述第一词向量与所述第二词向量之间的相似度包括:
利用预先建立的语义信息库对所述第一关键词进行语义匹配,获得所述第一关键词的同义词或近义词作为关联词,并将所述关联词转换成词向量,得到关联词向量,其中,所述语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与所述基本概念库、所述常识知识库、所述句型关系模板库、所述用户综合信息库、所述互联网信息库、所述自定义预输入信息库相关联的语义关系库;
计算所述第一词向量与所述第二词向量之间的相似度,作为第一相似度,以及计算所述关联词向量与所述第二词向量之间的相似度,作为第二相似度;
将所述第一相似度和所述第二相似度的加权相似度作为所述第一词向量与所述第二词向量之间的相似度。
3.根据权利要求2所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,将所述第一相似度和所述第二相似度的加权相似度作为所述第一词向量与所述第二词向量之间的相似度包括:
利用预先建立的所述语义信息库以及语义规则库,对所述第一关键词进行语义推理,获得所述第一关键词的推理词,并将所述推理词转换成词向量,得到推理词向量,其中,所述语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中所述自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
计算所述推理词向量与所述第二词向量之间的相似度,作为第三相似度,将所述第一相似度、所述第二相似度以及所述第三相似度的加权相似度作为所述第一词向量与所述第二词向量之间的相似度。
4.根据权利要求3所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,所述第一词向量为多个,计算所述第一词向量与所述第二词向量之间的相似度,作为第一相似度包括:
依次计算所述第二词向量和多个所述第一词向量中的每一个所述第一词向量的相似度集合;
获取所述相似度集合中值最大的相似度作为第一相似度。
5.根据权利要求4所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,将所述新增联系人归类到最大的所述相似度对应的第一词向量对应的所述通讯录好友的隶属通讯录组别包括:
判断最大的所述相似度是否大于预设的相似度阈值,若是,则将所述新增联系人归类到最大的所述相似度对应的第一词向量对应的所述通讯录好友的隶属通讯录组别;
若否,则新建通讯录组别,并将所述新增联系人归类到所述新建通讯录组别。
6.根据权利要求5所述的新增联系人的通讯录分类方法,其特征在于,新建通讯录组别,并将所述新增联系人归类到所述新建通讯录组别之后还包括:
根据所述第二关键词对所述新建通讯录组别的名称进行命名。
7.根据权利要求6所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,
所述历史联系文本包括历史聊天文本和/或历史语音文本,所述历史语音文本为转换成文本格式的历史语音数据。
8.一种对移动终端的新增联系人进行通讯录分组的装置,其特征在于,包括:
历史联系文本获取装置(10),用于获取移动终端与通讯录好友的历史联系文本作为第一历史联系文本,以及所述移动终端与所述移动终端的新增联系人的历史联系文本作为第二历史联系文本;
第一关键词提取装置(20),用于提取所述第一历史联系文本中的关键词作为第一关键词,并将所述第一关键词转换成词向量作为第一词向量;
第二关键词提取装置(30)用于提取所述第二历史联系文本中的关键词作为第二关键词,并将所述第二关键词转换成词向量作为第二词向量;
相似度计算装置(40),用于计算所述第一词向量与所述第二词向量之间的相似度,并将所述新增联系人归类到最大的所述相似度对应的第一词向量对应的所述通讯录好友的隶属通讯录组别。
9.根据权利要求8所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,相似度计算装置(40)包括:
关联词获取装置,用于利用预先建立的语义信息库对所述第一关键词进行语义匹配,获得所述第一关键词的同义词或近义词作为关联词,并将所述关联词转换成词向量,得到关联词向量,其中,所述语义信息库包括:基本概念库、常识知识库、句型关系模板库、用户综合信息库、互联网信息库、自定义预输入信息库以及与所述基本概念库、所述常识知识库、所述句型关系模板库、所述用户综合信息库、所述互联网信息库、所述自定义预输入信息库相关联的语义关系库;
第一相似度计算装置,用于计算所述第一词向量与所述第二词向量之间的相似度,作为第一相似度,以及计算所述关联词向量与所述第二词向量之间的相似度,作为第二相似度;
第二相似度计算装置,用于将所述第一相似度和所述第二相似度的加权相似度作为所述第一词向量与所述第二词向量之间的相似度。
10.根据权利要求9所述的对移动终端的新增联系人进行通讯录分组的方法,其特征在于,第二相似度计算装置包括:
推理词获取装置,用于利用预先建立的所述语义信息库以及语义规则库,对所述第一关键词进行语义推理,获得所述第一关键词的推理词,并将所述推理词转换成词向量,得到推理词向量,其中,所述语义规则库包括:自然语义分析规则库、分类规则库、匹配规则库、数理逻辑推导规则库、处理策略库、用户行为分析规则库,其中所述自然语义分析规则库包括文本语境处理、词法分析、句法分析、语义分析以及篇章分析规则;
第三相似度计算装置,用于计算所述推理词向量与所述第二词向量之间的相似度,作为第三相似度,将所述第一相似度、所述第二相似度以及所述第三相似度的加权相似度作为所述第一词向量与所述第二词向量之间的相似度。
CN201510569962.3A 2015-09-09 2015-09-09 对移动终端的新增联系人进行通讯录分组的方法及装置 Pending CN105245680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510569962.3A CN105245680A (zh) 2015-09-09 2015-09-09 对移动终端的新增联系人进行通讯录分组的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510569962.3A CN105245680A (zh) 2015-09-09 2015-09-09 对移动终端的新增联系人进行通讯录分组的方法及装置

Publications (1)

Publication Number Publication Date
CN105245680A true CN105245680A (zh) 2016-01-13

Family

ID=55043175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510569962.3A Pending CN105245680A (zh) 2015-09-09 2015-09-09 对移动终端的新增联系人进行通讯录分组的方法及装置

Country Status (1)

Country Link
CN (1) CN105245680A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107800849A (zh) * 2017-10-18 2018-03-13 北京小米移动软件有限公司 联系对象身份设置方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100245262A1 (en) * 2009-03-27 2010-09-30 Michael Steffen Vance Managing contact groups from subset of user contacts
CN102857605A (zh) * 2012-07-23 2013-01-02 北京小米科技有限责任公司 一种联系人分组方法及装置
CN103870547A (zh) * 2014-02-26 2014-06-18 华为技术有限公司 联系人的分组处理方法及装置
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104199833A (zh) * 2014-08-01 2014-12-10 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN105100353A (zh) * 2015-09-08 2015-11-25 陈包容 一种对移动终端的新增联系人进行通讯录分组的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100245262A1 (en) * 2009-03-27 2010-09-30 Michael Steffen Vance Managing contact groups from subset of user contacts
CN102857605A (zh) * 2012-07-23 2013-01-02 北京小米科技有限责任公司 一种联系人分组方法及装置
CN103870547A (zh) * 2014-02-26 2014-06-18 华为技术有限公司 联系人的分组处理方法及装置
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104199833A (zh) * 2014-08-01 2014-12-10 北京奇虎科技有限公司 一种网络搜索词的聚类方法和聚类装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN105100353A (zh) * 2015-09-08 2015-11-25 陈包容 一种对移动终端的新增联系人进行通讯录分组的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107800849A (zh) * 2017-10-18 2018-03-13 北京小米移动软件有限公司 联系对象身份设置方法及装置
CN107800849B (zh) * 2017-10-18 2021-04-27 北京小米移动软件有限公司 联系对象身份设置方法及装置

Similar Documents

Publication Publication Date Title
WO2017076205A1 (zh) 一种获取聊天发起句的回复提示内容的方法及装置
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN105100353A (zh) 一种对移动终端的新增联系人进行通讯录分组的方法
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN103186574B (zh) 一种搜索结果的生成方法和装置
CN104462378A (zh) 用于文本识别的数据处理方法及装置
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN102053992A (zh) 聚类方法和系统
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN107885717B (zh) 一种关键词提取方法及装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN102609500A (zh) 一种问题推送方法和采用该方法的问答系统和搜索引擎
WO2018058118A1 (en) Method, apparatus and client of processing information recommendation
CN109710921A (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN116226350A (zh) 一种文档查询方法、装置、设备和存储介质
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN112948573B (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN117312513B (zh) 文档搜索模型训练方法、文档搜索方法及相关装置
CN103164394A (zh) 一种基于万有引力的文本相似度计算方法
CN103810280A (zh) 一种微博话题检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160113

WD01 Invention patent application deemed withdrawn after publication