CN105677319B - 一种建立黄页通讯标识库的方法和装置 - Google Patents

一种建立黄页通讯标识库的方法和装置 Download PDF

Info

Publication number
CN105677319B
CN105677319B CN201511000823.5A CN201511000823A CN105677319B CN 105677319 B CN105677319 B CN 105677319B CN 201511000823 A CN201511000823 A CN 201511000823A CN 105677319 B CN105677319 B CN 105677319B
Authority
CN
China
Prior art keywords
communications identification
communication frequency
communications
ranking value
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511000823.5A
Other languages
English (en)
Other versions
CN105677319A (zh
Inventor
张家贞
潘龙
刘惠云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201511000823.5A priority Critical patent/CN105677319B/zh
Publication of CN105677319A publication Critical patent/CN105677319A/zh
Application granted granted Critical
Publication of CN105677319B publication Critical patent/CN105677319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开是关于一种建立黄页通讯标识库的方法和装置,属于通讯技术领域。所述方法包括:根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;根据确定出的通信标识,建立黄页通讯标识库通信标识库。采用本公开,可以提高黄页通讯标识库的投入产出比。

Description

一种建立黄页通讯标识库的方法和装置
技术领域
本公开是关于通讯技术领域,尤其是关于一种建立黄页通讯标识库的方法和装置。
背景技术
随着通讯技术的发展,目前黄页的应用越来越普及,在黄页中记录有大量常用的通讯标识(一般为电话号码)以及相关信息,如名称信息、地理位置信息等,通过黄页,用户很容易就能查到快递、政府部门、连锁酒店、连锁商店的电话号码等。
现有技术中,技术人员在建立黄页通讯标识库时,首先要获取成千上万的通讯标识,然后基于预设比例阈值从中获取一定比例的通讯频率最高的通讯标识(一般取比例阈值为20%),再获取这些通讯标识对应的相关信息,以建立黄页通讯标识库,并且对黄页通讯标识库中的通讯标识对应的相关信息进行定期的更新。
在实现本公开的过程中,发明人发现现有技术至少存在以下问题:
获取每个通讯标识的相关信息都需要耗费一定的人力财力,而且有些通讯标识被使用的频率比较低,从而导致黄页通讯标识库的投入产出比较低。
发明内容
为了克服相关技术中存在的问题,本公开提供了一种建立黄页通讯标识库的方法。技术方案如下:
根据本公开实施例的第一方面,提供一种建立黄页通讯标识库的方法,所述方法包括:
根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
根据确定出的通讯标识,建立黄页通讯标识库。
可选的,所述方法还包括:
获取在预设历史时长中各终端上传的通讯记录;
对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
这样,可以防止连续重复呼叫(如骚扰电话)对通讯频率统计结果的影响。
可选的,所述基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,包括:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
这样,可以使用最小二乘法拟合,得到通讯频率排序曲线。
可选的,所述根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识,包括:
对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
确定所述排序值范围中包含的排序值对应的通讯标识。
这样,可以使用求导数的方法,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识。
可选的,所述根据确定出的通讯标识,建立黄页通讯标识库,包括:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
这样,可以根据确定的通讯标识、以及对应的菜单信息,建立黄页通讯标识库。
根据本公开实施例的第二方面,提供一种建立黄页通讯标识库的装置,所述装置包括:
第一确定模块,用于根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
拟合模块,用于基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
第二确定模块,用于根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
建立模块,用于根据确定出的通讯标识,建立黄页通讯标识库。
可选的,所述装置还包括:
获取模块,用于获取在预设历史时长中各终端上传的通讯记录;
第三确定模块,用于对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
所述第三确定模块,还用于将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
可选的,所述拟合模块,用于:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
可选的,所述第二确定模块包括计算子模块、第一确定子模块和第二确定子模块,其中:
所述计算子模块,用于对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
所述第一确定子模块,用于基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
所述第二确定子模块,用于确定所述排序值范围中包含的排序值对应的通讯标识。
可选的,所述建立模块,用于:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
根据本公开实施例的第三方面,提供一种建立黄页通讯标识库的装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
根据确定出的通讯标识,建立黄页通讯标识库。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;根据确定出的通讯标识,建立黄页通讯标识库。这样,可以使选取的通讯标识中排序值相邻的通讯标识具有较大的通讯频率差,对于这样的通讯标识,付出同样的人力财力可以获取更大的价值,从而可以提高黄页通讯标识库的投入产出比。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。在附图中:
图1是根据一示例性实施例示出的一种建立黄页通讯标识库的流程图;
图2是根据一示例性实施例示出的一种通讯频率排序曲线示意图;
图3是根据一示例性实施例示出的一种建立黄页通讯标识库的流程图;
图4是根据一示例性实施例示出的一种服务器的结构示意图;
图5是根据一示例性实施例示出的一种服务器的结构示意图;
图6是根据一示例性实施例示出的一种服务器的结构示意图;
图7是根据一示例性实施例示出的一种服务器的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开一示例性实施例提供了一种建立黄页通讯标识库的方法,建立黄页通讯标识库的方法可以用于服务器中,其中,服务器可以是黄页服务器等。服务器中可以设置有处理器、存储器、收发器等,处理器可以用于建立黄页通讯标识库过程的处理,存储器可以用于存储黄页通讯标识库等,收发器可以用于接收以及发送消息。
如图1所示,该方法的处理流程可以包括如下的步骤:
在步骤101中,根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值。
其中,通讯标识可以是电话号码等,通讯频率可以是预设历史时长内的通讯标识被呼叫频率与呼叫频率之和。
在一实施例中,服务器在确定预设历史时长(如两个月、半年等)内各通讯标识对应的通讯频率后,可以按照各通讯标识对应的通讯频率的高低,为各通讯标识进行排序,也就是通讯标识对应的通讯频率越高,其排序值越小,随着通讯标识对应的通讯频率的逐渐减小,通讯标识的排序值逐渐增加。例如,通讯标识A的通讯频率最高,为200次,通讯标识A的排序值最小为1,通讯标识B的通讯频率仅次于通讯标识A的通讯频率,则通讯标识B的排序值为2,通讯标识C的通讯频率仅次于通讯标识B的通讯频率,则通讯标识C的排序值为3,以此类推,确定每个通讯标识的排序值。
在步骤102中,基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线。
在一实施例中,服务器确定每个通讯标识对应的通讯频率和排序值后,可以将各通讯标识对应的通讯频率作为y,各通讯标识对应的排序值作为x,然后可以基于多组通讯频率和排序值进行曲线拟合,得到通讯频率排序曲线。该通讯频率排序曲线可以是单调递减的,并且斜率可以随着排序值的增大而增大、或者随着排序值的增大而减小。
可选的,可以基于最小二乘法,得到通讯频率排序曲线,相应的处理可以为:基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
在一实施例中,服务器在确定每个通讯标识对应的通讯频率和排序值后,根据多次试验确定对排序值进行对数转换,并且底数为e时,曲线拟合的拟合程度最好。服务器可以将各通讯标识对应的排序值作对数变换,也就是X=lnx,这样转换后变成了y与X的关系,对排序值作对数处理后,曲线的变化幅度趋于平缓,可以利用最小二乘法进行线性回归,x为通讯标识的排序值,X为对x作对数变换后的值,作为转换后的输入变量,y为通讯频率,作为输出变量,这样可以得到多组(Xi,yi),然后确定线性回归后的函数表达式为一次函数,也就是y与X为一次函数(如y=aX+b),而X是由x作对数变换得到的,这样就得到了通讯频率y与排序值x的函数表达式(如y=alnx+b),也就是通讯频率排序曲线,如图2所示。例如,得到多组(Xi,yi),可以利用最小二乘法中(其中 分别为Xi与yi的平均值),可以得到y与X为一次函数的斜率为-22.59,截距为137.75,也就是y=-22.59X+137.75,则通讯频率排序曲线为y=-22.59lnx+137.75。
另外,还可以计算根据最小二乘法得到的y与X的关系与实际的y与X的关系的相关系数,来检验曲线拟合的拟合程度,相关系数的平方值越大,曲线拟合程度越好,也就是最小二乘法得到的y与X的关系更接近实际y与X的关系,相关系数可以为例如,相关系数R的平方值为0.8548,说明y与X的关系与实际y与X的关系拟合程度为85.48%。
在步骤103中,根据通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识。
在一实施例中,技术人员可以根据经验值(如处理一个通讯标识所需要的成本、以及带来的收益等),确定预设斜率阈值(处理一个通讯标识后可以使被使用次数(通讯频率)提高的幅度),并且存储至服务器,服务器得到通讯频率的排序曲线后,可以计算每个通讯标识对应的排序值位置处的斜率,并且确定高于预设斜率阈值的排序值范围,然后确定该排序值范围中包含的排序值对应的通讯标识。
可选的,可以根据导数表达式确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识,相应的处理可以为:对通讯频率排序曲线对应的函数表达式求导,得到导数表达式;基于导数表达式,确定使导数值大于预设斜率阈值的排序值范围;确定排序值范围中包含的排序值对应的通讯标识。
在一实施例中,服务器确定通讯频率排序曲线的函数表达式后,可以对通讯频率排序曲线对应的函数表达式中的排序值x求导数,得到导数表达式,然后可以根据导数表达式的绝对值和预设斜率阈值(如0.01%等),确定使导数值大于预设斜率阈值的排序值范围,然后可以根据排序值范围,确定排序值范围中各排序值对应的通讯标识。例如,服务器确定的排序曲线为y=-22.59lnx+137.75,求导之后为也就是通讯频率排序曲线上每一个排序值位置处的斜率表达式为-22.59/x,这样可以使-22.59/x的绝对值大于预设斜率阈值0.01%,得到x<225900,所以得到的排序值范围为0<x<225900,然后可以确定排序值范围为0<x<225900中各排序值对应的通讯标识。
在步骤104中,根据确定出的通讯标识,建立黄页通讯标识库。
在一实施例中,服务器在确定通讯标识后,可以将各通讯标识添加至黄页通讯标识库,以便后续对这些通讯标识进行更新维护。
可选的,可以根据通讯标识对应的菜单信息,建立黄页通讯标识库,相应的处理可以为:获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
其中,通讯标识对应的菜单信息可以至少包括以下信息中的一种或任意组合:通讯标识对应的名称信息(**商店、**医院等)、地理位置信息(**市**街道**号、经纬度等)、图像信息(**商店的全景图、招牌菜等)、优惠信息(8月30日至10月7日全店八折,12月30日至1月3日进店有礼等)。
在一实施例中,服务器可以根据确定出的通讯标识,从网络或已经收录的通讯标识对应的菜单信息中查找对应的菜单信息,如名称信息、地理位置信息、图像信息、优惠信息等,然后可以将获取到的菜单信息与通讯标识对应起来,建立通讯标识与菜单信息的对应关系,如表一所示,然后将其存储至黄页通讯标识库,也就是建立黄页通讯标识库。例如,服务器在获取到通讯标识后,针对每个通讯标识,可以按照预设搜寻条件(如名称、位置等),利用网络爬取方式在各个网站中获取该通讯标识对应的菜单信息中的任意信息。
表一
另外,在服务器确定通讯标识后,技术人员可以通过各种方式获取各通讯标识对应的菜单信息(如查询网络、打电话询问等),然后将各通讯标识对应的菜单信息存储至黄页通讯标识库。
本公开实施例使用最小二乘法来确定通讯标识,同样也可以使用极大似然估计算法来确定通讯标识,本公开实施例不做限定。另外本公开实施例提到利用相关系数检验曲线拟合的拟合程度,也可以使用置信水平等来检验曲线拟合的拟合程度,本公开实施例不做限定。
本公开实施例还提供了确定每个通讯标识的通讯频率的方法,如图3所示,相应的处理流程如下:
在步骤201中,获取在预设历史时长中各终端上传的通讯记录。
其中,通讯记录可以包括:通讯标识、以及各通讯标识对应的菜单信息(如名称信息等)。
在实施中,服务器可以向已经授权的各终端发送通讯记录的上传通知,上传通知中携带有预设历史时长,各终端接收到上传通知后,查找预设历史时长内的通讯记录,然后向服务器发送预设历史时长中的通讯记录,服务器接收预设历史时长中各终端发送的通讯记录以及各通讯标识对应的菜单信息。
在步骤202中,对于获取的通讯记录中的每个通讯标识,确定通讯标识在预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在预设历史时长中的每个第二单位时长内,呼叫通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为通讯标识对应的被呼叫频率。
在实施中,服务器接收到预设历史时长中各终端发送的通讯记录后,可以从各通讯标识对应的菜单信息中确定该号码是否为诈骗通讯标识或者推销通讯标识,如果是,则将已经确定的诈骗通讯标识和推销通讯标识过滤掉,也就是不考虑这些通讯标识,然后从通讯记录中剩余的通讯标识中,确定通讯标识在预设历史时长中的每个单位时长内(如1天、2天等),对外呼叫的通讯标识的数量(如通讯标识A在第一单位时长内呼叫通讯标识B三次,呼叫通讯标识C两次,在第一单位时长内,通讯标识A对外呼叫的通讯标识数量为2),然后将预设历史时长内每个第一单位时长对应的数量相加,得到通讯标识对应的呼叫频率。
并且,除去诈骗通讯标识和推销通讯标识后通讯记录中的每个通讯标识,服务器可以查找第二单位时长(如两个月、半年等)内,呼叫通讯标识的其他通讯标识的数量(如通讯标识A在第二单位时长内被通讯标识B呼叫五次、被通讯标识C呼叫三次、被通讯标识D呼叫1次,在第二单位时长内,通讯标识A被呼叫的通讯标识数量为3),然后将预设历史时长内每个第二单位时长对应的数量相加,得到通讯标识对应的被呼叫频率。其中,第二单位时长可以与预设历史时长相等。
在步骤203中,将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
在实施中,服务器确定每个通讯标识对应的呼叫频率和被呼叫频率后,可以将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
本公开实施例中,根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;根据通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;根据确定出的通讯标识,建立黄页通讯标识库。这样,可以使选取的通讯标识中排序值相邻的通讯标识具有较大的通讯频率差,对于这样的通讯标识,付出同样的人力财力可以获取更大的价值,从而可以提高黄页通讯标识库的投入产出比。
本公开另一示例性实施例提供了还提供了一种建立黄页通讯标识库的装置,如图4所示,该装置包括:
第一确定模块410,用于根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
拟合模块420,用于基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
第二确定模块430,用于根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
建立模块440,用于根据确定出的通讯标识,建立黄页通讯标识库。
可选的,如图5所示,所述装置还包括:
获取模块450,用于获取在预设历史时长中各终端上传的通讯记录;
第三确定模块460,用于对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
所述第三确定模块460,还用于将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
可选的,所述拟合模420,用于:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
可选的,如图6所示,所述第二确定模块430包括计算子模块431、第一确定子模块432和第二确定子模块433,其中:
所述计算子模块431,用于对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
所述第一确定子模块432,用于基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
所述第二确定子模块433,用于确定所述排序值范围中包含的排序值对应的通讯标识。
可选的,所述建立模块440,用于:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
本公开实施例中,根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;根据通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;根据确定出的通讯标识,建立黄页通讯标识库。这样,可以使选取的通讯标识中排序值相邻的通讯标识具有较大的通讯频率差,对于这样的通讯标识,付出同样的人力财力可以获取更大的价值,从而可以提高黄页通讯标识库的投入产出比。
需要说明的是:上述实施例提供的建立黄页通讯标识库的装置在建立黄页通讯标识库时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的建立黄页通讯标识库的装置与建立黄页通讯标识库的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本公开再一示例性实施例提供了一种服务器的结构示意图。参照图7,服务器700包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理部件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述显示使用记录的方法。
服务器700还可以包括一个电源组件1926被配置为执行服务器700的电源管理,一个有线或无线网络接口1950被配置为将服务器700连接到网络,和一个输入输出(I/O)接口1958。服务器700可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
服务器700可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
根据确定出的通讯标识,建立黄页通讯标识库。
可选的,所述方法还包括:
获取在预设历史时长中各终端上传的通讯记录;
对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
可选的,所述基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,包括:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
可选的,所述根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识,包括:
对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
确定所述排序值范围中包含的排序值对应的通讯标识。
可选的,所述根据确定出的通讯标识,建立黄页通讯标识库,包括:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
本公开实施例中,根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;根据通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;根据确定出的通讯标识,建立黄页通讯标识库。这样,可以使选取的通讯标识中排序值相邻的通讯标识具有较大的通讯频率差,对于这样的通讯标识,付出同样的人力财力可以获取更大的价值,从而可以提高黄页通讯标识库的投入产出比。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种建立黄页通讯标识库的方法,其特征在于,所述方法包括:
根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
根据确定出的通讯标识,建立黄页通讯标识库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取在预设历史时长中各终端上传的通讯记录;
对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
3.根据权利要求1所述的方法,其特征在于,所述基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,包括:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
4.根据权利要求1所述的方法,其特征在于,所述根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识,包括:
对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
确定所述排序值范围中包含的排序值对应的通讯标识。
5.根据权利要求1所述的方法,其特征在于,所述根据确定出的通讯标识,建立黄页通讯标识库,包括:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
6.一种建立黄页通讯标识库的装置,其特征在于,所述装置包括:
第一确定模块,用于根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
拟合模块,用于基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
第二确定模块,用于根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
建立模块,用于根据确定出的通讯标识,建立黄页通讯标识库。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取在预设历史时长中各终端上传的通讯记录;
第三确定模块,用于对于获取的通讯记录中的每个通讯标识,确定所述通讯标识在所述预设历史时长中的每个第一单位时长内,对外呼叫的其它通讯标识的数量,确定每个第一单位时长对应的数量之和,为所述通讯标识对应的呼叫频率;并且,对于获取的通讯记录中的每个通讯标识,确定在所述预设历史时长中的每个第二单位时长内,呼叫所述通讯标识的其它通讯标识的数量,确定每个第二单位时长对应的数量之和,为所述通讯标识对应的被呼叫频率;
所述第三确定模块,还用于将每个通讯标识对应的呼叫频率和被呼叫频率相加,得到每个通讯标识对应的通讯频率。
8.根据权利要求6所述的装置,其特征在于,所述拟合模块,用于:
基于每个通讯标识对应的通讯频率和排序值,基于最小二乘法,进行曲线拟合,得到通讯频率排序曲线。
9.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括计算子模块、第一确定子模块和第二确定子模块,其中:
所述计算子模块,用于对所述通讯频率排序曲线对应的函数表达式求导,得到导数表达式;
所述第一确定子模块,用于基于所述导数表达式,确定使导数值大于预设斜率阈值的排序值范围;
所述第二确定子模块,用于确定所述排序值范围中包含的排序值对应的通讯标识。
10.根据权利要求6所述的装置,其特征在于,所述建立模块,用于:
获取确定出的通讯标识对应的菜单信息,建立黄页通讯标识库,其中所述菜单信息至少包括以下信息中的一种或任意组合:名称信息、地理位置信息、图像信息、优惠信息。
11.一种建立黄页通讯标识库的装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据各通讯标识对应的通讯频率,确定每个通讯标识对应的通讯频率的排序值;
基于每个通讯标识对应的通讯频率和排序值,进行曲线拟合,得到通讯频率排序曲线,其中,所述通讯频率排序曲线的斜率随排序值的增大而增大或随排序值的增大而减小;
根据所述通讯频率排序曲线,确定通讯频率高于预设斜率阈值对应的通讯频率阈值的通讯标识;
根据确定出的通讯标识,建立黄页通讯标识库。
CN201511000823.5A 2015-12-28 2015-12-28 一种建立黄页通讯标识库的方法和装置 Active CN105677319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511000823.5A CN105677319B (zh) 2015-12-28 2015-12-28 一种建立黄页通讯标识库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511000823.5A CN105677319B (zh) 2015-12-28 2015-12-28 一种建立黄页通讯标识库的方法和装置

Publications (2)

Publication Number Publication Date
CN105677319A CN105677319A (zh) 2016-06-15
CN105677319B true CN105677319B (zh) 2019-02-12

Family

ID=56297684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511000823.5A Active CN105677319B (zh) 2015-12-28 2015-12-28 一种建立黄页通讯标识库的方法和装置

Country Status (1)

Country Link
CN (1) CN105677319B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005742A2 (en) * 2005-07-01 2007-01-11 Ebrary, Inc. Method and apparatus for document clustering and document sketching
CN101414377A (zh) * 2008-10-22 2009-04-22 中国移动通信集团福建有限公司 通信行业基于数据仓库的民生信息筛选的方法
CN104113588A (zh) * 2014-06-26 2014-10-22 小米科技有限责任公司 一种互联网黄页的更新方法及装置
CN104168356A (zh) * 2014-08-25 2014-11-26 小米科技有限责任公司 处理通讯标识的方法及装置
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007005742A2 (en) * 2005-07-01 2007-01-11 Ebrary, Inc. Method and apparatus for document clustering and document sketching
CN101414377A (zh) * 2008-10-22 2009-04-22 中国移动通信集团福建有限公司 通信行业基于数据仓库的民生信息筛选的方法
CN104113588A (zh) * 2014-06-26 2014-10-22 小米科技有限责任公司 一种互联网黄页的更新方法及装置
CN104199851A (zh) * 2014-08-11 2014-12-10 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN104168356A (zh) * 2014-08-25 2014-11-26 小米科技有限责任公司 处理通讯标识的方法及装置

Also Published As

Publication number Publication date
CN105677319A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
US10552542B1 (en) Techniques for graph based natural language processing
CN113412608B (zh) 内容推送方法、装置、服务端及存储介质
CN106534463A (zh) 一种陌生来电处理方法、装置、终端及服务器
CN107885873A (zh) 用于输出信息的方法和装置
CN109981326B (zh) 家庭宽带感知故障定位的方法及装置
CN105898085A (zh) 骚扰通信账号的识别方法及装置
CN110019622A (zh) 一种实时海量地图点位聚合方法及装置
CN112214677B (zh) 一种兴趣点推荐方法、装置、电子设备及存储介质
CN109981676A (zh) 一种基于二进制解析协议自定义的物联网信息交互方法
Wang et al. Efficient radius-bounded community search in geo-social networks
KR20180089479A (ko) 사용자 데이터 공유 방법 및 디바이스
CN112380299A (zh) 关系网络构建方法、装置及存储介质
CN103345552A (zh) 电力ict通信网可靠性的评估方法及系统
CN108537291A (zh) 一种样本分类方法和装置
CN103617221B (zh) 软件推荐方法及系统
CN109614521A (zh) 一种高效的隐私保护子图查询处理方法
CN105677319B (zh) 一种建立黄页通讯标识库的方法和装置
CN106844420B (zh) 基于社交网络和大数据分析的用户分组方法及装置
CN109921975A (zh) 个人信息分发方法及装置
CN107507255A (zh) 图片压缩质量因子获取方法、系统、设备及存储介质
US20220382821A1 (en) Method for recommending social user, electronic device and non-transitory computer-readable storage medium
CN107154875B (zh) 一种电话通信网络中节点敏感性排序的方法
CN113742101B (zh) 数据互通方法、装置、设备及可读存储介质
CN114970495A (zh) 人名消歧方法、装置、电子设备及存储介质
CN112307075B (zh) 用户关系识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant