CN116233308A - 一种电话识别方法、电子设备及存储介质 - Google Patents
一种电话识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116233308A CN116233308A CN202211665895.1A CN202211665895A CN116233308A CN 116233308 A CN116233308 A CN 116233308A CN 202211665895 A CN202211665895 A CN 202211665895A CN 116233308 A CN116233308 A CN 116233308A
- Authority
- CN
- China
- Prior art keywords
- calling
- category
- dialing
- called
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/436—Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6027—Fraud preventions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种电话识别方法、电子设备及存储介质,涉及通信安全技术领域。本发明包括通过获取主叫号码的拨号信息,然后分别计算拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,多个号码类别通过对多条样本拨号信息的聚类得到。接着依据多个特征相似度,确定出主叫号码对应的目标号码类别。并按照目标号码类别,对主叫号码进行标注。最后输出标注信息,以在被叫号码对应的终端侧展示标注信息。从而可以对当前的主叫号码进行实时识别显示,对用户进行实时提醒,并可以提高电话识别的精确度。
Description
技术领域
本发明涉及通信安全技术领域,特别是涉及一种电话识别方法、电子设备及存储介质。
背景技术
当前,随着线上支付等快捷支付方式的广泛应用,网络诈骗案件频发。尤其是用户在接收到陌生电话时,不能及时识别是否是诈骗电话,从而可能遭受财产损失。
现有技术中,通常采用在用户识别出对应的陌生来电为诈骗电话后进行反馈,基于用户的反馈结果对该电话进行标注。并在该电话再次进行呼叫时,对其进行拦截或向用户发送警示信息。但是,此种电话识别过于依赖用户的反馈,且在电话识别上存在较大的滞后性。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的电话识别方法、电子设备及存储介质。
基于本发明的第一方面,提供了一种电话识别方法,所述方法包括:
获取主叫号码的拨号信息;
分别计算所述拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,其中,所述多个号码类别通过对多条样本拨号信息的聚类得到;
依据多个特征相似度,确定出所述主叫号码对应的目标号码类别;
按照所述目标号码类别,对所述主叫号码进行标注;
输出所述标注信息,以在被叫号码对应的终端侧展示所述标注信息。
基于本发明的第二方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述中任一所述的方法。
基于本发明的第三方面,还提供了一种计算机可读存储介质,存储与电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以完成上述中任一所述的方法。
与现有技术相比,本发明包括通过获取主叫号码的拨号信息,然后分别计算拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,多个号码类别通过对多条样本拨号信息的聚类得到。接着依据多个特征相似度,确定出主叫号码对应的目标号码类别。并按照目标号码类别,对主叫号码进行标注。最后输出标注信息,以在被叫号码对应的终端侧展示标注信息。从而可以对当前的主叫号码进行实时识别显示,对用户进行实时提醒,并可以提高电话识别的精确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
在附图中:
图1是本发明实施例提供的一种电话识别方法的步骤流程示意图;
图2是本发明实施例提供的聚类生成多个号码类别的步骤流程示意图;
图3是本发明实施例提供的决策树的结构示意图;
图4是本发明实施例提供的一种电话识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
参照图1,示出了本发明实施例提供的一种电话识别方法,所述方法可以包括:
S101、获取主叫号码的拨号信息。
S102、分别计算所述拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,其中,所述多个号码类别通过对多条样本拨号信息的聚类得到。
S103、依据多个特征相似度,确定出所述主叫号码的目标号码类别。
S104、按照所述目标号码类别,对所述主叫号码进行标注。
S105、输出所述标注信息,以在被叫号码对应的终端侧展示所述标注信息。
本发明实施例中,所述拨号信息可以包括以下几种类型:主叫号码、被叫号码以及呼叫时间等。其可以在主叫号码拨出时获取。从而可以依据所述拨号信息与预设的多个号码类别所对应的特征信息之间的特征相似度,预设的多个号码类别是通过对多条样本拨号信息的聚类得到的。因此,在计算出多个特征相似度之后,在多个特征相似度中的其中一个符合相似度条件的情况下,可以将符合相似度条件的特征相似度,所对应的目标号码类别,确定为主叫号码的目标号码类别。
一种示例中,可以在确定出对应的目标号码类别之后,对所述主叫号码进行标注,例如可以标注出目标号码类别,或者是目标号码类别和对应类别所具有的属性特征,从而生成标注信息并输出,并在所述被叫号码对应的终端侧,对所述标注信息进行展示。从而可以对当前的主叫号码进行实时识别显示,并可以提高电话识别的精确度。
一种可选的发明实施例中,在计算特征相似度时,可以采用每个号码类别中的目标特征信息进行计算。其中,所述聚类中心可以理解为同一号码类别中,与其他样本拨号信息之间的特征相似度的累计和最高的样本拨号信息。
参照图2,一种可选的发明实施例中,所述方法还可以包括聚类生成多个号码类别的步骤:
S201、获取多条样本拨号信息,所述样本拨号信息包括主叫号码、被叫号码以及通话内容。
本发明实施例中,获取多条样本拨号信息,其中,所述样本拨号信息可以包括如下类型:主叫号码、被叫号码以及通话内容。其中,所述样本拨号信息是根据诈骗相关的通话数据确定的,所述通话内容是在用户授权的情况下,进行通话录制得到的。
S202、对多条样本拨号信息进行第一聚类,确定出多个主叫类别,同一主叫类别中的主叫号码一致。
本发明实施例中,第一聚类可以理解为依据所述主叫号码,对所述多条样本拨号信息进行分类。因此,可以在执行对第一条样本拨号信息的第一聚类时,预先将所述样本拨号信息确定为第一个主叫类别。在执行对第二条样本拨号信息的第一聚类时,可以比对其主叫号码与现有的主叫类别中的主叫号码,并根据比对结果确定是否划分为新的一类。若两者的主叫号码一致时,将所述主叫号码对应的样本拨号信息,归为主叫号码一致的现有主叫类别中。若两者的主叫号码不一致时,则将所述主叫号码对应的样本拨号信息,划分为新的一类。以此类推,将多条样本拨号信息全部进行第一聚类后,确定出多个主叫类别,并且,同一主叫类别中的主叫号码均一致,不同主叫类别可以采用不同的类别标识进行区分。
S203、依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值,所述拨号离散值用于表征主叫号码对应的多条样本呼叫信息之间的呼叫紧密程度。
本发明实施例中,可以依据各主叫类别中的多条样本拨号信息,例如所述样本拨号信息中的被叫号码,确定出对应主叫号码的拨号离散值,其中,所述拨号离散值用于表征主叫号码和同一主叫号码所呼叫的各被叫号码之间联系的紧密程度。例如,所述拨号离散值的范围可以是0-1之间,对应的,所述拨号离散值越小,说明主叫号码与各被叫号码之间联系的紧密程度越低,则所述主叫号码为诈骗电话的风险越高。
一种可选的发明实施例中,所述步骤S03还可以包括:
对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。
依据所有被叫子类别的类别总数和各被叫子类别中对应的多条样本拨号信息,确定出对应主叫号码的拨号离散值。
本发明实施例中,所述第四聚类可以理解为依据所述被叫号码,对各主叫类别中的多条样本拨号信息进行分类。从而确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。换句话说,同一被叫子类别中的多条样本拨号信息的主叫号码、被叫号码均一致。由此,可以依据所有别叫子类别的类别总数和各被叫子类别中对应的多条样本拨号信息,进行统计计算,确定出对应主叫号码的拨号离散值。
一种可选实施例中,可以确定被叫子类别的类别总数和单个被叫子类别中所包括的最多的样本数量。例如,所述拨号离散值可以通过下述公式(1)得到:
上述公式(1)中,Di指的第i个主叫号码的拨号离散值;Ni(1)指的是第i个主叫号码的所有被叫子类别对应的平均样本数量,其为所有被叫子类别中的样本拨号信息的样本总数量,与所有被叫子类别的类别总数的比值;指的是第i个主叫号码对应的单个被叫子类别中,所包括的最多的样本数量。由此,所述拨号离散值可以采用平均样本数量和最多样本数量之间的比值来表示。换句话说,所述拨号离散值越接近1,越表明平均样本数量接近最多样本数量,也就是各被叫子类别的数据差异不大。可以理解为主叫号码与不同被叫号码联系紧密。所述拨号离散值越小,表明平均样本数量越远离最多样本数量。也就是各被叫子类别的数据差异明显。相当于主叫号码与其中一部分被叫号码联系紧密,与另一部分被叫号码联系稀疏。
另一种可选的发明实施例中,所述样本拨号信息还包括以下类型:呼叫时间和呼叫基站标识,所述依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值还可以包括如下步骤:
对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。
本发明实施例中,所述第四聚类可以理解为依据所述被叫号码,对各主叫类别中的多条样本拨号信息进行分类。从而确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。换句话说,同一被叫子类别中的多条样本拨号信息的主叫号码、被叫号码均一致。
对各主叫类别中的多条样本拨号信息进行第五聚类,确定出多个基站子类别,同一基站子类别中的呼叫基站标识一致。
本发明实施例中,所述第五聚类可以理解为依据所述呼叫基站标识,对各主叫类别中的多条样本拨号信息进行分类,从而确定出多个基站子类别,同一基站子类别中的呼叫基站标识一致。其中,所述呼叫基站标识用于区分主叫号码的呼叫信息发出的不同基站设备。
确定出目标类别对应的呼叫频率,所述目标类别至少包括:主叫类别、被叫子类别以及基站子类别。
本发明实施例中,可以在确定出多个主叫类别后,将各主叫类别中的多条样本拨号信息,按照呼叫时间进行有序排列,并计算同一主叫类别中相邻两条样本拨号信息之间的时间差值。并将所有时间差值对应的时间均值,作为所述主叫类别的呼叫频率。
在确定出多个被叫子类别后,将各被叫子类别中的多条样本拨号信息,按照呼叫时间进行有序排列,并计算同一被叫子类别中相邻两条样本拨号信息之间的时间差值,并确定出对应被叫子类别中的时间均值,将被叫子类别中的最小时间均值作为被叫子类别的呼叫频率。
在确定出多个基站子类别之后,将各基站子类别中的多条样本拨号信息,按照呼叫时间进行有序排列,并计算同一基站子类别中相邻两条样本拨号信息之间的时间差值,并确定出对应基站子类别中的时间均值,将基站子类别的最小时间均值作为基站子类别的呼叫频率。
依据所有被叫子类别的类别总数、各被叫子类别中对应的多条样本拨号信息、所有基站子类别的类别总数、各基站子类别中对应的多条样本拨号信息以及所述目标类别对应的呼叫频率,确定出对应主叫号码的拨号离散值。
本发明实施例中,所述主叫号码的拨号离散值可以通过下述公式(2)得到:
上述公式(2)中,Di指的第i个主叫号码的拨号离散值;指的是第i个主叫号码的所有被叫子类别对应的平均样本数量,其为所有被叫子类别中的样本拨号信息的样本总数量,与所有被叫子类别的类别总数的比值;/>指的是第i个主叫号码对应的单个被叫子类别中,所包括的最多的样本数量;Ni指的是第i个主叫号码对应的样本拨号信息的样本数量;Ni(2)指的是第i个主叫号码的所有基站子类别对应的平均样本数量,其为所有基站子类别中的样本拨号信息的样本总数量,与所有基站子类别的类别总数的比值;/>指的是第i个主叫号码对应的单个基站子类别中,所包括的最多的样本数量;/>指的是第i个主叫号码对应的被叫子类别的呼叫频率;/>指的是第i个主叫号码对应的基站子类别的呼叫频率;/>指的是第i个主叫号码对应的主叫类别的呼叫频率。
上述公式中,表征了相同主叫号码和被叫号码所对应的平均样本数量占最多样本数量的比重,所述比重越接近1,越表明平均样本数量接近最多样本数量,也就是各被叫子类别的数据差异不大,相当于主叫号码与不同被叫号码联系均匀,其与拨号离散值成正比;/>表征了相同主叫号码和被叫号码的呼叫频率占主叫类别对应的呼叫频率的比重,其比重越小,越说明主叫号码与对应被叫号码联系越紧密,因此,其与拨号离散值成反比。以此类推,/>表征了相同主叫号码和相同呼叫基站所对应的平均样本数量占最多样本数量的比重,所述比重越接近1,相当于主叫号码趋向于多个固定的呼叫基站进行拨号,其与拨号离散值成正比。/>表征了相同主叫号码和相同呼叫基站的呼叫频率占主叫类别对应的呼叫频率的比重,其比重越小,越说明主叫号码通过呼叫基站进行拨号的频率越高。因此,其与拨号离散值成反比。/>表征了被叫子类别的类别总数和主叫类别对应的总样本数量的比值、基站子类别的类别总数和主叫类别对应的总样本数量的比值之间的乘积。所述乘积越接近1,则说明同一主叫类别中,各被叫号码和呼叫基站均具有较大的差异性,其分布越离散,由此与所述拨号离散值成反比。因此,根据上述公式(2),可以计算出所述拨号离散值,其中,所述拨号离散值用于表征主叫号码对应的多条样本呼叫信息之间的呼叫紧密程度。
S204、对多条样本拨号信息进行第二聚类,确定出多个被叫类别,同一被叫类别中的被叫号码一致。
本发明实施例中,第二聚类可以理解为依据所述被叫号码,对所述多条样本拨号信息进行分类。因此,可以在执行对第一条样本拨号信息的第二聚类时,预先将所述样本拨号信息确定为第一个被叫类别。在执行对第二条样本拨号信息的第二聚类时,可以比对其被叫号码与现有的被叫类别中的被叫号码,并根据比对结果确定是否划分为新的一类。若两者的被叫号码一致时,将所述被叫号码对应的样本拨号信息,归为被叫号码一致的现有被叫类别中。若两者的被叫号码不一致时,则将所述被叫号码对应的样本拨号信息,划分为新的一类。以此类推,将多条样本拨号信息全部进行第二聚类后,确定出多个被叫类别,并且,同一被叫类别中的被叫号码均一致,不同被叫类别可以采用不同的类别标识进行区分。
S205、依据各被叫类别中的多条样本拨号信息,确定与对应被叫号码关联的多个主叫号码之间的关联值。
本发明实施例中,考虑到诈骗犯罪所采用的手段众多,且普遍存在职业化特征明显的团队形式进行作案。例如,针对网络诈骗,其可以分为技术服务、话务推广、取款等不同人员分工。因此,可以基于上述的第二聚类操作,确定出存在关联关系的各主叫号码。所述关联值用于表征对被叫号码进行拨号的多个主叫号码之间的号码关联性。
一种可选的发明实施例中,所述样本拨号信息还可以包括如下类型:呼叫时间,所述步骤S205还可以包括以下步骤:
对各被叫类别中的多条样本拨号信息进行第六聚类,确定出多个主叫子类别,同一主叫子类别中的主叫号码一致。
对各主叫子类别中的多条样本拨号信息,按照所述呼叫时间进行有序排列,并确定出各主叫子类别中的起始呼叫时间和末次呼叫时间。
依据所述起始呼叫时间和末次呼叫时间,确定与对应被叫号码关联的多个主叫号码之间的关联值。
本发明实施例中,针对每一被叫类别中的多条样本拨号信息,进行第六聚类,其中第六聚类可以理解为依据所述主叫号码,对位于所述被叫类别中的多条样本拨号信息进行分类。从而可以得到多个主叫子类别,并且,同一主叫子类别中的主叫号码一致。对各主叫子类别中的多条样本拨号信息,按照所述呼叫时间进行有序排列,并确定出各主叫子类别中的起始呼叫时间和末次呼叫时间。其中,在所述主叫子类别中的样本拨号信息只有1条的情况下,对应样本拨号信息中的呼叫时间,既可以当做是起始呼叫时间,也可以当做是末次呼叫时间。
依据所述起始呼叫时间和末次呼叫时间,可以确定呼叫同一被叫号码的多个主叫号码之间的关联值。一种示例中,所述关联值可以采用下述公式(3)进行计算。
上述公式(3)中,所述Aab(k)指的是第k个被叫号码对应的第a个主叫号码和第b个主叫号码的关联值;ta0(k)指的是第k个被叫号码对应的第a个主叫子类别中的起始呼叫时间;tb1(k)指的是第k个被叫号码对应的第b个主叫子类别中的末次呼叫时间;δ指的时间差阈值,其是根据样本拨号信息中,团伙形式的诈骗类型,所对应通话内容及通话时间进行预先设置的。由此,在所述关联值越接近于1时,说明多个主叫号码之间的关联性较大,即以团队形式进行诈骗的概率高。
S206、对各通话内容进行语义识别,并确定出所述通话内容为不同号码类别的类别概率。
本发明实施例中,语义识别可以理解为对各文本形式的通话内容进行关键词提取,从而根据提取到的多个关键词确定所述通话内容是否为诈骗电话,以及对应的诈骗类型等,一实施例中,所述诈骗类型可以包括但不限于信用卡诈骗、合同诈骗、贷款诈骗、金融诈骗以及保险诈骗等。对应,可以针对不同的诈骗类型预设符合对应的诈骗话术的多个关键词,并对多个关键词进行加权。由此,在提取到对应的关键词时,就执行对所述关键词的加权操作。最后在对通话内容全部进行语义识别后,将对应的全部关键词对应的加权概率值进行累计,并得到对应通话内容为不同号码类别的类别概率。
S207、依据所述拨号离散值、关联值以及类别概率值,对所有样本拨号信息进行第三聚类,确定出多个号码类别。
本发明实施例中,可以对所有样本拨号信息进行第三聚类,生成决策树,参照图3所示,所述决策树可以包括内部节点(节点框为带圆弧的框)、叶节点(节点框为长方形)以及有向边。所述内部节点用于表征所述分类特征,所述叶节点用于表征号码类别,所述有向边用于表征类别划分规则,所述类别划分规则根据所述拨号离散值和类别概率值确定。一种示例中,所述类别划分规则可以是拨号离散值大于或等于第一阈值,或者是所述类别概率值大于或等于第二阈值等,在此不做过多限定。
然后在进行二分类之后,计算所述决策树的基尼系数。其中,所述基尼系数可以按照下述公式(4)得到:
在上述公式(3)、(4)以及(5)中,K指的是预先设置的多个号码类别的类别数量,k指的是第k个号码类别,其可以用于区分不同号码类别;和/>分别指的是根据分类特征分组和,每一组对应的样本数量占总样本数量的比重;/>指的是第一组样本D1中属于第k类的比例;/>指的是第二组样本D2中属于第k类的比例。由此,可以对第一阈值和第二阈值(也可以理解为针对分类特征设置的特征阈值)进行更新,从而找到最优的特征阈值。使得基尼系数符合预设划分条件。其中,所述预设划分条件可以为基尼系数达到最小,在基尼系数达到最小时,其对应的特征阈值则为最优特征阈值。
在所述基尼系数符合预设划分条件的情况下,再根据新的分类特征划分新的内节点和叶节点,在此过程中,继续计算基尼系数和重复确定对应的最优特征阈值,直至所有样本拨号信息均分配到属于其真实类别的叶节点当中,得到目标决策树。
一种实施例中,在得到目标决策树之后,还可以依据所述关联值,对位于所述目标决策树不同叶节点中的样本拨号信息,进行类别关联,确定出所述目标决策树的多个号码类别。例如,预设关联阈值,并获取每个主叫号码之间的关联值,若对应的关联值大于或等于所述关联阈值时,确定其关联的主叫号码是否处于一类,若在同一号码类别中,则不进行调整,若不在同一号码类别中,则根据两个主叫号码的拨号离散度,进行调整。即将所述拨号离散度较高的主叫号码对应的样本拨号信息,划分到离散度较低的主叫号码对应的号码类别中去。若两个主叫号码对应的拨号离散度相同,则不进行任何调整操作。由此,可以通过号码关联的方式,对诈骗概率高、离散值较小的主叫号码聚为一类。从而保证了诈骗电话的识别精确度和识别实时性,能够及时向用户发出提示,保护用户权益。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图4,示出了本发明实施例提供的一种电话识别装置,所述装置可以包括:
信息获取模块401,用于获取主叫号码的拨号信息。
相似度确定模块402,用于分别计算所述拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,其中,所述多个号码类别通过对多条样本拨号信息的聚类得到。
类别确定模块403,用于依据多个特征相似度,确定出所述主叫号码对应的目标号码类别。
号码标注模块404,用于按照所述目标号码类别,对所述主叫号码进行标注。
信息输出模块405,用于输出所述标注信息,以在被叫号码对应的终端侧展示所述标注信息。
一种可选的发明实施例中,所述类别确定模块403还可以用于:
在多个特征相似度中的其中一个符合相似度条件的情况下,将所述特征相似度对应的号码类别,确定为所述主叫号码对应的目标号码类别。
一种可选的发明实施例中,所述相似度确定模块402可以包括:
分别计算所述拨号信息,与预设的多个号码类别中的目标特征信息之间的相似度,其中,所述目标特征信息为所述号码类别的聚类中心。
一种可选的发明实施例中,所述装置还包括用于聚类生成多个号码类别的模块:
样本获取模块,用于获取多条样本拨号信息,所述样本拨号信息包括主叫号码、被叫号码以及通话内容。
主叫类别确定模块,用于对多条样本拨号信息进行第一聚类,确定出多个主叫类别,同一主叫类别中的主叫号码一致。
拨号离散值确定模块,用于依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值,所述拨号离散值用于表征主叫号码对应的多条样本呼叫信息之间的呼叫紧密程度。
被叫类别确定模块,用于对多条样本拨号信息进行第二聚类,确定出多个被叫类别,同一被叫类别中的被叫号码一致。
关联值确定模块,用于依据各被叫类别中的多条样本拨号信息,确定与对应被叫号码关联的多个主叫号码之间的关联值。
概率确定模块,用于对各通话内容进行语义识别,并确定出所述通话内容为不同号码类别的类别概率。
号码类别确定模块,用于依据所述拨号离散值、关联值以及类别概率值,对所有样本拨号信息进行第三聚类,确定出多个号码类别。
一种可选的发明实施例中,所述拨号离散值确定模块可以包括:
被叫子类别确定子模块,用于对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。
拨号离散值确定子模块,用于依据所有被叫子类别的类别总数和各被叫子类别中对应的多条样本拨号信息,确定出对应主叫号码的拨号离散值。
一种可选的发明实施例中,所述样本拨号信息还包括以下类型:呼叫时间和呼叫基站标识,所述拨号离散值确定模块还可以包括:
所述被叫子类别确定子模块,还用于对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致。
基站子类别确定子模块,用于对各主叫类别中的多条样本拨号信息进行第五聚类,确定出多个基站子类别,同一基站子类别中的呼叫基站标识一致。
呼叫频率确定子模块,用于确定出目标类别对应的呼叫频率,所述目标类别至少包括:主叫类别、被叫子类别以及基站子类别。
所述拨号离散值确定子模块,还用于依据所有被叫子类别的类别总数、各被叫子类别中对应的多条样本拨号信息、所有基站子类别的类别总数、各基站子类别中对应的多条样本拨号信息以及所述目标类别对应的呼叫频率,确定出对应主叫号码的拨号离散值。
一种可选的发明实施例中,所述关联值确定模块可以包括:
主叫子类别确定子模块,用于对各被叫类别中的多条样本拨号信息进行第六聚类,确定出多个主叫子类别,同一主叫子类别中的主叫号码一致。
时间确定子模块,用于对各主叫子类别中的多条样本拨号信息,按照所述呼叫时间进行有序排列,并确定出各主叫子类别中的起始呼叫时间和末次呼叫时间。
关联值确定子模块,用于依据所述起始呼叫时间和末次呼叫时间,确定与对应被叫号码关联的多个主叫号码之间的关联值。
一种可选的发明实施例中,所述号码类别确定模块可以包括:
决策树生成子模块,用于对所有样本拨号信息进行第三聚类,生成决策树,所述决策树包括内部节点、叶节点以及有向边,所述内部节点用于表征所述分类特征,所述叶节点用于表征号码类别,所述有向边用于表征类别划分规则,所述类别划分规则根据所述拨号离散值和类别概率值确定。
系数计算子模块,用于计算所述决策树的基尼系数,在所述基尼系数符合预设划分条件的情况下,确定目标决策树。
号码类别确定子模块,用于依据所述关联值,对位于所述目标决策树不同叶节点中的样本拨号信息,进行类别关联,确定出所述目标决策树的多个号码类别。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述实施例所述的方法。
一种计算机可读存储介质,存储与电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以完成上述实施例所述的方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种电话识别方法和一种电话识别装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种电话识别方法,其特征在于,所述方法包括:
获取主叫号码的拨号信息;
分别计算所述拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,其中,所述多个号码类别通过对多条样本拨号信息的聚类得到;
依据多个特征相似度,确定出所述主叫号码对应的目标号码类别;
按照所述目标号码类别,对所述主叫号码进行标注;
输出所述标注信息,以在被叫号码对应的终端侧展示所述标注信息。
2.根据权利要求1所述的电话识别方法,其特征在于,所述依据多个特征相似度,确定出所述主叫号码对应的目标号码类别,包括:
在多个特征相似度中的其中一个符合相似度条件的情况下,将所述特征相似度对应的号码类别,确定为所述主叫号码对应的目标号码类别。
3.根据权利要求2所述的电话识别方法,其特征在于,所述分别计算所述拨号信息,与预设的多个号码类别对应的特征信息之间的特征相似度,包括:
分别计算所述拨号信息,与预设的多个号码类别中的目标特征信息之间的相似度,其中,所述目标特征信息为所述号码类别的聚类中心。
4.根据权利要求1所述的电话识别方法,其特征在于,所述方法还包括聚类生成多个号码类别的步骤:
获取多条样本拨号信息,所述样本拨号信息包括主叫号码、被叫号码以及通话内容;
对多条样本拨号信息进行第一聚类,确定出多个主叫类别,同一主叫类别中的主叫号码一致;
依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值,所述拨号离散值用于表征主叫号码对应的多条样本呼叫信息之间的呼叫紧密程度;
对多条样本拨号信息进行第二聚类,确定出多个被叫类别,同一被叫类别中的被叫号码一致;
依据各被叫类别中的多条样本拨号信息,确定与对应被叫号码关联的多个主叫号码之间的关联值;
对各通话内容进行语义识别,并确定出所述通话内容为不同号码类别的类别概率;
依据所述拨号离散值、关联值以及类别概率值,对所有样本拨号信息进行第三聚类,确定出多个号码类别。
5.根据权利要求4所述的电话识别方法,其特征在于,所述依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值,包括:
对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致;
依据所有被叫子类别的类别总数和各被叫子类别中对应的多条样本拨号信息,确定出对应主叫号码的拨号离散值。
6.根据权利要求4所述的电话识别方法,其特征在于,所述样本拨号信息还包括以下类型:呼叫时间和呼叫基站标识,所述依据各主叫类别中的多条样本拨号信息,确定出对应主叫号码的拨号离散值,包括:
对各主叫类别中的多条样本拨号信息进行第四聚类,确定出多个被叫子类别,同一被叫子类别中的被叫号码一致;
对各主叫类别中的多条样本拨号信息进行第五聚类,确定出多个基站子类别,同一基站子类别中的呼叫基站标识一致;
确定出目标类别对应的呼叫频率,所述目标类别至少包括:主叫类别、被叫子类别以及基站子类别;
依据所有被叫子类别的类别总数、各被叫子类别中对应的多条样本拨号信息、所有基站子类别的类别总数、各基站子类别中对应的多条样本拨号信息以及所述目标类别对应的呼叫频率,确定出对应主叫号码的拨号离散值。
7.根据权利要求6所述的电话识别方法,其特征在于,所述依据各被叫类别中的多条样本拨号信息,确定与对应被叫号码关联的多个主叫号码之间的关联值,包括:
对各被叫类别中的多条样本拨号信息进行第六聚类,确定出多个主叫子类别,同一主叫子类别中的主叫号码一致;
对各主叫子类别中的多条样本拨号信息,按照所述呼叫时间进行有序排列,并确定出各主叫子类别中的起始呼叫时间和末次呼叫时间;
依据所述起始呼叫时间和末次呼叫时间,确定与对应被叫号码关联的多个主叫号码之间的关联值。
8.根据权利要求4所述的电话识别方法,其特征在于,所述依据所述拨号离散值、关联值以及类别概率值,对所有样本拨号信息进行第三聚类,确定出多个号码类别,包括:
对所有样本拨号信息进行第三聚类,生成决策树,所述决策树包括内部节点、叶节点以及有向边,所述内部节点用于表征所述分类特征,所述叶节点用于表征号码类别,所述有向边用于表征类别划分规则,所述类别划分规则根据所述拨号离散值和类别概率值确定;
计算所述决策树的基尼系数,在所述基尼系数符合预设划分条件的情况下,确定目标决策树;
依据所述关联值,对位于所述目标决策树不同叶节点中的样本拨号信息,进行类别关联,确定出所述目标决策树的多个号码类别。
9.一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,存储与电子设备结合使用的计算机程序,所述计算机程序可被处理器执行以完成权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211665895.1A CN116233308A (zh) | 2022-12-23 | 2022-12-23 | 一种电话识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211665895.1A CN116233308A (zh) | 2022-12-23 | 2022-12-23 | 一种电话识别方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116233308A true CN116233308A (zh) | 2023-06-06 |
Family
ID=86579495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211665895.1A Pending CN116233308A (zh) | 2022-12-23 | 2022-12-23 | 一种电话识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233308A (zh) |
-
2022
- 2022-12-23 CN CN202211665895.1A patent/CN116233308A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
WO2022126963A1 (zh) | 基于客户应答语料的客户画像方法及其相关设备 | |
CN106126597A (zh) | 用户属性预测方法及装置 | |
CN111353850B (zh) | 一种风险识别策略的更新、风险商户的识别方法和装置 | |
CN109145050B (zh) | 一种计算设备 | |
CN106453062A (zh) | 一种应用通知的管理方法及终端 | |
CN110458571B (zh) | 一种信息泄露的风险识别方法、装置及设备 | |
CN111586695A (zh) | 短信识别方法及相关设备 | |
CN111275071B (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN110972086A (zh) | 短信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN110175733B (zh) | 一种舆论信息处理方法和服务器 | |
CN116233308A (zh) | 一种电话识别方法、电子设备及存储介质 | |
CN111062422A (zh) | 一种套路贷体系化识别方法及装置 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN113630495B (zh) | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 | |
CN113962276B (zh) | 异常信息确定方法、装置及电子设备、存储介质 | |
US11330106B1 (en) | Systems and methods for occupation categorization | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 | |
CN111078877B (zh) | 数据处理、文本分类模型的训练、文本分类方法和装置 | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
CN112668302A (zh) | 虚假诉讼的判断方法及装置 | |
CN113077272B (zh) | 通信业务营销案优化方法和装置 | |
CN115237971B (zh) | 一种基于实体融合的信息推荐方法、系统、装置及介质 | |
CN112671982B (zh) | 一种骚扰电话识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |