CN105589846B - 一种识别数字语义的方法、检测短信类别的方法及装置 - Google Patents

一种识别数字语义的方法、检测短信类别的方法及装置 Download PDF

Info

Publication number
CN105589846B
CN105589846B CN201510971979.1A CN201510971979A CN105589846B CN 105589846 B CN105589846 B CN 105589846B CN 201510971979 A CN201510971979 A CN 201510971979A CN 105589846 B CN105589846 B CN 105589846B
Authority
CN
China
Prior art keywords
target
label
target number
data sequence
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510971979.1A
Other languages
English (en)
Other versions
CN105589846A (zh
Inventor
张金晶
李强
常富洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510971979.1A priority Critical patent/CN105589846B/zh
Publication of CN105589846A publication Critical patent/CN105589846A/zh
Application granted granted Critical
Publication of CN105589846B publication Critical patent/CN105589846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种识别数字语义的方法、检测短信类别的方法及装置,该识别数字语义的方法包括:获得目标文本中的目标数字;以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;根据所述状态数据序列,获得表征目标数字语义的标签。通过上述技术方案,解决了现有技术中无法识别短信中数字语义的技术问题,达到了数字语义识别的有益技术效果。

Description

一种识别数字语义的方法、检测短信类别的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种识别数字语义的方法、检测短信类别的方法及装置。
背景技术
随着科学技术的不断发展,通信技术得到了飞速的发展,通信的方式多种多样,包括电话、短信、email等。短信由于其具有短小精要、成本低廉等优点被人们广泛的使用。
人们在使用短信的过程中,经常会收到诈骗短信、广告推销短信、骚扰短信等各种各样的垃圾端。为了避免垃圾短信给用户带来的困扰,现有技术中通常采用手机卫士、来电通等应用程序来对垃圾短信进行识别并拦截。但是,由于现有应用程序对垃圾短信的识别均是依据关键词进行,对于包含数字的短信容易出现误判的情况。例如:现有常见的快递短信,通常情况下包含快递单号及广告内容,由于无法识别该短信中快递单号的语义,导致根据关键词识别方法在获得该短信中的广告关键词后,将其判别为垃圾短信并进行拦截,但实际上该快递短信对用户来说是有用的短信,不应该被拦截。
可见,现有技术中存在无法识别短信中数字语义的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别数字语义的方法、检测短信类别的方法及装置。
本发明的一个方面,提供了一种识别数字语义的方法,包括:
获得目标文本中的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
根据所述状态数据序列,获得表征目标数字语义的标签。
可选的,所述获得目标文本中的目标数字,包括:删除所述目标文本中的特定信息;对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
可选的,所述特定信息包括URL、IP地址、电话号码、日期及时间。
可选的,所述以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性,包括:获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
可选的,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
可选的,所述文本包括:短信、句子或文章。
可选的,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
可选的,所述条件随机场模型为预先训练的模型,其训练步骤如下:获得训练样本集合中每个训练文本的目标数字;以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本发明的另一方面,提供了一种检测短信类别的方法,包括:
将目标短信作为所述目标文本,获得目标短信中目标数字的标签;
判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
若所述标签属于所述特定标签,确定所述目标短信为非垃圾短信。
可选的,所述方法还包括;获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者,获得被标记为垃圾短信的短信作为所述目标短信。
可选的,当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
可选的,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:
获得所述目标短信的发送方电话号码;建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
本发明的另一方面,还提供一种建立条件随机场模型的方法,应用于文本数字语义的识别,所述方法包括:
获得训练样本集合中每个训练文本的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
可选的,所述获得训练样本集合中每个训练文本的目标数字,包括:删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
可选的,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
本发明的另一方面,提供了一种识别数字语义的装置,包括:
数字获取模块,用于获得目标文本中的目标数字;
分词获取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
输入模块,用于将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
标签获取模块,用于根据所述状态数据序列,获得表征目标数字语义的标签。
可选的,所述数字获取模块用于:删除所述目标文本中的特定信息;对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
可选的,所述特定信息包括URL、IP地址、电话号码、日期及时间。
可选的,所述分词获取模块用于:获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
可选的,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
可选的,所述文本包括:短信、句子或文章。
可选的,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
可选的,所述装置还包括训练模块,所述训练模块包括:数字获取子模块,用于获得训练样本集合中每个训练文本的目标数字;分词获取子模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;第一生成子模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;第二生成子模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;训练子模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本发明的另一方面,提供了一种检测短信类别的装置,包括:
标签获取模块,用于将目标短信作为所述目标文本获得如权利要求1~7任一所述的标签;
判断模块,用于判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
确定模块,用于在所述标签属于所述特定标签时,确定所述目标短信为非垃圾短信。
可选的,所述装置还包括;短信获取模块,用于获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者,用于获得被标记为垃圾短信的短信作为所述目标短信。
可选的,所述装置还包括:恢复模块,用于当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
可选的,所述装置还包括:号码获取模块,用于在所述确定所述目标短信为非垃圾短信之后,获得所述目标短信的发送方电话号码;关系建立模块,用于建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
本发明的另一方面,还提供了一种建立条件随机场模型的装置,应用于文本数字语义的识别,所述装置包括:
第一提取模块,用于获得训练样本集合中每个训练文本的目标数字;
第二提取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
可选的,所述第一提取模块用于:删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
可选的,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
针对文本中的数字,通过获得其前后一定距离范围内的多个分词、各个分词的词性;再根据该数字、多个分词及各个分词的词性生成目标输入数据序列;以将该目标输入数据序列输入条件随机场模型获得与目标输入数据序列之间具有最大联合概率的目标状态数据序列,并根据目标状态数据序列获得表征目标数字语义的标签,解决了现有技术中无法识别短信中数字语义的技术问题,达到了数字语义识别的有益技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种建立条件随机场模型的方法流程图;
图2示出了根据本发明一个实施例的一种识别数字语义的方法流程图;
图3示出了根据本发明一个实施例的一种检测短信类型的方法流程图;
图4示出了根据本发明一个实施例的一种建立条件随机场模型的装置示意图;
图5示出了根据本发明一个实施例的一种识别数字语义的装置流程图;
图6示出了根据本发明一个实施例的一种检测短信类型的装置流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种识别数字语义的方法、检测短信类别的方法及装置,用于解决现有技术中无法识别短信中数字语义的技术问题。
请参考图1,本申请实施提供一种建立条件随机场模型的方法,应用于数字语义的识别,该方法包括:
S11、获得训练样本集合中每个训练文本的目标数字;
S12、以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
S13、根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
S14、根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
S15、基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本申请实施例建立的条件随机场(conditional random fields,简称CRF或CRFs)模型主要用于数字语义的识别。在建立该条件随机场模型时,首先需要获得包含大量训练文本的训练样本集合。训练样本集合中的训练文本可以是短信、句子及文章中的一种或至少两种。每个训练样本中均包含有目标数字,该目标数字具体为具有特定用途的对用户有用的数字,可以是校验码、快递单号、车次/航班号、密码、缴费单号、团购单号等等。
在具体实施过程中,为了避免其它数字对该条件随机场模型的干扰,在执行S11获得训练文本中的目标数字时,可以先删除训练文本中的特定信息,其中,特定信息包括统一资源定位符URL、IP地址(Internet Protocol Address,互联网协议地址)、电话号码、日期及时间;再对训练文本内容基于语法进行分词,获得训练文本中的目标数字、分词及词性。例如:针对短信“订单E692……664,李女士您已购2月4日D51次1张无座。”,可以先删除其中的日期“2月4日”,然后基于语法分词获得:订单(名词)、E692……664(数词)、李女士(名词)、您(代词)、D51(数词)、1张(量词)、无座(形容词),及将数词“E692……664”和“D51”分别作为目标数字。
S12以目标数字为基准,获得与目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性。目标数字与各个分词之间的距离可以通过每个词作为单位距离进行表征,例如:“订单E692……664,李女士您”中分词“订单”与目标数字“E692……664”的距离为1,分词“您”与目标数字之间间隔分词“李女士”,其与目标数字之间的距离则为2。设定阈值可以设置为6~7个词的距离。以目标数字为基准获得至少两个分词时,具体可以获得位于目标数字之前和/或之后的、与目标数字之间距离小于等于设定阈值的至少两个分词,以及该至少两个分词中每个分词的词性。例如:针对短信“订单E692……664,李女士您已购2月4日D51次1张无座。”,假设设定阈值为6个词时,那么可以获得“订单”、“李女士”、“您”、“已购”为目标数字“E692……664”的至少两个分词。
在S12之后,继续执行S13根据目标数字、至少两个分词及每个分词的词性生成产输入数据序列。该输入数据序列即为条件随机场中被观察的数据序列,该输入数据序列中各数据根据与目标数字之间的距离和相对位置依次排列,如目标数字“E692……664”对应的输入数据序列可以为“订单(名词)-E692……664(数词)-李女士(名词)-您(代词)-已购(动词)”。
S14获得每个分词和目标数字的标签,并根据每个分词和目标数字的标签生成状态数据序列。S13与S14在具体执行时无先后之分,可以同时执行也可以逐次执行。在条件随机场中标签称为隐含状态,在训练阶段可以通过人工对每个分词打tag即标签并将对应的标签输入,以根据每个分词和目标数字的标签生成状态数据序列。例如:对“订单”、“E692……664”、“李女士”、“您”及“已购”依次打上标签NL、DIGIT、NL、NL,则可以生成状态数据序列NL-DIGIT-NL-NL。其中,各个分词的标签可以相同也可以不相同,目标数字的标签可以根据其在文本中的实际语义进行不同的设置,例如:校验码、快递单号、车次/航班号、密码、缴费单号、团购单号的标签可以依次设置为:YD、KD、CD、MD、FD、TD。
在获得每个训练样本S15基于训练样本集合中的多个输入数据序列和多个状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。具体的,可将多个输入数据序列和多个状态数据序列构成一个无向图,其无向图模型布局可以是任意给定,较佳的可以采用链结式架构布局,采用链结式架构在训练(training)时可以提高演算效率。根据多个输入数据序列和多个状态数据序列构成的无向图,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,从而完成条件随机场的建立。
针对文本中的目标数字,通过对目标数字及其前后的分词进行标记,形成被观察的输入状态序列及标记的状态序列以建立条件随机场模型,进而获得数字标签与其前后分词之间的联合概率,使得条件随机场模型能够针对待判定的目标数字对应的输入数据序列根据条件概率获得目标数字的语义标签。
为此,基于上述实施例建立的条件随机场模型,本申请实施例还提供一种识别数字语义的方法,请参考图2,该方法包括:
S21、获得目标文本中的目标数字;
S22、以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
S23、根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
S24、将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
S25、根据所述目标状态数据序列,获得表征目标数字语义的标签。
S21针对的目标文本可以是短信、句子或者文章。同样的,在获取目标文本中的目标数字之前,先删除目标文本中的特定信息,如URL、IP地址、电话号码、日期及时间,针对这些特定信息可以根据各个信息固有的特定结构进行识别并删除,例如:URL中包含字符“://”、“.com”、“.net”等。进一步的,对删除特定信息后的目标文本基于语法进行分词,可以通过阿里分词等工具进行分词,本申请实施例并不限制分词所使用的具体工具,分词后获得目标文本中的各个分词、目标数字及其对应的词性,。目标数字的语义可以根据其所在的实际语言环境得到,与目标数字之间的距离较近的词语能够较好的反应其语义,与目标数字之间的距离较远的词语随着距离的增大其相关性也越弱、甚至还会对其语义的获取起到反作用,因此在S21之后进一步执行S22。
S22以目标数字为基准,获得与目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性。具体的,目标数字与分词之间的距离通过每个词作为单位距离进行表征,可以获得位于目标数字之前和/或之后,与目标数字之间距离小于等于设定阈值的至少两个分词。例如:假设设定阈值为6个词,目标文本为短信“快递员XXX提醒您,请凭“746…451”在2015年12月20之前到XX苑取您的包裹。”,通过删除该短信中的特定信息“在2015年12月20之前”之后分词获得目标数字为“746…451”,然后获得目标数字“746…451”前后6个分词及其词性:快递员(名词)、XXX(名词)、提醒(动词)、您(代词)、请(动词)、凭(介词)、到(动词)、XX苑(名词)、取(动词)、您的(副词)、包裹(名词)。
S23生成目标输入数据序列。将目标数字、至少两个分词及每个分词的词性,按照各个分词相对目标数字的位置依次排列以生成目标输入数据序列。例如:针对S22中获得的分词:快递员(名词)、XXX(名词)、提醒(动词)、您(代词)、请(动词)、凭(介词)、到(动词)、XX苑(名词)、取(动词)、您的(副词)、包裹(名词),可生成目标输入数据序列:快递员(名词)-XXX(名词)-提醒(动词)-您(代词)-请(动词)-凭(介词)-746…451(数词)-到(动词)-XX苑(名词)-取(动词)-您的(副词)-包裹(名词)。
S24将目标输入数据序列输入条件随机场模型,获得与目标输入数据序列之间具有最大联合概率的目标状态数据序列。在条件随机场模型中,与输入数据序列对应的状态数据序列包含多条,但其与目标输入数据序列之间的联合概率不同,联合概率越大表明其对应该状态的概率就越大,因此,本申请实施例获得与目标输入数据序列之间具有最大联合概率的状态数据序列,以将其作为目标输入数据序列对应的目标状态序列。
在本申请实施例提供的条件随机场模型中,状态数据序列中各个参数由标签构成,在获得目标状态数据序列后,便可根据目标状态数据序列获得目标输入数据序列中各分词及目标数字对应的标签,为此在S24之后继续S25根据目标状态数据序列获得表征目标数字语义的标签。例如:在条件随机场模型中与目标输入数据序列:“快递员(名词)-XXX(名词)-提醒(动词)-您(代词)-请(动词)-凭(介词)-746…451(数词)-到(动词)-XX苑(名词)-取(动词)-您的(副词)-包裹(名词)”之间具有最大联合概率的目标状态数据序列为:NL-NL-DL-NL-DL-NL-dj1-DL-NL-DL-NL-NL-NL,那么根据该目标状态数据获得目标数字的标签为dj1,再查表获得标签dj1表征目标数字语义的标签“快递单号”。
S25获得的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号等标签。上述标签对应的目标数字常出现在短信当中,对于包含该目标数字的短信,由于其短信内容通常还包含广告信息,容易被判定为垃圾短信而拦截,但实际上这些短信对于用户来说是有用的,不应该被拦截。
为了提高垃圾短信识别的准确率,本申请实施例结合上述识别数字语义的方法,本申请实施例还提供一种检测短信类别的方法。请参考图3,本申请实施例提供的一种检测短信类别的方法,包括:
S31、将目标短信作为目标文本,获得目标短信中目标数字的标签;
S32、判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
S33、若所述标签属于所述特定标签,确定所述目标短信为非垃圾短信。
在具体实施过程中,本申请实施例可以针对所有短信进行上述短信类别检测,也可以针对陌生联系人发送的短信进行短信类别检测,还可以针对垃圾短信进行短信类别检测。其中,针对陌生联系人发送的短信进行短信类别检测时,可以获得通信终端中陌生联系人发送的短信并将其作为目标短信,可以缩小短信类别减小的范围,减少计算量。针对垃圾短信进行短信类别检测时,可以获得被标记为垃圾短信的短信作为目标短信,检测垃圾短信中的数字语义,避免包含有用数字的短信被标记为垃圾短信,以降低垃圾短信的误判率。
S31获得目标短信中目标数字的标签时,可以将目标短信作为目标文本,通过执行S21~S25获得目标短信中目标数字、目标数字对应的至少两个分词及其词性,并根据目标数字、目标数字对应的至少两个分词及其词性生成目标输入数据序列,从而将目标输入数据序列输入条件随机场模型获得与目标输入数据序列之间具有最大联合概率的目标状态数据序列,进而获得表征目标数字语义的标签。
在S31之后,进一步执行S32判断获得的标签是否属于的特定标签。该特定标签对应的目标数字是对用户而言是有特定作用的信息,可以包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的等标签。若判断结果为标签不属于特定标签,表明该标签对应的目标数字不是具有特定作用的信息,不执行后续操作。反之,若判断结果为标签属于特定标签,表明该标签对应的目标数字是具有特定作用的信息,进一步执行S33。
S33若标签属于特定标签,确定目标短信为非垃圾短信。进一步的,当目标短信已被标记为垃圾短信时,在确定该目标短信为非垃圾短信后,取消目标短信的垃圾短信标记,并将该目标短信恢复到短信列表中。例如:在手机的垃圾短信列表中包含一短信A“快递员XXX提醒您,请凭“746…451”在2015年12月20之前到XX苑取您的包裹。”,通过对垃圾短信列表中的短信执行本申请实施例提供的一种检测短信类别的方法,对垃圾短信列表中的再次类别检测后,获得短信A中的数字“746…451”的标签为快递单号,确定短信A为非垃圾短信,那么将短信A的垃圾短信标记取消并将其恢复到手机的短信列表中,便于用户查阅。
在实际应用过程中,本申请实施例还在确定目标短信为非垃圾短信之后,进一步获得该目标短信的发送方电话号码。具体实现时,通信终端设备中的操作系统一般会为应用程序开放一些接口,供应用程序从系统中获取所需的信息。因此,在本发明实施例中,为了能够对通信终端的短信接收情况进行监测,可以在通信终端中运行一应用程序,然后就可以利用通信终端系统的这一特点,在操作系统中对应用程序进行注册。这样,当操作系统广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。例如,当接收短信时,通信终端的操作系统就会广播该短信接收消息,并携带短信发送方的电话号码,这样,应用程序就能够监测到该事件,并从中获取到短信发送方的电话号码。
获得目标短信的发送方电话号码后,建立该发送方电话号码与特定标签之间的对应关系并保存至预置数据库中,使得再一次收到该发送方发送来的短信后,能够根据该特定标签判断出该短信为快递短信,以将其判定为非垃圾短信,避免对其执行拦截操作。其中,预置数据库可以存储在各个通信终端,并通过远程服务器进行实时或定期更新。
在建立该发送方电话号码与特定标签之间的对应关系之前,还可以获得该发送方电话号码的归属地和/或地区编码号段,以及获得接收机主的电话号码的归属地和/或地区编码号段,从而判断发送方电话号码和接收机主的电话号码这两者之间的号码归属地和/地区编码号段是否相同,若相同,再建立该发送方电话号码与特定标签之间的对应关系,若不相同,则不建立该对应关系。本申请实施例通过电话号码归属地和/或地区编码号段的判断,避免外地号码冒充特定作用的短信对用户实时诈骗,提高了发送方短话号码与特定标签之间对应关系的可靠度。
基于同于发明构思,针对上述实施例提供的一种建立条件随机场模型的方法,本申请实施例还对应提供一种建立条件随机场模型的装置,应用于文本数字语义的识别,请参考图4,该装置包括:
第一提取模块41,用于获得训练样本集合中每个训练文本的目标数字;
第二提取模块42,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成模块43,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成模块44,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练模块45,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
在具体实施过程中,所述第一提取模块41用于:删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
本申请实施例提供的建立条件随机场模型通过对目标数字及其前后的分词进行标记,形成被观察的输入状态序列及标记的状态序列以建立条件随机场模型,进而获得数字标签与其前后分词之间的联合概率,使得条件随机场模型能够针对待判定的目标数字对应的输入数据序列根据条件概率获得目标数字的语义标签。
同样的,针对本申请实施例提供的一种识别数字语义的方法,本申请实施例对应提供一种识别数字语义的装置,请参考图5,该装置包括:
数字获取模块51,用于获得目标文本中的目标数字;
分词获取模块52,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
生成模块53,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
输入模块54,用于将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
标签获取模块55,用于根据所述状态数据序列,获得表征目标数字语义的标签。
在具体实施过程中,所述数字获取模块51用于:删除所述目标文本中的特定信息;对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。其中,所述特定信息包括URL、IP地址、电话号码、日期及时间。
相应的,所述分词获取模块52用于:获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。其中,与所述目标数字之间的距离通过每个词作为单位距离进行表征。目标文本包括:短信、句子或文章。
标签获取模块55获得的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
在具体实施过程中,所述装置还包括训练模块56,所述训练模块包括:数字获取子模块,用于获得训练样本集合中每个训练文本的目标数字;分词获取子模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;第一生成子模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;第二生成子模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;训练子模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本申请实施例提供的识别数字语义的装置,针对文本中的数字,通过获得其前后一定距离范围内的多个分词、各个分词的词性;再根据该数字、多个分词及各个分词的词性生成目标输入数据序列;以将该目标输入数据序列输入条件随机场模型获得与目标输入数据序列之间具有最大联合概率的目标状态数据序列,并根据目标状态数据序列获得表征目标数字语义的标签,解决了现有技术中无法识别短信中数字语义的技术问题,达到了数字语义识别的有益技术效果。
请参考图6,针对本申请实施例提供的一种检测短信类型的方法,本申请实施对应提供了一种检测短信类别的装置,包括:
标签获取模块61,用于将目标短信作为所述目标文本获得如权利要求1~7任一所述的标签;
判断模块62,用于判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
确定模块63,用于在所述标签属于所述特定标签时,确定所述目标短信为非垃圾短信。
在具体实施过程中,所述装置还包括;短信获取模块64,用于获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者,用于获得被标记为垃圾短信的短信作为所述目标短信。
进一步的,所述装置还包括:恢复模块65,用于当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
进一步的,所述装置还包括:号码获取模块66,用于在所述确定所述目标短信为非垃圾短信之后,获得所述目标短信的发送方电话号码;关系建立模块67,用于建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
通过本申请实施例提供的检测短信类别的装置,获取目标短信中的表征目标数字语义的标签,并判断该标签是否属于特定标签,如表征校验码、快递单号、车次/航班号、密码、缴费单号或团购单号的标签,从而根据判断结果来确定目标短信是否为非垃圾短信,若其标签属于特定标签确定目标短信为非垃圾短信,进而解决现有技术中因为无法识别数字语义导致的短信类别误判的技术问题,提高了短信类别判定的可靠性。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
根据本发明的一种建立条件随机场模型的方法,针对文本中的数字,通过获得其前后一定距离范围内的多个分词、各个分词的词性;再根据该数字、多个分词及各个分词的词性生成目标输入数据序列;以将该目标输入数据序列输入条件随机场模型获得与目标输入数据序列之间具有最大联合概率的目标状态数据序列,并根据目标状态数据序列获得表征目标数字语义的标签,解决了现有技术中无法识别短信中数字语义的技术问题,达到了数字语义识别的有益技术效果。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了,A1、一种识别数字语义的方法,包括:
获得目标文本中的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
根据所述状态数据序列,获得表征目标数字语义的标签。
A2、根据A1所述的方法,其特征在于,所述获得目标文本中的目标数字,包括:
删除所述目标文本中的特定信息;
对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
A3、根据A1所述的方法,其特征在于,所述特定信息包括URL、IP地址、电话号码、日期及时间。
A4、根据A1所述的方法,其特征在于,所述以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性,包括:
获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
A5、如权利要求A4所述的方法,其特征在于,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
A6、根据A1所述的方法,其特征在于,所述文本包括:短信、句子或文章。
A7、根据A1所述的方法,其特征在于,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
A8、根据A1~A7任一所述的方法,其特征在于,所述条件随机场模型为预先训练的模型,其训练步骤如下:
获得训练样本集合中每个训练文本的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本发明还公开了,B9、一种检测短信类别的方法,其特征在于,包括:
将目标短信作为所述目标文本获得根据A1~A7任一所述的标签;
判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
若所述标签属于所述特定标签,确定所述目标短信为非垃圾短信。
B10、根据B9所述的方法,其特征在于,所述方法还包括;
获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者
获得被标记为垃圾短信的短信作为所述目标短信。
B11、根据B10所述的方法,其特征在于,当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:
取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
B12、根据B9~B11任一所述的方法,其特征在于,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:
获得所述目标短信的发送方电话号码;
建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
本发明还公开了,C13、一种建立条件随机场模型的方法,应用于文本数字语义的识别,其特征在于,所述方法包括:
获得训练样本集合中每个训练文本的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
C14、根据C13所述的方法,其特征在于,所述获得训练样本集合中每个训练文本的目标数字,包括:
删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;
对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
C15、根据C13或C14所述的方法,其特征在于,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
本发明还公开了,D16、一种识别数字语义的装置,其特征在于,包括:
数字获取模块,用于获得目标文本中的目标数字;
分词获取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
输入模块,用于将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
标签获取模块,用于根据所述状态数据序列,获得表征目标数字语义的标签。
D17、根据D16所述的装置,其特征在于,所述数字获取模块用于:
删除所述目标文本中的特定信息;
对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
D18、根据D16所述的装置,其特征在于,所述特定信息包括URL、IP地址、电话号码、日期及时间。
D19、根据D16所述的装置,其特征在于,所述分词获取模块用于:
获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
D20、根据D19所述的装置,其特征在于,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
D21、根据D16所述的装置,其特征在于,所述文本包括:短信、句子或文章。
D22、根据D16所述的装置,其特征在于,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
D23、根据D16~D22任一所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块包括:
数字获取子模块,用于获得训练样本集合中每个训练文本的目标数字;
分词获取子模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成子模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成子模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练子模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
本发明还公开了,E24、一种检测短信类别的装置,其特征在于,包括:
标签获取模块,用于将目标短信作为所述目标文本获得根据A1~A7任一所述的标签;
判断模块,用于判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
确定模块,用于在所述标签属于所述特定标签时,确定所述目标短信为非垃圾短信。
E25、根据E24所述的装置,其特征在于,所述装置还包括;
短信获取模块,用于获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者,用于获得被标记为垃圾短信的短信作为所述目标短信。
E26、根据E25所述的装置,其特征在于,所述装置还包括:
恢复模块,用于当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
E27、根据E24~E26任一所述的装置,其特征在于,所述装置还包括:
号码获取模块,用于在所述确定所述目标短信为非垃圾短信之后,获得所述目标短信的发送方电话号码;
关系建立模块,用于建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
本发明还公开了,F28、一种建立条件随机场模型的装置,应用于文本数字语义的识别,其特征在于,所述装置包括:
第一提取模块,用于获得训练样本集合中每个训练文本的目标数字;
第二提取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
F29、根据F28所述的装置,其特征在于,所述第一提取模块用于:
删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;
对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
F30、根据F28或F29所述的装置,其特征在于,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。

Claims (30)

1.一种识别数字语义的方法,其特征在于,包括:
获得目标文本中的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
根据所述状态数据序列,获得表征目标数字语义的标签。
2.如权利要求1所述的方法,其特征在于,所述获得目标文本中的目标数字,包括:
删除所述目标文本中的特定信息;
对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
3.如权利要求2所述的方法,其特征在于,所述特定信息包括URL、IP地址、电话号码、日期及时间。
4.如权利要求1所述的方法,其特征在于,所述以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性,包括:
获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
5.如权利要求4所述的方法,其特征在于,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
6.如权利要求1所述的方法,其特征在于,所述文本包括:短信、句子或文章。
7.如权利要求1所述的方法,其特征在于,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
8.如权利要求1~7任一所述的方法,其特征在于,所述条件随机场模型为预先训练的模型,其训练步骤如下:
获得训练样本集合中每个训练文本的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
9.一种检测短信类别的方法,其特征在于,包括:
将目标短信作为所述目标文本获得如权利要求1~7任一所述的标签;
判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
若所述标签属于所述特定标签,确定所述目标短信为非垃圾短信。
10.如权利要求9所述的方法,其特征在于,所述方法还包括;
获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者
获得被标记为垃圾短信的短信作为所述目标短信。
11.如权利要求10所述的方法,其特征在于,当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:
取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
12.如权利要求9~11任一所述的方法,其特征在于,在所述确定所述目标短信为非垃圾短信之后,所述方法还包括:
获得所述目标短信的发送方电话号码;
建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
13.一种建立条件随机场模型的方法,应用于文本数字语义的识别,其特征在于,所述方法包括:
获得训练样本集合中每个训练文本的目标数字;
以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
14.如权利要求13所述的方法,其特征在于,所述获得训练样本集合中每个训练文本的目标数字,包括:
删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;
对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
15.如权利要求13或14所述的方法,其特征在于,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
16.一种识别数字语义的装置,其特征在于,包括:
数字获取模块,用于获得目标文本中的目标数字;
分词获取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成目标输入数据序列;
输入模块,用于将所述目标输入数据序列输入条件随机场模型,获得与所述目标输入数据序列之间具有最大联合概率的目标状态数据序列;
标签获取模块,用于根据所述状态数据序列,获得表征目标数字语义的标签。
17.如权利要求16所述的装置,其特征在于,所述数字获取模块用于:
删除所述目标文本中的特定信息;
对目标文本内容基于语法进行分词,获得目标文本中的所述目标数字。
18.如权利要求17所述的装置,其特征在于,所述特定信息包括URL、IP地址、电话号码、日期及时间。
19.如权利要求16所述的装置,其特征在于,所述分词获取模块用于:
获得位于所述目标数字之前和/或之后,与所述目标数字之间距离小于等于所述设定阈值的所述至少两个分词及所述每个分词的词性。
20.如权利要求19所述的装置,其特征在于,与所述目标数字之间的距离通过每个词作为单位距离进行表征。
21.如权利要求16所述的装置,其特征在于,所述文本包括:短信、句子或文章。
22.如权利要求16所述的装置,其特征在于,所述标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
23.如权利要求16~22任一所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块包括:
数字获取子模块,用于获得训练样本集合中每个训练文本的目标数字;
分词获取子模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成子模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成子模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练子模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
24.一种检测短信类别的装置,其特征在于,包括:
标签获取模块,用于将目标短信作为所述目标文本获得如权利要求1~7任一所述的标签;
判断模块,用于判断所述标签是否属于特定标签,所述特定标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的标签;
确定模块,用于在所述标签属于所述特定标签时,确定所述目标短信为非垃圾短信。
25.如权利要求24所述的装置,其特征在于,所述装置还包括;
短信获取模块,用于获得通信终端中陌生联系人发送的短信,并将所述陌生联系人发送的短信作为所述目标短信;或者,用于获得被标记为垃圾短信的短信作为所述目标短信。
26.如权利要求25所述的装置,其特征在于,所述装置还包括:
恢复模块,用于当所述目标短信已被标记为垃圾短信时,在所述确定所述目标短信为非垃圾短信之后,取消所述目标短信的垃圾短信标记,并将所述目标短信恢复到短信列表中。
27.如权利要求24~26任一所述的装置,其特征在于,所述装置还包括:
号码获取模块,用于在所述确定所述目标短信为非垃圾短信之后,获得所述目标短信的发送方电话号码;
关系建立模块,用于建立所述发送方电话号码与所述特定标签之间的对应关系并保存至预置数据库。
28.一种建立条件随机场模型的装置,应用于文本数字语义的识别,其特征在于,所述装置包括:
第一提取模块,用于获得训练样本集合中每个训练文本的目标数字;
第二提取模块,用于以所述目标数字为基准,获得与所述目标数字之间距离小于等于设定阈值的至少两个分词及每个分词的词性;
第一生成模块,用于根据所述目标数字、所述至少两个分词及所述每个分词的词性生成输入数据序列;
第二生成模块,用于根据所述每个分词和所述目标数字的标签生成状态数据序列,所述目标数字的标签用于表征所述目标数字的语义;
训练模块,用于基于所述训练样本集合中的多个所述输入数据序列和多个所述状态数据序列,计算获得各个输入数据序列与各个状态数据序列之间的联合概率,以训练生成条件随机场模型。
29.如权利要求28所述的装置,其特征在于,所述第一提取模块用于:
删除所述训练文本中的特定信息,所述特定信息包括URL、IP地址、电话号码、日期及时间;
对训练文本内容基于语法进行分词,获得训练文本中的所述目标数字。
30.如权利要求28或29所述的装置,其特征在于,所述目标数字的标签包含表征校验码、快递单号、车次/航班号、密码、缴费单号及团购单号的特定标签。
CN201510971979.1A 2015-12-22 2015-12-22 一种识别数字语义的方法、检测短信类别的方法及装置 Active CN105589846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510971979.1A CN105589846B (zh) 2015-12-22 2015-12-22 一种识别数字语义的方法、检测短信类别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510971979.1A CN105589846B (zh) 2015-12-22 2015-12-22 一种识别数字语义的方法、检测短信类别的方法及装置

Publications (2)

Publication Number Publication Date
CN105589846A CN105589846A (zh) 2016-05-18
CN105589846B true CN105589846B (zh) 2018-07-31

Family

ID=55929436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510971979.1A Active CN105589846B (zh) 2015-12-22 2015-12-22 一种识别数字语义的方法、检测短信类别的方法及装置

Country Status (1)

Country Link
CN (1) CN105589846B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407324A (zh) * 2016-08-31 2017-02-15 北京城市网邻信息技术有限公司 联系方式识别方法及装置
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN109117478A (zh) * 2018-07-27 2019-01-01 北京城市网邻信息技术有限公司 联系方式的识别方法、装置、设备及存储介质
CN110069781B (zh) * 2019-04-24 2022-11-18 北京奇艺世纪科技有限公司 一种实体标签的识别方法及相关设备
CN111144336A (zh) * 2019-12-30 2020-05-12 贵州近邻宝科技有限公司 面向快递面单的收件人手机号码、运单号的自动识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101196881A (zh) * 2006-12-08 2008-06-11 富士通株式会社 文本中数字和特殊符号串的文字符号化处理方法及系统
CN102572745A (zh) * 2010-12-24 2012-07-11 中国移动通信集团上海有限公司 垃圾短消息确定方法及装置
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN105162984A (zh) * 2015-09-23 2015-12-16 小米科技有限责任公司 电话号码识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002701B2 (en) * 2010-09-29 2015-04-07 Rhonda Enterprises, Llc Method, system, and computer readable medium for graphically displaying related text in an electronic document
US20120109945A1 (en) * 2010-10-29 2012-05-03 Emilia Maria Lapko Method and system of improving navigation within a set of electronic documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196881A (zh) * 2006-12-08 2008-06-11 富士通株式会社 文本中数字和特殊符号串的文字符号化处理方法及系统
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN102572745A (zh) * 2010-12-24 2012-07-11 中国移动通信集团上海有限公司 垃圾短消息确定方法及装置
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN105162984A (zh) * 2015-09-23 2015-12-16 小米科技有限责任公司 电话号码识别方法及装置

Also Published As

Publication number Publication date
CN105589846A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105589846B (zh) 一种识别数字语义的方法、检测短信类别的方法及装置
US9906554B2 (en) Suspicious message processing and incident response
CN107872772B (zh) 诈骗短信的检测方法及装置
US20180205726A1 (en) Cognitive Intelligence Based Voice Authentication
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
CA2840992C (en) Syntactical fingerprinting
CN104767613B (zh) 签名验证方法、装置及系统
US9805018B1 (en) Natural language processing for analyzing internet content and finding solutions to needs expressed in text
CN111435507A (zh) 广告反作弊方法、装置、电子设备及可读存储介质
WO2009094086A2 (en) A feedback augmented object reputation service
CN104252479A (zh) 信息的处理方法、装置和系统
CN105337993A (zh) 一种基于动静结合的邮件安全检测装置及方法
CN109145590A (zh) 一种函数hook检测方法、检测设备及计算机可读介质
CN106331331A (zh) 终端信息的显示方法、生成方法、显示装置及服务器
CN107896218A (zh) 一种自动化检测验证码回传逻辑漏洞的方法及系统
Tripathi et al. A novel web fraud detection technique using association rule mining
Heiding et al. Devising and detecting phishing: Large language models vs. smaller human models
CN103685254B (zh) 公共账号信息的安全检测方法与服务器
Wang et al. Into the deep web: Understanding e-commercefraud from autonomous chat with cybercriminals
CN106485436A (zh) 一种用于快递收件验证方法和装置
CN109478219A (zh) 用于显示网络分析的用户界面
CN106980778B (zh) 信息鉴定方法、装置和终端设备
CN112039874B (zh) 一种恶意邮件的识别方法及装置
CN108881593A (zh) 失信号码的显示方法及装置
CN106936807A (zh) 一种恶意操作的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220715

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right