CN108616413B - 信息校准方法和装置 - Google Patents

信息校准方法和装置 Download PDF

Info

Publication number
CN108616413B
CN108616413B CN201611148475.0A CN201611148475A CN108616413B CN 108616413 B CN108616413 B CN 108616413B CN 201611148475 A CN201611148475 A CN 201611148475A CN 108616413 B CN108616413 B CN 108616413B
Authority
CN
China
Prior art keywords
field
information
calibration
analyzed
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611148475.0A
Other languages
English (en)
Other versions
CN108616413A (zh
Inventor
刘旭东
温玉东
陶孝禹
熊可欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611148475.0A priority Critical patent/CN108616413B/zh
Publication of CN108616413A publication Critical patent/CN108616413A/zh
Application granted granted Critical
Publication of CN108616413B publication Critical patent/CN108616413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了信息校准方法和装置。上述方法的一具体实施方式包括:接收客户端发送的信息校准请求,其中,信息校准请求包括待解析字段;对待解析字段执行第一解析操作,确定是否解析成功;响应于确定解析失败,从待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,分类模型用于表征特征向量与类型的对应关系;基于各个特征向量的类型对待解析字段执行第二解析操作,生成第二校准信息;将第二校准信息发送至客户端,以使客户端根据第二校准信息进行信息校准。该实施方式减少了人力成本,提高了信息校准的准确性。

Description

信息校准方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息校准方法和装置。
背景技术
随着高速网络的出现,流量、话费监控类应用越来越普及。为了使用户可以准确而直观的得知流量、话费等使用情况,需要对上述监控类应用中所呈现的信息进行校准。
现有的信息校准方法通常是基于开发人员编写的正则表达式对运营商短信中的关键词进行匹配,来确定剩余的流量、话费情况。这种方法需要较大的人力成本进行编辑和维护,准确率较低且难以提升。
发明内容
本申请的目的在于提出一种改进的信息校准方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种信息校准方法,上述方法包括:接收客户端发送的信息校准请求,其中,上述信息校准请求包括待解析字段;对上述待解析字段执行第一解析操作,确定是否解析成功;响应于确定解析失败,从上述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系;基于各个特征向量的类型对上述待解析字段执行第二解析操作,生成第二校准信息;将上述第二校准信息发送至上述客户端,以使上述客户端根据上述第二校准信息进行信息校准。
在一些实施例中,上述信息校准请求还包括归属地标识和运营商标识;以及对上述待解析字段执行第一解析操作,确定是否解析成功,包括:加载与上述归属地标识匹配的目标配置文件,其中,上述目标配置文件用于存储位于上述归属地的多个运营商的配置信息,配置信息用于指示对字段的解析操作;确定上述目标配置文件中的与上述运营商标识匹配的目标配置信息;基于上述目标配置信息对上述待解析字段执行第一解析操作,确定是否解析成功。
在一些实施例中,在接收客户端发送的信息校准请求之前,上述方法还包括:获取位于多个归属地的多个运营商的短信模板;对所获取的短信模板进行相似度计算;基于相似度计算结果和所获取的短信模板,生成多个配置信息;将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
在一些实施例中,上述基于上述目标配置信息对上述待解析字段执行第一解析操作,确定是否解析成功,包括:响应于各个目标字段均解析成功,则确定上述待解析字段解析成功。
在一些实施例中,上述基于上述目标配置信息对上述待解析字段执行第一解析操作,确定是否解析成功,包括:响应于存在解析失败的目标字段,则确定上述待解析字段解析失败。
在一些实施例中,上述待解析字段包括业务类型字段;以及上述对上述待解析字段执行第一解析操作,包括:识别上述待解析字段中的业务类型字段,确定业务类型;提取预置的与上述业务类型匹配的待替换字段集合,其中,上述待替换字段集合中的每一个待替换字段与一个预设字段相对应;对于上述待替换字段集合中的每一个待替换字段,从上述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段;逐句切分上述待解析字段,生成多个待解析子字段;将包含业务信息的待解析子字段确定为目标字段,对上述目标字段进行解析,生成第一校准信息。
在一些实施例中,上述方法还包括:响应于解析成功,将上述第一校准信息发送至上述客户端,以使上述客户端根据上述第一校准信息进行信息校准。
在一些实施例中,上述响应于解析失败,从上述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量相匹配的类型,包括:响应于解析失败,加载预先训练的分类模型;对上述待解析字段进行切分,生成多个切分字段;对上述多个切分字段中的每一个切分字段进行特征提取,生成与上述分类模型的输入相匹配的特征向量;输入特征向量至上述分类模型,得到与各个切分字段相匹配的类型。
在一些实施例中,上述基于各个特征向量的类型对上述待解析字段执行第二解析操作,生成第二校准信息,包括:对于每一个切分字段,基于该切分字段的类型,获取预置的与该类型匹配的字段模板;基于字段模板对各个切分字段进行处理,生成第二校准信息。
在一些实施例中,上述分类模型通过以下步骤预先生成:将训练样本进行切分,生成多个切分样本,其中,上述多个切分样本中的每一个切分样本带有类型标识;提取每一个切分样本中的特征信息,生成特征向量;利用朴素贝叶斯算法和支持向量机,基于特征向量和类型标识,训练得到分类模型。
第二方面,本申请提供了信息校准装置,上述装置包括:接收单元,配置用于接收客户端发送的信息校准请求,其中,上述信息校准请求包括待解析字段;第一解析单元,配置用于对上述待解析字段执行第一解析操作,确定是否解析成功;确定单元,配置用于响应于确定解析失败,从上述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系;第二解析单元,配置用于基于各个特征向量的类型对上述待解析字段执行第二解析操作,生成第二校准信息;第一发送单元,配置用于将上述第二校准信息发送至上述客户端,以使上述客户端根据上述第二校准信息进行信息校准。
在一些实施例中,上述信息校准请求还包括归属地标识和运营商标识;以及上述第一解析单元包括:第一加载模块,配置用于加载与上述归属地标识匹配的目标配置文件,其中,上述目标配置文件用于存储位于上述归属地的多个运营商的配置信息,配置信息用于指示对字段的解析操作;确定模块,配置用于确定上述目标配置文件中的与上述运营商标识匹配的目标配置信息;解析模块,配置用于基于上述目标配置信息对上述待解析字段执行第一解析操作,确定是否解析成功。
在一些实施例中,上述装置还包括:获取单元,配置用于获取位于多个归属地的多个运营商的短信模板;计算单元,配置用于对所获取的短信模板进行相似度计算;生成单元,配置用于基于相似度计算结果和所获取的短信模板,生成多个配置信息;存储单元,配置用于将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
在一些实施例中,上述解析模块进一步配置用于:响应于各个目标字段均解析成功,则确定上述待解析字段解析成功。
在一些实施例中,上述解析模块进一步配置用于:响应于存在解析失败的目标字段,则确定上述待解析字段解析失败。
在一些实施例中,上述待解析字段包括业务类型字段;以及上述第一解析单元包括:识别模块,配置用于识别上述待解析字段中的业务类型字段,确定业务类型;提取模块,配置用于提取预置的与上述业务类型匹配的待替换字段集合,其中,上述待替换字段集合中的每一个待替换字段与一个预设字段相对应;替换模块,配置用于对于上述待替换字段集合中的每一个待替换字段,从上述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段;第一切分模块,配置用于逐句切分上述待解析字段,生成多个待解析子字段;第一生成模块,配置用于将包含业务信息的待解析子字段确定为目标字段,对上述目标字段进行解析,生成第一校准信息。
在一些实施例中,上述装置还包括:第二发送单元,配置用于响应于解析成功,将上述第一校准信息发送至上述客户端,以使上述客户端根据上述第一校准信息进行信息校准。
在一些实施例中,上述确定单元包括:第二加载模块,配置用于响应于解析失败,加载预先训练的分类模型;第二切分模块,配置用于对上述待解析字段进行切分,生成多个切分字段;提取模块,配置用于对上述多个切分字段中的每一个切分字段进行特征提取,生成与上述分类模型的输入相匹配的特征向量;输入模块,配置用于输入特征向量至上述分类模型,得到与各个切分字段相匹配的类型。
在一些实施例中,上述第二解析单元包括:获取模块,配置用于对于每一个切分字段,基于该切分字段的类型,获取预置的与该类型匹配的字段模板;第二生成模块,配置用于基于字段模板对各个切分字段进行处理,生成第二校准信息。
在一些实施例中,上述分类模型通过以下单元获得:切分单元,配置用于将训练样本进行切分,生成多个切分样本,其中,上述多个切分样本中的每一个切分样本带有类型标识;提取单元,配置用于提取每一个切分样本中的特征信息,生成特征向量;训练单元,配置用于利用朴素贝叶斯算法和支持向量机,基于特征向量和类型标识,训练得到分类模型。
本申请提供的信息校准方法和装置,通过对接收的信息校准请求所包括的待解析字段执行第一解析操作,而后响应于解析失败,从待解析字段中提取至少一个特征向量并基于分类模型确定特征向量匹配的类型,之后基于特征向量匹配的类型对待解析字段执行第二解析操作并生成第二校准信息,最后将第二校准信息发送至客户端以使客户端根据第二校准信息进行信息校准,从而减少了人力成本,提高了信息校准的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息校准方法的一个实施例的流程图;
图3是根据本申请的信息校准方法的一个应用场景的示意图;
图4是根据本申请的信息校准方法的又一个实施例的流程图;
图5是根据本申请的配置文件生成方法的一个实施例的流程图;
图6是对图4的流程图中的第一解析操作步骤的分解流程图;
图7是根据本申请的信息校准装置的一个实施例的结构示意图;
图8是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息校准方法或信息校准装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等,也可以安装有用于监控网络、话费等使用情况的信息监控类应用。
终端设备101、102、103可以是具有显示屏且支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、掌上电脑等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的监控类应用提供支持的云服务器。云服务器可以对接收到的信息校准请求等数据进行解析、分类等处理,并将处理结果(例如校准信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息校准方法一般由服务器105执行,相应地,信息校准装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息校准方法的一个实施例的流程200。所述的信息校准方法,包括以下步骤:
步骤201,接收客户端发送的信息校准请求。
在本实施例中,信息校准方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从安装有信息监控类应用的客户端(例如图1所示的终端设备101、102、103)接收信息校准请求,其中,上述信息校准请求包括了待解析字段。实践中,上述待解析字段可以是上述客户端所接收的运营商短信,上述运营商短信中可以包含用于描述业务信息(如流量信息、话费信息等)的字段,如“共有500MG”、“剩余话费0元”等。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
通常,上述客户端所安装的信息监控类应用可以对上述客户端所使用的流量、话费等进行实时监控,同时,也可以实时监控上述客户端所接收的运营商短信。当上述客户端接收到运营商所发送的短信时,上述信息监控类应用可以提取上述短信,并发送信息校准请求至上述电子设备,以供上述电子设备对上述短信中的内容进行解析。
步骤202,对待解析字段执行第一解析操作,确定是否解析成功。
在本实施例中,上述电子设备可以对上述待解析字段执行第一解析操作。此处,上述第一解析操作可以按照以下步骤执行:首先,从上述待解析字段中提取包含业务信息(如流量信息、话费信息等)的字段,将包含业务信息的字段作为目标字段。其中,上述目标字段可以是一个或多个,例如,“共500MB,已使用200MB,还剩余300MB”,“话费剩余100元”等。之后,上述电子设备可以将上述目标字段与预置在上述电子设备中的多个预设正则表达式进行匹配。需要说明的是,上述多个预设正则表达式可以是基于预先存储在上述电子设备中的各地运营商短信的内容而抽取出的。实践中,正则表达式通常可以被用来检索和/或替换文本内容。
在本实施例中,对于每一个目标字段,若该目标字段匹配到预设正则表达式,上述电子设备可以确定该目标字段解析成功;若该目标字段未匹配到预设正则表达式,则可以确定该目标字段解析失败。上述电子设备可以根据目标字段的解析结果确定上述待解析字段是否解析成功。
在本实施例的一些可选的实现方式中,响应于各个目标字段均解析成功,则上述电子设备可以确定上述待解析字段解析成功。也就是说,只有每一个目标字段均匹配到预设字段,才能确定上述待解析字段匹配成功。
在本实施例的一些可选的实现方式中,响应于存在解析失败的目标字段,则上述电子设备可以确定上述待解析字段解析失败。也就是说,只要任何一个目标字段无法匹配到预设字段,就可以确定匹配失败。当匹配失败时,上述电子设备可以不再进行下一个目标字段的匹配操作。
步骤203,响应于确定解析失败,从待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型。
在本实施例中,响应于步骤202确定解析失败,上述电子设备可以执行如下操作:首先对上述待解析字段进行特征提取得到多组特征词;然后,基于多组特征词生成与上述分类模型的输入相匹配的多个特征向量;最后,输入上述多个特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系。需要说明的是,上述特征词可以包括但不限于字、词、词组等。上述电子设备可以从上述待解析字段包含业务信息的每一整句中提取一组特征值,也可以从上述待解析字段包含业务信息的每一个分句中提取特征值。需要指出的是,上述特征向量可以是由多个特征词组成的向量,也可以是在对上述特征词进行处理(例如词频计算、文档频度计算、数据类型转换、缩放等等)后所生成的由数值组成的向量。
在本实施例中,上述电子设备中可以预先存储多条运营商短信,并周期性的对所存储的运营商短信进行更新。其中,对于所存储的每一条运营商短信,该运营商短信中包含多个带有业务信息的语句,每个语句带有类型标识。上述分类模型可以是基于所存储的运营商短信、通过机器学习方法周期性的训练而得到的。需要说明的是,在对分类模型的训练过程中,基于不同特征向量维度,可以训练得到多个初始分类模型,上述电子设备可以计算各个初始分类模型所输出的分类结果的正确率,将正确率最高的模型作为分类模型。
在本实施例中,上述分类模型可输出的类型可以包括预先划分的各种类型。例如,针对流量业务可以将上述类型划分为通用流量类、闲时流量类、定向流量类、总计流量类等多个类型。对于上述多个类型中的每一个类型,还可以细分为总额流量类、已用流量类、剩余流量、超出流量类等类型。作为示例,响应于一组特征词为“闲时,流量,共,使用,剩余”,则基于上述分类模型,可以确定基于上述特征词生成的特征向量所匹配的类型为闲时流量类。作为又一示例,响应于一组特征词为“剩余,流量”,则基于上述分类模型,可以确定基于上述特征词生成的特征向量所匹配的类型为剩余流量类。
在本实施例的一些可选的实现方式中,上述电子设备可以首先利用各种分词方法将上述待解析字段分割成词;之后,从分割所得到的词中提取特征词。上述分词方法可以是基于统计的分词方法。具体的,可以对上述待解析字段中的相邻的各个字的组合的频度进行统计,计算出字的组合出现的频率。当上述概率高于预设概率阈值时,则判定上述组合构成了词,从而实现对上述待解析字段的分词。此外,上述分词方法还可以是基于字符串匹配原理的分词方法,利用字符串匹配原理将上述待解析字段和预置在上述电子设备中的机器词典中的字符串进行匹配,其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、设立切分标注法、逐词遍历匹配法、正向最佳匹配法、逆向最佳匹配法等等。
在本实施例的一些可选的实现方式中,上述电子设备中可以预先存储特征词集合,其中,上述特征词集合中包括多个特征词。上述电子设备从分割所得到的词中提取特征词,可以按照如下步骤执行:首先,提取上述特征词集合;之后,将从分割所得到的词与上述特征词集合中的特征词进行字符串匹配;最后,将匹配到的词作为特征词进行提取。
在本实施例的一些可选的实现方式中,上述电子设备从分割所得到的词中提取特征词,可以按照如下步骤进行:首先可以对分割所得到的词进行重要性计算(例如采用词频-逆向文件频率方法(TF-IDF,Term Frequency-Inverse Document Frequency));之后,基于重要性计算的结果来得到关键词,将所得到的关键词作为特征词。
需要说明的是,上述分词方法、重要性计算方法和字符串匹配原理是目前广泛研究和应用的公知技术,在此不再赘述。
步骤204,基于各个特征向量的类型对待解析字段执行第二解析操作,生成第二校准信息。
在本实施例中,上述电子设备可以基于各个特征向量的类型对待解析字段执行第二解析操作,生成第二校准信息。此处,上述第二解析操作可以按照以下两个步骤执行:
第一步,对于每一个特征向量,上述电子设备可以首先为该特征向量对应的特征词所在的语句标记类型标识。需要说明的是,对于每一个特征向量对应的语句,该语句的类型标识可以用于指示该语句的类型。上述类型标识可以由字母和/或数字组成,上述分类模型可输出的每一种类型对应一个类型标识。作为示例,与从整句“通用流量共500MB,已使用200MB,还剩余300MB”中提取的特征向量相匹配的类型为通用流量类,则可以为该整句标记用于指示类型为通用流量类的类型标识,此处,该整句的各个分句均视为带有用于指示类型为通用流量类的类型标识;与从上述整句中的分句“已使用200MB”中提取的特征向量所匹配的类型为已用流量类,则可以为该分句标记用于指示类型为已用流量类的类型标识。
第二步,提取带有类型标识的语句,对所提取的语句进行处理,例如,可以对所提取的语句进行单位转换,也可以对所提取的语句中的字段进行去除、补全、合并、替换等处理。作为示例,提取带有通用流量类和总额流量类的类型标识的语句“通用流量共0.5GB”,将该语句中的数值“0.5GB”替换为“500MB”,以统一单位。作为又一示例,提取带有剩余流量类的类型标识的语句“现已使用完毕”,将该语句替换为“还剩余0M”。
在本实施例中,在对带有类型标识的语句进行处理后,上述电子设备可以基于带有类型标识的各个语句中的数值,生成第二校准信息。实践中,可以以类型标识为键,以类型标识所所指示的语句中的数值为值,生成键值对形式的第二校准信息。其中,上述第二校准信息可以是各种格式,例如JSON(JavaScript Object Notation,JavaScript对象表示法)、XML(Extensible Markup Language,可扩展标记语言)等。
步骤205,将第二校准信息发送至客户端,以使客户端根据第二校准信息进行信息校准。
在本实施例中,上述电子设备可以将步骤204生成的第二校准信息发送至客户端,以使上述客户端读取上述第二校准信息,并基于上述第二校准信息与上述客户端所存储的当前信息的比较进行信息校准。实践中,上述客户端所安装的信息监控类客户端应用在接收到上述第二校准信息后,可以从所存储的当前信息中获取当前的流量、话费等数值,并确定所获取的数值是否与第二校准信息中相应的数值相匹配。响应于不匹配,则可以将所存储的当前信息中的数值替换为第二校准信息中的相应数值。
继续参见图3,图3是根据本实施例的信息校准方法的应用场景的一个示意图。在图3的应用场景中,首先,手机终端301在接收到带有流量使用信息的运营商短信302后,生成对所安装的流量监控应用的信息校准请求303,并将上述信息校准请求303发送至云服务器304,其中,信息校准请求303中包含运营商短信的字段;之后,上述云服务器304对接收到的运营商短信的字段执行包括字符串提取、字符串匹配等操作的第一解析操作;而后,响应于解析失败,上述云服务器304从上述运营商短信的字段中提取多个特征向量并输入至预先训练的分类模型,确定出与各个特征向量匹配的类型;然后,上述云服务器304基于各个特征向量的类型上述待解析字段执行第二解析操作,生成第二校准信息305;最后,上述云服务器304将上述第二校准信息发送至上述手机终端301。上述手机终端301可以根据接收到的第二校准信息305对所存储的当前流量信息进行校准,并将校准后的当前流量信息呈现在上述流量监控应用的交互界面中。
本申请的上述实施例提供的方法通过对接收的信息校准请求所包括的待解析字段执行第一解析操作,而后响应于解析失败,从待解析字段中提取至少一个特征向量并基于分类模型确定特征向量匹配的类型,之后基于特征向量匹配的类型对待解析字段执行第二解析操作并生成第二校准信息,最后将第二校准信息发送至客户端以使客户端根据第二校准信息进行信息校准。由于引入了机器学习方案,从而减少了人力成本,提高了信息校准的准确性。
进一步参考图4,其示出了信息校准方法的又一个实施例的流程400。该信息校准方法的流程400,包括以下步骤:
步骤401,接收客户端发送的信息校准请求。
在本实施例中,信息校准方法运行于其上的电子设备(例如图1所示的服务器105)可以从安装有信息监控类应用的客户端(例如图1所示的终端设备101、102、103)接收信息校准请求,其中,上述信息校准请求包括了待解析字段。实践中,上述待解析字段可以是上述客户端所接收的运营商短信,上述运营商短信中可以包含用于描述业务信息(如流量信息、话费信息等)的字段。
在本实施例中,上述信息校准请求还可以包括归属地标识和运营商标识。上述归属地标识和运营商标识可以分别用于指示与待校准的信息所匹配的归属地和运营商(如中国移动、中国联通、中国电信等),其中,上述归属地可以是以省份划分的。实践中,上述客户端可以从上述信息监控类应用所存储的手机号码中提取上述归属地标识和运营商标识。通常,手机号码的第4-7位为地区编码,第1-3位为网络识别号,可以将上述地区编码作为归属地标识,将上述网络识别号作为运营商标识。此外,上述客户端还可以从ICCID(Integratecircuit card identity,集成电路卡识别码)等其他识别码中提取上述归属地标识和运营商标识。实践中,ICCID存储于SIM(Subscriber Identification Module,客户识别模块)卡中,通常由20位数字组成。
步骤402,加载与归属地标识匹配的目标配置文件。
在本实施例中,上述电子设备中可以预先存储以归属地划分的多个配置文件。上述电子设备可以将与步骤401接收的归属地标识相匹配的配置文件作为目标配置文件,加载上述目标配置文件。其中,上述目标配置文件可以用于存储位于上述归属地的多个运营商的配置信息,其中,配置信息中可以包含运营商标识。另外,配置信息可以用于指示对字段的解析操作(如匹配、替换、合并、去除等操作)。需要指出的是,上述多个配置文件和上述目标配置文件的格式可以是YAML(Yet Another Markup Language,另一种标记语言)格式。
对于步骤402中所述的以归属地划分的多个配置文件的生成方式,可以参照图5。图5给出了根据本申请的生成配置文件的一个实施例的流程图。该配置文件的生成方法500,包括以下步骤:
步骤501,获取位于多个归属地的多个运营商的短信模板。
在本实施例中,上述电子设备可以本地或与上述电子设备相连接的数据库中获取各个省份的多个运营商的短信模板。其中,上述短信模板可以是运营商发送的含有业务信息的短信字段。由于运营商可以提供多种业务的服务,因此,可以有与上述多种业务相应的多种短信字段。
步骤502,对所获取的短信模板进行相似度计算。
在本实施例中,上述电子设备可以基于各种相似度计算方式确定短信模板之间的相似度。作为示例,上述电子设备可以基于余弦定理、欧氏距离、杰卡德相似性度量方法等来进行短信模板之间的相似度计算。需要说明的是,上述相似度计算方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤503,基于相似度计算结果和所获取的短信模板,生成多个配置信息。
在本实施例中,上述电子设备可以将相似度超过预设的相似度阈值的短信模板确定为一组相似模板;之后,对于每一组相似模板,对该组相似模板中的短信模板进行合并、去重、语句去除等处理,生成新的短信模板,以上述新的短信模板替换该组相似模板中的各个短信模板;最后,基于对短信模板的处理结果,生成以归属地和运营商划分的多个配置信息,其中,配置信息中可以包括基于短信模板而生成的多个匹配用例,如正则表达式等。
步骤504,将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
在本实施例中,上述电子设备可以将位于同一归属地的各个运营商的配置信息存储至同一配置文件,生成以归属地划分的多个配置文件,并将上述多个配置文件存储在本地。
继续参见图4中的流程,在加载与归属地标识匹配的目标配置文件后,上述电子设备可以继续执行以下步骤。
步骤403,确定目标配置文件中的与运营商标识匹配的目标配置信息。
在本实施例中,由于上述目标配置文件可以存储位于上述归属地的多个运营商的配置信息,且上述配置信息中可以包含运营商标识,因此,上述电子设备可以将与步骤401接收的归属地标识相匹配的配置信息确定为目标配置信息。
步骤404,基于目标配置信息对待解析字段执行第一解析操作,确定是否解析成功。
在本实施例中,上述电子设备可以基于步骤403确定的目标配置信息,对步骤401接收的待解析字段执行第一解析操作,确定是否解析成功。
在本实施例中,对上述待解析字段执行第一解析操作,可以进一步参考图6,图6是对上述第一解析操作步骤的分解流程图。在图6中,将步骤404分解成如下的5个子步骤,即:步骤4041、步骤4042、步骤4043、步骤4044和步骤4045。
步骤4041,识别待解析字段中的业务类型字段,确定业务类型。
在本实施例中,上述电子设备中可以预先存储预设业务类型字段。上述电子设备可以利于字符串匹配方式从上述待解析字段中检索与上述预设业务类型字段相匹配的字段,并确定业务类型。实践中,上述业务类型字段通常位于待解析字段的首句。作为示例,上述业务类型字段可以是字符串“流量提醒”、“话费提醒”等,相应的业务类型为流量业务、话费业务等。
步骤4042,提取预置的与业务类型匹配的待替换字段集合。
在本实施例中,上述电子设备中可以预先存储多个待替换字段集合,其中,上述多个待替换字段集合中的每一个待替换字段集合与一种业务类型相匹配。上述电子设备可以从本地提取与步骤4041确定的业务类型相匹配的待替换字段集合。需要说明的是,待替换字段集合中的每一个待替换字段与一个预设字段相对应。作为示例,与流量业务相匹配的待替换字段集合中的一个待替换字段为“共N GB,现已使用完毕”,相对应的预设字段可以是“共N GB,已使用N GB,还剩余0M”;对于待替换字段“升级4G卡免费,另送M元话费”,相应的预设字段可以为空字符串。需要说明的是,上述N、M可以为数值。
步骤4043,对于待替换字段集合中的每一个待替换字段,从待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段。
在本实施例中,对于步骤4042提取的待替换字段集合中的每一个待替换字段,上述电子设备中可以利用字符串匹配方式,从上述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段。
作为示例,上述待解析字段中存在字段“共1GB,现已使用完毕”和“升级4G卡免费,另送10元话费”。与流量业务相匹配的待替换字段集合中包含待替换字段“共N GB,现已使用完毕”和“升级4G卡免费,另送M元话费”。与上述待替换字段“共N GB,现已使用完毕”对应的预设字段为“共N GB,已使用N GB,还剩余0M”;与上述待替换字段“升级4G卡免费,另送M元话费”对应的预设字段为空字符串“”。因此,上述电子设备可以利用正则匹配方式对上述待解析字段进行检索,并将字段“共1GB,已使用1GB,还剩余0M”替换为“共1GB,已使用1GB,还剩余0M”,同时,将字符串“升级4G卡免费,另送10元话费”替换为空字符串“”。需要说明的是,上述N可以为任意大于零的数值。
步骤4044,逐句切分待解析字段,生成多个待解析子字段。
在本实施例中,上述电子设备可以首先查找上述待解析字段中的预设标点符号,如句号、分号等;之后,在上述预设标点符号处对上述待解析字段进行切分,生成多个待解析子字段。
步骤4045,将包含业务信息的待解析子字段确定为目标字段,对目标字段进行解析,生成第一校准信息。
在本实施例中,上述电子设备中可以首先从步骤4044生成的多个待解析子字段中查找包含业务信息(如流量信息、话费信息等)的待解析子字段;之后,将包含业务信息的待解析子字段确定为目标字段,其中,上述目标字段可以是一个或多个;然后,将上述目标字段与预置在上述电子设备中的多个预设正则表达式进行匹配,其中,上述多个预设正则表达式可以是基于预先存储在上述电子设备中的各地运营商短信的内容而抽取出的;最后,将匹配到的目标字段进行单位转换、去除、补全、合并、标记等处理,生成第一校准信息。其中,上述第一校准信息可以包括对上述匹配到的目标字段进行处理后的流量信息(如总计流量、通用流量、闲时流量、定向流量等)、话费信息(剩余话费等)等。实践中,上述第一校准信息可以是各种格式,例如JSON、XML等。
在本实施例中,对于每一个目标字段,若该目标字段匹配到预设正则表达式,上述电子设备可以确定该目标字段解析成功;若该目标字段未匹配到预设正则表达式,则可以确定该目标字段解析失败。响应于各个目标字段均解析成功,则上述电子设备可以确定上述待解析字段解析成功,并执行步骤405。响应于存在解析失败的目标字段,则上述电子设备可以确定上述待解析字段解析失败,并执行步骤406-408。
步骤405,响应于解析成功,将第一校准信息发送至客户端,以使客户端根据第一校准信息进行信息校准。
在本实施例中,响应于步骤404确定上述待解析字段解析成功,上述电子设备可以将步骤404生成的第一校准信息发送至上述客户端,以使上述客户端读取上述第一校准信息,并基于上述第一校准信息与上述客户端所存储的当前信息的比较进行信息校准。实践中,上述客户端所安装的信息监控类客户端应用在接收到上述第一校准信息后,可以从所存储的当前信息中获取当前的流量、话费等数值,并确定所获取的数值是否与第一校准信息中相应的数值相匹配。响应于不匹配,则可以将所存储的当前信息中的数值替换为第一校准信息中的相应数值。
步骤406,响应于确定解析失败,从待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型。
在本实施例中,响应于步骤404确定上述待解析字段解析失败,上述电子设备可以首先加载预先训练的分类模型;之后,对上述待解析字段进行切分,生成多个切分字段;然后,对上述多个切分字段中的每一个切分字段进行特征提取,生成与上述分类模型的输入相匹配的特征向量;最后,输入特征向量至上述分类模型,得到与各个切分字段相匹配的类型。
在本实施例中,上述电子设备可以基于两种切分方式对上述待解析字段分别进行切分,生成多个切分字段,其中,上述多个切分字段可以包括多个第一切分字段和多个第二切分字段。具体的,上述电子设备可以逐句对上述待解析字段进行切分,每一句作为一个第一切分字段;同时,也可以首先对上述待解析字段进行业务信息的检索,之后,对每个包含业务信息的字段进行标点插入,在所插入的标点处进行切分,将每一个包含业务信息的语句确定为一个第二切分字段。
在本实施例中,上述电子设备可以对上述多个第一切分字段中的每一个第一切分字段、上述多个第二切分字段中的每一个第二切分字段进行特征提取,生成与上述分类模型的输入相匹配的特征向量。具体的,可以首先从每一个第一切分字段、第二切分字段中提取特征词,并对所提取的特征词进行处理生成特征向量。
需要说明的是,上述步骤406中的特征词提取、特征向量生成的具体操作与步骤203的具体操作基本相同,在此不再赘述。
在本实施例中,上述分类模型可以通过以下步骤预先生成:首先,将训练样本进行切分,生成多个切分样本,其中,上述多个切分样本中的每一个切分样本可以带有类型标识;之后,提取每一个切分样本中的特征信息,生成特征向量;然后,利用机器学习的方法,以特征向量作为输入,以类型标识作为输出,训练得到分类模型。
在本实施例中,上述利用机器学习的方法,以特征向量作为输入,以类型标识作为输出,训练得到分类模型,可以是基于朴素贝叶斯算法和支持向量机相结合方法,训练分类模型。具体的,上述电子设备可以基于朴素贝叶斯算法,将从第一切分字段提取的特征向量作为输入,以第一切分字段的类型作为输出,同时基于支持向量机,将从第二切分字段提取的特征向量作为输入,以第二切分字段的类型作为输出,训练分类模型。需要指出的是,上述朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法;上述支持向量机是与学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。
需要说明的是,上述朴素贝叶斯算法和上述支持向量机是目前广泛研究和应用的公知技术,在此不再赘述。
步骤407,基于各个特征向量的类型对待解析字段执行第二解析操作,生成第二校准信息。
在本实施例中,对于每一个特征向量,上述电子设备中可以为该特征向量对应的特征词所在的语句标记类型标识,上述类型标识可以包括第一类型标识和第二类型标识。具体的,对于每一个特征向量,响应于该特征向量为从第一切分字段中所提取的,则对该第一切分字段标记第一类型标识;响应于该特征向量为从第二切分字段中所提取的,则对该第二切分字段标记第二类型标识。作为示例,与第一切分字段“闲时共500MB已使用200MB还剩余300MB”匹配的类型为闲时流量类,则可以为该第一切分字段标记用于指示类型为闲时流量类的类型标识;与第二切分字段“已使用200MB”匹配的类型为已用流量类,则可以为该第二切分字段标记用于指示类型为已用流量类的类型标识。
在本实施例中,上述电子设备中可以预先存储多个字段模板,每一个字段模板可以对应一个类型标识。对于每一个字段模板,上述电子设备可以基于该字段模板对应的类型标识,获取与该类型标识匹配的切分字段;之后,基于字段模板的格式,从各个切分字段中提取数值,进行单位转换、补全、去除、统计计算等处理,生成第二校准信息。需要说明的是,上述多个字段模板可以是多个正则表达式,也可以是多个字段。
作为示例,上述待解析字段中包含字段“闲时总流量500M,已使用流量500M,剩余流量0M”和“通用总流量100M,已使用流量50M,剩余流量50M”。上述多个字段模板中包含与指示类型为总额流量类的类型标识相对应的字段模板,则上述电子设备可以基于该字段模板,对上述待解析字段中的数值进行统计计算等处理,生成字段“共600M,已使用550M,还剩余50M”。需要说明的是,上述第二校准信息可以是各种格式,例如JSON、XML等。
步骤408,将第二校准信息发送至客户端,以使客户端根据第二校准信息进行信息校准。
在本实施例中,上述电子设备可以将步骤407生成的第二校准信息发送至客户端,以使上述客户端读取上述第二校准信息,并基于上述第二校准信息与上述客户端所存储的当前信息的比较进行信息校准。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息校准方法的流程400突出了选取配置文件、基于配置文件进行解析和生成第一校准信息的步骤。由此,本实施例描述的方案不仅提高了信息校准的准确性,更进一步的降低了人力成本和维护成本。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了一种信息校准装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例所述的信息校准装置700包括:接收单元701,配置用于接收客户端发送的信息校准请求,其中,上述信息校准请求包括待解析字段;第一解析单元702,配置用于对上述待解析字段执行第一解析操作,确定是否解析成功;确定单元703,配置用于响应于确定解析失败,从上述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系;第二解析单元704,配置用于基于各个特征向量的类型对上述待解析字段执行第二解析操作,生成第二校准信息;第一发送单元705,配置用于将上述第二校准信息发送至上述客户端,以使上述客户端根据上述第二校准信息进行信息校准。
在本实施例中,信息校准装置700的接收单元701可以通过有线连接方式或者无线连接方式从安装有信息监控类应用的客户端(例如图1所示的终端设备101、102、103)接收信息校准请求,其中,上述信息校准请求包括了待解析字段。实践中,上述待解析字段可以是上述客户端所接收的运营商短信,上述运营商短信中可以包含用于描述业务信息(如流量信息、话费信息等)的字段。
在本实施例中,上述第一解析单元702可以对上述待解析字段执行第一解析操作。此处,上述第一解析操作可以按照以下步骤执行:首先,从上述待解析字段中提取包含业务信息(如流量信息、话费信息等)的字段,将包含业务信息的字段作为目标字段。对于每一个目标字段,若该目标字段匹配到预设字段,上述电子设备可以确定该目标字段解析成功;若该目标字段未匹配到预设字段,则可以确定该目标字段解析失败。上述电子设备可以根据目标字段的解析结果确定上述待解析字段是否解析成功。
在本实施例中,响应于确定解析失败,上述确定单元703可以执行如下操作:首先对上述待解析字段进行特征提取得到多组特征词;然后,基于多组特征词生成与上述分类模型的输入相匹配的多个特征向量;最后,输入上述多个特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系。
在本实施例中,上述第二解析单元704可以基于各个特征向量的类型对待解析字段执行第二解析操作,生成第二校准信息。此处,上述第二解析操作可以按照以下两个步骤执行:第一步,对于每一个特征向量,上述电子设备可以首先为该特征向量对应的特征词所在的语句标记类型标识。第二步,提取带有类型标识的语句,对所提取的语句进行处理,例如,可以对所提取的语句进行单位转换,也可以对所提取的语句中的字段进行去除、补全、合并、替换等处理。
在本实施例中,上述第一发送单元705可以将上述第二校准信息发送至客户端,以使上述客户端读取上述第二校准信息,并基于上述第二校准信息与上述客户端所存储的当前信息的比较进行信息校准。实践中,上述客户端所安装的信息监控类客户端应用在接收到上述第二校准信息后,可以从所存储的当前信息中获取当前的流量、话费等数值,并确定所获取的数值是否与第二校准信息中相应的数值相匹配。响应于不匹配,则可以将所存储的当前信息中的数值替换为第二校准信息中的相应数值。
在本实施例的一些可选的实现方式中,上述信息校准请求还包括归属地标识和运营商标识;以及上述第一解析单元702可以包括第一加载模块、确定模块和解析模块(图中未示出)。上述第一加载模块可以配置用于加载与上述归属地标识匹配的目标配置文件,其中,上述目标配置文件用于存储位于上述归属地的多个运营商的配置信息,配置信息用于指示对字段的解析操作;上述确定模块可以配置用于确定上述目标配置文件中的与上述运营商标识匹配的目标配置信息;上述解析模块可以配置用于基于上述目标配置信息对上述待解析字段执行第一解析操作,确定是否解析成功。
在本实施例的一些可选的实现方式中,上述信息校准装置700还可以包括获取单元、计算单元、生成单元和存储单元(图中未示出)。上述获取单元可以配置用于获取位于多个归属地的多个运营商的短信模板;上述计算单元可以配置用于对所获取的短信模板进行相似度计算;上述生成单元可以配置用于基于相似度计算结果和所获取的短信模板,生成多个配置信息;上述存储单元可以配置用于将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
在本实施例的一些可选的实现方式中,上述解析模块可以进一步配置用于:响应于各个目标字段均解析成功,则确定上述待解析字段解析成功。
在本实施例的一些可选的实现方式中,上述解析模块可以进一步配置用于:响应于存在解析失败的目标字段,则确定上述待解析字段解析失败。
在本实施例的一些可选的实现方式中,上述待解析字段可以包括业务类型字段;上述第一解析单元702可以包括识别模块、提取模块、替换模块、第一切分模块和第一生成模块(图中未示出)。上述识别模块可以配置用于识别上述待解析字段中的业务类型字段,确定业务类型;上述提取模块可以配置用于提取预置的与上述业务类型匹配的待替换字段集合,其中,上述待替换字段集合中的每一个待替换字段与一个预设字段相对应;上述替换模块可以配置用于对于上述待替换字段集合中的每一个待替换字段,从上述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段;上述第一切分模块可以配置用于逐句切分上述待解析字段,生成多个待解析子字段;上述第一生成模块可以配置用于将包含业务信息的待解析子字段确定为目标字段,对上述目标字段进行解析,生成第一校准信息。
在本实施例的一些可选的实现方式中,上述信息校准装置700还可以包括第二发送单元。上述第二发送单元可以配置用于响应于解析成功,将上述第一校准信息发送至上述客户端,以使上述客户端根据上述第一校准信息进行信息校准。
在本实施例的一些可选的实现方式中,上述确定单元703可以包括第二加载模块、第二切分模块、提取模块和输入模块(图中未示出)。上述第二加载模块可以配置用于响应于解析失败,加载预先训练的分类模型;上述第二切分模块可以配置用于对上述待解析字段进行切分,生成多个切分字段;上述提取模块,配置用于对上述多个切分字段中的每一个切分字段进行特征提取可以生成与上述分类模型的输入相匹配的特征向量;上述输入模块可以配置用于输入特征向量至上述分类模型,得到与各个切分字段相匹配的类型。
在本实施例的一些可选的实现方式中,上述第二解析单元704可以包括获取模块和第二生成模块(图中未示出)。上述获取模块可以配置用于对于每一个切分字段,基于该切分字段的类型,获取预置的与该类型匹配的字段模板;上述第二生成模块可以配置用于基于字段模板对各个切分字段进行处理,生成第二校准信息。
在本实施例的一些可选的实现方式中,上述分类模型可以通过切分单元、提取单元和训练单元(图中未示出)获得。上述切分单元可以配置用于将训练样本进行切分,生成多个切分样本,其中,上述多个切分样本中的每一个切分样本带有类型标识;上述提取单元可以配置用于提取每一个切分样本中的特征信息,生成特征向量;上述训练单元可以配置用于利用朴素贝叶斯算法和支持向量机,基于特征向量和类型标识,训练得到分类模型。
本申请的上述实施例提供的装置,通过第一解析单元702对接收单元701接收的信息校准请求所包括的待解析字段执行第一解析操作,而后确定单元703响应于解析失败,从待解析字段中提取至少一个特征向量并基于分类模型确定特征向量匹配的类型,之后第二解析单元704基于特征向量匹配的类型对待解析字段执行第二解析操作并生成第二校准信息,最后第一发送单元705将第二校准信息发送至客户端以使客户端根据第二校准信息进行信息校准,从而减少了人力成本,提高了信息校准的准确性。
下面参考图8,其示出了适于用来实现本申请的终端设备或服务器的计算机系统800的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的
程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、第一解析单元、确定单元、第二解析单元和发送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收客户端发送的信息校准请求的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:接收客户端发送的信息校准请求,其中,上述信息校准请求包括待解析字段;对上述待解析字段执行第一解析操作,确定是否解析成功;响应于确定解析失败,从上述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,上述分类模型用于表征特征向量与类型的对应关系;基于各个特征向量的类型对上述待解析字段执行第二解析操作,生成第二校准信息;将上述第二校准信息发送至上述客户端,以使上述客户端根据上述第二校准信息进行信息校准。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种信息校准方法,其特征在于,所述方法包括:
接收客户端发送的信息校准请求,其中,所述信息校准请求还包括待解析字段、归属地标识和运营商标识;
对所述待解析字段执行第一解析操作,确定是否解析成功;
响应于确定解析失败,从所述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,所述分类模型用于表征特征向量与类型的对应关系;
基于各个特征向量的类型对所述待解析字段执行第二解析操作,生成第二校准信息;
将所述第二校准信息发送至所述客户端,以使所述客户端根据所述第二校准信息进行信息校准。
2.根据权利要求1所述的信息校准方法,其特征在于,对所述待解析字段执行第一解析操作,确定是否解析成功,包括:
加载与所述归属地标识匹配的目标配置文件,其中,所述目标配置文件用于存储位于所述归属地的多个运营商的配置信息,配置信息用于指示对字段的解析操作;
确定所述目标配置文件中的与所述运营商标识匹配的目标配置信息;
基于所述目标配置信息对所述待解析字段执行第一解析操作,确定是否解析成功。
3.根据权利要求2所述的信息校准方法,其特征在于,在接收客户端发送的信息校准请求之前,所述方法还包括:
获取位于多个归属地的多个运营商的短信模板;
对所获取的短信模板进行相似度计算;
基于相似度计算结果和所获取的短信模板,生成多个配置信息;
将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
4.根据权利要求2所述的信息校准方法,其特征在于,所述基于所述目标配置信息对所述待解析字段执行第一解析操作,确定是否解析成功,包括:
响应于各个目标字段均解析成功,则确定所述待解析字段解析成功。
5.根据权利要求2所述的信息校准方法,其特征在于,所述基于所述目标配置信息对所述待解析字段执行第一解析操作,确定是否解析成功,包括:
响应于存在解析失败的目标字段,则确定所述待解析字段解析失败。
6.根据权利要求1-5之一所述的信息校准方法,其特征在于,所述待解析字段包括业务类型字段;以及
所述对所述待解析字段执行第一解析操作,包括:
识别所述待解析字段中的业务类型字段,确定业务类型;
提取预置的与所述业务类型匹配的待替换字段集合,其中,所述待替换字段集合中的每一个待替换字段与一个预设字段相对应;
对于所述待替换字段集合中的每一个待替换字段,从所述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段;
逐句切分所述待解析字段,生成多个待解析子字段;
将包含业务信息的待解析子字段确定为目标字段,对所述目标字段进行解析,生成第一校准信息。
7.根据权利要求6所述的信息校准方法,其特征在于,所述方法还包括:
响应于解析成功,将所述第一校准信息发送至所述客户端,以使所述客户端根据所述第一校准信息进行信息校准。
8.根据权利要求1所述的信息校准方法,其特征在于,所述响应于解析失败,从所述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量相匹配的类型,包括:
响应于解析失败,加载预先训练的分类模型;
对所述待解析字段进行切分,生成多个切分字段;
对所述多个切分字段中的每一个切分字段进行特征提取,生成与所述分类模型的输入相匹配的特征向量;
输入特征向量至所述分类模型,得到与各个切分字段相匹配的类型。
9.根据权利要求8所述的信息校准方法,其特征在于,所述基于各个特征向量的类型对所述待解析字段执行第二解析操作,生成第二校准信息,包括:
对于每一个切分字段,基于该切分字段的类型,获取预置的与该类型匹配的字段模板;
基于字段模板对各个切分字段进行处理,生成第二校准信息。
10.根据权利要求1所述的信息校准方法,其特征在于,所述分类模型通过以下步骤预先生成:
将训练样本进行切分,生成多个切分样本,其中,所述多个切分样本中的每一个切分样本带有类型标识;
提取每一个切分样本中的特征信息,生成特征向量;
利用朴素贝叶斯算法和支持向量机,基于特征向量和类型标识,训练得到分类模型。
11.一种信息校准装置,其特征在于,所述装置包括:
接收单元,配置用于接收客户端发送的信息校准请求,其中,所述信息校准请求包括待解析字段、归属地标识和运营商标识;
第一解析单元,配置用于对所述待解析字段执行第一解析操作,确定是否解析成功,其中包括第一加载模块,配置用于加载与所述归属地标识匹配的目标配置文件,其中,所述目标配置文件用于存储位于所述归属地的多个运营商的配置信息,配置信息用于指示对字段的解析操作;
确定单元,配置用于响应于确定解析失败,从所述待解析字段中提取至少一个特征向量,输入特征向量至预先训练的分类模型,确定出与各个特征向量匹配的类型,其中,所述分类模型用于表征特征向量与类型的对应关系;
第二解析单元,配置用于基于各个特征向量的类型对所述待解析字段执行第二解析操作,生成第二校准信息;
第一发送单元,配置用于将所述第二校准信息发送至所述客户端,以使所述客户端根据所述第二校准信息进行信息校准。
12.根据权利要求11所述的信息校准装置,其特征在于,所述第一解析单元还包括:
确定模块,配置用于确定所述目标配置文件中的与所述运营商标识匹配的目标配置信息;
解析模块,配置用于基于所述目标配置信息对所述待解析字段执行第一解析操作,确定是否解析成功。
13.根据权利要求12所述的信息校准装置,其特征在于,所述装置还包括:
获取单元,配置用于获取位于多个归属地的多个运营商的短信模板;
计算单元,配置用于对所获取的短信模板进行相似度计算;
生成单元,配置用于基于相似度计算结果和所获取的短信模板,生成多个配置信息;
存储单元,配置用于将位于同一归属地的各个运营商的配置信息存储至同一配置文件。
14.根据权利要求12所述的信息校准装置,其特征在于,所述解析模块进一步配置用于:
响应于各个目标字段均解析成功,则确定所述待解析字段解析成功。
15.根据权利要求12所述的信息校准装置,其特征在于,所述解析模块进一步配置用于:
响应于存在解析失败的目标字段,则确定所述待解析字段解析失败。
16.根据权利要求11-15之一所述的信息校准装置,其特征在于,所述待解析字段包括业务类型字段;以及
所述第一解析单元包括:
识别模块,配置用于识别所述待解析字段中的业务类型字段,确定业务类型;
提取模块,配置用于提取预置的与所述业务类型匹配的待替换字段集合,其中,所述待替换字段集合中的每一个待替换字段与一个预设字段相对应;
替换模块,配置用于对于所述待替换字段集合中的每一个待替换字段,从所述待解析字段中检索与该待替换字段匹配的字段,将检索出的字段替换为与该待替换字段对应的预设字段;
第一切分模块,配置用于逐句切分所述待解析字段,生成多个待解析子字段;
第一生成模块,配置用于将包含业务信息的待解析子字段确定为目标字段,对所述目标字段进行解析,生成第一校准信息。
17.根据权利要求16所述的信息校准装置,其特征在于,所述装置还包括:
第二发送单元,配置用于响应于解析成功,将所述第一校准信息发送至所述客户端,以使所述客户端根据所述第一校准信息进行信息校准。
18.根据权利要求11所述的信息校准装置,其特征在于,所述确定单元包括:
第二加载模块,配置用于响应于解析失败,加载预先训练的分类模型;
第二切分模块,配置用于对所述待解析字段进行切分,生成多个切分字段;
提取模块,配置用于对所述多个切分字段中的每一个切分字段进行特征提取,生成与所述分类模型的输入相匹配的特征向量;
输入模块,配置用于输入特征向量至所述分类模型,得到与各个切分字段相匹配的类型。
19.根据权利要求18所述的信息校准装置,其特征在于,所述第二解析单元包括:
获取模块,配置用于对于每一个切分字段,基于该切分字段的类型,获取预置的与该类型匹配的字段模板;
第二生成模块,配置用于基于字段模板对各个切分字段进行处理,生成第二校准信息。
20.根据权利要求11所述的信息校准装置,其特征在于,所述分类模型通过以下单元获得:
切分单元,配置用于将训练样本进行切分,生成多个切分样本,其中,所述多个切分样本中的每一个切分样本带有类型标识;
提取单元,配置用于提取每一个切分样本中的特征信息,生成特征向量;
训练单元,配置用于利用朴素贝叶斯算法和支持向量机,基于特征向量和类型标识,训练得到分类模型。
CN201611148475.0A 2016-12-13 2016-12-13 信息校准方法和装置 Active CN108616413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611148475.0A CN108616413B (zh) 2016-12-13 2016-12-13 信息校准方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611148475.0A CN108616413B (zh) 2016-12-13 2016-12-13 信息校准方法和装置

Publications (2)

Publication Number Publication Date
CN108616413A CN108616413A (zh) 2018-10-02
CN108616413B true CN108616413B (zh) 2020-09-11

Family

ID=63657845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611148475.0A Active CN108616413B (zh) 2016-12-13 2016-12-13 信息校准方法和装置

Country Status (1)

Country Link
CN (1) CN108616413B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427991A (zh) * 2019-07-22 2019-11-08 联动优势科技有限公司 一种字符串匹配方法及装置
CN110688457A (zh) * 2019-09-25 2020-01-14 重庆忽米网络科技有限公司 一种基于标识解析的汽摩行业文本信息录入方法
CN112905182A (zh) * 2019-12-04 2021-06-04 北京沃东天骏信息技术有限公司 一种数据解析的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2771813A4 (en) * 2011-10-27 2015-07-15 Hewlett Packard Development Co ALIGNMENT OF NOTES FROM DOCUMENT FIELDS
CN104994541A (zh) * 2015-05-22 2015-10-21 小米科技有限责任公司 网络流量校正方法及装置
CN105208571A (zh) * 2015-08-11 2015-12-30 北京奇虎科技有限公司 通信业务使用量的校准方法和装置
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2771813A4 (en) * 2011-10-27 2015-07-15 Hewlett Packard Development Co ALIGNMENT OF NOTES FROM DOCUMENT FIELDS
CN104994541A (zh) * 2015-05-22 2015-10-21 小米科技有限责任公司 网络流量校正方法及装置
CN105208571A (zh) * 2015-08-11 2015-12-30 北京奇虎科技有限公司 通信业务使用量的校准方法和装置
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置

Also Published As

Publication number Publication date
CN108616413A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
US11062089B2 (en) Method and apparatus for generating information
US11023505B2 (en) Method and apparatus for pushing information
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
US20180240133A1 (en) Method, Apparatus and Server for Identifying Risky User
CN108628830B (zh) 一种语义识别的方法和装置
CN110046254B (zh) 用于生成模型的方法和装置
CN110069698B (zh) 信息推送方法和装置
US10417274B2 (en) Method and apparatus for pushing information
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN109992766B (zh) 提取目标词的方法和装置
CN110781284A (zh) 基于知识图谱的问答方法、装置和存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN108616413B (zh) 信息校准方法和装置
CN112015747B (zh) 数据上传方法及装置
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113657113A (zh) 文本处理方法、装置和电子设备
CN107291774B (zh) 错误样本识别方法和装置
CN110765973A (zh) 账号类型的识别方法和装置
CN113420122A (zh) 分析文本的方法、装置、设备及存储介质
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN107493370B (zh) 流量模板确定方法、流量信息识别方法及装置
CN113282433B (zh) 集群异常检测方法、装置和相关设备
CN109409419B (zh) 用于处理数据的方法和装置
CN105740900A (zh) 信息识别的方法和装置
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant