CN1549574A - 一种话单数据的预处理方法及装置 - Google Patents
一种话单数据的预处理方法及装置 Download PDFInfo
- Publication number
- CN1549574A CN1549574A CNA031366325A CN03136632A CN1549574A CN 1549574 A CN1549574 A CN 1549574A CN A031366325 A CNA031366325 A CN A031366325A CN 03136632 A CN03136632 A CN 03136632A CN 1549574 A CN1549574 A CN 1549574A
- Authority
- CN
- China
- Prior art keywords
- data
- expression formula
- database
- ticket
- call bill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种话单数据的预处理方法,该方法根据话单的原始数据和标准数据设置预处理话单数据的表达式,将上述表达式解释成计算机可识别形式的表达式存储到计算机的数据库中,这样,在对于原始话单数据进行预处理时,读取话单的原始数据和关联数据,根据话单数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据,再对标准数据进行统计,统计结果保存到数据库;上述方法适用于对持续不断产生的大量话单数据的预处理,经过处理之后,可以有效地减少话单处理的数据量,给话单数据的再利用提供方便条件,减少话单数据处理时操作维护的复杂性。
Description
技术领域
本发明涉及通信系统中的话费业务的处理方法以及实现该方法功能的装置。
背景技术
在通信系统中处理话单数据时,需要把保存在文件或数据库中的话单数据按照某种规律进行分析,得到中间结果数据,然后对中间结果数据进行统计,按照某种规律把数据分离出来。例如,在智能网的话单中,主叫号码形如:075512345678,这个号码包含两部分,第一部分是国内区号0755,第二部分是主叫真正的电话号码12345678,实际中需要从主叫号码中分离出区号和电话号码。在进行上述数据分离后,再进行数据的统计,即,将数据分类,按类别求和或计数,例如统计主叫区号是010的共有多少条话单,通话时间是多少。
目前,常用话单数据的处理是数据库的处理方法,使用数据库的前提就是需要把大量原始数据插入数据库后再做处理,这样不但需要把每天持续产生的大量数据插入到数据库中,还需要编写复杂的存储过程,通过存储过程完成数据的分析,如果有统计要求,也利用数据库本身的统计功能完成。该方法的缺点在于,由于在话单数据的分析统计前需要将大量持续产生的原始数据插入数据库,这将耗费大量的数据处理时间,因此难以在短时间内完成大数话单据量的处理。此外在描述话单数据的处理逻辑时,需要编写复杂的存储过程,对用户的要求高。可见,现有方法的话单数据处理复杂,不利于实现持续的大批量数据的处理。
发明内容
本发明的目的在于提供一种话单数据的预处理方法及装置,对持续产生的话单数据进行预处理,提高话单数据的数据库处理效率和降低操作的复杂性。
为达到上述目的,本发明提供的话单数据的预处理方法,包括:
步骤1:设置预处理话单数据的表达式,所述表达式用于描述处理话单数据的规则;
步骤2:将上述表达式解释成计算机可识别形式的表达式存储到数据库中;
步骤3:读取话单的原始数据和关联数据,根据话单数据的处理要求,从数据库中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据。
步骤3中可识别表达式利用关联数据和话单的原始数据生成话单的标准数据的过程为:
步骤21:读入话单原始数据和关联数据;
步骤22:取得要查找的字段值,以该值的前N位数据与关联数据做最大匹配,利用匹配结果生成标准数据。
所述步骤3还包括:根据对标准数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式对标准数据进行统计,将结果数据保存到数据库。
本发明提供的话单数据的预处理装置,包括:
表达式编辑模块,用于根据话单的原始数据、标准数据和结果数据设置预处理话单数据的表达式,所述表达式用于描述处理话单原始数据的规则;
表达式解释模块,用于将上述表达式解释成计算机可识别形式的表达式存储到计算机的数据库中;
表达式执行模块,用于从文件或者数据库中读取话单的原始数据和关联数据,根据话单数据的处理要求,从数据库中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据,然后对标准数据进行统计处理,把结果数据保存在数据库中。
调度模块,用于控制表达式编辑模块、表达式解释模块的编辑和解释操作,以及控制表达式执行模块的执行时机和任务类别;
数据库模块,用于存储话单的原始数据、关联数据和结果数据以及计算机可识别形式的表达式。
上述方法或装置适用于对持续不断产生的大量话单数据的预处理,经过处理之后,可以有效地减少话单处理的数据量,给话单数据的再利用提供方便条件;经过预处理的话单数据存入数据库后,由于可以直接使用预处理后的话单数据,能够极大提高数据库处理话单数据的效率,另外,由于表达式的设置比较简单,减少了话单数据处理时操作维护的复杂性。
附图说明
图1是本发明所述方法的实施例流程图;
图2是本发明所述装置的实施例框图。
具体实施方式
下面结合附图对本发明作进一步详细的描述
图1是本发明所述方法的实施例流程图。按照图1实施本发明,首先在步骤1进行表达式的编辑,也就是根据话单的原始数据、标准数据和结果数据设置预处理话单数据的表达式,以便根据原始数据生成标准数据以及根据标准数据生成结果数据,该表达式用于描述话单原始数据的处理规则。描述话单数据处理规则的表达式符合通常的表达式构成要求,可以由函数、函数参数、运算符组成,函数之间可以嵌套调用,函数参数可以是原始数据的字段名字、关联数据的字段名字、数据库的表名字、字段名字等,运算符包含四则运算操作、逻辑操作等。函数包括字符串操作函数、时间日期操作函数、关联查询函数等。例如在所设置的下述表达式中:
1+2*f1([abc],24)%(3/(2+4))
f1为函数名,([abc],24)为f1函数的参数。
当在步骤1设置完表达式之后,在步骤2将上述表达式解释成计算机可识别形式的表达式存储到计算机的存储器中。本例中是按照逆波兰式规则进行表达式的解释的。例如,上述的表达式经过解释后,转换为以下的形式:1-->2-->[abc]-->24-->)-->(-->f1-->*-->3-->2-->4-->+-->)-->(-->/-->)-->(-->%-->+。然后将上述形式的结果保存在数据库中,供执行时使用。
在步骤3读取话单的原始数据和关联数据,根据话单数据的处理要求,从计算机的存储器中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据,再根据对标准数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式对标准数据进行统计,将结果数据保存到数据库。以后,数据库就可以利用上述存入的数据,例如利用标准数据和对标准数据的统计结果进行二次统计处理,或者直接利用已经统计完成的结果,即可以提高话单数据的数据库处理效率,减少复杂性。
上述操作中,原始话单数据是话单文件,每一行都是一次通话记录,每一行中都包含要解析的数据。原始话单数据以文件的形式或者表的形式存在,处理时把文件或表分批读到内存中处理。例如在下表的原始话单数据中,主叫号码就是要解析的数据。
主叫号码 被叫号码 通话时长 通话费用
075512345678 01012345678 10 20
075512345679 01012345679 10 20
01012345678 075512345678 10 20
…………… ……… … …
关联数据是解析话单原始数据的依据数据,例如下表所述的国内区号表即是关联数据。关联数据以文件或者表的形式存在,处理时把所有关联数据的内容一次读到内存中。
国内区号 城市名称
10 北京
755 深圳
20 广州
21 上海
… ……
当然,在上表中城市名称不是必须的,是可选项。
在图1所述的实施例中,当在步骤1、2完成表达式的设置和解释后,在需要对话单原始数据进行处理时,根据话单数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,在表达式执行时,读入原始数据和关联数据,按照表达式的逻辑处理这些数据,最后把处理结果写到标准数据中。如果以上述表中的原始数据和关联数据为例,对原始数据中的主叫号码进行解析,即将主叫号码拆分为两个部分,一是主叫区号,二是主叫电话号码,所形成的标准数据参考下表,其中主叫区号和主叫电话号码就是经过解析后形成的新数据。
主叫号码 被叫号码 通话时长 通话费用 主叫区号 主叫电话号码
075512345678 01012345678 10 20 755 12345678
075512345679 01012345679 10 20 755 12345679
01012345678 075512345678 10 20 10 12345678
在上述步骤3中可识别表达式利用关联数据和话单的原始数据生成话单的标准数据的过程,首先读入话单原始数据和关联数据,然后从话单原始数据中取得要查找的字段值,即要解析的主叫号码字段,以该字段值的前N位数据与关联数据做最大匹配,最后利用匹配结果生成标准数据。假设本例中通过下面的表达式来描述所需要的处理的主叫号码字段:
matchquerytable([tollareano],[areano]==substr([callingPartyNumber],2,6),[areano])
其中matchquerytable是最大匹配函数,[tollareano]是关联数据表,即国内区号表的名称;[areano]是关联数据表中用来做匹配的字段名,这里指的是国内区号字段;[callingPartyNumber]是原始数据中的主叫号码,substr([callingPartyNumber],2,6)表示取主叫号码的第2位到第6位,[areano]==substr([callingPartyNumber],2,6)表示要用[areano]字段和主叫号码的第2位到第6位做最大匹配,最后面的[areano]表示返回的字段是[areano]。
上述表达式所描述的含义是:取得主叫号码的第2位到第6位的内容,以这个内容与关联表中的国内区号做最大匹配,匹配后返回国内区号。这样就得到了一个主叫号码中的国内区号。
使用本发明所述的最大匹配方法来分离区号和电话号码的方法如下:
建立一个国内区号表tollareano,这个表只有一个字段areano,字段内容是国内区号,每条记录是一个区号。例如:
10
755
20
21
…
已知的情况是,在主叫号码中,区号所占的位数不超过4位,则取得主叫号码的前4位,例如“075512345678”的第2位到第6位是“75512”,以“75512”到区号表中去做匹配,检查是否有相同的区号。假设以区号表中数据为关联数据对主叫号码“075512345678”的第2位到第6位做最大匹配,第一遍查找没有匹配成功,于是“75512”的范围缩小,去掉最后一位“2”,只剩下“7551”,以“7551”到区号表中去做匹配,仍然查不到,于是再去掉后边的一位,只剩下“755”,这一次找到了相同的,于是认为“755”是一个区号。“01012345678”的第2位到第6位是“10123”,则同理,前两次查找没有找到,于是缩小范围,直到“10”时,就找到了,于是认为10是区号。
找到区号后,则除了区号,剩余的部分就是主叫电话号码。将解析出来的区号和主叫电话号码与原始数据结合起来即构成了本例中的标准数据。依此处理原始话单数据直至完毕。
由上述可知,应用本发明的方法可以组成功能强大的处理话单数据的表达式,用以对大量持续产生的话单数据进行处理,可以得到统计使用的标准数据,解决了数据库处理话单数据的效率问题。因此,用本发明所述方法能够完成用户所需要的原始数据分析和统计任务,例如数据的过滤、字段的合并、拆分、求和、计数、求平均值、求最大最小值等。
本发明提供的话单数据的预处理装置,包括:表达式编辑模块1、表达式解释模块2、表达式执行模块3、调度模块4和数据库模块5,其中:
表达式编辑模块1,用于根据话单的原始数据、标准数据和结果数据设置预处理话单数据的表达式,以便根据原始数据生成标准数据以及根据标准数据生成结果数据。所述表达式用于描述处理话单原始数据的规则,该模块通过一定的辅助手段例如图形化的界面来完成表达式的编辑。该模块在调度模块4的的控制下,将编辑好的表达式是类似四则运算形式的,不适合于计算机直接使用和运行,因此需要送到表达式解释模块2,以将表达式编辑模块1编辑的表达式解释成计算机可识别形式的表达式存储到计算机的数据库中。该模块应用的解释规则可以有多种,例如采用逆波兰规则。经表达式解释模块2解释的表达式可以直接调用,在原始话单数据预处理时,由表达式执行模块3,在调度模块4的控制下,从数据库模块5中读取话单的原始数据和关联数据,根据话单数据的处理要求,从计算机的存储器中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据,再根据对标准数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式对标准数据进行统计,将统计结果保存到数据库。
调度模块4,用于控制表达式编辑模块、表达式解释模块的编辑和解释操作,以及控制表达式执行模块的执行时机和任务类别,例如启动一个解析原始文件的任务、停止一个解析原始文件的任务、启动一个统计原始文件的任务等。
数据库模块5,分别用于存储话单的原始数据、关联数据、结果数据和计算机可识别形式表达式,该模块包括分别用于存储话单的原始数据、关联数据和标准数据的原始数据库51、关联数据库52、结果数据库53和表达式数据库54。
Claims (7)
1、一种话单数据的预处理方法,包括:
步骤1:设置预处理话单数据的表达式,所述表达式用于描述处理话单数据的规则;
步骤2:将上述表达式解释成计算机可识别形式的表达式存储到数据库中;
步骤3:读取话单的原始数据和关联数据,根据话单数据的处理要求,从数据库中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据。
2、根据权利要求1所述的话单数据的预处理方法,其特征在于,步骤3中可识别表达式利用关联数据和话单的原始数据生成话单的标准数据的过程为:
步骤21:读入话单原始数据和关联数据;
步骤22:取得要查找的字段值,以该值的前N位数据与关联数据做最大匹配,利用匹配结果生成标准数据。
3、根据权利要求1或2所述的话单数据的预处理方法,其特征在于,在步骤2中,将步骤1设置的表达式按照逆波兰式规则解释成计算机可识别形式的表达式。
4、根据权利要求1或2所述的话单数据的预处理方法,其特征在于,所述步骤3还包括:根据对标准数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式对标准数据进行统计,将结果数据保存到数据库。
5、根据权利要求3所述的话单数据的预处理方法,其特征在于,所述步骤3还包括:根据对标准数据的处理要求,从计算机的数据库中调用相应的可识别形式的表达式,利用该表达式对标准数据进行统计,将结果数据保存到数据库。
6、一种话单数据的预处理装置,包括:
表达式编辑模块,用于根据话单的原始数据、标准数据和结果数据设置预处理话单数据的表达式,所述表达式用于描述处理话单原始数据的规则;
表达式解释模块,用于将上述表达式解释成计算机可识别形式的表达式存储到计算机的数据库中;
表达式执行模块,用于从文件或者数据库中读取话单的原始数据和关联数据,根据话单数据的处理要求,从数据库中调用相应的可识别形式的表达式,利用该表达式操作上述关联数据和话单的原始数据生成话单的标准数据,然后对标准数据进行统计处理,把结果数据保存在数据库中。
调度模块,用于控制表达式编辑模块、表达式解释模块的编辑和解释操作,以及控制表达式执行模块的执行时机和任务类别;
数据库模块,用于存储话单的原始数据、关联数据和结果数据以及计算机可识别形式的表达式。
7、根据权利要求6所述的话单数据的预处理装置,其特征在于,所述数据库模块包括:分别用于存储话单的原始数据、关联数据、结果数据和计算机可识别形式表达式的原始数据库、关联数据库、结果数据库和表达式数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031366325A CN100433774C (zh) | 2003-05-21 | 2003-05-21 | 一种话单数据的预处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031366325A CN100433774C (zh) | 2003-05-21 | 2003-05-21 | 一种话单数据的预处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1549574A true CN1549574A (zh) | 2004-11-24 |
CN100433774C CN100433774C (zh) | 2008-11-12 |
Family
ID=34323404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031366325A Expired - Fee Related CN100433774C (zh) | 2003-05-21 | 2003-05-21 | 一种话单数据的预处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100433774C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101150831B (zh) * | 2007-10-24 | 2010-06-09 | 华为技术有限公司 | 网元数据处理方法及装置 |
CN101925039A (zh) * | 2010-08-09 | 2010-12-22 | 中兴通讯股份有限公司 | 计费话单的预警方法及装置 |
CN1933512B (zh) * | 2006-09-30 | 2011-01-05 | 华为技术有限公司 | 一种话单处理设备及方法 |
CN102982495A (zh) * | 2012-12-04 | 2013-03-20 | 深圳中兴网信科技有限公司 | 自适应的数据处理装置和数据处理方法 |
CN112217944A (zh) * | 2020-10-09 | 2021-01-12 | 中国联合网络通信集团有限公司 | 在线话单处理方法、装置、设备以及存储介质 |
CN113490202A (zh) * | 2021-07-23 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 一种语音话单的合成方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621728A (en) * | 1994-09-12 | 1997-04-15 | Bell Atlantic Network Services, Inc. | Level 1 gateway controlling broadband communications for video dial tone networks |
FI104668B (fi) * | 1997-07-14 | 2000-04-14 | Nokia Networks Oy | Liittymäpalvelun toteuttaminen |
CN1373586A (zh) * | 2001-03-01 | 2002-10-09 | 深圳市中兴通讯股份有限公司 | 通用网间计费方法 |
-
2003
- 2003-05-21 CN CNB031366325A patent/CN100433774C/zh not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1933512B (zh) * | 2006-09-30 | 2011-01-05 | 华为技术有限公司 | 一种话单处理设备及方法 |
CN101150831B (zh) * | 2007-10-24 | 2010-06-09 | 华为技术有限公司 | 网元数据处理方法及装置 |
CN101925039A (zh) * | 2010-08-09 | 2010-12-22 | 中兴通讯股份有限公司 | 计费话单的预警方法及装置 |
CN102982495A (zh) * | 2012-12-04 | 2013-03-20 | 深圳中兴网信科技有限公司 | 自适应的数据处理装置和数据处理方法 |
CN102982495B (zh) * | 2012-12-04 | 2015-09-23 | 深圳中兴网信科技有限公司 | 自适应的数据处理装置和数据处理方法 |
CN112217944A (zh) * | 2020-10-09 | 2021-01-12 | 中国联合网络通信集团有限公司 | 在线话单处理方法、装置、设备以及存储介质 |
CN112217944B (zh) * | 2020-10-09 | 2022-04-15 | 中国联合网络通信集团有限公司 | 在线话单处理方法、装置、设备以及存储介质 |
CN113490202A (zh) * | 2021-07-23 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 一种语音话单的合成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100433774C (zh) | 2008-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100352289C (zh) | 用于支持各种标准和测试级的测试流产生方法及装置 | |
CN101046811A (zh) | 数据集成服务系统及方法 | |
CN1852354A (zh) | 收集用户行为特征的方法和装置 | |
CN101079033A (zh) | 一种综合搜索结果的排序系统及方法 | |
CN1870767A (zh) | 对定时器任务进行管理的方法 | |
CN1928873A (zh) | 一种实现负荷分担的数据库访问方法及系统 | |
CN1716246A (zh) | 用于web应用的多列多数据类型的国际化排序扩展方法 | |
CN101068377A (zh) | 基于搜索引擎的群发系统及方法 | |
CN101043421A (zh) | 一种基于内存的ip地址最长匹配快速查找的方法 | |
CN101075239A (zh) | 一种复合搜索方法和系统 | |
CN1492361A (zh) | 嵌入式数据库查询的处理方法 | |
CN1549574A (zh) | 一种话单数据的预处理方法及装置 | |
CN1510575A (zh) | 一种数据库连接的高效管理方法 | |
CN1665314A (zh) | 用于移动智能网的多业务优先触发的方法 | |
CN1825306A (zh) | 基于关系数据库的xml数据存储与访问方法 | |
CN1107277C (zh) | 扩大利用用户字符的系统 | |
CN102446167A (zh) | 一种基于逻辑模板对复杂字符串逻辑处理的方法和装置 | |
CN101076055A (zh) | 话单格式转换的方法 | |
CN111651758B (zh) | 一种运维审计系统关系型数据库结果集审计的方法 | |
CN1351299A (zh) | 一种访问数据库的方法及装置 | |
CN1567829A (zh) | 通用数据文件转换方法 | |
CN1243431C (zh) | 宽带网络通信产品的通用路由平台命令行的解析方法 | |
CN1235151C (zh) | 一种控制系统安全管理的方法 | |
CN1897629A (zh) | 基于内存的海量话单快速交叉排重方法 | |
CN1588411A (zh) | 一种流程定制管理平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081112 Termination date: 20200521 |
|
CF01 | Termination of patent right due to non-payment of annual fee |