CN115729926A - 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 - Google Patents
一种数据处理方法和设备、存储介质、程序产品以及计算机设备 Download PDFInfo
- Publication number
- CN115729926A CN115729926A CN202111001620.3A CN202111001620A CN115729926A CN 115729926 A CN115729926 A CN 115729926A CN 202111001620 A CN202111001620 A CN 202111001620A CN 115729926 A CN115729926 A CN 115729926A
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- data processing
- dimension value
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 85
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 abstract description 8
- 238000013480 data collection Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 10
- 238000007667 floating Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据处理方法和设备、存储介质、程序产品以及计算机设备。所述方法包括如下步骤:确定既定规则所依赖的维度信息;接收具有规整结构的数据集,并且定位到所述数据集中的对象对应于所述维度信息的维度值;以及根据所述既定规则和所述维度值生成关于所述对象的额外维度值。根据本发明的数据处理方法可以实现高效、精确地刻画对象行为并能够为预测对象行为提供依据。
Description
技术领域
本发明涉及计算机数据处理的领域,具体而言,涉及一种数据处理方法和设备、存储介质、程序产品以及计算机设备。
背景技术
现如今,数据加工和分析公司正越来越广泛地使用大数据等技术来为研究对象进行精确刻画,并且可以根据对研究对象的刻画提供更为精确地服务。现有技术中对于表单之类的有规整结构的数据处理较为低效,没有充分利用数据的规整结构。随着数据内容越来越多,采用传统方式来处理数据变得越来越不现实。有鉴于此,本发明将提供一种能够利用数据的规整结构的数据处理机制。
发明内容
本申请的实施例提供了数据处理方法和设备、存储介质、程序产品以及计算机设备,从而可以实现高效、精确地刻画对象行为并能够为预测对象行为提供依据的技术效果。
根据本发明的第一方面,提供了一种数据处理方法,所述方法包括如下步骤:确定既定规则所依赖的维度信息;接收具有规整结构的数据集,并且定位到所述数据集中的对象的维度值,所述维度值对应于所述维度信息;以及根据所述既定规则和所述维度值生成关于所述对象的额外维度值。
可选地,根据本发明的第一方面的一个或多个实施例,所述方法还包括步骤:根据所述既定规则所依赖的维度信息确定所述既定规则到所述数据集的反向依赖路径;其中,基于所述反向依赖路径定位到所述对象的所述维度值。
可选地,根据本发明的第一方面的一个或多个实施例,在所述对象的所述维度值突出于所述数据集的其他对象的所述维度值的情况下,生成提示所述突出的信息和/或对所述对象进行维度校正后再定位到所述对象的所述维度值。
可选地,根据本发明的第一方面的一个或多个实施例,所述维度信息包括对应于所述维度信息的维度值的类型,并且所述突出包括以下至少一者:数值突出、类型突出。
可选地,根据本发明的第一方面的一个或多个实施例,所述方法还包括步骤:记录生成所述额外维度值的日志文件,其中,所述日志文件包括所述既定规则、所述维度信息及其对应的维度值的数据类型。
可选地,根据本发明的第一方面的一个或多个实施例,所述方法还包括:提供外部接口;其中,所述既定规则能够经由所述外部接口调用。
根据本发明的第二方面,提供了一种数据处理设备,所述设备包括:确定单元,其配置成确定既定规则所依赖的维度信息;定位单元,其配置成接收具有规整结构的数据集并且定位到所述数据集中的对象对应于所述维度信息的维度值;以及生成单元,其配置成根据所述既定规则和所述维度值生成关于所述对象的额外维度值。
可选地,根据本发明的第二方面的一个或多个实施例,所述确定单元还配置成根据所述既定规则所依赖的维度信息确定所述既定规则到所述数据集的反向依赖路径;以及所述定位单元基于所述反向依赖路径定位到所述对象的所述维度值。
根据本发明的第三方面,提供了一种数据处理设备,一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上所述的方法。
根据本发明的第四方面,提供了一种计算机设备,所述设备包括:如上所述的计算机可读存储介质以及处理器。
根据本发明的第五方面,提供了一种计算机程序产品,包括计算机可读指令,所述计算机可读指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据如上所述的方法。
附图说明
图1示出了根据本发明的一个实施例的数据处理系统的示意图。
图2示出了根据本发明的一个实施例的数据处理方法的流程图。
图3示出了根据本发明的一个实施例的数据处理设备的示意图。
图4示出了根据本发明一个实施例的日志文件。
图5示出了根据本发明的一个实施例的计算机设备的示意图。
具体实施方式
以下将结合附图对本发明涉及的文件处理方法、系统、设备以及计算机介质作进一步的详细描述。需要注意的是,以下的具体实施方式是示例性而非限制的,其旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
下文参考本发明实施例的方法和装置的框图说明、框图和/或流程图来描述本发明。将理解这些流程图说明和/或框图的每个框、以及流程图说明和/或框图的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以构成机器,以便由计算机或其它可编程数据处理设备的处理器执行的这些指令创建用于实施这些流程图和/或框和/或一个或多个流程框图中指定的功能/操作的部件。
可以将这些计算机程序指令存储在计算机可读存储器中,这些指令可以指示计算机或其它可编程处理器以特定方式实现功能,以便存储在计算机可读存储器中的这些指令构成包含实施流程图和/或框图的一个或多个框中指定的功能/操作的指令部件的制作产品。
可以将这些计算机程序指令加载到计算机或其它可编程数据处理器上以使一系列的操作步骤在计算机或其它可编程处理器上执行,以便构成计算机实现的进程,以使计算机或其它可编程数据处理器上执行的这些指令提供用于实施此流程图和/或框图的一个或多个框中指定的功能或操作的步骤。还应该注意在一些备选实现中,框中所示的功能/操作可以不按流程图所示的次序来发生。例如,依次示出的两个框实际可以基本同时地执行或这些框有时可以按逆序执行,具体取决于所涉及的功能/操作。
图1示出了根据本发明的一个实施例的数据处理系统的示意图。如图1所示,数据处理系统10包括数据采集设备110(例如,用户持有的手机等终端设备)、数据处理设备120(例如,数据处理商的计算平台)和云端数据库130(例如,数据处理商的存储平台)。其中,数据采集设备110、数据处理设备120和云端数据库130中的任意两者可以经由专用网络或者公用网络而通信地连接到一起。在一些示例中,数据处理设备120和云端数据库130没有必要在地理上相距较远,二者也可以部署在相同的IDC机房中。
尽管图1中出于清晰示例的便利仅示出了一个数据采集设备110,但是本发明并不限制数据处理系统10中数据采集设备110的数量。根据实际数据来源和采集需求,数据采集设备110的数量可能存在差异。
如图1所示,数据采集设备110在步骤S111中采集并记录关于对象的各个维度信息的数据。例如,数据采集设备110的持有者、操作者可以自行录入数据,这些数据可以是能够体现数据采集设备110的持有者或者数据采集设备110的操作人员的访问对象(持有者、访问对象在本文中又被称为对象)的基本属性的参数。其中,操作人员可以是受数据处理设备120的运营商指派的数据采集人员。在一些示例中,录入的参数可以为对象的年龄、性别、地点等数据,这些数据构成了数据的多个维度,并且维度下具体的内容(例如,数值等属性)为对应的维度值。
在一些情况下,数据采集设备110在步骤S111中能够自动地或者受数据处理设备120的运营商的控制而“静默地”采集数据。例如,数据采集设备110能够根据配备的定位模块确定持有者、操作者的位置,能够根据持有者的消费偏好推定其性别,还能够通过对数据采集设备110中提供服务的其他软件的调用获取持有者的更多属性数据。数据采集设备110可以将通过以上方式采集到的各个维度的数据加工成具有规整结构的形式,例如,可以加工成Excel数据表单、XML文件、YAML文件等形式。数据采集设备110也可以将这些采集到的数据上报给云端数据库130,由云端数据库130加工成具有规整结构的形式。下文中的一些示例将以表单为例说明本发明一些示例的工作原理。
在一些示例中,数据处理设备120可以是数据处理商所拥有,并且可以将处理结果用于提供个性化、差异化的服务。数据处理商可以自行使用这些处理结果,也可以将这些处理结果提供给短视频运营商、内容服务商、电信运营商、网络销售平台、保险业者或者金融业者以用于实现个性化、差异化的服务,从而可以达到高效、精确刻画对象行为并能够预测对象行为的技术效果。例如,可以用于精准推送短视频、推送音视频内容、推荐电信资费计划、推荐商品、推荐保险产品及提供费率、推荐金融产品等。数据处理设备120可以是包括软硬件的专用或者通用处理平台。例如,可以基于Linux或者Windows Sever的通用处理平台。
本发明中也不限制云端数据库130的具体形式,例如,云端数据库130可以是采用分布式存储技术的异地容灾数据库。云端数据库130中可以包括若干磁盘阵列,并且云端数据库130可以不仅仅为数据处理设备120提供数据服务。
云端数据库130在步骤S131中可以向数据处理设备120推送/发送各类数据(例如下文将详细描述的表单数据)并且数据处理设备120可以在步骤S124中将数据推送/发送到云端数据库130。本文中的表单数据可以通过数据处理设备120、云端数据库130中的例如DB2、ORACLE、MySQL软件平台等处理。另一方面,数据处理设备120在步骤S111中也可以从一个或多个数据采集设备110接收各类数据(例如下文将详细描述的表单数据)并在步骤S124中将数据推送/发送到数据采集设备110。
下文将结合图1中示出的数据采集设备110、数据处理设备120和云端数据库130来详细描述数据处理方法、数据处理系统等的工作原理。图1中出于整体呈现数据处理系统10的工作原理的目的而示出了第一至第五路径,但是其中一些路径并不是实施以下的示例所必需的。
图2示出了根据本发明的一个实施例的数据处理方法的流程图。如图2所示,数据处理方法20包括以下步骤:在步骤S202中确定既定规则所依赖的维度信息;在步骤S204中接收具有规整结构的数据集并且定位到数据集中的对象对应于维度信息的维度值;以及在步骤S206中根据既定规则和维度值生成关于对象的额外维度值。图1中示出的数据处理设备120执行的步骤S121、S122和S123可以分别仿照图2中示出的步骤S202、S204和S206开展。
数据处理方法20在步骤S202中确定既定规则所依赖的维度信息。在一些示例中,既定规则可以以表单形式(在本文中又称为第一表单)存在。以表单形式存在的既定规则将便于编辑、调整,从而方便用户进行个性化修改。例如,用户可以通过调整表单中的参数实现对权重的修改。诸如图1所示的数据处理设备120自身中可能保存有以表单形式存在的既定规则,数据处理设备120也可以经由第三路径从云端数据库130调取既定规则。
在一些示例中,既定规则是依赖一定的参数工作的。例如,既定规则可能是根据用户浏览的不同题材(例如,最频繁的五个题材A、B、C、D和E)来确定用户的题材偏好的。此时,“题材A”、“题材B”、“题材C”、“题材D”和“题材E”在规整结构中所处的位置为既定规则依赖的维度信息。在一些示例中,既定规则可能是根据用户的“年龄”、“性别”和“地区”来确定用户的预测用户的内容偏好的。此时,“年龄”、“性别”和“地区”在规整结构中所处的位置为既定规则依赖的维度信息。在一些示例中,承载既定规则的第一表单可以包括一个或多个公式。以Excel为例,例如在计算保费的表单中,求取平均数的公式将依赖于包括要研究的对象的Excel表单中的单元格F55-F60的内容。此时,F55-F60为既定规则依赖的维度信息。在一些示例中,公式中维度信息可以与表单的行属性或者列属性关联,而不是直接定位到单元格。例如,求取平均数的公式将依赖于表单中的第B-H列,那么第B-H列为既定规则依赖的维度信息。在通过公式计算关于对象F的平均数时则可以通过后续步骤定位到表格FB-FH。
既定规则在工作时可能不仅仅依靠对应于维度信息的维度值。例如,承载公式的第一表单中还可能保存有对相应维度的加权权重。例如,如果F50对应的维度信息为国家名,则在第一表单中还可以为不同国家配置不同计算加权权重。例如,斐济(Fiji)可以为2.705283341而丹麦(Denmark)则可以为8.249162553。
在一些示例中,既定规则以公式形式存在。若第一表单中包括多个公式,则在步骤S202中可以解析第一表单中的所有公式,并且根据解析的结果从中选取要使用的公式。在其他示例中,既定规则还可以为查找表形式。
在一些示例中,在步骤S202中不但可以确定维度信息还可以确定维度信息中包括的对应于该维度信息的维度值的类型。例如,在从第一表单中获取到所要使用的公式后,可以分析所解析的公式,从而在确定该公式运算所依赖的维度信息(例如,Excel中的单元格)及其对应的数据类型。以平均数公式为例,该公式计算涉及单元格F55-F60,F55-F60等单元格可以为浮点型。确定数据类型有利于判断是否定位到正确的数据以及确定公式是否正确参与了运算。
数据处理方法20在步骤S204中接收具有规整结构的数据集,并且定位到数据集中的所关注的对象对应于步骤S202中所确定的维度信息的维度值。在一些示例中,规则结构可以为表单形式(在本文中又称为第二表单)。此时,可以根据在骤S202中所确定的维度信息从所述第二表单中获取运算参数。例如,继续上面的示例,数据处理设备120可以获取单元格F55-F60内填充的数据。
如图1所示,诸如数据处理设备120可以经由第一路径从数据采集设备110获取具有规整结构的数据集,还可以经由第三路径从云端数据库130获取具有规整结构的数据集。当数据处理设备120从数据采集设备110获取数据集时,获取的数据集可能仅包括一个条目(对应于一个对象)。当数据处理设备120从云端数据库130获取数据集时,获取的数据集可能包括多个条目(对应于多个对象)。需要说明的是,云端数据库130中保存的数据集可能是经由第二路径从多个数据采集设备110采集并加工而来的。
数据处理方法20在步骤S206中根据既定规则和维度值生成关于对象的额外维度值。例如,在步骤S206中可以根据在步骤S204中定位到的维度值并基于既定规则来确定额外维度值。额外维度值可以是具体的量化数值,可以为离散的等级形式,还可以具有一定语义的短语。在一些示例中,以Excel表单为例,可以将从表单中定位到的运算参数代入到公式中。具体而言,数据处理设备120可以根据所获取的单元格内填充的数据,并且基于公式以及可能的单元格对应的加权权重进行运算,从而生成刻画对象的额外维度值。例如,数据处理设备120在获取到用户年龄、国别、性别、驾龄等数据后,可以对用户的保费进行评级。在一些示例中,数据处理设备120可以根据用户的浏览习惯和时长等生成关于用户喜好的内容的额外维度值。
尽管不是必要的,数据处理方法20也可以输出生成的额外维度值。如图1所示,在步骤S124中,数据处理设备120可以经由第四路径向云端数据库130推送额外维度值,从而补充到对象所在条目中,并作为一个新的维度存储。在步骤S124中,数据处理设备120还可以经由第五路径向数据采集设备110推送额外维度值。数据处理设备120的持有者或者操作者可以据此得到关于例如经由第一路径上传的对象数据的精确画像。额外维度值可以被数据处理设备120或其持有者、操作者用于预测对象的行为。
在一些示例中,数据处理方法20还可以根据既定规则所依赖的维度信息确定既定规则到数据集的反向依赖路径(图2中未示出该步骤),并且在步骤S204中基于反向依赖路径定位到对象的维度值。例如,数据处理设备120可以分析从输入到输出的反向依赖图,从而只要计算输出所需要的维度信息和维度值(忽略数据集中不需要的维度信息和维度值),提高既定规则的计算效率。
在一些示例中,数据处理方法20还可以如下步骤(图2中未示出该步骤):在对象的维度值突出于数据集的其他对象的维度值的情况下,生成提示突出的信息和/或对对象进行维度校正后再定位到对象的维度值,从而避免将明显的错误带入到生成的额外维度值中。本发明中所谓的“突出”是指某一对象的某些维度值与其他对象的维度值相比明显不合理,这些“突出”被视为错误。错误可能是录入时引入的,例如,误在性别维度下录入年龄维度值。错误也可能是在对数据的二次加工过程中引入的,例如,对应于一些对象的条目可能存在错位。
在一些示例中,在步骤S202中确定的维度信息包括对应于维度信息的维度值的类型(例如,布尔型、字符型、整型、浮点型等)。在一些示例中,“突出”包括以下至少一者:数值突出、类型突出。在一些情况下,数据集中对应于一些对象的条目可能存在错误。例如,对应于一些对象的条目的某些维度的类型可能与对应于其他对象的类型存在明显差异。具体而言,对象A的B维度类型(例如,A行B列单元格的类型)为字符型,而其他对象的B维度类型(相应地,其他行B列单元格的类型)为整型。此时,数据处理设备120可以生成提示信息以提示对象A的B维度类型可能有误。提示信息可以经由第五路径发送至数据采集设备110,并且数据采集设备110可以在步骤S112中呈现该提示信息。提示信息还可以经由第四路径发送至云端数据库130,云端数据库130可以在步骤S132中将该提示信息记录到对应条目中。
另一方面,数据处理设备120也可以在对象A的条目中遍历所有维度的类型,直至找到维度类型与其他对象一致并且维度值合理(例如,“年龄”维度的维度值介于18-90之间,“体重”维度的维度值介于45公斤-100公斤之间)的维度,并以此作为校正后的正确维度。在一些示例中,数据处理设备120可以根据步骤S202中确定的维度信息(包括类型信息)先预判初始定位到的维度值是否突出(亦即,先将维度信息中的类型信息与单元格的类型信息作比较),随后再通过将目标对象与其他对象的比较确定维度值是否突出,这样有助于快速确定单元格中的数据是否突出。
在一些示例中,表单是从对象A所在行开始错位的,亦即,对象A所在行及后续行相比与对象A所在行的之前行是突出的。此时可以更新既定规则所依赖的维度信息,例如,可以将依赖的列号提前。以此可以避免不断生成提示信息、不断进行维度校正。在其他示例中也可以通过一次性重新制作表单,使得后续行的维度信息与对象A所在行的之前行对应。
在一些示例中,数据处理方法20还记录生成额外维度值的日志文件(图2中未示出该步骤),日志文件包括既定规则、维度信息及其对应的数据类型。在一些示例中,以上步骤中获取的既定规则(例如,公式)、维度信息(例如,单元格)、数据类型,以及公式计算过程中的中间值都可以存储在日志文件(LOG)中。该日志文件可以存放于第一表单中,也可以单独存储为一个文件。用户可以随时调用日志文件查看每一步骤的计算是否正确。图4示出了根据本发明一个实施例的日志文件。如图4中所示,日志文件记录公式计算中的所涉及的每个STEP,从STEP1-STEP27,并且将相应值记录在内。
在一些示例中,数据处理方法20还可以提供外部接口(图2中未示出),其中,既定规则等能够经由外部接口调用。在一些示例中,诸如公式等的既定规则能够经由API应用程序接口被导出。在此可以产生一个符合Open API规范的Restful API描述文档。文档可以描述了表单评级公式中的输入数据格式、调用后输出的数据格式以及API的调用路径等。用户可以将API或者API描述文档上传到公共运算平台。其他公共运算平台可以通过调用这个API运行评级计算公式。其他公共运算平台包括Microsoft Azure、Aws、InsureMo等计算平台。
在一些示例中,诸如公式等的既定规则还可以由用户进行编辑并且根据编辑后公式进行运算。例如,用户可以编辑公式中的单元格区间,例如从F55-F60调整为F55-F65。此外,用户也可以编辑公式中的单元格的数据类型,例如将F50的数据类型由布尔类型调整为浮点数类型。用户还可以编辑公式中的单元格对应的加权权重,例如将斐济(Fiji)的加权权重调整至8.249162553。
在一些示例中,数据处理方法20还可以对既定规则进行在线测试(图2中未示出)。例如,数据处理方法20可以测试公式运算是否正确。在线测试可以是向评级计算公式填充测试数据内容,从而测试所使用的数据和数据类型是否正确。如果所述评级计算公式运算不正确,系统可以报错,也可以在日志文件中记录所运算的数据格式以及单元格,从而供用户进一步调试系统。
图3示出了根据本发明的一个实施例的数据处理设备。如图3所示,数据处理设备30包括确定单元302、定位单元304和生成单元306。其中,确定单元302用于确定既定规则所依赖的维度信息。在一些示例中,既定规则可以以表单形式(在本文中又称为第一表单)存在。以表单形式存在的既定规则将便于编辑、调整,从而方便用户进行个性化修改。例如,用户可以通过调整表单中的参数实现对权重的修改。诸如图1所示的数据处理设备120自身中可能保存有以表单形式存在的既定规则,数据处理设备120也可以经由第三路径从云端数据库130调取既定规则。
在一些示例中,既定规则是依赖一定的参数工作的。例如,既定规则可能是根据用户浏览的不同题材(例如,最频繁的五个题材A、B、C、D和E)来确定用户的题材偏好的。此时,“题材A”、“题材B”、“题材C”、“题材D”和“题材E”在规整结构中所处的位置为既定规则依赖的维度信息。在一些示例中,既定规则可能是根据用户的“年龄”、“性别”和“地区”来确定用户的预测用户的内容偏好的。此时,“年龄”、“性别”和“地区”在规整结构中所处的位置为既定规则依赖的维度信息。在一些示例中,承载既定规则的第一表单可以包括一个或多个公式。以Excel为例,例如在计算保费的表单中,求取平均数的公式将依赖于包括要研究的对象的Excel表单中的单元格F55-F60的内容。此时,F55-F60为既定规则依赖的维度信息。在一些示例中,公式中维度信息可以与表单的行属性或者列属性关联,而不是直接定位到单元格。例如,求取平均数的公式将依赖于表单中的第B-H列,那么第B-H列为既定规则依赖的维度信息。在通过公式计算关于对象F的平均数时则可以通过下文将详细描述的定位单元304定位到表格FB-FH。
既定规则在工作时可能不仅仅依靠对应于维度信息的维度值。例如,承载公式的第一表单中还可能保存有对相应维度的加权权重。例如,如果F50对应的维度信息为国家名,则在第一表单中还可以为不同国家配置不同计算加权权重。例如,斐济(Fiji)可以为2.705283341而丹麦(Denmark)则可以为8.249162553。
在一些示例中,既定规则以公式形式存在。若第一表单中包括多个公式,则确定单元302可以解析第一表单中的所有公式,并且根据解析的结果从中选取要使用的公式。在其他示例中,既定规则还可以为查找表形式。
在一些示例中,确定单元302不但可以确定维度信息还可以确定维度信息中包括的对应于该维度信息的维度值的类型。例如,在从第一表单中获取到所要使用的公式后,可以分析所解析的公式,从而在确定该公式运算所依赖的维度信息(例如,Excel中的单元格)及其对应的数据类型。以平均数公式为例,该公式计算涉及单元格F55-F60,F55-F60等单元格可以为浮点型。确定数据类型有利于判断是否定位到正确的数据以及确定公式是否正确参与了运算。
数据处理设备30的定位单元304用于接收具有规整结构的数据集,并且定位到数据集中的所关注的对象对应于确定单元302所确定的维度信息的维度值。在一些示例中,规则结构可以为表单形式(在本文中又称为第二表单)。此时,可以根据确定单元302所确定的维度信息从所述第二表单中获取运算参数。例如,继续上面的示例,数据处理设备120可以获取单元格F55-F60内填充的数据。
如图1所示,诸如数据处理设备120可以经由第一路径从数据采集设备110获取具有规整结构的数据集,还可以经由第三路径从云端数据库130获取具有规整结构的数据集。当数据处理设备120从数据采集设备110获取数据集时,获取的数据集可能仅包括一个条目(对应于一个对象)。当数据处理设备120从云端数据库130获取数据集时,获取的数据集可能包括多个条目(对应于多个对象)。需要说明的是,云端数据库130中保存的数据集可能是经由第二路径从多个数据采集设备110采集并加工而来的。
数据处理设备30的生成单元306用于根据既定规则和维度值生成关于对象的额外维度值。例如,生成单元306可以根据定位单元304定位到的维度值并基于既定规则来确定额外维度值。额外维度值可以是具体的量化数值,可以为离散的等级形式,还可以具有一定语义的短语。在一些示例中,以Excel表单为例,可以将从表单中定位到的运算参数代入到公式中。具体而言,数据处理设备120可以根据所获取的单元格内填充的数据,并且基于公式以及可能的单元格对应的加权权重进行运算,从而生成刻画对象的额外维度值。例如,数据处理设备120在获取到用户年龄、国别、性别、驾龄等数据后,可以对用户的保费进行评级。在一些示例中,数据处理设备120可以根据用户的浏览习惯和时长等生成关于用户喜好的内容的额外维度值。
尽管不是必要的,数据处理设备30也可以输出生成的额外维度值。如图1所示,数据处理设备120可以经由第四路径向云端数据库130推送额外维度值,从而补充到对象所在条目中,并作为一个新的维度存储。数据处理设备120还可以经由第五路径向数据采集设备110推送额外维度值。数据处理设备120的持有者或者操作者可以据此得到关于例如经由第一路径上传的对象数据的精确画像。额外维度值可以被数据处理设备120或其持有者、操作者用于预测对象的行为。
在一些示例中,数据处理设备30的确定单元302还可以根据既定规则所依赖的维度信息确定既定规则到数据集的反向依赖路径,并且定位单元304可以基于反向依赖路径定位到对象的维度值。例如,图1中示出的数据处理设备120可以分析从输入到输出的反向依赖图,从而只要计算输出所需要的维度信息和维度值(忽略数据集中不需要的维度信息和维度值),提高既定规则的计算效率。
在一些示例中,数据处理设备30还包括判断单元(图3中未示出),并且判断单元用于判断对象的维度值是否突出于数据集的其他对象的维度值。数据处理设备30还可以包括提示单元(图3中未示出),并且提示单元还在判断单元确定对象的维度值突出于数据集的其他对象的维度值的情况下生成提示突出的信息。数据处理设备30还可以包括校正单元(图3中未示出),并且校正单元在判断单元确定对象的维度值突出于数据集的其他对象的维度值的情况下对对象进行维度校正。此时,定位单元304可以定位到对象经校正后的维度值,从而避免将明显的错误带入到生成的额外维度值中。本发明中所谓的“突出”是指某一对象的某些维度值与其他对象的维度值相比明显不合理,这些“突出”被视为错误。错误可能是录入时引入的,例如,误在性别维度下录入年龄维度值。错误也可能是在对数据的二次加工过程中引入的,例如,对应于一些对象的条目可能存在错位。
在一些示例中,确定单元302所确定的维度信息包括对应于维度信息的维度值的类型(例如,布尔型、字符型、整型、浮点型等)。在一些示例中,“突出”包括以下至少一者:数值突出、类型突出。在一些情况下,数据集中对应于一些对象的条目可能存在错误。例如,对应于一些对象的条目的某些维度的类型可能与对应于其他对象的类型存在明显差异。具体而言,对象A的B维度类型(例如,A行B列单元格的类型)为字符型,而其他对象的B维度类型(相应地,其他行B列单元格的类型)为整型。此时,数据处理设备120可以生成提示信息以提示对象A的B维度类型可能有误。提示信息可以经由第五路径发送至数据采集设备110,并且数据采集设备110可以呈现该提示信息。提示信息还可以经由第四路径发送至云端数据库130,云端数据库130可以将该提示信息记录到对应条目中。
另一方面,数据处理设备120也可以在对象A的条目中遍历所有维度的类型,直至找到维度类型与其他对象一致并且维度值合理(例如,“年龄”维度的维度值介于18-90之间,“体重”维度的维度值介于45公斤-100公斤之间)的维度,并以此作为校正后的正确维度。在一些示例中,数据处理设备120可以根据确定单元302所确定的维度信息(包括类型信息)先预判初始定位到的维度值是否突出(亦即,先将维度信息中的类型信息与单元格的类型信息作比较),随后再通过将目标对象与其他对象的比较确定维度值是否突出,这样有助于快速确定单元格中的数据是否突出。
在一些示例中,数据处理设备30还包括日志单元,日志单元可以记录生成额外维度值的日志文件,日志文件包括既定规则、维度信息及其对应的数据类型。在一些示例中,以上步骤中获取的既定规则(例如,公式)、维度信息(例如,单元格)、数据类型,以及公式计算过程中的中间值都可以存储在日志文件(LOG)中。该日志文件可以存放于第一表单中,也可以单独存储为一个文件。用户可以随时调用日志文件查看每一步骤的计算是否正确。图4示出了根据本发明一个实施例的日志文件。如图4中所示,日志文件记录公式计算中的所涉及的每个STEP,从STEP1-STEP27,并且将相应值记录在内。
在一些示例中,数据处理设备30还包括接口单元(图3中未示出),其中,既定规则等能够经由接口单元被调用。在一些示例中,诸如公式等的既定规则能够经由API应用程序接口被导出。在此可以产生一个符合Open API规范的Restful API描述文档。文档可以描述了表单评级公式中的输入数据格式、调用后输出的数据格式以及API的调用路径等。用户可以将API或者API描述文档上传到公共运算平台。其他公共运算平台可以通过调用这个API运行评级计算公式。其他公共运算平台包括Microsoft Azure,Aws,InsureMo等计算平台。
在一些示例中,诸如公式等的既定规则还可以由用户进行编辑并且根据编辑后公式进行运算。例如,用户可以编辑公式中的单元格区间,例如从F55-F60调整为F55-F65。此外,用户也可以编辑公式中的单元格的数据类型,例如将F50的数据类型由布尔类型调整为浮点数类型。用户还可以编辑公式中的单元格对应的加权权重,例如将斐济(Fiji)的加权权重调整至8.249162553。
在一些示例中,数据处理设备30还可以对既定规则进行在线测试。例如,数据处理设备30可以测试公式运算是否正确。在线测试可以是向评级计算公式填充测试数据内容,从而测试所使用的数据和数据类型是否正确。如果所述评级计算公式运算不正确,系统可以报错,也可以在日志文件中记录所运算的数据格式以及单元格,从而供用户进一步调试系统。
根据本申请的另一方面,提供一种计算机可读存储介质,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种数据处理方法。本申请中所称的计算机可读介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机可读介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或专用计算机、或者通用或专用处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的盘通常磁性地复制数据,而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在图5中示出了根据本发明的一个实施例计算机设备。如图5中所示,计算机设备50包括存储器502和处理器504。其中,储存器502可以按照上文的计算机可读存储介质,处理器504可以执行其上存储的指令。
根据本申请的另一方面,提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上文所述任意一种数据处理方法的步骤。在一种实施方式中,计算机程序产品有形地体现在信息载体中。信息载体是计算机或机器可读介质。
本领域普通技术人员应当了解,本发明不限定于上述的实施例,本发明可以在不偏离其主旨与范围内以许多其它的形式实施。因此,所展示的示例与实施例被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括如下步骤:
确定既定规则所依赖的维度信息;
接收具有规整结构的数据集,并且定位到所述数据集中的对象的维度值,所述维度值对应于所述维度信息;以及
根据所述既定规则和所述维度值生成关于所述对象的额外维度值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括步骤:根据所述既定规则所依赖的维度信息确定所述既定规则到所述数据集的反向依赖路径;其中,基于所述反向依赖路径定位到所述对象的所述维度值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括步骤:在所述对象的所述维度值突出于所述数据集的其他对象的所述维度值的情况下,生成提示所述突出的信息和/或对所述对象进行维度校正后再定位到所述对象的所述维度值。
4.根据权利要求3所述的方法,其特征在于,所述维度信息包括对应于所述维度信息的维度值的类型,并且所述突出包括以下至少一者:数值突出、类型突出。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括步骤:记录生成所述额外维度值的日志文件,其中,所述日志文件包括所述既定规则、所述维度信息及其对应的维度值的数据类型。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:提供外部接口;其中,所述既定规则能够经由所述外部接口调用。
7.一种数据处理设备,其特征在于,所述设备包括:
确定单元,其配置成确定既定规则所依赖的维度信息;
定位单元,其配置成接收具有规整结构的数据集并且定位到所述数据集中的对象对应于所述维度信息的维度值;以及
生成单元,其配置成根据所述既定规则和所述维度值生成关于所述对象的额外维度值。
8.根据权利要求7所述的设备,其特征在于,所述确定单元还配置成根据所述既定规则所依赖的维度信息确定所述既定规则到所述数据集的反向依赖路径;以及
所述定位单元基于所述反向依赖路径定位到所述对象的所述维度值。
9.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如权利要求1-6中任一项所述的方法。
10.一种计算机设备,其特征在于,所述设备包括:如权利要求9所述的计算机可读存储介质以及处理器。
11.一种计算机程序产品,包括计算机可读指令,所述计算机可读指令在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001620.3A CN115729926A (zh) | 2021-08-30 | 2021-08-30 | 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 |
PCT/CN2022/114097 WO2023030080A1 (zh) | 2021-08-30 | 2022-08-23 | 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001620.3A CN115729926A (zh) | 2021-08-30 | 2021-08-30 | 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115729926A true CN115729926A (zh) | 2023-03-03 |
Family
ID=85290811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111001620.3A Pending CN115729926A (zh) | 2021-08-30 | 2021-08-30 | 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115729926A (zh) |
WO (1) | WO2023030080A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858326B2 (en) * | 2012-10-10 | 2018-01-02 | Microsoft Technology Licensing, Llc | Distributed data warehouse |
CN107203943A (zh) * | 2017-04-06 | 2017-09-26 | 北京保程保险公估有限公司 | 机动车商业保险定价系统 |
CN113220728B (zh) * | 2021-05-24 | 2023-11-28 | 跬云(上海)信息科技有限公司 | 数据查询方法、装置、设备和存储介质 |
-
2021
- 2021-08-30 CN CN202111001620.3A patent/CN115729926A/zh active Pending
-
2022
- 2022-08-23 WO PCT/CN2022/114097 patent/WO2023030080A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023030080A1 (zh) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568754B2 (en) | Guiding creation of an electronic survey | |
CN104657396B (zh) | 数据迁移方法及装置 | |
CN107943694B (zh) | 一种测试数据生成方法及装置 | |
CN104375847B (zh) | 识别业务类型的方法及装置 | |
CN110209561B (zh) | 用于对话平台的评测方法和评测装置 | |
JP2017016625A (ja) | 新しい興味のある地点の位置を決定する方法及び装置 | |
US8666849B2 (en) | Computer implemented method for bill analysis over the internet | |
CN113190562A (zh) | 一种报表生成方法、装置及电子设备 | |
CN110889737A (zh) | 合租室友的推荐方法、装置、服务器及存储介质 | |
CN112015870B (zh) | 数据上传方法及装置 | |
EP3043295A2 (en) | Intelligent business support system | |
CN117688155A (zh) | 业务问题的回复方法、装置、存储介质以及电子设备 | |
CN115729926A (zh) | 一种数据处理方法和设备、存储介质、程序产品以及计算机设备 | |
CN116680494A (zh) | 应用推荐页面的生成方法、装置、存储介质以及电子设备 | |
CN116662428A (zh) | 多渠道进线会话信息数据的整合方法、装置、设备及介质 | |
CN114638230B (zh) | 一种互联网大数据分析方法及系统 | |
CN110955760B (zh) | 判决结果的评价方法和相关装置 | |
JP6695847B2 (ja) | ソフトウェア部品管理システム、計算機 | |
GB2611852A (en) | A system and method for selecting a service supplier | |
CN110858214A (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN111694872B (zh) | 一种业务处置的数据化方案的提供方法及装置 | |
CN114091424A (zh) | 外呼数据处理的方法、外呼平台及计算机可读存储介质 | |
CN116136880A (zh) | 数据展示方法、装置、电子设备及存储介质 | |
WO2013066364A2 (en) | Computer implemented method for bill analysis over the internet | |
CN115062858B (zh) | 用户投诉行为预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |