CN102955823B

CN102955823B - 一种对电视节目评估调研样本数据的处理方法

Info

Publication number: CN102955823B
Application number: CN201110253407.1A
Authority: CN
Inventors: 方方; 雷雯; 黄昊天; 季隽; 叶海松; 沙扬
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-08-30
Filing date: 2011-08-30
Publication date: 2016-01-20
Anticipated expiration: 2031-08-30
Also published as: CN102955823A

Abstract

本发明涉及一种对电视节目评估调研样本数据的处理方法，该方法采用DSL领域语言描述样本筛选的条件，然后通过解析器将条件序列转换为复合谓词表达式树，接着将表达式树和原数据加载到执行器中进行限制运算，最后输出相应的关系数据子集。与现有技术相比，本发明能够实现根据任意多个条件筛选样本的功能，以及具有较好的完全性、易扩展性和可移植性等优点。

Description

一种对电视节目评估调研样本数据的处理方法

技术领域

本发明涉及一种数据的处理方法，尤其是涉及一种对电视节目评估调研样本数据的处理方法。

背景技术

在对电视节目评估的调研中，合理精确地对整体样本群进行样本筛选及管理是完成科学调研的基础和前提，也是实现调研数据有效的根本保障。

电视节目评估调研样本筛选及管理技术是一种可以实现多条件、多定义样本筛选；手动标签增设与软件自动筛选相结合；样本多级管理的技术应用，实现便捷、快速、高效的样本抽取工作。近年来，随着各类调研工作对分层样本精确管理需求的发展，样本筛选及管理技术的应用领域不断扩大，广泛应用于媒介调研、商业调研及各专业科研调研当中。

从电视节目评估样本抽取效果来看，样本筛选及管理技术经历了人工抽取、计算机辅助筛选抽取等发展阶段。人工抽取样本通过对样本人工排序和编号，形成样本抽样框，再按照一定规律及比例抽取样本，该方式耗时长、费人力，当对符合分层要求的样本进行筛选时核算样本在各分层中所占比例存在一定困难，对样本变动、调整及替补时难以进行适时跟踪，容易造成误差及疏漏；计算机辅助抽取，通常采用EXCEL电子表格软件设定公式及筛选条件对样本进行筛选及管理，辅助完成抽样工作，一般都提供固定个数的条件筛选，而且当条件取值发生变化或条件发生变化时都需要重新进行数据筛选的程序设计，若要从2000个有20个以上属性的样本数据，筛选出各种属性以及属性值相交的样本，并且还要考虑属性的变化，这样的筛选条件是无法穷尽的；虽然该技术相对于人工抽取样本更为简易、快捷，但无法实现对分层样本各元素的多重定义抽取，无法对样本进行跟踪、筛选、推送，从而达到有效管理。

发明内容

本发明的目的就是为了克服上述现有技术存在的不足而提供一种能够实现任意多条件的样本任意组合的筛选功能，具有较好的完全性、易扩展性和可移植性的对电视节目评估调研样本数据的处理方法。

本发明的目的可以通过以下技术方案来实现：一种对电视节目评估调研样本数据的处理方法，该方法包括以下步骤：(1)DSL生成器轮询设置在控制端的界面控件状态，生成条件序列，并将其发送给解析器；(2)解析器将第一个谓词表达式设为“真”；(3)解析器判断当前DSL条件是否为“空”，如果为是，则执行步骤(4)；如果为否，则执行步骤(8)；(4)解析器判断当前条件序列的连接符是否为“与”；如果为是，执行步骤(5)；否则执行步骤(6)；(5)解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“与”连接，生成表达式树，然后转到步骤(7)；(6)解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“或”连接，生成谓词表达式树，然后转到步骤(7)；(7)重复步骤(1)～(6)，如果界面控件状态没有变化，解析器将最后生成的谓词表达式树发送给执行器；(8)执行器将谓词表达式树应用到限制运算的条件子句；(9)执行器输出源数据的相应子集，并通过呈现端显示出来。

所述的步骤(1)中的生成条件序列的每个条件都是一个四分量的元组：t＝(C，P，V，O)，C是连接符，支持AND、OR；P是属性，取自被筛选对象的筛选指标，V是值域，支持单值和多值，视运算符决定；O是运算符，支持：＝，＜＞，＞，＞＝，＜，＜＝，in，notin。当使用in和notin时，值域V可以包含多个值，并以谓词OR连接，其他情况都只能使用单值。

与现有技术相比，本发明对电视节目评估调研样本数据采用计算机程序设定抽取技术进行处理，可根据不同分层元素设定样本取值，实现多条件多定义样本筛选，具有较好的完全性、易扩展性和可移植性，为样本选取工作提供了很大的自由度。对于样本调研，其查询需求无法穷尽，故采用DSL定义用户的查询需求，所谓DSL即本领域专用语言(DomainSpecificLanguage/DSL)，是采用结构化数据描述无歧义需求方法的通称，可让用户定义任意需求。

本发明通过计算机程序设定抽取技术进行处理，可根据不同分层元素设定样本取值，实现多条件多定义样本筛选、手动标签增设与计算机程序自动筛选相结合、样本多级管理等功能，依据科学人口数据进行分层比例数据计算，并根据调研需要设定样本规模，设置不同组别抽样数额，统计抽取人数及差额样本值。计算机程序抽取样本技术直观、科学地实现了对样本的抽取及管理工作，为确定、调整、替换样本创造了精确手段，具有更加广泛的适用性，可对于每个特定的项目，按照样本属性进行符合调查需求的抽样处理。

附图说明

图1为本发明的处理方法流程图；

图2为本发明处理方法中表达式树I的示意图；

图3为本发明处理方法中表达式树II的示意图；

图4为本发明的系统结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本实施例先做如下设定：

设有任意数量和属性的样本集合——例如有2000条样本数据，每条数据均有编号、名称、学历、收入、联系方式等任意多个属性。调查人员希望找到其中居住在卢湾/徐汇两区且受过硕士教育的样本。类似这样的查询条件无法一一穷尽，因此采用DSL方法。原始数据的前7条如下：

如图1所示，一种对电视节目评估调研样本数据的处理方法，其采用DSL领域语言描述样本筛选的条件，然后通过解析器将条件序列转换为复合谓词表达式树，接着将表达式树和原数据加载到执行器中进行限制运算，最后输出相应的关系数据子集。

其涉及的方法步骤如下：

1)步骤101，DSL生成器轮询界面控件状态，生成条件序列；每个条件都是一个4分量的元组：t＝(C，P，V，O)，C是连接符，P是属性，V是值域，O是运算符。相应生成的DSL条件序列为{(AND，学历，”硕士及以上”，in)，(AND，地区，{“徐汇区”，“卢湾区”}，in)}；

2)步骤102，解析器将第一个谓词表达式设为“真”，执行103；

3)步骤103，解析器判断当前DSL条件是否不为“空”，此时条件为(AND，学历，”硕士及以上”，＝)，结果为是，执行步骤104；

4)步骤104，解析器判断当前条件序列的连接符是否为“与”，此时连接符为“与”，执行步骤105；

5)步骤105，解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“与”连接；形成如图2所示的表达式树I，并执行107；

6)步骤107，解析器获取下一个条件，执行103；

7)步骤103，解析器判断当前DSL条件是否不为“空”，此时条件为(AND，地区，{”徐汇区”，”卢湾区”}，in)，结果为是，执行步骤104；

8)步骤104，解析器判断当前条件序列的连接符是否为“与”，此时连接符为“与”，执行步骤105；

9)步骤105，解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“与”连接；此条件中操作符为in，值域为{“徐汇区”，“卢湾区”}，等价为谓词表达式：地区＝“徐汇区”OR地区＝“卢湾区”；形成如图3所示的表达式树II，并执行107；

10)步骤107，解析器获取下一个条件，执行103；

11)步骤103，解析器判断当前DSL条件是否不为“空”，此时已无条件，结果为否，执行步骤108；

12)步骤108，执行器将谓词表达式树应用到限制运算的条件子句；

13)步骤109，执行器输出源数据的相应子集，并通过呈现端显示出来。以下是部分输出结果。

如图2所示，表达式树I由AND(TRUE，A)组成，其中A：学历＝硕士及以上。

如图3所示，表达式树II由AND(AND(TRUE，A)，OR(B，C))组成，其中A：学历＝硕士及以上；B：地区＝“徐汇区”；C：地区＝“卢湾区”。

如图4所示，本发明所涉及系统结构部分包括控制端1、DSL生成器2、解析器3、执行器4、呈现端5和数据源存储器6，控制端1、DSL生成器2、解析器3、执行器4、呈现端5依次连接，数据源存储器6与执行器4连接，呈现端5为显示器。

Claims

1.一种对电视节目评估调研样本数据的处理方法，该方法包括以下步骤：

(1)DSL生成器轮询设置在控制端的界面控件状态，生成条件序列，并将其发送给解析器；

所述的生成条件序列的每个条件都是一个四分量的元组：t＝(C,P,V,O),C是连接符，支持AND、OR；P是属性，取自被筛选对象的筛选指标，V是值域，支持单值和多值，视运算符决定；O是运算符，支持：＝,<>,>,>＝,<,<＝,in,notin；当使用in和notin时，值域V可以包含多个值，并以谓词OR连接，其他情况都只能使用单值；

(2)解析器将第一个谓词表达式设为“真”；

(3)解析器判断当前DSL条件是否为“空”，如果为是，则执行步骤(4)；如果为否，则执行步骤(8)；

(4)解析器判断当前条件序列的连接符是否为“与”；如果为是，执行步骤(5)；否则执行步骤(6)；

(5)解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“与”连接，生成表达式树，然后转到步骤(7)；

(6)解析器将当前条件序列转换为谓词表达式，和前一个谓词表达式“或”连接，生成谓词表达式树，然后转到步骤(7)；

(7)重复步骤(1)～(6)，如果界面控件状态没有变化，解析器将最后生成的谓词表达式树发送给执行器；

(8)执行器将谓词表达式树应用到限制运算的条件子句；

(9)执行器输出源数据的相应子集，并通过呈现端显示出来。