CN102955823B - 一种对电视节目评估调研样本数据的处理方法 - Google Patents
一种对电视节目评估调研样本数据的处理方法 Download PDFInfo
- Publication number
- CN102955823B CN102955823B CN201110253407.1A CN201110253407A CN102955823B CN 102955823 B CN102955823 B CN 102955823B CN 201110253407 A CN201110253407 A CN 201110253407A CN 102955823 B CN102955823 B CN 102955823B
- Authority
- CN
- China
- Prior art keywords
- resolver
- sample
- predicate expressions
- condition
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种对电视节目评估调研样本数据的处理方法,该方法采用DSL领域语言描述样本筛选的条件,然后通过解析器将条件序列转换为复合谓词表达式树,接着将表达式树和原数据加载到执行器中进行限制运算,最后输出相应的关系数据子集。与现有技术相比,本发明能够实现根据任意多个条件筛选样本的功能,以及具有较好的完全性、易扩展性和可移植性等优点。
Description
技术领域
本发明涉及一种数据的处理方法,尤其是涉及一种对电视节目评估调研样本数据的处理方法。
背景技术
在对电视节目评估的调研中,合理精确地对整体样本群进行样本筛选及管理是完成科学调研的基础和前提,也是实现调研数据有效的根本保障。
电视节目评估调研样本筛选及管理技术是一种可以实现多条件、多定义样本筛选;手动标签增设与软件自动筛选相结合;样本多级管理的技术应用,实现便捷、快速、高效的样本抽取工作。近年来,随着各类调研工作对分层样本精确管理需求的发展,样本筛选及管理技术的应用领域不断扩大,广泛应用于媒介调研、商业调研及各专业科研调研当中。
从电视节目评估样本抽取效果来看,样本筛选及管理技术经历了人工抽取、计算机辅助筛选抽取等发展阶段。人工抽取样本通过对样本人工排序和编号,形成样本抽样框,再按照一定规律及比例抽取样本,该方式耗时长、费人力,当对符合分层要求的样本进行筛选时核算样本在各分层中所占比例存在一定困难,对样本变动、调整及替补时难以进行适时跟踪,容易造成误差及疏漏;计算机辅助抽取,通常采用EXCEL电子表格软件设定公式及筛选条件对样本进行筛选及管理,辅助完成抽样工作,一般都提供固定个数的条件筛选,而且当条件取值发生变化或条件发生变化时都需要重新进行数据筛选的程序设计,若要从2000个有20个以上属性的样本数据,筛选出各种属性以及属性值相交的样本,并且还要考虑属性的变化,这样的筛选条件是无法穷尽的;虽然该技术相对于人工抽取样本更为简易、快捷,但无法实现对分层样本各元素的多重定义抽取,无法对样本进行跟踪、筛选、推送,从而达到有效管理。
发明内容
本发明的目的就是为了克服上述现有技术存在的不足而提供一种能够实现任意多条件的样本任意组合的筛选功能,具有较好的完全性、易扩展性和可移植性的对电视节目评估调研样本数据的处理方法。
本发明的目的可以通过以下技术方案来实现:一种对电视节目评估调研样本数据的处理方法,该方法包括以下步骤:(1)DSL生成器轮询设置在控制端的界面控件状态,生成条件序列,并将其发送给解析器;(2)解析器将第一个谓词表达式设为“真”;(3)解析器判断当前DSL条件是否为“空”,如果为是,则执行步骤(4);如果为否,则执行步骤(8);(4)解析器判断当前条件序列的连接符是否为“与”;如果为是,执行步骤(5);否则执行步骤(6);(5)解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“与”连接,生成表达式树,然后转到步骤(7);(6)解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“或”连接,生成谓词表达式树,然后转到步骤(7);(7)重复步骤(1)~(6),如果界面控件状态没有变化,解析器将最后生成的谓词表达式树发送给执行器;(8)执行器将谓词表达式树应用到限制运算的条件子句;(9)执行器输出源数据的相应子集,并通过呈现端显示出来。
所述的步骤(1)中的生成条件序列的每个条件都是一个四分量的元组:t=(C,P,V,O),C是连接符,支持AND、OR;P是属性,取自被筛选对象的筛选指标,V是值域,支持单值和多值,视运算符决定;O是运算符,支持:=,<>,>,>=,<,<=,in,notin。当使用in和notin时,值域V可以包含多个值,并以谓词OR连接,其他情况都只能使用单值。
与现有技术相比,本发明对电视节目评估调研样本数据采用计算机程序设定抽取技术进行处理,可根据不同分层元素设定样本取值,实现多条件多定义样本筛选,具有较好的完全性、易扩展性和可移植性,为样本选取工作提供了很大的自由度。对于样本调研,其查询需求无法穷尽,故采用DSL定义用户的查询需求,所谓DSL即本领域专用语言(DomainSpecificLanguage/DSL),是采用结构化数据描述无歧义需求方法的通称,可让用户定义任意需求。
本发明通过计算机程序设定抽取技术进行处理,可根据不同分层元素设定样本取值,实现多条件多定义样本筛选、手动标签增设与计算机程序自动筛选相结合、样本多级管理等功能,依据科学人口数据进行分层比例数据计算,并根据调研需要设定样本规模,设置不同组别抽样数额,统计抽取人数及差额样本值。计算机程序抽取样本技术直观、科学地实现了对样本的抽取及管理工作,为确定、调整、替换样本创造了精确手段,具有更加广泛的适用性,可对于每个特定的项目,按照样本属性进行符合调查需求的抽样处理。
附图说明
图1为本发明的处理方法流程图;
图2为本发明处理方法中表达式树I的示意图;
图3为本发明处理方法中表达式树II的示意图;
图4为本发明的系统结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
本实施例先做如下设定:
设有任意数量和属性的样本集合——例如有2000条样本数据,每条数据均有编号、名称、学历、收入、联系方式等任意多个属性。调查人员希望找到其中居住在卢湾/徐汇两区且受过硕士教育的样本。类似这样的查询条件无法一一穷尽,因此采用DSL方法。原始数据的前7条如下:
如图1所示,一种对电视节目评估调研样本数据的处理方法,其采用DSL领域语言描述样本筛选的条件,然后通过解析器将条件序列转换为复合谓词表达式树,接着将表达式树和原数据加载到执行器中进行限制运算,最后输出相应的关系数据子集。
其涉及的方法步骤如下:
1)步骤101,DSL生成器轮询界面控件状态,生成条件序列;每个条件都是一个4分量的元组:t=(C,P,V,O),C是连接符,P是属性,V是值域,O是运算符。相应生成的DSL条件序列为{(AND,学历,”硕士及以上”,in),(AND,地区,{“徐汇区”,“卢湾区”},in)};
2)步骤102,解析器将第一个谓词表达式设为“真”,执行103;
3)步骤103,解析器判断当前DSL条件是否不为“空”,此时条件为(AND,学历,”硕士及以上”,=),结果为是,执行步骤104;
4)步骤104,解析器判断当前条件序列的连接符是否为“与”,此时连接符为“与”,执行步骤105;
5)步骤105,解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“与”连接;形成如图2所示的表达式树I,并执行107;
6)步骤107,解析器获取下一个条件,执行103;
7)步骤103,解析器判断当前DSL条件是否不为“空”,此时条件为(AND,地区,{”徐汇区”,”卢湾区”},in),结果为是,执行步骤104;
8)步骤104,解析器判断当前条件序列的连接符是否为“与”,此时连接符为“与”,执行步骤105;
9)步骤105,解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“与”连接;此条件中操作符为in,值域为{“徐汇区”,“卢湾区”},等价为谓词表达式:地区=“徐汇区”OR地区=“卢湾区”;形成如图3所示的表达式树II,并执行107;
10)步骤107,解析器获取下一个条件,执行103;
11)步骤103,解析器判断当前DSL条件是否不为“空”,此时已无条件,结果为否,执行步骤108;
12)步骤108,执行器将谓词表达式树应用到限制运算的条件子句;
13)步骤109,执行器输出源数据的相应子集,并通过呈现端显示出来。以下是部分输出结果。
如图2所示,表达式树I由AND(TRUE,A)组成,其中A:学历=硕士及以上。
如图3所示,表达式树II由AND(AND(TRUE,A),OR(B,C))组成,其中A:学历=硕士及以上;B:地区=“徐汇区”;C:地区=“卢湾区”。
如图4所示,本发明所涉及系统结构部分包括控制端1、DSL生成器2、解析器3、执行器4、呈现端5和数据源存储器6,控制端1、DSL生成器2、解析器3、执行器4、呈现端5依次连接,数据源存储器6与执行器4连接,呈现端5为显示器。
Claims (1)
1.一种对电视节目评估调研样本数据的处理方法,该方法包括以下步骤:
(1)DSL生成器轮询设置在控制端的界面控件状态,生成条件序列,并将其发送给解析器;
所述的生成条件序列的每个条件都是一个四分量的元组:t=(C,P,V,O),C是连接符,支持AND、OR;P是属性,取自被筛选对象的筛选指标,V是值域,支持单值和多值,视运算符决定;O是运算符,支持:=,<>,>,>=,<,<=,in,notin;当使用in和notin时,值域V可以包含多个值,并以谓词OR连接,其他情况都只能使用单值;
(2)解析器将第一个谓词表达式设为“真”;
(3)解析器判断当前DSL条件是否为“空”,如果为是,则执行步骤(4);如果为否,则执行步骤(8);
(4)解析器判断当前条件序列的连接符是否为“与”;如果为是,执行步骤(5);否则执行步骤(6);
(5)解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“与”连接,生成表达式树,然后转到步骤(7);
(6)解析器将当前条件序列转换为谓词表达式,和前一个谓词表达式“或”连接,生成谓词表达式树,然后转到步骤(7);
(7)重复步骤(1)~(6),如果界面控件状态没有变化,解析器将最后生成的谓词表达式树发送给执行器;
(8)执行器将谓词表达式树应用到限制运算的条件子句;
(9)执行器输出源数据的相应子集,并通过呈现端显示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110253407.1A CN102955823B (zh) | 2011-08-30 | 2011-08-30 | 一种对电视节目评估调研样本数据的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110253407.1A CN102955823B (zh) | 2011-08-30 | 2011-08-30 | 一种对电视节目评估调研样本数据的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102955823A CN102955823A (zh) | 2013-03-06 |
CN102955823B true CN102955823B (zh) | 2016-01-20 |
Family
ID=47764634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110253407.1A Expired - Fee Related CN102955823B (zh) | 2011-08-30 | 2011-08-30 | 一种对电视节目评估调研样本数据的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102955823B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105024870A (zh) * | 2014-04-24 | 2015-11-04 | 中国移动通信集团公司 | 一种实现拨测的方法及系统 |
CN106156057A (zh) * | 2015-03-27 | 2016-11-23 | 北京风行在线技术有限公司 | 一种查询视频数据结果的方法和设备 |
CN106951427B (zh) * | 2016-01-07 | 2020-08-18 | 阿里巴巴集团控股有限公司 | 一种业务对象的数据抽取方法及装置 |
CN112115129B (zh) * | 2020-09-16 | 2024-05-10 | 浪潮软件股份有限公司 | 一种基于机器学习的零售终端样本抽样方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1952928A (zh) * | 2005-10-20 | 2007-04-25 | 梁威 | 建立自然语言知识库及其自动问答检索的计算机系统 |
CN101548281A (zh) * | 2006-06-01 | 2009-09-30 | 梅迪尔雷夫默斯特尔和雷夫通信与信息技术Oeg公司 | 控制关系数据库系统的方法 |
CN101706722A (zh) * | 2009-12-01 | 2010-05-12 | 山东中创软件工程股份有限公司 | 一种生成报表的方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901234A (zh) * | 2009-05-27 | 2010-12-01 | 国际商业机器公司 | 将xml数据转换为资源描述框架数据的方法和系统 |
US8732667B2 (en) * | 2009-11-13 | 2014-05-20 | Microsoft Corporation | Debugging services for domain specific languages |
-
2011
- 2011-08-30 CN CN201110253407.1A patent/CN102955823B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1952928A (zh) * | 2005-10-20 | 2007-04-25 | 梁威 | 建立自然语言知识库及其自动问答检索的计算机系统 |
CN101548281A (zh) * | 2006-06-01 | 2009-09-30 | 梅迪尔雷夫默斯特尔和雷夫通信与信息技术Oeg公司 | 控制关系数据库系统的方法 |
CN101706722A (zh) * | 2009-12-01 | 2010-05-12 | 山东中创软件工程股份有限公司 | 一种生成报表的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102955823A (zh) | 2013-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11003645B1 (en) | Column lineage for resource dependency system and graphical user interface | |
US11494414B2 (en) | Progressive query computation using streaming architectures | |
Knoblock et al. | Exploiting semantics for big data integration | |
EP3557443A1 (en) | Resource dependency system and graphical user interface | |
CN105144080B (zh) | 用于元数据管理的系统 | |
US7760405B2 (en) | Apparatus and method for integrating print preview with data modeling document editing | |
CN111611458A (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
US20120158643A1 (en) | Data Mining in a Business Intelligence Document | |
CN102955823B (zh) | 一种对电视节目评估调研样本数据的处理方法 | |
CN106096644B (zh) | 基于概率工作流的相似度度量方法及装置 | |
US9805112B2 (en) | Method and structure for managing multiple electronic forms and their records using a static database | |
CN104731588B (zh) | 页面布局文件生成方法和页面布局文件生成装置 | |
CN116468010A (zh) | 报表生成方法、装置、终端及存储介质 | |
CN103077192B (zh) | 一种数据处理方法及其系统 | |
CN104090769A (zh) | 一种业务数据的图形展示方法和装置 | |
CN109542438A (zh) | 一种基于可视化的图表开发方法 | |
CN103198078A (zh) | 一种互联网新闻事件报道趋势分析方法及系统 | |
CN102866985B (zh) | 用于联机分析处理系统的数据格式化装置和方法 | |
CN117349368A (zh) | 基于Flink的跨库数据实时同步任务管理系统及方法 | |
Rostami et al. | BIGGR: Bringing GRADOOP to applications | |
CN108920134B (zh) | 自动生成设计文档的方法及装置 | |
CN111241176A (zh) | 一种数据治理管理系统 | |
CN110222032A (zh) | 一种基于软件数据分析的通用事件模型 | |
Rios-Berrios et al. | TreeCovery: Coordinated dual treemap visualization for exploring the Recovery Act | |
CN116010439A (zh) | 一种可视化中文sql系统及构建查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20210830 |