CN110837551B - 一种在线数据采集的方法及系统 - Google Patents

一种在线数据采集的方法及系统 Download PDF

Info

Publication number
CN110837551B
CN110837551B CN201911179269.XA CN201911179269A CN110837551B CN 110837551 B CN110837551 B CN 110837551B CN 201911179269 A CN201911179269 A CN 201911179269A CN 110837551 B CN110837551 B CN 110837551B
Authority
CN
China
Prior art keywords
data
line
target terminals
question
acquisition module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911179269.XA
Other languages
English (en)
Other versions
CN110837551A (zh
Inventor
吴连旺
李韶辉
邹裕涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quick Decision Information Technology Co ltd
Original Assignee
Guangzhou Quick Decision Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quick Decision Information Technology Co ltd filed Critical Guangzhou Quick Decision Information Technology Co ltd
Priority to CN201911179269.XA priority Critical patent/CN110837551B/zh
Publication of CN110837551A publication Critical patent/CN110837551A/zh
Priority to PCT/CN2020/131852 priority patent/WO2021104385A1/zh
Priority to TW109141472A priority patent/TWI799760B/zh
Priority to EP20892765.7A priority patent/EP3933741A4/en
Priority to US17/606,787 priority patent/US11886479B2/en
Application granted granted Critical
Publication of CN110837551B publication Critical patent/CN110837551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种在线数据采集的方法和系统。所述方法包括:采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端;所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端;所述采集端基于接收到的所述多个第一数据进行在线分析。本申请提供的方法保证了调研的实时性,使得对调研结果的分析没有滞后性。

Description

一种在线数据采集的方法及系统
技术领域
本申请涉及互联网技术领域,特别涉及一种在线数据采集的方法及系统。
背景技术
调研是指通过各种调查方式系统客观的收集信息并研究分析,对各产业未来的发展趋势予以预测,为投资或发展方向的决策做准备。
相关技术中,调研分为定性调研和定量调研,对于定性调研,主要通过召集全国各地符合配额要求的用户(例如,20个用户)在同一时间同一地点进行深入的访谈,然而,该定性调研方式成本高、数据分析效率低。
因此,如何实现定性调研的低成本以及高效的数据分析成为目前亟需解决的技术问题。
发明内容
本申请实施例之一提供一种在线数据采集的方法。所述在线数据采集方法包括:采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端;所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端;所述采集端基于接收到的所述多个第一数据进行在线分析。
在一些实施例中,确定所述多个第一目标终端包括:在线向多个目标终端发送招募信息,所述多个目标终端对所述招募信息给出多个反馈信息;所述采集端根据预设的筛选规则对所述反馈信息进行筛选,将筛选的反馈信息对应的目标终端作为所述多个第一目标终端。
在一些实施例中,所述在线数据采集方法还包括:所述多个第一目标终端将反馈的所述多个第一数据在线返回给所述采集端之后,所述采集端根据所述多个第一数据或/和所述预设规则在线生成第二数据采集模块,并将所述第二数据采集模块在线发送给所述多个第一目标终端;所述多个第一目标终端在线接收到所述第二采集模块后在第二预设时间内在线反馈多个第二数据;所述采集端基于接收到的所述多个第二数据进行在线分析;重复前述步骤直至数据采集完成。
在一些实施例中,所述在线数据采集方法还包括:所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析。
在一些实施例中,所述相关信息包括类别或/和重要性。
在一些实施例中,所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析包括:当所述相关信息中的类型为开放题目时,所述采集端将所述多个第一目标终端针对所述开放题目给出的所述多个第一数据或/和所述多个第二数据输入至文本识别模型,得到识别结果。
在一些实施例中,所述识别结果包括观点提取结果和/或观点聚类结果。
在一些实施例中,所述文本识别模型为文本分类模型和/或无监督学习聚类模型。
在一些实施例中,所述文本分类模型的训练过程如下:获得至少一个开放题目的至少一个应答信息文本;标记所述至少一个应答信息文本的标签,所述标签表示所述至少一个应答信息中每一个的观点;将携带标签应答信息文本输入初始文本分类模型进行训练,得到训练好的文本分类模型。
在一些实施例中,所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析包括:当所述相关信息中的类型为选择题、判断题、点选题或图片热区题目时,所述采集端将统计所述多个第一目标终端针对所述选择题目、所述判断题目、所述点选题目或所述图片热区题目给出的所述多个第一数据或/和所述多个第二数据中的不同选项被选中的数量或/和不同选项的占比。
在一些实施例中,所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析包括:当所述相关信息中的类型为排序题目时,所述采集端将统计所述多个第一目标终端针对所述排序题目给出的所述多个第一数据或/和所述多个第二数据中的每个选项的排序结果。
在一些实施例中,所述多个第一目标终端为超过20个回答调研题目的受访者所用终端。
本说明书实施例的另一个方面提供一种在线数据采集的系统。所述在线数据采集系统包括:主持人模块,用于采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端;受访者模块,用于所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端;分析模块,用于所述采集端基于接收到的所述多个第一数据进行在线分析。
本说明书实施例的另一个方面提供一种在线数据采集装置。所述在线数据采集装置包括处理器,所述处理器用于执行如上所述的在线数据采集方法。
本说明书实施例的另一个方面提供一种计算机可读存储介质。所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上所述的在线数据采集方法。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本申请一些实施例所示的示例性线在线数据采集系统的应用场景示意图;
图2是根据本申请一些实施例所示的示例性在线数据采集系统的模块图;
图3是根据本申请一些实施例所示的在线数据采集方法300的示例性流程图;
图4是根据本申请一些实施例所示的在线数据采集方法400的另一示例性流程图;
图5是根据本申请一些实施例所示的文本分类模型的训练方法500的示例性流程图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的示例性一种在线数据采集系统100的应用场景示意图。
在线数据采集系统100可以实现一对多的在线调研,以及根据目标终端的反馈信息进行实时在线分析。例如,在线数据采集系统100可以用于调查问卷领域,具体的,可以将一个调研题目发送给多个应答者,以实现一对多的在线调研,还可以接收应答者在规定答题时间内回答的内容,并对回答内容进行在线分析,从而实现对数据的实时分析,避免数据分析的滞后性。在线数据采集系统100可以是用于互联网服务的线上服务平台。例如,该通过在线数据采集系统100可以用于线上的问卷调查平台。在线数据采集系统100可以包含服务器110、网络120、目标终端130、数据库140以及采集端150。服务器110可包含处理设备112。
在一些实施例中,服务器110可以用于处理与线上数据采集相关的信息和/或数据。例如,服务器110可以对第一目标终端反馈的第一数据分析。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中该服务器110可以是区域的或者远程的。例如,服务器110可通过网络120访问存储于目标终端130、数据库140中的信息和/或资料。在一些实施例中,服务器110可直接与目标终端130、数据库140连接以访问存储于其中的信息和/或资料。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
在一些实施例中,服务器110可包含处理设备112。该处理设备112可处理与数据采集模块相关的数据和/或信息以执行一个或多个本申请中描述的功能。例如处理设备112可以接收目标终端130反馈的第一数据,确定第二数据采集模块。在一些实施例中,处理设备112可包含一个或多个子处理设备(例如,单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理设备112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
网络120可促进数据和/或信息的交换,数据和/或信息可以包括目标终端130反馈的多个文本。在一些实施例中,在线数据采集系统100中的一个或多个组件(例如,服务器110、目标终端130、数据库140、采集端150)可通过网络120发送数据和/或信息给在线数据采集系统100中的其他组件。在一些实施例中,网络120可是任意类型的有线或无线网络。例如,网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中,网络120可包括一个或多个网络进出点。例如,网络120可包含有线或无线网络进出点,如基站和/或网际网络交换点120-1、120-2、…,通过这些进出点,在线数据采集系统100的一个或多个组件可连接到网络120上以交换数据和/或信息。
目标终端130可以是指用户(例如,调查问卷的被调查对象等)用于反馈第第一数据或第二数据(如调查问卷的一个或多个回答)的设备的终端,可包括手机130-1、平板电脑130-2、笔记本电脑130-3等中的一种或其任意组合。在一些实施例中,目标终端130可包括具有输入功能的装置,以输入调研题目的答案。在一些实施例中,目标终端130可以将反馈的数据发送到服务器110。
数据库140是用于为系统100提供其他信息的来源。数据库140可以用于为系统100提供与服务相关的信息,例如,在线答题的人数、用户在线答题的时长、用户输入的文字字数等。又例如,数据库140还可以包括在线答题的用户信息、历史回答等,该用户信息可以包括用户的姓名、用户的年龄、用户的职位等。数据库140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。数据库140可以由多个个人设备和云服务器生成。在一些实施例中,数据库140可存储从目标终端130反馈的数据,例如,被调查者对于调研题目的回答。在一些实施例中,数据库140可存储供服务器110执行或使用的信息和/或指令,以执行本申请中描述的示例性方法。在一些实施例中,数据库140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。在一些实施例中,数据库140可在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。
在一些实施例中,数据库140可与网络120连接以与系统100的一个或多个组件(例如,服务器110、目标终端130、采集端150等)通讯。在线数据采集系统100的一个或多个组件可通过网络120访问存储于数据库140中的资料或指令,例如,对于有关员工敬业度调查、员工满意度调查、客户满意度调查的开放问卷调查的回答等。在一些实施例中,数据库140可直接与在线数据采集系统100中的一个或多个组件(如,服务器110、目标终端130、采集端150)连接或通讯。在一些实施例中,数据库140可以是服务器110的一部分。
在一些实施例中,采集端150可以是用于采集数据的设备的终端,例如,可以是用于生成调研题目的终端设备。采集端150可以包括手机150-1、平板电脑150-2、笔记本电脑150-3等中的一种或其任意组合。
图2是根据本说明书的一些实施例所示的示例性在线数据采集系统200的模块图。如图2所示,该在线数据采集系统200包括:主持人模块210、受访者模块220以及分析模块230。
主持人模块210可以用于采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端。在一些实施例中,主持人模块210可以用于采集端根据调研题目提纲在线生成调研题目,并将调研题目发送给多个受访者所使用的终端。在一些实施例中,调研题目提纲可以用于确定具体问哪些题目。在一些实施例中,所述多个第一目标终端为超过20个回答调研题目的受访者所用终端。
在一些实施例中,所述多个第一目标终端将反馈的所述多个第一数据在线返回给所述采集端之后,主持人模块210可以用于所述采集端根据所述多个第一数据或/和所述预设规则在线生成第二数据采集模块,并将所述第二数据采集模块在线发送给所述多个第一目标终端。例如,多个受访者在预定时间内对主持人模块210生成的调研题目进行回答之后,主持人模块210可以根据调研题目大纲再生成新的题目发送给这些受访者。又例如,多个受访者在预定时间内对主持人模块210生成的调研题目进行回答之后,主持人模块210可以根据这些受访者对调研题目的回答情况,针对不同的受访者生成新的调研题目,然后发送给不同的受访者。比如,受访者A会调研题目“你对我们的产品满意吗”回答为满意,受访者B回答为不满意,则可以生成新的调研题目“你在哪些方面不满意”并发给受访者A。
受访者模块220可以用于所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端。在一些实施例中,受访者模块220可以用于实现多个第一目标终端接收第一数据采集模块中的调研题目,并在第一预设时间内完成对调研题目的回答,得到回答生成的第一数据。
在一些实施例中,受访者模块220可以用于所述多个第一目标终端在线接收到所述第二采集模块后在第二预设时间内在线反馈多个第二数据。
分析模块230可以用于所述采集端基于接收到的所述多个第一数据进行在线分析。
在一些实施例中,分析模块230可以用于所述采集端基于接收到的所述多个第二数据进行在线分析。
在一些实施例中,分析模块230可以用于所述采集端根据所述第一数据采集模块或/和第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析。其中,相关信息包括类别或/和重要性。
在一些实施例中,当所述相关信息中的类型为开放题目时,分析模块230可以用于所述采集端将所述多个第一目标终端针对所述开放题目给出的所述多个第一数据或/和所述多个第二数据输入至文本识别模型,得到识别结果。其中,识别结果包括观点提取结果和/或观点聚类结果。文本识别模型为文本分类模型和/或无监督学习聚类模型。
在一些实施例中,当所述相关信息中的类型为选择题、判断题、点选题或图片热区题目时,分析模块230可以用于所述采集端将统计所述多个第一目标终端针对所述选择题目、所述判断题目、所述点选题目或所述图片热区题目给出的所述多个第一数据或/和所述多个第二数据中的不同选项被选中的数量或/和不同选项的占比。
在一些实施例中,当所述相关信息中的类型为排序题目时,分析模块230可以用于所述采集端将统计所述多个第一目标终端针对所述排序题目给出的所述多个第一数据或/和所述多个第二数据中的每个选项的排序结果。
在一些实施例中,在线数据采集系统200还可以包括训练模块,该模块用于对所述文本分类模型的训练。具体的,训练模块获得至少一个开放题目的至少一个应答信息文本;标记所述至少一个应答信息文本的标签,所述标签表示所述至少一个应答信息中每一个的观点;将携带标签应答信息文本输入初始文本分类模型进行训练,得到训练好的文本分类模型。
图3是根据本申请一些实施例所示的在线数据采集方法300的示例性流程图。如图3所述,该在线数据采集方法300包括:
步骤302,采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端。具体的,该步骤可以通过主持人模块210执行。
采集端可以具备多个功能。在一些实施例中,采集端可以根据应用场景的不同,具备相应的功能。例如,采集端可以应用于在线调研的场景,相应地,采集端可以具备编辑调研题目的功能。
在一些实施例中,可以根据预设规则在线生成第一数据采集模块。第一数据采集模块是指携带有需要用户(例如,第一目标终端对应的用户)进行反馈的数据的模块,其中,数据可以是任何数据。在一些实施例中,数据可以包括调研题目等。
在一些实施例中,预设规则可以是与第一数据采集模块携带的数据相匹配的规则,例如,第一数据采集模块携带的数据为调研题目,则预设规则可以是调研题目提纲。在一些实施例中,调研题目提纲可以是需要向第一目标终端提问的题目要点提纲,即,根据调研题目提纲可以进一步确定具体的调研题目。例如,对于满意度调查,调研题目提纲可以是“1、询问是否满意;2、对于满意的人,问最满意什么地方;3、对于不满意的人则问为什么不满意;4、不满意的人回答了不满意的原因之后,问建议改进的方向”。针对该示例,可以生成含有“请问您今天对我们的服务满意吗”调研题目的第一数据采集模块。
在一些实施例中,调研题目提纲还可以是多个具体的调研题目组成的内容提纲,例如,调研题目提纲可以是1、请问您的性别是?2、请问您的实际年龄是多少?3、请问您听过/见过哪些消费级基因检测公司呢?
在一些实施例中,编题者可以通过调研题目提纲在采集端在线编辑调研题目,以生成第一数据采集模块。
在一些实施例中,调研题目的类型可以是任何类型,例如,词语点选题、图片热区题以及排序题等,其中,词语点选题是用于第一目标终端回答该题中的热点词语,热点词语为采集端设置的任何词语;图片热区题是用于第一目标终端回答该题中的热点区域,热点区域为采集端设置的图片中的任何区域;排序题是用于第一目标终端回答该题中的排列顺序。
在一些实施例中,目标终端可以是指接收数据采集模块并在线对数据采集模块做出实时反馈的终端,也可以是对数据采集模块做出实时反馈的受访者使用的终端设备。例如,目标终端可以是对调研题目进行实时回答的受访者使用的终端设备。其中终端设备可以是移动手机、笔记本电脑等。具体的,目标终端接收到数据采集模块中的调研题目之后,受访者(又称被调研者)可以通过该终端在线对调研题目进行实时回答。
在一些实施例中,可以由一个采集端根据调研题目提纲在线生成第一调研题目,并将第一调研题目发送给多个第一目标终端。在一些实施例中,所述多个第一目标终端可以为超过20个回答调研题目的受访者所用终端,例如,多个目标终端可以为一百个、一千个以及一万个受访者所使用的终端。
步骤304,所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端。具体的,该步骤可以通过受访者模块220执行。
第一预设时间是指多个第一目标终端回答第一调研题目的规定答题时间,第一预设时间可以根据实际需求灵活设置,在一些实施例中,第一预设时间可以根据第一调研题目的题型进行设置,例如,选择题答题时间为5分钟,开放题答题时间为30分钟等。
步骤302和步骤304的整个过程是在线实时进行的,具体的,采集端生成第一调研题目以及多个第一目标终端反馈多个第一数据的过程是在线实时进行的,即,采集端生成了第一调研题目之后立即发送给多个第一目标终端进行实时回答。
在一些实施例中,多个第一目标终端同时针对第一调研题目反馈第一数据,具体的,多个受访者可以在与其对应的第一目标终端上通过手动输入或语音输入等方式反馈(即回答)第一调研题目。
步骤306,所述采集端基于接收到的所述多个第一数据进行在线分析。具体的,该步骤可以通过分析模块230执行。
在一些实施例中,采集端可以是具备编辑调研题目功能的编题终端,也可以是具备实时观察整个调研过程的观察终端,其中,观察终端可以是编题终端上的编题者邀请的观察者所使用的终端,具体的,编题者可以通过向观察者的邮箱发送邀请链接,以邀请观察者观察整个调研过程,观察者可以通过点击邀请链接,以接受编题者的邀请。
在一些实施例中,编题终端和/或观察终端中可以基于接收到的多个第一数据进行在线实时分析。关于对数据进行在线实时分析的更多细节已在本说明书的其他位置说明,此处不再赘述。
通过以上描述,采集端可以将第一数据采集模块发送给多个第一目标终端,即,可以将一个调研题目发送给多个受访者进行答题,实现一对多的在线调研,节约调研成本,且多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,即多个第一目标终端在相同的答题时间内回答调研题目,保证了调研的实时性,使得采集端接收到第一数据的时间近似同步,进一步使得后续数据分析没有滞后性,提高了数据分析的效率,缩短了数据分析的时间。
受访者在对调研题目回答之前,可以对受访者进行筛选确定。第一目标终端可以是指目标终端对第一数据采集模块反馈之前通过特定方式确定的终端。例如,第一目标终端可以是调研前通过某种筛选方式确定的受访者使用的终端。
在一些实施例中,可以通过发送招募信息,并基于目标终端对招募信息的反馈确定第一目标终端。具体的,在线向多个终端发送招募信息,所述多个终端对所述招募信息给出多个反馈信息;采集端根据预设的筛选规则对所述反馈信息进行筛选,将筛选的反馈信息对应的终端作为所述第一目标终端。其中,招募信息可以是任何信息,例如,招募信息可以是招募问卷,此时,预设的筛选规则可以是筛选招募问卷的反馈信息的规则,预设的筛选规则可以根据实际需求灵活设置,例如,招募问卷中可以设置年龄选项、性别选项、职业选项等调研题目,若预设的筛选规则是年龄在25~27的女性投资人,则可以将填写了年龄在25~27之间、职业为投资的女性用户作为第一目标用户,将第一目标用户使用终端作为第一目标终端。通过对反馈信息进行筛选,可以筛选出符合要求的受访者参加调研,增加调研的准确度。
在一些实施例中,筛选出的多个第一终端所对应的受访者还可以通过扫描识别码(例如,二维码、条形码等)进入在线群组(例如,微信群、QQ群等),以便于在线群组中的管理员对受访者进行管理以及解答群组内受访者的疑惑,以确保群组内的受访者能顺利参加调研。在一些实施例中,识别码可以设置在招募问卷内。
图4是根据本申请一些实施例所示的在线数据采集方法400的另一示例性流程图。如图4所述,该在线数据采集方法400包括:
步骤402,所述多个第一目标终端将反馈的所述多个第一数据在线返回给所述采集端之后,所述采集端根据所述多个第一数据或/和所述预设规则在线生成第二数据采集模块并将所述第二数据采集模块在线发送给所述多个第一目标终端。具体的,该步骤402可以由主持人模块210执行。
在一些实施例中,所述采集端可以根据多个第一目标终端对第一调研题目回答的多个第一数据生成第二调研题目,并将所述第二调研题目在线发送给第一目标终端。
在一些实施例中,第二调研题目可以根据受访者对第一调研题目回答的情况(即第一数据),生成相应调研题目,并将相应的调研题目发送给对应的第一目标终端。具体的,根据第一类回答生成调研题目A,第二类回答生成调研题目B,以此类推……然后将调研题目A发送给给出第一类回答的第一目标终端,将调研题目B发送给给出第二类回答的第一目标终端,以此类推……例如,第一调研题目为“你为什么喜欢这个产品”,第一目标终端分别为受访者A和受访者B所使用的终端,若受访者A回答的第一数据为:因为我觉得这个产品颜色鲜艳,受访者B回答的第一数据为:因为我喜欢这个产品的功效。采集端可以根据受访者A的第一数据生成第二调研题目:请问颜色鲜艳具体体现在哪里呢?并将该第二调研题目发送给受访者A所使用的终端,也可以根据受访者B的第一数据生成第二调研题目:请问您具体喜欢这个产品的什么功效呢?并将该第二调研题目发送给受访者B所使用的终端。
在一些实施例中,采集端可以将基于第一数据生成的相应的第二调研题目同时在线发送给对应的第一目标终端。仍采用上述示例,则采集端可以将“请问颜色鲜艳具体体现在哪里呢”和“请问您具体喜欢这个产品的什么功效呢”同时分别发送给受访者A和受访者B。
根据以上描述,通过第一目标终端对第一调研题目回答的多个第一数据生成至少一个第二调研题目,并将至少一个第二调研题目在线发送给第一目标终端,即,可以通过第一目标终端对第一调研题目的回答确定不同的第二调研题目,并将不同的第二调研题目有针对性的发送给对应的第一目标终端,实现对受访者的多层级追问,从而实现了深度调研,提高了调研的精准度。
在一些实施例中,采集端还可以根据预设规则在线生成第二数据采集模块,并将所述第二数据采集模块在线发送给多个第一目标终端。预设规则可以调研题目提纲。在一些实施例中,第二调研题目可以根据调研提纲生成,即,按照提纲的要求生成第二调研题目,并发送给回答第一调研题目的第一目标终端。在一些实施例中,第二数据采集模块可以与第一数据采集模块相同,也可以与第一数据采集模块不相同。以上述调研题目提纲为多个具体的调研题目组成的内容提纲为例,调研题目提纲为“1、请问您的性别是?2、请问您的实际年龄是多少?3、请问您听过/见过哪些消费级基因检测公司呢?”,若第一调研题目为第1题,则第二调研题目可以继续为第1题,也可以为第2题和第3题中的任意一题。
步骤404,所述多个第一目标终端在线接收到所述第二采集模块后在第二预设时间内在线反馈多个第二数据。具体的,该步骤404可以由受访者模块220执行。
在一些实施例中,第二预设时间可以与第一预设时间相同,也可以不相同。第二预设时间是指多个第一目标终端回答第二调研题目的规定答题时间,第二预设时间可以根据实际需求灵活设置,在一些实施例中,第二预设时间可以根据第二调研题目的题型进行设置,例如,选择题答题时间为5分钟,开放题答题时间为30分钟等。
在一些实施例中,第二数据可以是第一目标终端所对应的受访者对第二调研题目的回答内容,仍以上述第二调研题目为“请问颜色鲜艳具体体现在哪里呢?”为例,若第一目标终端所对应的受访者回答“我觉得该产品的颜色色彩明亮,且颜色种类多”,则该回答为第二数据。
在一些实施例中,多个第一目标终端同时针对第二调研题目反馈第二数据,具体的,多个受访者可以在与其对应的第一目标终端上通过手动输入或语音输入等方式反馈(即回答)第二调研题目。
步骤406,所述采集端基于接收到的所述多个第二数据进行在线分析。具体的,该步骤406可以由分析模块230执行。
在一些实施例中,编题终端和/或观察终端中可以基于接收到的多个第二数据进行在线实时分析。具体的,编题终端和观察终端已在上述内容中进行陈述,故,在此不再赘述。
步骤408,重复前述步骤直至数据采集完成。
在一些实施例中,数据采集完成可以表示根据调研题目提纲生成的全部调研题目均获得反馈信息,例如,根据该调研题目提纲可以生成五个调研题目,若这五个调研题目均被目标终端反馈,则认为数据采集完成。
在一些实施例中,还可以根据对所述多个第一数据或/和所述多个第二数据进行在线实时分析,以实现帮助用户根据调研分析结果进行决策的目的。
在一些实施例中,采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析。在一些实施例中,采集端可以通过第一数据采集模块或/和第二数据采集模块所携带的标识获取其相关信息,其中,所述相关信息包括类别或/和重要性。对应地,可以采用类别标识获取类别信息,采用重要性标识获取重要性信息。在一些实施例中,类别可以表示题目的类别。例如,可以包括选择题、判断题、点选题、图片热区题、排序题以及开放题目等。重要性可以是数据的重要性,例如,可以表征该调研题目的重要程度,例如,非常重要、一般重要、不重要等。对于题目的重要性可以是调研者根据不同情况确定。例如,某饭店需要对用餐者的用餐情况进行调研,特别的,希望知道用餐者对推出的新菜的反馈,在调研题目中,关于新菜的相关题目的重要性等级最高。
在一些实施例中,相关信息中的类型可以为开放题目,此时,所述采集端将所述多个第一目标终端针对所述开放题目给出的所述多个第一数据或/和所述多个第二数据输入至文本识别模型,得到识别结果。识别结果可以包括观点提取结果和/或观点聚类结果。具体的,可以将受访者对开放题目的回答(例如,第一数据或/第二数据)输入文本分类模型中,确定该回答的观点,例如,满意、不满意等。在一些实施例中,可以对所述观点提取结果基于聚类算法或无监督聚类模型进行聚类。例如,可以根据观点提取结果计算语义相似度,从而根据语义相似度对所述观点提取结果进行聚类集合,以得到观点聚类结果。在一些实施例中,可以将所述观点提取结果输入至语义相似度模型,以得到语义相似度。在一些实施例中,语义相似度模型可以采用有监督的神经网络匹配模型SimNet。
在一些实施例中,文本识别模型可以是用于进行观点提取的文本分类模型,在一些实施例中,文本识别模型可以是基于深度学习的文本分类模型,例如TextCNN+softmax模型,其中TextCNN具有自动提取文本特征的功能,softmax用于文本分类,需要对softmax进行训练,使得训练后的softmax具有类别预测和观点提取的功能。
在一些实施例中,文本识别模型也可以是贝叶斯、SVM(Support Vector Machine,支持向量机)、xgboost(eXtreme Gradient Boosting)等分类器。在此种实施方式中,首先需要采用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)或统计词频等方式提取特征,然后对上述分类器进行训练,使得训练后的上述分类器具有观点提取的功能。
在一些实施例中,文本识别模型也可以是无监督学习聚类模型,其中无监督学习聚类模型的算法可以采用K-means算法、层次聚类算法等。
在一些实施例中,相关信息中的类型可以为选择题、判断题、点选题或图片热区题目,此时,所述采集端将统计所述多个第一目标终端针对所述选择题目、所述判断题目、所述点选题目或所述图片热区题目给出的所述多个第一数据或/和所述多个第二数据中的不同选项被选中的数量或/和不同选项的占比。
在一些实施例中,占比可以是指第一数据或/第二数据中的不同选项被选中的数量与参与该题回答的目标终端的总数量的比值。以对第一数据的分析为例,若第一数据对应的调研题目为多选题,反馈第一数据的第一目标终端的数量为100个,该多选题具备ABCD四个选项,第一数据中不同选项的选中情况如下:A-90人,B-50人,C-80人,D-80人,则该占比为A选项-90/100,B选项-50/100,C选项-80/100,D选项-80/100。
在一些实施例中,占比还可以是指第一数据或/和第二数据中不同选项被选中的数量与第一数据或/和第二数据对应的调研题目中所有选项的被选中的总数量的比值。继续以上述示例说明,第一数据对应的调研题目所具备的选项分别被选中的总数量为90+50+80+80=300,则该占比为A选项-90/300,B选项-50/300,C选项-80/300,D选项-80/300。
在一些实施例中,相关信息中的类型可以为排序题目,此时,所述采集端将统计所述多个第一目标终端针对所述排序题目给出的所述多个第一数据或/和所述多个第二数据中的每个选项的排序结果。以第一目标终端对第一调研题目反馈第一数据,参与回答的多个第一目标终端的数量为20人为例,若第一调研题目为“请您说明在某APP上购买该产品的5个主要原因,并对这5个主要原因进行排序”,采集端统计的多个第一数据分别为:“促销力度大、该产品是我需要的、该产品是值得信赖和购买的”,且统计出将“促销力度大”排在第一位的第一目标终端有13位,将“该产品是我需要的”排在第二位的第一目标终端有6位,将“该产品是值得信赖和购买的”排在第三位的第一目标终端有1位,则该排序题目的排序结果为“1、促销力度大;2、该产品是我需要的;3、该产品是值得信赖和购买的”。
在一些实施例中,统计可以是人工统计,也可以是通过算法统计,例如,哈希表统计。
图5是根据本说明书的一些实施例所示的文本分类模型的训练方法500的示例性流程图。如图5所述,该训练方法500包括:
步骤502,获得至少一个开放题目的至少一个应答信息文本。具体的,该步骤502可以通过训练模块执行。
在一些实施例中,可以通过数据库获取历史调研中的开放题目的历史应答信息,并将该历史应答信息作为应答信息文本,也可以通过爬取网络数据的语料获取应答信息文本。
步骤504,标记所述至少一个应答信息文本的标签,所述标签表示所述至少一个应答信息中每一个的观点。具体的,该步骤504可以通过训练模块执行。
在一些实施例中,标记所述至少一个应答信息文本的标签的过程可以由人工完成,即人工判断该应答信息文本的观点,进而对该应答信息文本进行标记,使得该应答信息文本携带标签。在一些实施例中,还可以通过正则对应答信息文本进行观点提取,使得该应答信息文本携带观点标签。
步骤506,将携带标签应答信息文本输入初始文本分类模型进行训练,得到训练好的文本分类模型。具体的,该步骤506可以通过训练模块执行。
在一些实施例中,初始文本识别模型可以是用于进行观点提取的文本分类模型,在一些实施例中,初始文本识别模型可以是基于深度学习的文本分类模型,例如TextCNN+softmax模型,其中TextCNN具有自动提取文本特征的功能,softmax用于文本分类,需要对softmax进行训练,使得训练后的softmax具有类别预测和观点提取的功能。在一些实施例中,文本识别模型也可以是无监督学习聚类模型,其中无监督学习聚类模型的算法可以采用K-means算法、层次聚类算法等。在一些实施例中,可以将经过固定的M轮训练后的初始文本识别模型(例如,经过1000轮训练),作为训练好的文本识别模型,在一些实施例中,还可以将在经过连续多轮训练后的初始文本识别模型的损失函数反映出该模型已经可以准确地预测出应答信息文本的观点和/或观点类别的情况下,结束训练,将该轮训练的初始文本识别模型作为训练好的文本识别模型。
本说明书实施例可能带来的有益效果包括但不限于:(1)本说明书中的实施例通过采集端可以将一个调研题目发送给多个受访者进行答题,实现一对多的在线调研,节约调研成本(2)多个第一目标终端在预设时间内同时反馈多个第一数据或/和第二数据,保证了调研的实时性,使得采集端接收到多个第一数据或/和第二数据的时间同步,进一步使得后续对个第一数据或/和第二数据的分析没有滞后性(3)可以根据相关信息对第一数据或/和第二数据进行分析,实现开放题目的观点提取或/和观点聚类,对开放题目的分析更加全面彻底,提高了调研的精准度,更好地帮助客户进行相应的决策。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (9)

1.一种在线数据采集的方法,其特征在于,包括:
采集端在线向多个目标终端发送招募信息,所述多个目标终端对所述招募信息给出多个反馈信息;
所述采集端根据预设的筛选规则对所述反馈信息进行筛选,将筛选的反馈信息对应的目标终端作为所述多个第一目标终端;通过识别码,将所述多个第一目标终端所对应的受访者加入在线群组;
所述采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端;
所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端;
所述多个第一目标终端将反馈的所述多个第一数据在线返回给所述采集端之后,所述采集端根据所述多个第一数据或/和所述预设规则在线生成第二数据采集模块,并将所述第二数据采集模块在线发送给所述多个第一目标终端;
所述多个第一目标终端在线接收到所述第二数据 采集模块后在第二预设时间内在线反馈多个第二数据;所述第二预设时间与第一预设时间或不相同;
所述采集端基于接收到的所述多个第一数据和第二数据进行在线分析;所述采集端是具备编辑调研题目功能的编题终端,或者,所述采集端是具备实时观察整个调研过程的观察终端;所述观察终端可以是所述编题终端的编题者邀请的观察者所使用的终端;
重复前述步骤直至数据采集完成;
其中,所述采集端基于接收到的所述多个第一数据和第二数据进行在线分析包括:
所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析;所述相关信息包括类别或/和重要性,采集端可以通过第一数据采集模块或/和第二数据采集模块所携带的标识获取所述相关信息;
所述类别表示题目的题型类别,包括选择题、判断题、点选题、图片热区题、排序题和开放题目中的至少一项;
所述重要性表示题目的重要性;
当所述相关信息中的类型为开放题目时,所述采集端将所述多个第一数据输入至文本识别模型,得到观点提取结果和/或观点聚类结果。
2.如权利要求1所述的方法,其特征在于,所述文本识别模型为文本分类模型和/或无监督学习聚类模型。
3.如权利要求2所述的方法,其特征在于,所述文本分类模型的训练过程如下:
获得至少一个开放题目的至少一个应答信息文本;
标记所述至少一个应答信息文本的标签,所述标签表示所述至少一个应答信息中每一个的观点;
将携带标签应答信息文本输入初始文本分类模型进行训练,得到训练好的文本分类模型。
4.如权利要求1所述的方法,其特征在于,所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析包括:
当所述相关信息中的类型为选择题、判断题、点选题或图片热区题目时,所述采集端将统计所述多个第一目标终端针对所述选择题目、所述判断题目、所述点选题目或所述图片热区题目给出的所述多个第一数据或/和所述多个第二数据中的不同选项被选中的数量或/和不同选项的占比。
5.如权利要求1所述的方法,其特征在于,所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析包括:
当所述相关信息中的类型为排序题目时,所述采集端将统计所述多个第一目标终端针对所述排序题目给出的所述多个第一数据或/和所述多个第二数据中的每个选项的排序结果。
6.如权利要求1所述的方法,其特征在于,所述多个第一目标终端为超过20个回答调研题目的受访者所用终端。
7.一种在线数据采集的系统,其特征在于,包括:
主持人模块,用于:
采集端在线向多个目标终端发送招募信息,所述多个目标终端对所述招募信息给出多个反馈信息;
所述采集端根据预设的筛选规则对所述反馈信息进行筛选,将筛选的反馈信息对应的目标终端作为所述多个第一目标终端;通过识别码,将所述多个第一目标终端所对应的受访者加入在线群组;
所述采集端根据预设规则在线生成第一数据采集模块,并将所述第一数据采集模块发送给多个第一目标终端;
受访者模块,用于:
所述多个第一目标终端在线接收到所述第一数据采集模块后在第一预设时间内在线反馈多个第一数据,并将反馈的所述多个第一数据在线返回给所述采集端;
所述多个第一目标终端将反馈的所述多个第一数据在线返回给所述采集端之后,所述采集端根据所述多个第一数据或/和所述预设规则在线生成第二数据采集模块,并将所述第二数据采集模块在线发送给所述多个第一目标终端;
所述多个第一目标终端在线接收到所述第二数据 采集模块后在第二预设时间内在线反馈多个第二数据;所述第二预设时间与第一预设时间或不相同;
分析模块,用于:
所述采集端基于接收到的所述多个第一数据和第二数据进行在线分析;所述采集端是具备编辑调研题目功能的编题终端,或者,所述采集端是具备实时观察整个调研过程的观察终端;所述观察终端可以是所述编题终端的编题者邀请的观察者所使用的终端;
重复前述步骤直至数据采集完成;
所述分析模块还用于:
所述采集端根据所述第一数据采集模块或/和所述第二数据采集模块的相关信息,对所述多个第一数据或/和所述多个第二数据进行在线分析;所述相关信息包括类别或/和重要性,采集端可以通过第一数据采集模块或/和第二数据采集模块所携带的标识获取所述相关信息;
所述类别表示题目的题型类别,包括选择题、判断题、点选题、图片热区题、排序题和开放题目中的至少一项;
所述重要性表示题目的重要性;
当所述相关信息中的类型为开放题目时,所述采集端将所述多个第一数据输入至文本识别模型,得到观点提取结果和/或观点聚类结果。
8.一种在线数据采集装置,包括处理器,其特征在于,所述处理器用于执行如权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~6任一项所述的方法。
CN201911179269.XA 2019-11-27 2019-11-27 一种在线数据采集的方法及系统 Active CN110837551B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201911179269.XA CN110837551B (zh) 2019-11-27 2019-11-27 一种在线数据采集的方法及系统
PCT/CN2020/131852 WO2021104385A1 (zh) 2019-11-27 2020-11-26 一种在线数据采集的方法及系统
TW109141472A TWI799760B (zh) 2019-11-27 2020-11-26 在線資料採集的方法、裝置、電腦可讀儲存媒介及系統
EP20892765.7A EP3933741A4 (en) 2019-11-27 2020-11-26 METHOD AND SYSTEM FOR ONLINE DATA COLLECTION
US17/606,787 US11886479B2 (en) 2019-11-27 2020-11-26 Online data acquisition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179269.XA CN110837551B (zh) 2019-11-27 2019-11-27 一种在线数据采集的方法及系统

Publications (2)

Publication Number Publication Date
CN110837551A CN110837551A (zh) 2020-02-25
CN110837551B true CN110837551B (zh) 2022-06-28

Family

ID=69577429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179269.XA Active CN110837551B (zh) 2019-11-27 2019-11-27 一种在线数据采集的方法及系统

Country Status (5)

Country Link
US (1) US11886479B2 (zh)
EP (1) EP3933741A4 (zh)
CN (1) CN110837551B (zh)
TW (1) TWI799760B (zh)
WO (1) WO2021104385A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837551B (zh) 2019-11-27 2022-06-28 广州快决测信息科技有限公司 一种在线数据采集的方法及系统
WO2021175301A1 (zh) * 2020-03-05 2021-09-10 广州快决测信息科技有限公司 一种自动生成数据判断结果的方法和系统
CN111382336B (zh) * 2020-03-05 2021-01-15 广州快决测信息科技有限公司 一种数据采集方法和系统
WO2021175302A1 (zh) * 2020-03-05 2021-09-10 广州快决测信息科技有限公司 一种数据采集方法和系统
CN111292010B (zh) * 2020-03-05 2021-07-09 广州快决测信息科技有限公司 一种定向进行数据采集的方法及系统
CN111367973B (zh) * 2020-03-05 2021-03-09 广州快决测信息科技有限公司 一种自动生成数据判断结果的方法和系统
CN112086176B (zh) * 2020-07-29 2024-07-16 重庆市人口和计划生育科学技术研究院 用于精子库的数据采集分析与反馈系统
CN113988070B (zh) * 2021-10-09 2023-05-05 广州快决测信息科技有限公司 调研问题生成方法、装置、计算机设备和存储介质
CN115688196B (zh) * 2022-12-26 2023-07-18 萨科(深圳)科技有限公司 一种基于互联网平台订单大数据的在线数据处理方法
CN117748745B (zh) * 2024-02-19 2024-05-10 国网浙江省电力有限公司宁波供电公司 一种优化增强配电网可靠性的方法及系统
CN118338159B (zh) * 2024-06-13 2024-08-23 广州大一互联网络科技有限公司 基于智能仪表的数据采集方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034188A (zh) * 2009-09-27 2011-04-27 北京闻言科技有限公司 一种在手机客户端实现在线调查的技术
CN102903022A (zh) * 2012-08-29 2013-01-30 昆山市万丰制衣有限责任公司 基于大样本的实时在线抽测系统及方法
CN108763199A (zh) * 2018-05-14 2018-11-06 浙江口碑网络技术有限公司 文本反馈信息的排查方法及装置
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
US10430815B1 (en) * 2013-10-14 2019-10-01 Lucid Holdings, LLC System and method for optimizing the use of mobile devices to complete online surveys
CN110348006A (zh) * 2019-06-11 2019-10-18 平安科技(深圳)有限公司 问题信息的生成方法、装置、计算机设备及其存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100371662B1 (ko) * 2000-08-23 2003-03-28 김정욱 인터넷을 이용한 실시간 설문조사방법
US20030229533A1 (en) * 2002-06-06 2003-12-11 Mack Mary E. System and method for creating compiled marketing research data over a computer network
AU2003263908A1 (en) * 2002-08-19 2004-03-03 Macrosolve, Inc. System and method for data management
US20040143478A1 (en) * 2003-01-18 2004-07-22 Ward Andrew David Method and process for capuring, storing, processing and displaying customer satisfaction information
US20080288276A1 (en) * 2007-05-18 2008-11-20 Xenosurvey, Inc. Method, Process and System for Survey Data Acquisition and Analysis
CN101315680B (zh) 2007-05-31 2011-03-16 中国科学院自动化研究所 基于自动调查问卷的群体意见定性分析工具及实现方法
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
US20200219151A1 (en) * 2013-03-15 2020-07-09 Alex Beltrani Mobile systems and methods for customer feedback
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US11531998B2 (en) * 2017-08-30 2022-12-20 Qualtrics, Llc Providing a conversational digital survey by generating digital survey questions based on digital survey responses
CN108428152A (zh) * 2018-03-12 2018-08-21 平安科技(深圳)有限公司 调查问卷生成方法、服务器及计算机可读存储介质
CN110837551B (zh) * 2019-11-27 2022-06-28 广州快决测信息科技有限公司 一种在线数据采集的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034188A (zh) * 2009-09-27 2011-04-27 北京闻言科技有限公司 一种在手机客户端实现在线调查的技术
CN102903022A (zh) * 2012-08-29 2013-01-30 昆山市万丰制衣有限责任公司 基于大样本的实时在线抽测系统及方法
US10430815B1 (en) * 2013-10-14 2019-10-01 Lucid Holdings, LLC System and method for optimizing the use of mobile devices to complete online surveys
CN108763199A (zh) * 2018-05-14 2018-11-06 浙江口碑网络技术有限公司 文本反馈信息的排查方法及装置
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN110348006A (zh) * 2019-06-11 2019-10-18 平安科技(深圳)有限公司 问题信息的生成方法、装置、计算机设备及其存储介质

Also Published As

Publication number Publication date
CN110837551A (zh) 2020-02-25
WO2021104385A1 (zh) 2021-06-03
TWI799760B (zh) 2023-04-21
US20220237218A1 (en) 2022-07-28
TW202133005A (zh) 2021-09-01
EP3933741A1 (en) 2022-01-05
US11886479B2 (en) 2024-01-30
EP3933741A4 (en) 2022-11-09

Similar Documents

Publication Publication Date Title
CN110837551B (zh) 一种在线数据采集的方法及系统
CN111369290B (zh) 一种自动生成数据采集模块的方法和系统
JP2023001377A (ja) 情報処理装置、方法およびプログラム
EP3951621A1 (en) Data collection method and system
CN113342942B (zh) 语料自动化获取方法、装置、计算机设备及存储介质
CN110322093A (zh) 信息处理方法、信息显示方法、装置及计算设备
KR102370384B1 (ko) 데이터 가공을 통한 비대면 면접 방법
CN111353290B (zh) 一种自动响应用户询问的方法和系统
CN114969352B (zh) 文本处理方法、系统、存储介质及电子设备
CN116228274A (zh) 标签信息处理方法、装置、存储介质、电子设备及系统
CN109493186A (zh) 确定推送信息的方法和装置
CN116306974A (zh) 问答系统的模型训练方法、装置、电子设备及存储介质
CN110609947A (zh) 智能学习系统的学习内容推荐方法、终端及存储介质
CN113065850B (zh) 用于智能外呼机器人的话术测试方法及装置
CN112734142B (zh) 基于深度学习的资源学习路径规划方法及装置
CN110276593B (zh) 对象推荐方法、装置、服务器及存储介质
AU2017393949A1 (en) System and method for determining rank
CN111538822B (zh) 一种智能客户服务机器人训练数据的生成方法和系统
EP4131129A1 (en) Report writing assistance system and report writing assistance method
CN111881270B (zh) 一种智能对话方法和系统
KR20220108451A (ko) 플랫폼 기반 미술 교육 및 상담을 위한 서비스 및 방법
CN111985900A (zh) 信息处理方法及装置
CN112434140A (zh) 一种答复信息处理方法及系统
Li Leveraging User Feedback for Requirements Through Trend and Narrative Analysis
CN112836134B (zh) 基于行为数据分析的个性化推送管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant