CN110189802B - 基于指标存储模型的双向映射队列研究信息系统 - Google Patents

基于指标存储模型的双向映射队列研究信息系统 Download PDF

Info

Publication number
CN110189802B
CN110189802B CN201910349116.9A CN201910349116A CN110189802B CN 110189802 B CN110189802 B CN 110189802B CN 201910349116 A CN201910349116 A CN 201910349116A CN 110189802 B CN110189802 B CN 110189802B
Authority
CN
China
Prior art keywords
questionnaire
data
index
question
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349116.9A
Other languages
English (en)
Other versions
CN110189802A (zh
Inventor
路平
孙鑫
陈兴栋
张敬谊
李光亚
郑月
郑明松
丁海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WONDERS INFORMATION CO Ltd
Original Assignee
WONDERS INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WONDERS INFORMATION CO Ltd filed Critical WONDERS INFORMATION CO Ltd
Priority to CN201910349116.9A priority Critical patent/CN110189802B/zh
Publication of CN110189802A publication Critical patent/CN110189802A/zh
Application granted granted Critical
Publication of CN110189802B publication Critical patent/CN110189802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于指标存储模型的双向映射队列研究信息系统。本发明采用无结构的数据存储方式,为数据采集中指标建立指标模型和指标库,提供一套可供用户修改的基本采集模板,根据用户需求提供对应的分析数据,对于同一指标可提供具有时序性的数据序列,系统可直接对用户数据建模进行分析,无需管理员部署数据库,简化操作、节省人力物力,最大化保证了所需即所得。

Description

基于指标存储模型的双向映射队列研究信息系统
技术领域
本发明涉及一种基于指标存储模型的双向映射队列研究信息系统,用于解决队列研究信息系统中数据采集和数据分析与数据存储之间的映射问题。
背景技术
随着医学信息和医学研究的发展,队列研究作为一种长期观察研究调查者健康状况的调查方法,已逐步显示出其重要地位。队列研究信息系统作为队列研究最普遍的数据采集工具,已在医学研究领域得到了普遍认可。
传统的队列研究信息系统主要采用单层模型,将医学领域知识硬编码到信息采集系统中,使得系统应用范围单一,开发过程复杂。近年来,基于openEHR的双层开发模型取得了一定的发展,这类系统将底层不变的参考模型和表示医学领域知识的原型模型进行了分离,扩展了系统在队列研究中的应用。目前,已有研究通过原型关系数据库自动映射、原型驱动等方法实现了原型到结构化数据库的映射,并在此基础上实现了数据采集和数据分析的可配置研究,使得信息研究系统具有更大的灵活性和扩展性。
现有系统大多为根据队列研究的需求来进行系统开发,以定制性的系统为主,灵活度不高;近年来虽然出现了一系列基于openEHR(open Electronic Health Record)的队列研究信息系统,但该类系统采用结构化数据存储方式,对于更新融合不同源的采集数据、提供具有时序性的指标数据序列具有一定的复杂性,且需要管理员针对相应模板部署数据库,操作具有一定复杂性,且管理员的参与为数据的可配置带了一些风险。
发明内容
本发明的目的是:提高信息系统扩展性、降低数据分析和数据融合难度,为医疗研究人员提供一个个性化和操作便捷的数据系统。
为了达到上述目的,本发明的技术方案是提供了一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,包括:
基础问卷模板库,用户根据研究或者业务需求设计问卷模板后,依据该问卷模板从基础问卷模板库中选择基础问卷模板,基础问卷模板中的各个问卷项由问卷项id来进行区分,对选中的基础问卷模板进行增改和调整来构建个性化问卷模板,若未选中基础问卷模板,则直接根据预先设计的问卷模板生成个性化问卷模板,并将预先设计的问卷模板作为新的基础问卷模板添加入基础问卷模板库中;
自动化表单组件,依据个性化问卷模板利用自动化表单组件生成问卷,问卷中,受访者完成问卷中各问卷项的填写后,对问卷进行数据采集,将采集到的数据存储在无结构的键值对key-value队列中;
指标库,采集得到的键值对key-value队列数据自动映射到指标库,指标库利用指标存储模型构建,指标存储模型用于将基础问卷模板中提取出的各项指标项进行建模,包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,指标存储模型利用指标层级结构和数据类型将key-value队列数据映射到指标库的数据进行了规范,映射时,所采用的规则如下:
规则一)单对单:表示单一问卷项即可表示单一的指标名项;
规则二)多对单:表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中;
规则三)单对多:表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示;
数据分析模型,通过数据分析模型与指标库的映射将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据数据分析模型中数据指标和指标项的关系进行映射,完成数据分析模型所需的结构化数据拼接,其中,相似度计算包括如下步骤:
步骤1、对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类,其中文本型包含但不限于姓名、家庭住址等自由度较高的文本型问题;定序型包含具有顺序信息的选项问题;定类型包含类别型选项问题;定比型包含数值型问题;
步骤2、对上述4大类标记数据,进行相似度计算,包括以下步骤:
针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为
Figure BDA0002043344000000021
q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:
步骤201、设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;
步骤202、计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,...,mp}和N={n1,n2,...,np},mp为字符集T中的第p个字符在文本T1中出现的次数,np为字符集T中的第p个字符在文本T2中出现的次数;
步骤203、计算文本T1和文本T2的相似度St
Figure BDA0002043344000000031
针对定序型问题和定比型问题,将定序型问题选项按照从低到高的顺序转换为顺序数值(1,2,3…),将其与定比型问题结果合并,形成包含q2个重复问题的数值问题结果集
Figure BDA0002043344000000032
通过余弦相似度计算两问卷中的问题结果集Num1和Num2,得到所有定序型和定比型问题的相似度值为Sn
针对定类型问题,将两问卷中同一问题进行对比,若一致则为1,不一致则为0,得到每一问题的相似度值
Figure BDA0002043344000000033
q3代表两问卷相同的定类型问题的个数。
最终,计算得到综合相似度值
Figure BDA0002043344000000034
设定重复问题个数阈值K和综合相似度阈值α,若两问卷重复问题个数大于K且综合相似度阈值S>α,则判定两问卷为同一人。
优选地,所述自动化表单组件根据问卷题库提取各类题型,通过匹配所述个性化问卷模板中每个题目的配置类型、文字以及层级关系生成所述问卷,其中,提取各类题型时,将各类题型按照题干和选项拆分,题干进一步拆分为文本和问卷答案项,选项则来自预先设计好的选项字典库或按照业务需求固定下来的配置文件,并且通过问卷项id来进行区分。
优选地,所述自动化表单组件生成所述问卷包括以下步骤:
自动化表单组件逐项匹配个性化问卷模板配置文件中的题目,根据题目qid和题目中文字和题型生成题干,按照题干对应的问卷项id将问卷项答案与数据意义绑定;
若题型为选择题,则选项根据选项option生成,选项option来自配置文件或者数据库字典库,若题型为其他则仅有题干和问卷项;
问卷项和题目之间存在的层级关系则用层级关系标识符parent来标识,表示该问卷项属于某个题目,当某个题目或者问卷项的生成受某个问卷项答案的影响时使用关系标识符relate标识,关系标识符relate中包含了问卷项id和问卷项答案,表示问卷项之间的关联关系。
优选地,采集得到的键值对key-value队列数据自动映射到指标库时,问卷中数据类型或者页面逻辑和指标库中的规范化数据进行以下问卷项值的逻辑映射:
1)直接提取单一文本数据,无任何数据加工;
2)根据单一问卷项加工;
3)多个问卷项的值拼接;
4)取自多个问卷项的值且需要拼装成对象数组;
5)取自多个问卷项的值且需要根据问卷项含义进行转换拼装成对象数组;
6)当指标逻辑为求和时,将字段统一单位后相加;当指标逻辑为或时,判断相或字段是否为空,取非空字段;当指标逻辑为与时,判断字段是否为空,取空字段。
本发明采用无结构的数据存储方式,为数据采集中指标建立指标模型和指标库,提供一套可供用户修改的基本采集模板,根据用户需求提供对应的分析数据,对于同一指标可提供具有时序性的数据序列,系统可直接对用户数据建模进行分析,无需管理员部署数据库,简化操作、节省人力物力,最大化保证了所需即所得。
本发明根据openEHR双层映射模型的思路构建了指标存储模型,以指标存储模型为基础构建了指标库,并实现了指标库与采集数据项和数据模型字段映射关系,从而在系统的扩展性和易实现程度方面都有所提高。与现有的技术相比,本发明具有如下优点:
(1)现有研究大多采用结构化的数据存储方式,将问卷原型模型直接映射到数据库结构,虽然已实现了可配置的队列研究信息系统,但是针对不同队列研究需要专业人员部署对应的数据库结构,仍需专业人员的介入实现双层模型数据映射。本发明采用无结构的方式进行数据存储,利用指标库将数据项和指标进行映射,针对不同的业务需求构建数据分析模型,无需部署不同数据库结构即可实现个性化问卷的构建,并能实现多源数据融合,获取多维具有历史追溯性的模型数据。该指标存储模型在获取同一指标在不同问卷和不同源数据之间的关联性方面具有很大优势,更容易提供给用户具有重大研究意义的时序性队列数据。
(2)现有研究在数据采集到数据存储方面的双层映射基本已经实现,但在直接分析用户数据模型,为用户提供一个可自动获取所需数据方面仍缺乏对应的研究和实现。本发明中由于无结构存储方式和基于指标存储模型所设计的映射方式,实现了数据模型到指标库的映射,填补了双向映射的空缺。
附图说明
图1为系统框架图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的目的在于提供一个扩展性良好、支持用户构建个性化问卷模板和数据分析模型的队列研究信息系统,该系统能够快速构建采集问卷模板,挖掘大规模符合数据模型的潜在患者,从而为医生以及基于队列信息的研究人员提高诊断和研究的准确性。
其中,构建个性化问卷模板是将系统提供的模板库作为基础,对选中模板进行增改和调整来构建个性化的问卷模板,从而作为原型模板进行患者数据采集,其中,系统模板库中的每个模板的题目具有内部关联关系。构建数据分析模型是为了方便用户获取各种不同的研究数据,系统通过相似度识别算法,计算多份问卷中个人身份信息的综合相似度,建立EMPI(患者主索引),通过用户构建的数据分析模型映射到指标库,通过业务逻辑加工即可获取具有时序关系的结构化数据。由于数据的采集和数据模型的分析均与数据存储方式有关,且存储方式决定了数据映射和系统实现的复杂程度,因此本发明研究了一套指标存储模型和指标库的双向映射方法来解决这一难题。
指标存储模型和指标库的双向映射方法是本发明的核心和重点,其中数据采集和数据分析模型均基于该指标存储模型和指标库映射方法展开。
1.队列数据采集
为提高系统的扩展性,减少数据采集任务的复杂性和工作量,本发明设计实现了自动化表单组件,并提供基础问卷模板库便于用户快速构建个性化的问卷模板。用户构建个性化问卷模板采集数据主要分为以下几个步骤:
1)根据研究或者业务需求设计问卷模板,主要包括设计问卷项和问卷项之间顺序。
2)查看系统基础问卷模板库,根据模板库中现有模板选择或者创建新的问卷模板。
I)若模板库中有合适问卷模板,按照设计的问卷模板进行问卷编排和顺序组织,生成问卷模板;
II)若模板库中没有合适问卷模板,查看模板库和设计问卷模板的相似程度以及包含程度,若可以直接删除、调整部分题目即可使用,编排顺序生成新问卷模板;若不存在修改后可用的模板,则需要提交新的问卷模板到系统模板库,系统根据新加入的问卷模板项更新指标库。
3)根据以上步骤中生成的问卷模板,系统利用自动化表单组件生成问卷,系统将受访者填写的问卷项按照key-value(键值对)的形式存入数据库中,并根据问卷项与指标库中key的对应关系生成用户的指标库。
其中,自动化组件是保证问卷模板能正确解析出问卷的关键,组件根据队列研究所需的问卷题库提取各类题型,编写一个包含各项题型的组件,该组件通过匹配配置文件中每个题目的配置类型、文字和以及层级关系生成问卷,具体实现可分为以下几步:
1)根据队列研究所需的常用问卷题库提取各类题型,包含单选、多选、填空、表格等,将各类题型均按照题干和选项拆分,题干又拆分为文本和问卷答案项,选项则可以是来自数据库中预先设计好的选项字典库或按照业务需求固定下来的配置文件中。其中,问卷答案项主要有输入框、选择框、日期、图片等类型,组件根据不同的题型、文字展示题干和选项样式,且根据业务类型与数据库存储的映射关系设置了id生成规则,用来唯一确定该数据项的意义。
2)自动化表单组件根据用户问卷模板配置文件生成问卷
I)组件逐项匹配配置文件中的题目,根据配置项中题目qid和题目中文字和题型生成题干,按照问卷项id将问卷项答案与数据意义绑定。其中,问卷项id中包含了指标名称和问卷项重复情况等信息,各项信息根据关键字#、$、@等进行分割,且具有唯一性。
II)若题型为选择题,则选项根据选项option生成,option可以来自配置文件或者数据库字典库,若题型为其他则仅有题干和问卷项。
III)问卷项和题目之间存在的层级关系则用parent来标识,表示该问卷项属于某个题目。当某个题目或者问卷项的生成受某个问卷项答案的影响时使用relate标识,relate中包含了问卷项id和问卷项答案,表示问卷项之间的关联关系。表格中除了以表格的方式展示,单元格中内容也是按照题干和选项来逐项生成的。
2.数据双向映射
数据双向映射是指将采集得到的key-value队列数据自动映射到指标库和将用户数据模型与融合后的指标库的自动映射,从数据采集和数据分析两个方向都实现了系统底层存储数据和医疗领域知识的对应关系。指标存储模型是实现数据映射的基础,利用指标存储模型构建的指标库将采集到的不同业务类型数据进行标准数据转换,从而在分析用户数据模型中获取多维数据、获取历史数据提供了支撑。
1)指标存储建模
指标存储模型包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,用于将问卷模板中提取出的各项指标项进行建模。指标名称在指标库中具有唯一标识性,如身份证号、姓名等,与问卷项id中指标名称信息具有对应性。
指标模型中的层级关系,主要依靠业务知识水平进行划分,层级关系以树的方式展开,指标模型的层级关系映射了采集数据转换为标准指标库时的层级关系也表现为用户构建数据模型进行数据分析的时候选取指标的层级关系。具体指标层级如:个人基本信息作为一级指标,身份证号、姓名、手机号等具体信息作为二级指标等。
组合标签标识,用来标注需要成组出现的指标,例如家庭地址中的省、市、街道或疾病诊断时间、诊断医院等指标若单独出现则无法表示正确有用信息,甚至会出现数据错乱等现象。
数据类型,主要分为文本、数值、字典数据、日期等几大类,该数据类型的划分同样体现在采集数据到指标库的映射和数据分析模型提取数据信息的映射中。其中,文本类型又包含了分词和同义词两种,在构建数据分析模型时,系统可以按照分析时输入的内容转换为同义词和划分为各个分词进行指标搜索。字典数据,是数据库中提前预设的表示某些指标的可选项,如婚姻状况字典、性别字典、文化程度字典等。除此之外,隐私属性则表现为脱敏、不脱敏等,数据来源、时间戳等属性则为数据的时间、来源做了标注,体现了数据的可追溯性。
指标模型利用层级关系和数据类型,不仅从采集数据映射到存储数据进行了规范,同时也将构建数据分析模型过程映射到了存储数据中。系统根据基础问卷模板库和数据源进行指标项提取,获取最大化的指标项集合,并对每个指标项进行指标存储建模。系统指标库中包含人群队列最大指标集合,在构建新的问卷模板时,若存在未纳入的指标项,则引入该指标更新指标库,保证指标库的实时性和完整性。
2)队列数据与指标库的映射
本系统为了实现构建个性化问卷的需求,采用了key-value的形式进行队列数据采集,问卷项根据id与指标库中指标名称进行绑定,为了保证id的唯一性和可读性,系统将问卷与指标之间的关系进行了分类,主要分为单对单、多对单、单对多。具体问卷和指标对应规则如下:
I)单对单,表示单一问卷项即可表示单一的指标名项。例如姓名或者身份证号等信息,该类问卷项的id由指标名称和唯一编码组成,利用#分割,形式如:idcard#编码#。
II)多对单,表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中。例如疾病指标,该类问卷项id由指标名和唯一编码加上指标项重复值组成,利用关键字#进行分割,例如:第一种疾病id为disease#编码#1,第二种疾病id为disease#编码#2,指标项重复值根据在问卷中出现的第几个疾病数确定。
III)单对多,表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示。例如具体某个疾病的发生时间,具体形式为$disease@drug#编码#重复值,利用$,@,#等关键字表示了该发生时间是针对哪个疾病服用哪类药物的信息,保证了数据的有效性。
根据以上三类划分,问卷项和指标库中指标项已经可以实现意义上的映射,但由于问卷中数据类型或者页面逻辑和指标库中的规范化数据仍存在很大差异,因此仍需进行问卷项值的逻辑映射:
1)直接提取单一文本数据,无任何数据加工,如身份证号码,姓名;
2)根据单一问卷项加工,如:出生日期,阳历日期根据省份证号加工。
3)多个问卷项的值拼接,如:地址,根据省、市、区、县、村等信息直接拼接。
4)取自多个问卷项的值且需要拼装成对象数组,如:将每种疾病名称和诊断时间作为一个对象拼接为数组,表示该受访者的疾病信息。
5)取自多个问卷项的值且需要根据问卷项含义进行转换拼装成对象数组,如:食用食物种类,需将各类食用的食物以及月食用频次、年食用频次作为对象进行拼接,由于某类食物食用标志的问卷值只有“是”或者“否”,此处若要记录该类食物名称需进行含义转换。
6)当指标逻辑为求和时,例:二手烟接触时间,问卷中分多个问卷项组成,分别为小时候家中接触时长,成年后家中接触时长和成年后工作场所接触时长,需要将三个字段统一单位后相加。
7)当指标逻辑为或时,例:戒烟时长,问卷中分为已戒酒年限和正戒酒年限,需要判断两个字段是否为空,优先取已戒酒年限,否则取正戒酒年限。
8)当指标逻辑为与时,例:牙齿脱落位置,问卷中为一个字段自然脱落位置或手术脱落位置等,需要判断该字段是否为空,不为空则拆为脱落方式,脱落位置两个字段。
由此,id的生成规则和问卷项的逻辑映射规则实现了数据项和指标库的映射,可将多个问卷版本和历史问卷统一到一个规范的指标库中,并且由于指标库会记录各个数据的时间和来源,因此也就可能实现不同版本和不同种类问卷之间的数据可追溯问题。
3)数据分析模型与指标库的映射
数据分析是指系统根据用户业务需求筛选指标构建数据模型,按照模型中数据指标自动化筛选出对应的结构化数据。其中模型中可选取的数据指标来自于指标库,并保持原有的类型和层级关系。用户从指标库中获取的分析数据来自于多种数据源,如手工数据、MySQL数据库、Oracle数据库等。问卷队列数据由于其业务需求,对于确定受访者信息的数据不具有必要性---如身份证号等,因此分析数据模型时不仅需将该类数据规范化,还需融合该类数据,进行受访者相似度识别分析,从而扩展数据的维度和实现数据的可追溯性。数据分析模型与指标库的映射,是指将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据模型中数据指标和指标项的关系进行映射,完成分析模型所学的结构化数据拼接。
根据相似度识别分析判断出两份问卷为同一人,按照问卷题目含义,将该问卷项的值映射到指标库中,若指标库中不存在该指标项则更新指标库。相似度识别分析,主要是计算多份问卷中个人身份信息的综合相似度,建立EMPI(患者主索引)。
相似度计算流程如下:
(一)对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类。
1)文本型:包含但不限于姓名、家庭住址等自由度较高的文本型问题;
2)定序型:包含但不限于职称、学历等具有顺序信息的选项问题;
3)定类型:包含但不限于性别、职业等类别选项问题;
4)定比型:包含但不限于身高、体重、血压等数值型问题。
(二)对上述4大类标记数据,进行相似度计算。
针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为
Figure BDA0002043344000000111
q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:
设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;
计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,...,mp}和N={n1,n2,...,np},mp为字符集T中的第p个字符在文本T1中出现的次数,np为字符集T中的第p个字符在文本T2中出现的次数;
步骤203、计算文本T1和文本T2的相似度St
Figure BDA0002043344000000112
针对定序型问题和定比型问题,将定序型问题选项按照从低到高的顺序转换为顺序数值(1,2,3…),将其与定比型问题结果合并,形成包含q2个重复问题的数值问题结果集
Figure BDA0002043344000000113
通过余弦相似度计算两问卷中的问题结果集Num1和Num2,得到所有定序型和定比型问题的相似度值为Sn
针对定类型问题,将两问卷中同一问题进行对比,若一致则为1,不一致则为0,得到每一问题的相似度值
Figure BDA0002043344000000114
q3代表两问卷相同的定类型问题的个数。
最终,计算得到综合相似度值
Figure BDA0002043344000000115
设定重复问题个数阈值K(整数)和综合相似度阈值α(0.8<α<1),若两问卷重复问题个数大于K且综合相似度阈值S>α,则判定两问卷为同一人。
本发明采用指标存储模型,实现了双层模型双向映射的队列研究信息系统。采用自定义问卷的方式为用户构建个性化问卷;根据已有技术和领域知识背景对指标进行建模创建指标库,将采集数据存储在无结构的key-value(键值对)队列中,并将队列中数据按照问卷项id和问卷值逻辑映射规则映射到指标库;根据用户需求构建数据分析模型,按照相似度算法实现EMPI(患者主索引)身份识别,融合多源数据到指标库,并根据分析模型和指标库的映射关系进行数据提取和处理,进而以结构化的形式为用户提供所需的数据。
本发明采用用户自定义问卷方式,针对多个自然人群队列研究任务设计了多套问卷模板,其中包括多个基线问卷和需要长期进行的随访问卷。基线问卷主要包括个人基本信息、姓名、性别、职业、家庭、饮食等,随访问卷则会根据各个任务涉及的研究内容包含不同类型的疾病、用药或者生活环境等情况。目前这几个任务的问卷已在实际的使用中,系统提供了稳定的数据采集和数据分析的功能,用户已能够方便的构建问卷和获取研究所需数据。

Claims (2)

1.一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,包括:
基础问卷模板库,用户根据研究或者业务需求设计问卷模板后,依据该问卷模板从基础问卷模板库中选择基础问卷模板,基础问卷模板中的各个问卷项由问卷项id来进行区分,对选中的基础问卷模板进行增改和调整来构建个性化问卷模板,若未选中基础问卷模板,则直接根据预先设计的问卷模板生成个性化问卷模板,并将预先设计的问卷模板作为新的基础问卷模板添加入基础问卷模板库中;
自动化表单组件,依据个性化问卷模板利用自动化表单组件生成问卷,问卷中,受访者完成问卷中各问卷项的填写后,对问卷进行数据采集,将采集到的数据存储在无结构的键值对key-value队列中;
指标库,采集得到的键值对key-value队列数据自动映射到指标库,指标库利用指标存储模型构建,指标存储模型用于将基础问卷模板中提取出的各项指标项进行建模,包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,指标存储模型利用指标层级结构和数据类型将key-value队列数据映射到指标库的数据进行了规范,映射时,所采用的规则如下:
规则一)单对单:表示单一问卷项即可表示单一的指标名项;
规则二)多对单:表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中;
规则三)单对多:表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示;
数据分析模型,通过数据分析模型与指标库的映射将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据数据分析模型中数据指标和指标项的关系进行映射,完成数据分析模型所学的结构化数据拼接,其中,相似度计算包括如下步骤:
步骤1、对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类,其中文本型包含但不限于姓名、家庭住址等自由度较高的文本型问题;定序型包含具有顺序信息的选项问题;定类型包含类别型选项问题;定比型包含数值型问题;
步骤2、对上述4大类标记数据,进行相似度计算,包括以下步骤:
针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为Sti,i=0,1,...,q1,q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:
步骤201、设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;
步骤202、计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,...,mp}和N={n1,n2,...,np},mp为字符集T中的第p个字符在文本T1中出现的次数,np为字符集T中的第p个字符在文本T2中出现的次数;
步骤203、计算文本T1和文本T2的相似度St
针对定序型问题和定比型问题,将定序型问题选项按照从低到高的顺序转换为顺序数值(1,2,3…),将其与定比型问题结果合并,形成包含q2个重复问题的数值问题结果集Num=[u1,u2,...,uq2],通过余弦相似度计算两问卷中的问题结果集Num1和Num2,得到所有定序型和定比型问题的相似度值为Sn
针对定类型问题,将两问卷中同一问题进行对比,若一致则为1,不一致则为0,得到每一问题的相似度值Sci,i=0,1,...,q3,q3代表两问卷相同的定类型问题的个数;
最终,计算得到综合相似度值设定重复问题个数阈值K和综合相似度阈值α,若两问卷重复问题个数大于K且综合相似度阈值S>α,则判定两问卷为同一人;
所述自动化表单组件根据问卷题库提取各类题型,通过匹配所述个性化问卷模板中每个题目的配置类型、文字以及层级关系生成所述问卷,其中,提取各类题型时,将各类题型按照题干和选项拆分,题干进一步拆分为文本和问卷答案项,选项则来自预先设计好的选项字典库或按照业务需求固定下来的配置文件,并且通过问卷项id来进行区分;所述自动化表单组件生成所述问卷包括以下步骤:
自动化表单组件逐项匹配个性化问卷模板中的题目,根据题目qid和题目中文字和题型生成题干,按照题干对应的问卷项id将问卷项答案与数据意义绑定;
若题型为选择题,则选项根据选项option生成,选项option来自配置文件或者数据库字典库,若题型为其他则仅有题干和问卷项;
问卷项和题目之间存在的层级关系则用层级关系标识符parent来标识,表示该问卷项属于某个题目,当某个题目或者问卷项的生成受某个问卷项答案的影响时使用关系标识符relate标识,关系标识符relate中包含了问卷项id和问卷项答案,表示问卷项之间的关联关系。
2.如权利要求1所述的一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,采集得到的键值对key-value队列数据自动映射到指标库时,问卷中数据类型或者页面逻辑和指标库中的规范化数据进行以下问卷项值的逻辑映射:
1)直接提取单一文本数据,无任何数据加工;
2)根据单一问卷项加工;
3)多个问卷项的值拼接;
4)取自多个问卷项的值且需要拼装成对象数组;
5)取自多个问卷项的值且需要根据问卷项含义进行转换拼装成对象数组;
6)当指标逻辑为求和时,将字段统一单位后相加;当指标逻辑为或时,判断相或字段是否为空,取非空字段;当指标逻辑为与时,判断字段是否为空,取空字段。
CN201910349116.9A 2019-04-28 2019-04-28 基于指标存储模型的双向映射队列研究信息系统 Active CN110189802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349116.9A CN110189802B (zh) 2019-04-28 2019-04-28 基于指标存储模型的双向映射队列研究信息系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349116.9A CN110189802B (zh) 2019-04-28 2019-04-28 基于指标存储模型的双向映射队列研究信息系统

Publications (2)

Publication Number Publication Date
CN110189802A CN110189802A (zh) 2019-08-30
CN110189802B true CN110189802B (zh) 2023-05-02

Family

ID=67715207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349116.9A Active CN110189802B (zh) 2019-04-28 2019-04-28 基于指标存储模型的双向映射队列研究信息系统

Country Status (1)

Country Link
CN (1) CN110189802B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079387B (zh) * 2019-11-29 2021-04-30 华中师范大学 一种问卷自动化生成方法、装置、计算机设备及存储介质
CN111061743B (zh) * 2019-12-25 2023-10-31 北京百度网讯科技有限公司 数据加工方法、装置和电子设备
CN111105849B (zh) * 2019-12-31 2022-03-11 杭州健海科技有限公司 一种基于大数据的渠道协同满意度调查方法及系统
CN113342793B (zh) * 2021-06-18 2023-04-07 立信(重庆)数据科技股份有限公司 一种调研数据标准化方法及系统
CN113743825B (zh) * 2021-09-18 2023-07-14 无锡融合大数据创新中心有限公司 基于大数据的教育教学水平评估系统及方法
CN114842980B (zh) * 2022-04-14 2023-07-25 浙江大学 一种基于WiFi匹配的传染病易感人群接触追踪预筛选方法
CN115953261A (zh) * 2023-03-14 2023-04-11 中化现代农业有限公司 一种基于配置的问卷分析系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315680A (zh) * 2007-05-31 2008-12-03 中国科学院自动化研究所 基于自动调查问卷的群体意见定性分析工具及实现方法
CN103810150A (zh) * 2012-11-09 2014-05-21 中国银联股份有限公司 关系可嵌套的问卷自动生成方法和装置
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170249646A1 (en) * 2016-02-29 2017-08-31 Linkedin Corporation Automatically prepopulating answers to questions contained in a computerized document

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315680A (zh) * 2007-05-31 2008-12-03 中国科学院自动化研究所 基于自动调查问卷的群体意见定性分析工具及实现方法
CN103810150A (zh) * 2012-11-09 2014-05-21 中国银联股份有限公司 关系可嵌套的问卷自动生成方法和装置
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Taozheng Zhang.Key Technologies of TV Programs Subjective Evaluations Based on Opinion Mining.2017 10th International Symposium on Computational Intelligence and Design (ISCID).2018,第354-357页. *
王安然 ; 吴思竹 ; 钱庆 ; .面向标准化数据整合的医学通用数据模型探析.中华医学图书情报杂志.2018,(11),全文. *
龙新.可配置的队列研究信息系统设计与实现.中国优秀硕士学位论文全文数据库.2017,全文. *

Also Published As

Publication number Publication date
CN110189802A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110189802B (zh) 基于指标存储模型的双向映射队列研究信息系统
CN105468605B (zh) 一种实体信息图谱生成方法及装置
Blismas et al. Computer-aided qualitative data analysis: panacea or paradox?
WO2021213314A1 (zh) 数据处理方法、装置及计算机可读存储介质
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
US20070088731A1 (en) Method and apparatus for improved processing and analysis of complex hierarchic data
Fu et al. Automatic record linkage of individuals and households in historical census data
Tseng et al. Journal clustering of library and information science for subfield delineation using the bibliometric analysis toolkit: CATAR
Liu et al. Detecting the intellectual structure of library and information science based on formal concept analysis
Smit Introduction to ATLAS. ti for Mixed Analysis
Baskaran et al. Automated scraping of structured data records from health discussion forums using semantic analysis
Iefremova et al. Biographical articles in scientific literature: analysis of articles indexed in Web of Science
CN113673943A (zh) 一种基于履历大数据的人员任免辅助决策方法及系统
White Examining scientific vocabulary: mapping controlled vocabularies with free text keywords
Chang Hakka genealogical migration analysis enhancement using big data on library services
Damar et al. Evaluating the nursing academicians in Turkey in the scope of Web of Science: scientometrics of original articles
CN113362960B (zh) 结合多源数据的城市居民公共健康影响因素可视分析系统及方法
Neubarth et al. Supervised descriptive pattern discovery in Native American music
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
Connaway et al. Publisher names in bibliographic data
Laender et al. Ciência Brasil-the brazilian portal of science and technology
Passonneau et al. Relation between agreement measures on human labeling and machine learning performance: Results from an art history image indexing domain
Faulhaber PhiloBiblon y el mundo wiki
Sarhan et al. When does published literature constitute data for secondary research and how should the data be analysed?
Siddiqui et al. Discovery of scalable association rules from large set of multidimensional quantitative datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant