CN112541085B - 问卷的结构化方法、问卷的结构化装置及存储介质 - Google Patents

问卷的结构化方法、问卷的结构化装置及存储介质 Download PDF

Info

Publication number
CN112541085B
CN112541085B CN202011439600.XA CN202011439600A CN112541085B CN 112541085 B CN112541085 B CN 112541085B CN 202011439600 A CN202011439600 A CN 202011439600A CN 112541085 B CN112541085 B CN 112541085B
Authority
CN
China
Prior art keywords
entity
questionnaire
content
attribute
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011439600.XA
Other languages
English (en)
Other versions
CN112541085A (zh
Inventor
刘大海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zuoyi Technology Co ltd
Original Assignee
Beijing Zuoyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zuoyi Technology Co ltd filed Critical Beijing Zuoyi Technology Co ltd
Priority to CN202011439600.XA priority Critical patent/CN112541085B/zh
Publication of CN112541085A publication Critical patent/CN112541085A/zh
Application granted granted Critical
Publication of CN112541085B publication Critical patent/CN112541085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种问卷的结构化方法、结构化装置及存储介质,该方法包括:获取预设数据框架,基于所述预设数据框架生成对应的实体库;获取问卷内容;基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷。通过在对医疗问卷进行处理之前,首先创建医疗领域的实体库,并根据该实体库对问卷内容进行结构化处理,从而将问卷内容转换为可机器识别和处理的内容,允许机器自动对识别的问卷内容进行分析处理,为医生提供可读性更强的问卷内容,而不再需要医生手动对问卷内容进行处理或查看可读性较差的问卷内容,提高了医生的工作效率,提高了用户体验。

Description

问卷的结构化方法、问卷的结构化装置及存储介质
技术领域
本发明涉及医疗信息处理技术领域,具体地涉及一种问卷的结构化方法、一种问卷的结构化装置及一种计算机可读存储介质。
背景技术
随着城镇化规模的不断发展,城市内人口越来越多,医生每天需要接收的待诊断患者也越来越多,因此对患者的就诊流程或就诊方式进行优化势在必行。
在现代社会中,问卷作为对社会中特定人群的信息收集方式,被应用于医疗行业。在医疗领域,医生可以通过预先设置好想要了解的信息,并制定对应的具有问题、选型或答复空间的问卷,将该问卷发放给患者,并要求患者在特定的时间或病情下对该问卷中进行选择或回答,从而为医生提供所需要的患者信息,从而帮助医生对该患者的病情进行进一步的了解。
进一步地,为了优化医生的工作效率,还通过在患者就诊前,向患者提供就诊问卷,以提前获取患者的病情信息,例如在预问诊、随访以及预警等应用场景被普遍应用。
在实际应用过程中,由于患者数量不断增大,上述问卷为医生增加了极大的工作量,为医生带来了极大的困扰。然而现有技术中的医疗问卷往往通过自然语言形成,而机器无法很好地识别自然语言,尤其针对医疗领域存在大量的专业术语,因此工作效率低下,用户体验越来越低。
发明内容
为了克服现有技术中存在的上述技术问题,本发明实施例提供一种问卷的结构化方法及问卷的结构化装置,通过首先创建医疗领域的实体库,并根据该实体库对问卷内容进行结构化处理,从而允许机器自动识别问卷内容并进行分析处理,直接为医生提供可读的问卷内容,提高了医生的工作效率,提高了用户体验。
为了实现上述目的,本发明实施例提供一种问卷的结构化方法,所述方法包括:获取预设数据框架,基于所述预设数据框架生成对应的实体库;获取问卷内容;基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷。
优选地,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述基于所述预设数据框架生成对应的实体库,包括:基于所述预设实体类型生成对应的实体库。
优选地,所述问卷内容包括多个问卷内容项,所述基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理,获得结构化后问卷内容,包括:S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
优选地,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷,包括:提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
优选地,所述按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷,包括:获取所述结构化后问题的第一实体内容以及对应的第一实体属性;获取所述结构化后回答的第二实体内容以及对应的第二实体属性;建立所述第一实体内容与所述第二实体内容的关联关系;基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
优选地,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:判断所述第一属性标签与所述第二属性标签是否相同;在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
相应的,本发明实施例还提供一种问卷的结构化装置,所述装置包括:实体库获取单元,用于获取预设数据框架,基于所述预设数据框架生成对应的实体库;问卷内容获取单元,用于获取问卷内容;结构化处理单元,用于基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;融合单元,用于按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷。
优选地,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述实体库获取单元包括:实体库生成模块,用于基于所述预设实体类型生成对应的实体库。
优选地,所述问卷内容包括多个问卷内容项,所述结构化处理单元用于:S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
优选地,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述融合单元包括:提取模块,用于提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;融合模块,用于按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
优选地,所述融合模块用于:获取所述结构化后问题的第一实体内容以及对应的第一实体属性;获取所述结构化后回答的第二实体内容以及对应的第二实体属性;建立所述第一实体内容与所述第二实体内容的关联关系;基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
优选地,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:判断所述第一属性标签与所述第二属性标签是否相同;在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
另一方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的方法。
通过本发明提供的技术方案,本发明至少具有如下技术效果:
通过在对医疗问卷进行处理之前,首先创建医疗领域的实体库,并根据该实体库对问卷内容进行结构化处理,从而将问卷内容转换为可机器识别和处理的内容,从而允许机器自动对识别的问卷内容进行分析处理,直接为医生提供可读性更强的问卷内容,而不再需要医生手动对问卷内容进行处理或查看可读性较差的问卷内容,提高了医生的工作效率,提高了用户体验。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的问卷的结构化方法的具体实现流程图;
图2是本发明实施例提供的问卷的结构化方法中对问卷内容进行结构化处理的具体实现流程图;
图3是本发明实施例提供的问卷的结构化方法中对结构化后问卷进行融合处理的具体实现流程图;
图4是本发明实施例提供的问卷的结构化装置的结构示意图。
具体实施方式
为了克服现有技术中存在的上述技术问题,本发明实施例提供一种问卷的结构化方法及问卷的结构化装置,通过首先创建医疗领域的实体库,并根据该实体库对问卷内容进行结构化处理,从而允许机器自动识别问卷内容并进行分析处理,直接为医生提供可读的问卷内容,提高了医生的工作效率,提高了用户体验。
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
请参见图1,本发明实施例提供一种问卷的结构化方法,所述方法包括:
S10)获取预设数据框架,基于所述预设数据框架生成对应的实体库;
S20)获取问卷内容;
S30)基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;
S40)按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷。
在本发明实施例中,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述基于所述预设数据框架生成对应的实体库,包括:基于所述预设实体类型生成对应的实体库。
在一种可能的实施方式中,医生需要对就诊过的患者进行问卷调查,以跟踪患者的治疗状况,因此拟定了一份问卷,在该问卷中包括医生期望获知的相关病情疑问,医生在将该问卷发放给患者后,患者根据该问卷进行填写,并将填写后的文件反馈给医生,例如通过云端服务器反馈给医生。
由于上述问卷是由自然语言进行编撰以及由自然语言进行作答,因此可能存在机器无法识别的内容,为了能够让机器对问卷进行自动识别和处理,需要首先获取预设数据框架,以预先设置对问卷内容进行结构化的结构化模型,便于机器在后续对问卷内容进行处理,并根据该预设数据框架生成对应的实体库。例如该预设数据框架可以由医生根据实际的医学经验设定,该预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,在本发明实施例中,预设实体类型包括但不限于疾病(阳)、疾病(阴)、疾病(未知)、症状(阳)、症状(阴)、症状(未知)、手术(阳)、手术(阴)、药品(阳)、药品(阳)、药品(未知)、检验检查、个人信息、过敏史(阳)、过敏史(阴)、过敏史(未知)、家族史(阳)、家族史(阴)、家族史(未知)、生活史(阳)、生活史(阴)、生活史(未知)等,实体内容包括但不限于具体的疾病名称以及药品名称等,实体属性包括但不限于身高、体重、颜色、形状、尺寸大小、发生频率、持续时间、发病时间、诱因、程度等信息,在本发明实施例中,可以根据上述预设实体类型获取在每个预设实体类型所包含的所有实体并保存下来以生成对应的实体库。
此时,云端服务器或医疗管理系统在接收到患者的问卷内容后,立即开始对该问卷内容进行处理。首先对该问卷内容进行结构化以获得结构化后问卷内容,然后按照预设规则对结构化后问卷内容进行处理,例如可以按照预设的自动融合规则对结构化后问卷内容进行融合处理,从而获得处理后问卷。
在本发明实施例中,通过对采用自然语言制定以及回答的问卷内容进行结构化处理,并结合预设的融合规则对问卷内容进行融合,从而实现了对医疗问卷的自动处理,使得处理后的问卷具有更好的可阅读性,一方面大大提高了医生的阅读体验,另一方面医生不再需要手动对问卷进行融合处理,因此大大提高了医生的工作效率。
请参见图2,在本发明实施例中,所述问卷内容包括多个问卷内容项,所述基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理,获得结构化后问卷内容,包括:
S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;
S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;
S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;
S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;
S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;
S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
在一种可能的实施方式中,在完成上述准备工作并获取到实体库后,按照上述数据框架对问卷内容进行解析处理。在本发明实施例中,问卷内容中包括多个问卷内容项,例如可以包括3个问题项和对应的3个回答项,首先选择其中一个问卷内容项进行解析,例如在对问卷内容中的某个问题项进行解析过程中,该问题为“您的咳嗽什么时间发作”,首先按照数据框架对该问题项进行识别出来以获得解析模板,例如根据该问题项中的关键信息可以获知该问题项中包括“症状”、“发生时间”以及“发作与否”三个关键信息,因此该问题项的解析模板为[SYMPTOM][HOW_TIME][HAPPEN],其中[SYMPTOM]代表症状,该症状可以首先从问卷内容中提取出来,[HOW_TIME]代表从问卷内容中提取的发生时间,即该患者咳嗽的发作时间,[HAPPEN]代表从问卷内容中提取的表示发作的短语,可以包括但不限于“发生”、“发作”、“出现”等,此时通过上述实体库获取到上述各内容的标准医学术语并进行替换,从而获得与解析模板对应的转换模板,例如该转换模板为1=<SYMPTOM(+)>|2=1:<TIME_HAPPEN>,其中1=<SYMPTOM(+)表示解析的问卷内容的第一个位置为症状(阳),2=1:<TIME_HAPPEN>表示第二个位置的词是第一位置对应的词的属性,即对应的实体属性;
在本发明实施例中,为了降低对问卷内容项进行识别分析的时间消耗,在生成解析模板以及转换模板后,对所有的问卷内容项进行遍历,以判断是否存在其他与该该解析模板以及转换模板相匹配的匹配内容项,若存在,则将所有匹配内容项都按照该解析模板以及转换模板进行解析处理以及转换处理,并获得对应的第一结构化后问卷内容,然后按照上述方法对其余的问卷内容项进行结构化处理,以获得第二结构化后问卷内容,此时根据上述获取到的第一结构化后问卷内容以及第二结构化后问卷内容生成对应的结构化后问卷内容。例如对上述问题的结构化后问题为:
Figure BDA0002821815440000101
在本发明实施例中,通过根据预设的医学实体库对问卷内容进行标准化处理,并对处理后的问卷内容进行结构化处理,从而获得具有统一描述方式的、机器可识别和分析的结构化后问卷内容,从而便于后续机器自动对问卷内容进行的优化处理,实现了对医学问卷的自动化处理功能,提高了医生的工作效率。
进一步地,在本发明实施例中,通过对机器识别过程中的识别方式进行优化,对于具有相同结构类型的问卷内容项采用同一解析模板和转换模板进行处理,从而大大降低了机器的运算量,提高了数据处理效率。
请参见图3,在本发明实施例中,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷,包括:
S41)提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;
S42)按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
进一步地,在本发明实施例中,所述按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷,包括:获取所述结构化后问题的第一实体内容以及对应的第一实体属性;获取所述结构化后回答的第二实体内容以及对应的第二实体属性;建立所述第一实体内容与所述第二实体内容的关联关系;基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
进一步地,在本发明实施例中,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:判断所述第一属性标签与所述第二属性标签是否相同;在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
在一种可能的实施方式中,问卷内容包括至少一个问题以及与每个所述问题对应的回答,问题由医生在问卷中设置,由对应的患者在问卷中进行回答或选择以生成对应的回答,在对问卷内容进行处理并获得对应的结构化后问卷内容后,获得对应的结构化后问题以及结构化后回答,此时按照预设的融合规则将上述结构化后问题以及结构化后回答进行融合,从而获得处理后问卷。
例如分别抽取结构化后问题中的第一实体内容以及对应的第一实体属性以及结构化后回答中的第二实体内容以及对应的第二实体属性,在本发明实施例中,按照相同实体内容的实体属性才能进行融合的原则,建立第一实体内容与第二实体内容之间的关联关系,例如在针对上述咳嗽的问题,患者回答“早上发作”,对应结构化后回答为:
Figure BDA0002821815440000121
此时针对properties实体,对于结构化后问题中缺失内容的property_value,从结构化后回答中补充相关内容进去,例如在本发明实施例中,首先建立第一实体内容中的properties以及第二实体内容中的properties之间的关联关系,并基于对应的第一实体属性和第二实体属性执行融合操作,以获得融合后实体属性。例如在本发明实施例中,为了进一步保证信息融合的精确性,还为每个实体属性设置对应的属性标签,例如在本发明实施例中,在结构化后问题中发作时间的第一属性标签为“TIME”,在结构化后回答中发作时间对应的第二属性标签为“TIME_HAPPEN”,而“TIME_HAPPEN”标签与“TIME”标签相似,可以确定“TIME_HAPPEN”标签是包含于“TIME”标签中的,因此将上述“property_value”对应的实体属性合并至结构化后问题中,从而获得融合和实体属性,此时,根据上述所有的第一实体内容、第二实体内容以及融合后实体属性可以生成最终的处理后问卷。
在本发明实施例中,通过根据问题和回答中的实体内容的相关联性对结构化后问题以及结构化后回答进行融合处理,从而有效保证了融合后的问卷的精确性,提高了用户体验。
下面结合附图对本发明实施例所提供的问卷的结构化装置进行说明。
请参见图4,基于同一发明构思,本发明实施例提供一种问卷的结构化装置,所述装置包括:实体库获取单元,用于获取预设数据框架,基于所述预设数据框架生成对应的实体库;问卷内容获取单元,用于获取问卷内容;结构化处理单元,用于基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;融合单元,用于按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷。
在本发明实施例中,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述实体库获取单元包括:实体库生成模块,用于基于所述预设实体类型生成对应的实体库。
在本发明实施例中,所述问卷内容包括多个问卷内容项,所述结构化处理单元用于:S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
在本发明实施例中,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述融合单元包括:提取模块,用于提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;融合模块,用于按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
在本发明实施例中,所述融合模块用于:获取所述结构化后问题的第一实体内容以及对应的第一实体属性;获取所述结构化后回答的第二实体内容以及对应的第二实体属性;建立所述第一实体内容与所述第二实体内容的关联关系;基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
在本发明实施例中,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:判断所述第一属性标签与所述第二属性标签是否相同;在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
进一步地,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的方法。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (11)

1.一种问卷的结构化方法,其特征在于,所述方法包括:
获取预设数据框架,基于所述预设数据框架生成对应的实体库;
获取问卷内容;
基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理,获得结构化后问卷内容;
按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷;
所述问卷内容包括多个问卷内容项,所述基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理,获得结构化后问卷内容,包括:
S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;
S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;
S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;
S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;
S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;
S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
2.根据权利要求1所述的方法,其特征在于,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述基于所述预设数据框架生成对应的实体库,包括:
基于所述预设实体类型生成对应的实体库。
3.根据权利要求2所述的方法,其特征在于,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷,包括:
提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;
按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
4.根据权利要求3所述的方法,其特征在于,所述按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷,包括:
获取所述结构化后问题的第一实体内容以及对应的第一实体属性;
获取所述结构化后回答的第二实体内容以及对应的第二实体属性;
建立所述第一实体内容与所述第二实体内容的关联关系;
基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;
基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
5.根据权利要求4所述的方法,其特征在于,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:
判断所述第一属性标签与所述第二属性标签是否相同;
在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;
在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;
在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;
基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
6.一种问卷的结构化装置,其特征在于,所述装置包括:
实体库获取单元,用于获取预设数据框架,基于所述预设数据框架生成对应的实体库;
问卷内容获取单元,用于获取问卷内容;
结构化处理单元,用于基于所述实体库和所述预设数据框架对所述问卷内容进行结构化处理获得结构化后问卷内容;
融合单元,用于按照预设融合规则对所述结构化后问卷内容进行处理,获得处理后问卷;
所述问卷内容包括多个问卷内容项,所述结构化处理单元用于:
S31)选择一个问卷内容项,基于所述实体库和所述预设数据框架对所选择的问卷内容项进行识别处理,获得对应的解析模板和转换模板;
S32)在所有问卷内容项中获取与所述解析模板相匹配的至少一个问卷内容项作为匹配内容项;
S33)基于所述解析模板对每个所述匹配内容项进行解析处理,获得对应的解析后问卷内容;
S34)按照所述转换模板分别对每个所述解析后问卷内容进行结构化转换处理,获得对应的第一结构化后问卷内容;
S35)对所有问卷内容项中除所述匹配内容项的其余问卷内容项执行步骤S31)-S34),获得对应的第二结构化后问卷内容;
S36)基于所述第一结构化后问卷内容和所述第二结构化后问卷内容生成所述结构化后问卷内容。
7.根据权利要求6所述的装置,其特征在于,所述预设数据框架包括预设实体类型、预设实体内容以及与所述预设实体内容对应的预设实体属性,所述实体库获取单元包括:
实体库生成模块,用于基于所述预设实体类型生成对应的实体库。
8.根据权利要求7所述的装置,其特征在于,所述问卷内容包括至少一个问题以及与每个所述问题对应的回答,所述融合单元包括:
提取模块,用于提取所述结构化后问卷内容中的结构化后问题以及结构化后回答;
融合模块,用于按照预设融合规则对所述结构化后问题和所述结构化后回答执行融合处理,获得所述处理后问卷。
9.根据权利要求8所述的装置,其特征在于,所述融合模块用于:
获取所述结构化后问题的第一实体内容以及对应的第一实体属性;
获取所述结构化后回答的第二实体内容以及对应的第二实体属性;
建立所述第一实体内容与所述第二实体内容的关联关系;
基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性;
基于所述第一实体内容、所述第二实体内容以及所述融合后实体属性生成所述处理后问卷。
10.根据权利要求9所述的装置,其特征在于,所述第一实体属性包括第一属性标签,所述第二实体属性包括第二属性标签,所述基于所述关联关系对所述第一实体属性和所述第二实体属性执行融合处理,获得融合后实体属性,包括:
判断所述第一属性标签与所述第二属性标签是否相同;
在所述第一属性标签与所述第二属性标签相同的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第一合并后实体属性;
在所述第一属性标签与所述第二属性标签不同的情况下,按照预设相似规则判断所述第一属性标签是否属于所述第二属性标签的相似标签;
在所述第一属性标签属于所述第二属性标签的相似标签的情况下,对所述第一实体属性和所述第二实体属性执行合并处理,获得第二合并后实体属性;
基于所述第一合并后实体属性和所述第二合并后实体属性生成所述融合后实体属性。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项权利要求所述的方法。
CN202011439600.XA 2020-12-07 2020-12-07 问卷的结构化方法、问卷的结构化装置及存储介质 Active CN112541085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439600.XA CN112541085B (zh) 2020-12-07 2020-12-07 问卷的结构化方法、问卷的结构化装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439600.XA CN112541085B (zh) 2020-12-07 2020-12-07 问卷的结构化方法、问卷的结构化装置及存储介质

Publications (2)

Publication Number Publication Date
CN112541085A CN112541085A (zh) 2021-03-23
CN112541085B true CN112541085B (zh) 2021-08-24

Family

ID=75019960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439600.XA Active CN112541085B (zh) 2020-12-07 2020-12-07 问卷的结构化方法、问卷的结构化装置及存储介质

Country Status (1)

Country Link
CN (1) CN112541085B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN110689934A (zh) * 2019-09-09 2020-01-14 北京左医科技有限公司 一种预问诊系统及方法
CN110929519A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 实体属性抽取方法及装置
CN111079387A (zh) * 2019-11-29 2020-04-28 华中师范大学 一种问卷自动化生成方法、装置、计算机设备及存储介质
CN111930913A (zh) * 2020-08-14 2020-11-13 上海茂声智能科技有限公司 一种基于知识图谱的问答方法、系统、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087226B2 (en) * 2017-04-25 2021-08-10 Nec Corporation Identifying multiple causal anomalies in power plant systems by modeling local propagations
CN110750540A (zh) * 2019-10-18 2020-02-04 中国人民解放军军事科学院军事医学研究院 构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质
CN111274239B (zh) * 2019-12-30 2023-07-14 安徽知学科技有限公司 试卷结构化处理方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN110929519A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 实体属性抽取方法及装置
CN110689934A (zh) * 2019-09-09 2020-01-14 北京左医科技有限公司 一种预问诊系统及方法
CN111079387A (zh) * 2019-11-29 2020-04-28 华中师范大学 一种问卷自动化生成方法、装置、计算机设备及存储介质
CN111930913A (zh) * 2020-08-14 2020-11-13 上海茂声智能科技有限公司 一种基于知识图谱的问答方法、系统、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的自动问答系统的应用研究与实现;张崇宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN112541085A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN109254959B (zh) 一种数据评价方法、装置、终端设备及可读存储介质
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112598489A (zh) 基于金融应用的风险监测方法及系统
CN113111162A (zh) 科室推荐方法、装置、电子设备及存储介质
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
CN115050457A (zh) 在线问诊服务质量的评估方法、装置、设备、介质及产品
CN112541085B (zh) 问卷的结构化方法、问卷的结构化装置及存储介质
CN116825269A (zh) 体检报告的处理方法、装置、电子设备和可读存储介质
CN109146306B (zh) 一种企业管理系统
CN116469505A (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN111240978A (zh) 数据报告生成与分析方法
CN113050933B (zh) 脑图数据处理方法、装置、设备及存储介质
US20230377697A1 (en) System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history
CN112561714B (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
CN112053760B (zh) 用药指导方法、用药指导装置及计算机可读存储介质
CN114743693A (zh) 基于医患对话的诊中质控方法以及诊中质控装置
CN114743621A (zh) 病历的输入预测方法、病历的输入预测装置以及存储介质
CN114625960A (zh) 线上考评方法、装置、电子设备及存储介质
CN113972009A (zh) 一种基于临床检验医学大数据的医学检验咨询系统
CN113297836A (zh) 影像报告标签评估方法、装置、计算机设备和存储介质
CN111724873A (zh) 一种数据处理方法及装置
CN111710406A (zh) 医疗设备的远程维护方法、设备及可读存储介质
CN117172248B (zh) 一种文本数据标注方法、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant