CN113254618B - 一种数据采集处理方法、系统、电子设备及介质 - Google Patents
一种数据采集处理方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN113254618B CN113254618B CN202110661433.1A CN202110661433A CN113254618B CN 113254618 B CN113254618 B CN 113254618B CN 202110661433 A CN202110661433 A CN 202110661433A CN 113254618 B CN113254618 B CN 113254618B
- Authority
- CN
- China
- Prior art keywords
- answer
- word
- words
- target
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据采集处理方法、系统、电子设备及介质,该方法通过按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本,对初次回答文本进行分词处理,得到若干个初次回答词,将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度,若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并填写入表单,可以实现数据采集处理的标准化,便于后续数据查看、处理、节约人力、时间、资源。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据采集处理方法、系统、电子设备及介质。
背景技术
随着社会发展节奏的加快,人们事务处理效率有了更高的要求,在一些场景下,例如信息收集过程中,由于用户的非专业性,往往在谈论或回答一些问题时会夹杂着大量的“水话”、停顿、口头语和“非正式用语”,使得沟通效率较差。
此外,在信息收集的过程中,往往是通过人工“一对一”的进行信息采集,将采集到的相关信息填写入事先制定好的表单之中,但一方面不同的人可能对同一件事情的描述存在一定差异,填写好的表单仍然具有一定的个性化表现,不利于后续的数据查看以及数据处理,另一方面也将会耗费大量的时间人力,造成资源浪费。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种数据采集处理方法、系统、电子设备及介质,以解决相关技术中通过人工进行信息采集填写的表单存在差异性、不利于后续数据查看、数据处理、耗费时间人力、浪费资源的技术问题。
本发明提供的一种数据采集处理方法,所述方法包括:
按照预设问答模板对目标用户进行初次询问,并获取所述目标用户的初次回答文本;
对所述初次回答文本进行分词处理,得到若干个初次回答词;
获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答词;
将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
将所述目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度。
可选的,所述将所述目标回答词填写入表单之前,所述方法还包括:
获取所述目标回答词所对应的所述标准回答词的属性信息,所述属性信息包括关键词、描述词以及描述词类别,将所述属性信息包括关键词的所述目标回答词作为关键回答词,将所述属性信息包括描述词的所述目标回答词作为描述回答词;
根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句;
将包括有相同关键回答词的所述标准化语句进行合并处理,保留一个所述关键回答词,得到简化语句,并将所述简化语句填写入表单。
可选的,将所述简化语句填写入表单之前,所述方法还包括:
获取所述简化语句中的所述描述词类别,并与预设描述词类别进行比对,以确定缺失描述词类别;
根据所述缺失描述词类别和所述简化语句中的关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
对所述补充回答文本进行分词处理,得到若干个补充回答词;
将所述补充回答词与各所述标准回答词进行比对,得到所述补充回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述补充回答词替换为目标回答词,所述目标回答词包括与所述补充回答词相似度最高的所述标准回答词;
将所述目标回答词增加到所述简化语句。
可选的,将所述简化语句填写入表单之前,所述方法还包括:
根据各所述简化语句中的关键回答词在预设关键回答词关联词库中确定关联关键回答词;
根据所述关联关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
根据所述补充回答文本生成所述简化语句。
可选的,所述将所述目标回答词填写入表单包括:
获取所述目标用户的基础信息,将所述基础信息填写入表单;
获取所述初次回答词在所述初次回答文本中的位置信息;
将所述目标回答词所对应的所述初次回答词的位置信息对所述目标回答词进行排序,并填写入表单。
可选的,所述将所述目标回答词填写入表单之后,所述方法还包括:
将所述表单展示给所述目标用户;
获取表单中的被标记目标回答词以及所述目标用户的修正语音;
将所述修正语音转化为修正文本,并对所述修正文本进行去停用词处理,得到修改信息;
根据所述修改信息对所述被标记目标回答词进行替换,和/或将所述目标回答词与所述修改信息同时记载。
可选的,根据各所述词置信度确定所述表单的表单置信度包括以下至少之一:
获取各所述目标回答词的所述词置信度,根据各所述词置信度确定所述表单置信度;
获取各所述目标回答词中的关键回答词的所述词置信度,根据各所述关键回答词的所述词置信度确定所述表单置信度;
获取各所述目标回答词中的关键回答词的所述词置信度、描述回答词的所述词置信度,根据各所述关键回答词的所述词置信度、描述回答词的所述词置信度确定所述表单置信度。
本发明还提供了一种数据采集处理系统,所述系统包括:
初次回答文本获取模块,用于按照预设问答模板对目标用户进行初次询问,
并获取所述目标用户的初次回答文本;
分词处理模块,用于对所述初次回答文本进行分词处理,得到若干个初次回答词;
标准词库模块,用于获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答的标准回答词;
比对模块,用于将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;
替换模块,用于若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
填写模块,用于将所述目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度。
本发明还提供了一种电子设备,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如上述任一项实施例所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如上述任一项实施例所述的方法。
本发明的有益效果:本发明中的一种数据采集处理方法,通过按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本,对初次回答文本进行分词处理,得到若干个初次回答词,将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度,若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并填写入表单,以及根据各词置信度确定表单的表单置信度,可以实现数据采集处理的标准化,便于后续数据查看、处理、节约人力、时间、资源。
附图说明
图1是本发明实施例中数据采集处理方法的一种流程示意图。
图2是本发明实施例中数据采集处理系统的一种结构示意图。
图3是本发明一实施例中电子设备的一种结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
实施例一
如图1所示,本实施例提供了一种数据采集处理方法,该方法包括:
S101:按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本。
S102:对初次回答文本进行分词处理,得到若干个初次回答词。
S103:获取预设问答模板对应的标准词库。
S104:将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度。
S105:若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并确定目标回答词的词置信度。
S106:将目标回答词填写入表单,并根据各词置信度确定表单的表单置信度。
预设问答模板可以是由本领域技术人员根据当前场景所事先制定的相关模板,例如该方法的应用场景为医院的门诊,则可以根据当前门诊所在的科室情况,对应的分配合适的预设问答模板。又例如,当前方法的应用场景为政务服务大厅,则根据该政务服务大厅所具备的智能,进行预设问答模板的设计与选用。
按照预设问答模板对目标用户进行初次询问的方式可以是通过文字和/或语音进行询问,对于听障人士也可以采用文字和/或手语的方式进行询问。
目标用户可能是一个人也可能是多个人,例如在门诊就诊的场景下,可能由多个人陪同一个人进行就诊,此时,可以根据预先设定的目标用户的选取规则,选取一个或多个人员作为目标用户,并获取其回答生成初次回答文本。当然,可以通过在预设问答模板中加入需要看诊病人的问题,通过与用户之间的交互以确定一个人为目标用户,进而通过采集目标用户的声音特征信息,生成关于该目标用户的初次回答文本。
可选的,初次回答文本可以由目标用户的语音回答通过相关技术手段的方式转化为文本。
可选的,初次回答文本还可以是由目标用户所提供的一些物品转为的图像资料,例如将病例、检查单、药盒等拍摄得到图像后,将图像转化为初次回答文本。
可选的,初次回答文本还可以是通过对目标用户的手语图像进行分析转化而生成。
分词的具体方式可以采用相关技术的方式实现,在此不做限定。
可选的,在进行分词处理之后,得到若干个初次回答词之前,该可以对分词后的初次回答文本进行数据清洗,例如进行去停用词等方式,以减少后续初次回答词中“无用词”的量,降低数据处理量,节省计算资源。
可选的,标准词库包括若干个预设问答模板的标准回答词。
标准词库可以由本领域技术人员根据需要设定。例如,可以通过收集足够多的回答样本进行人工或机器标注,进而得到标准词库。
可选的,相关度可以通过分别对初次回答词和标准回答词进行向量化表示,得到初次回答词的词向量和标准回答词的词向量,并分别确定初次回答词与各标准回答词之间的余弦相似度,进而确定初次回答词与各标准回答词之间的相关度。
可选的,相关度也可以通过在预先设定的同义词词库中查找初次回答词与标准回答词所在的分支的级数,进而通过计算两者之间的语义距离来确定两者的相关度。具体的,当本方法应用于医院门诊病例数据采集处理的场景下,同义词词库可以是有相关具有医疗知识的专业人员所编写的,该同义词词库采用分级的方式进行编写。此时,初次回答词与标准回答词之间的相关度可以用初次回答词O与标准回答词S之间的距离Dist(O,S)表示,该距离Dist(O,S)的一种确定方式包括:
其中,A和B为初次回答词O和标准回答词S在同义词词库中的所有语义的集合,Dist(o,s)为语义o,s之间的距离,语义o,s之间的距离可以通过初次回答词O和标准回答词S在同义词词库中所在层级之下的层级数量确定。
相关度也可以通过相关技术中的其他手段加以实现,在此不做限定。
其中,目标回答词包括与初次回答词相似度最高的标准回答词。
其中,预设相关度阈值可以由本领域的技术人员根据需要进行设定,在此不做限定。
换句话说,若某一个初次回答词与至少一个标准回答词之间的相关度高于预设相关度阈值,则选取与初次回答词最为相关的标准回答词来替换掉初次回答词,这样实现回答词语的标准化。
可选的,标准词库也不是一成不变的,可以根据需要进行修改和增加删减。例如,当完成数据采集处理后,有专业人员进行表单核实,若专业人员根据初次回答文本增加了新的新增内容,则可以通过确定新增内容与初始回答词之间的相似度,一方面将新增内容补充入标准词库,另一方面也可以将与新增内容对应的初始回答词补入同义词词库中。
可选的,词置信度根据相关度、预设相关度阈值、目标回答词影响因子中至少之一确定,其中,目标回答词影响因子可以由该目标回答词所对应的标准回答词的预设影响因子来确定,目标回答词影响因子也可以根据该目标回答词的属性信息确定,目标回答词影响因子还可以通过本领域的相关技术手段来确定。例如,根据目标回答词对应的相关度高于预设相关度阈值的百分比划分不同层级,对应不同的词置信度,如高出20%,词置信度为85%,高出50%,词置信度为88%,高出80%,词置信度为95%等。又例如,根据目标回答词对应的相关度和目标回答词影响因子的乘积,确定的值作为词置信度。又例如将根据目标回答词对应的相关度和目标回答词影响因子的乘积,以及目标回答词对应的相关度高于预设相关度阈值的百分比共同确定词置信度。
在一些实施例中,将目标回答词填写入表单之前,该方法还包括:
获取目标回答词所对应的标准回答词的属性信息,属性信息包括关键词、描述词以及描述词类别;
根据目标回答词所对应的初次回答文本的语句信息,对目标回答词进行分句处理,得到若干个标准化语句;
将包括有相同关键回答词的标准化语句进行合并处理,保留一个关键回答词,得到简化语句,并将简化语句填写入表单。
属性信息可以由本领域技术人员通过人工或者算法的方式预先对标准回答词进行标注。
当本方法应与在医院门诊场景下时,关键回答词可以是人体器官或人体部位的名称,例如胸、牙、胃等;关键回答词也可以是某些特定的症状,如失眠等。描述回答词可以是该部位的问题,如关键回答词为牙,则描述回答词可以包括但不限于痛、胀、龋齿、歪斜、五天等。也即,描述回答词为描述该关键回答词的持续时长、症状、程度等信息。描述回答词类别包括但不限于时长、程度(轻微、非常、频发等)、症状(痛、麻、酸胀、流血等)。
标准化语句仅包括目标回答词,这样可以有效的将初次回答文本进行数据清洗,保留标准化后的相关信息。
标准化语句可以通过建立目标回答词与初次问答词之间的映射关系,初次回答词与初次问答文本中的语句之间的映射关系,进而得到目标回答词在初次回答文本的语境下的排序关系与断句情况,进而生成标准化语句。
可选的,表单可以是预设的格式化表格,包括有若干个数据填写位,各数据填写位对应设置有词义规则,可以预先通过预设方式获取目标回答词的词义,进而对应填写到合适的数据填写位。如目标回答词是表达牙相关的,则填写到牙对应的数据填写位。
可选的,初次回答文本的语句信息的确定方式包括以下任意之一:
直接以目标用户的回答断句作为语句信息;
在目标用户的回答断句的基础上,通过语句整合得到语句信息。
例如,目标用户的回答是“我肚子疼了很久。大概有三十天了”,按照正常的回答断句,可能就是两句话,但通过分析可以得到,这两句话实质上都是在说肚子疼这一件事,则整合后的语句信息为“我肚子疼了很久,大概有三十天了”。
在一些实施例中,目标用户可能在三分钟之前说了一件事,在三分钟之后,又对该事件进行了补充说明,例如“我前几天肚子疼,疼了好几天……我肚子疼的特别严重”,此时,“肚子疼,几天”与后面的“肚子疼特别严重”实质上包括了同一个关键回答词“腹部”,因此,此时可以将前后两个标准化语句进行合并处理,得到“腹部疼,几天,特别严重”这一简化语句。
在一些实施例中,简化语句填写入表单之前,方法还包括:
获取简化语句中的描述词类别,并与预设描述词类别进行比对,以确定缺失描述词类别;
根据缺失描述词类别和简化语句中的关键回答词确定补充问答模板,并对目标用户进行补充询问,获取补充回答文本;
对补充回答文本进行分词处理,得到若干个补充回答词;
将补充回答词与各标准回答词进行比对,得到补充回答词与标准回答词之间的相关度;
若存在至少一个相关度高于预设相关度阈值,将补充回答词替换为目标回答词,目标回答词包括与补充回答词相似度最高的标准回答词;
将目标回答词增加到简化语句。
预设描述词类别可以根据该方法的应用场景、对应的简化语句中的关键回答词等来确定。
补充问答模板也可以由本领域技术人员根据需要预先设定。也可以通过一些固定语句+缺失描述词类别+关键回答词的方式进行确定,例如简化语句中的关键回答词为腹部,缺失描述词类别为时长类别,固定语句为“请问您”,则可以生成的补充问答模板可以为“请问您腹部的症状持续了多久”。
以该方法应用于门诊病例填写为例,预设描述词类别可以包括时长、症状、程度等。若某一简化语句中仅包括症状和程度两个类别的描述回答词,则可以确定缺失时长类别的描述回答词,此时,可以确定补充问答模板,进而得到目标用户的补充问答文本。对补充问答文本进行预初次问答文本相似的操作,生成对应的标准回答词,进而丰富完整简化语句。
在一些实施例中,将简化语句填写入表单之前,方法还包括:
根据各简化语句中的关键回答词在预设关键回答词关联词库中确定关联关键回答词;
根据关联关键回答词确定补充问答模板,并对目标用户进行补充询问,获取补充回答文本;
根据补充回答文本生成简化语句。
预设关键回答词关联词库可以由相关技术人员编写制定,也可以通过其他相关技术的技术手段确定。
通过确定关联关联词,可以进一步丰富表格填写内容的丰富度和可用性,例如,在门诊场景下,目标用户为女性,自述腹痛半天,但没有提报上次月经时间,此时可以预设关键回答词关联词库,得到腹痛的关联关键回答词“月经”,进而得到需要补充询问上一次月经时间,得到对应的补充问答文本,生成简化语句填写如表单中。这样可以进一步提升表单的可用性,同时也可以避免由于人工询问导致的信息遗漏。
在一些实施例中,将目标回答词填写入表单包括:
获取目标用户的基础信息,将基础信息填写入表单;
获取初次回答词在初次回答文本中的位置信息;
将目标回答词所对应的初次回答词的位置信息对目标回答词进行排序,并填写入表单。
单纯的只针对目标用户的回答信息进行数据采集处理可能不一定能够很好的区分各个表单所针对的目标用户,此时可以通过获取目标用户的基础信息,增加到表单中,以完善数据采集处理。
基础信息具体所包括的内容,可以由本领域技术人员根据需要设定,例如姓名、身份证号、编号、性别、年龄、既往病史等等。
通过按照初次回答词的顺序调谐目标回答词,这样可以按照目标用户自认的重要程度进行表单的填写。
可选的,目标回答词还可以对应的关键回答词的预设优先级进行排序,填入表单。
在一些实施例中,将目标回答词填写入表单之后,该方法还包括:
将表单展示给目标用户;
获取目标用户的修改信息,对表单进行修改。
表单可以通过语音播报、文字展示等方式进行展示。
可选的,获取目标用户的修改信息,对表单进行修改包括:
获取表单中的被标记目标回答词以及目标用户的修正语音;
将修正语音转化为修正文本,并对修正文本进行去停用词处理,得到修改信息;
根据修改信息对被标记目标回答词进行替换,和/或将目标回答词与修改信息同时记载。
用户可以通过语音控制,或选中显示的目标回答词的文字以实现目标回答词的标记,对标记的目标回答词进行修正,通过对修正语音的文本化处理,进而得到修改信息。
将修改信息对目标回答词进行替换可以使数据采集处理更加贴合目标用户的本意。
将目标回答词与修改信息同时记载,可以供后续专业人员对标准词库根据需要进行更新,以及若由于目标用户的固执和认知问题导致“错误修改”,后续专业人员可以人工进一步修正表单。
在一些实施例中,根据各词置信度确定表单的表单置信度包括以下至少之一:
获取各目标回答词的词置信度,根据各词置信度确定表单置信度;
获取各目标回答词中的关键回答词的词置信度,根据各关键回答词的词置信度确定表单置信度;
获取各目标回答词中的关键回答词的词置信度、描述回答词的词置信度,根据各关键回答词的词置信度、描述回答词的词置信度确定表单置信度。
例如,根据各关键回答词的词置信度、描述回答词的词置信度确定表单置信度可以是分别对关键回答词和描述回答词设定对应的参考权重,进而对两者取加权平均,确定表单置信度,也可以直接选用各个词置信度中的最小值作为表单置信度。
通过确定表单置信度,可以为使用表单的用户提供该表单的可信程度的数值化表示,更加方便表单的取用。
可选的,表单置信度还包括其中各个简化语句置信度,简化语句置信度可以根据其所包括的关键回答词的词置信度、各描述回答词的词置信度、描述词类别的完整性中至少之一确定。
可选的,当表单通过电子化显示时,可以在用户选中简化语句时显示该简化语句的简化语句置信度,这样可以更加有助于进行表单的重点修正。
本发明实施例提供了一种数据采集处理方法,通过按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本,对初次回答文本进行分词处理,得到若干个初次回答词,将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度,若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并填写入表单,以及确定表单置信度,可以实现数据采集处理的标准化,便于后续数据查看、处理、节约人力、时间、资源,同时也能够对表单的可信度进行初步的评价,方便后续对表单的使用,以及由针对性的对部分表单进行修正。
实施例二
参见图2,本发明实施例还提供了一种数据采集处理系统200,包括:
初次回答文本获取模块201,用于按照预设问答模板对目标用户进行初次询问,并获取目标用户的初次回答文本;
分词处理模块202,用于对初次回答文本进行分词处理,得到若干个初次回答词;
标准词库模块203,用于获取预设问答模板对应的标准词库,标准词库包括若干个预设问答模板的标准回答的标准回答词;
比对模块204,用于将初次回答词与各标准回答词进行比对,得到初次回答词与标准回答词之间的相关度;
替换模块205,用于若存在至少一个相关度高于预设相关度阈值,将初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,目标回答词包括与初次回答词相似度最高的标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
填写模块206,用于将目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度。
在本实施例中,该系统执行上述任一实施例所述的方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
请参阅图3,本申请实施例还提供了一种电子设备1600,该电子设备1600包括处理器1601、存储器1602和通信总线1603;
所述通信总线1603用于将所述处理器1601和存储器1602连接;
所述处理器1601用于执行所述存储器1602中存储的计算机程序,以实现如上述任一实施例所述的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序用于使所述计算机执行如实施例一中任一个所述的方法。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
在上述实施例的对应附图中,连接线可以表示各个部件之间的连接关系,以表示更多的构成信号路径(constituent_signal path)和/或一些线的一个或多个末端具有箭头,以表示主要信息流向,连接线作为一种标识,不是对方案本身的限制,而是结合一个或多个事例性实施例使用这些线有助于更容易地接电路或逻辑单元,任何所代表的信号(由设计需求或偏好所决定)实际上可以包括可以在任意一个方向传送的并且可以以任何适当类型的信号方案实现的一个或多个信号。
在上述实施例中,除非另外规定,否则通过使用 “第一”、“第二”等序号对共同的对象进行描述,只表示其指代相同对象的不同实例,而非是采用表示被描述的对象必须采用给定的顺序,无论是时间地、空间地、排序地或任何其他方式。
在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。如果说明书描述了部件、特征、结构或特性“可以”、“或许”或“能够”被包括,则该特定部件、特征、结构或特性“可以”、“或许”或“能够”被包括,则该特定部件、特征、结构或特性不是必须被包括的。如果说明书或权利要求提及“一”元件,并非表示仅有一个元件。如果说明书或权利要求提及 “一另外的”元件,并不排除存在多于一个的另外的元件。
在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态RAM(DRAM))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
Claims (9)
1.一种数据采集处理方法,其特征在于,所述方法包括:
按照预设问答模板对目标用户进行初次询问,并获取所述目标用户的初次回答文本;
对所述初次回答文本进行分词处理,得到若干个初次回答词;
获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答词;
将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
将所述目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度;
其中,所述将所述目标回答词填写入表单之前,所述方法还包括,
获取所述目标回答词所对应的所述标准回答词的属性信息,所述属性信息包括关键词、描述词以及描述词类别,将所述属性信息包括关键词的所述目标回答词作为关键回答词,将所述属性信息包括描述词的所述目标回答词作为描述回答词;
根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句,所述根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句包括建立所述目标回答词与初次问答词之间的映射关系,以及所述初次回答词与初次问答文本中的语句之间的映射关系,得到所述目标回答词在初次回答文本的语境下的排序关系与断句情况,生成标准化语句;
将包括有相同关键回答词的所述标准化语句进行合并处理,保留一个所述关键回答词,得到简化语句,并将所述简化语句填写入表单。
2.如权利要求1所述的数据采集处理方法,其特征在于,将所述简化语句填写入表单之前,所述方法还包括:
获取所述简化语句中的所述描述词类别,并与预设描述词类别进行比对,以确定缺失描述词类别;
根据所述缺失描述词类别和所述简化语句中的关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
对所述补充回答文本进行分词处理,得到若干个补充回答词;
将所述补充回答词与各所述标准回答词进行比对,得到所述补充回答词与所述标准回答词之间的相关度;
若存在至少一个所述相关度高于预设相关度阈值,将所述补充回答词替换为目标回答词,所述目标回答词包括与所述补充回答词相似度最高的所述标准回答词;
将所述目标回答词增加到所述简化语句。
3.如权利要求1所述的数据采集处理方法,其特征在于,将所述简化语句填写入表单之前,所述方法还包括:
根据各所述简化语句中的关键回答词在预设关键回答词关联词库中确定关联关键回答词;
根据所述关联关键回答词确定补充问答模板,并对所述目标用户进行补充询问,获取补充回答文本;
根据所述补充回答文本生成所述简化语句。
4.如权利要求1-3任一项所述的数据采集处理方法,其特征在于,所述将所述目标回答词填写入表单包括:
获取所述目标用户的基础信息,将所述基础信息填写入表单;
获取所述初次回答词在所述初次回答文本中的位置信息;
根据所述目标回答词所对应的所述初次回答词的位置信息对所述目标回答词进行排序,并填写入表单。
5.如权利要求1-3任一项所述的数据采集处理方法,其特征在于,所述将所述目标回答词填写入表单之后,所述方法还包括:
将所述表单展示给所述目标用户;
获取表单中的被标记目标回答词以及所述目标用户的修正语音;
将所述修正语音转化为修正文本,并对所述修正文本进行去停用词处理,得到修改信息;
根据所述修改信息对所述被标记目标回答词进行替换,和/或将所述目标回答词与所述修改信息同时记载。
6.如权利要求1-3任一项所述的数据采集处理方法,其特征在于,根据各所述词置信度确定所述表单的表单置信度包括以下至少之一:
获取各所述目标回答词的所述词置信度,根据各所述词置信度确定所述表单置信度;
获取各所述目标回答词中的关键回答词的所述词置信度,根据各所述关键回答词的所述词置信度确定所述表单置信度;
获取各所述目标回答词中的关键回答词的所述词置信度、描述回答词的所述词置信度,根据各所述关键回答词的所述词置信度、描述回答词的所述词置信度确定所述表单置信度。
7.一种数据采集处理系统,其特征在于,所述系统包括:
初次回答文本获取模块,用于按照预设问答模板对目标用户进行初次询问,并获取所述目标用户的初次回答文本;
分词处理模块,用于对所述初次回答文本进行分词处理,得到若干个初次回答词;
标准词库模块,用于获取所述预设问答模板对应的标准词库,所述标准词库包括若干个所述预设问答模板的标准回答的标准回答词;
比对模块,用于将所述初次回答词与各所述标准回答词进行比对,得到所述初次回答词与所述标准回答词之间的相关度;
替换模块,用于若存在至少一个所述相关度高于预设相关度阈值,将所述初次回答词替换为目标回答词,并确定所述目标回答词的词置信度,所述目标回答词包括与所述初次回答词相似度最高的所述标准回答词,所述词置信度根据所述相关度、所述预设相关度阈值、预设目标回答词影响因子中至少之一确定;
填写模块,用于将所述目标回答词填写入表单,并根据各所述词置信度确定所述表单的表单置信度;
其中,所述将所述目标回答词填写入表单之前,还包括,
获取所述目标回答词所对应的所述标准回答词的属性信息,所述属性信息包括关键词、描述词以及描述词类别,将所述属性信息包括关键词的所述目标回答词作为关键回答词,将所述属性信息包括描述词的所述目标回答词作为描述回答词;
根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句,所述根据所述目标回答词所对应的所述初次回答文本的语句信息,对所述目标回答词进行分句处理,得到若干个标准化语句包括建立所述目标回答词与初次问答词之间的映射关系,以及所述初次回答词与初次问答文本中的语句之间的映射关系,得到所述目标回答词在初次回答文本的语境下的排序关系与断句情况,生成标准化语句;
将包括有相同关键回答词的所述标准化语句进行合并处理,保留一个所述关键回答词,得到简化语句,并将所述简化语句填写入表单。
8.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661433.1A CN113254618B (zh) | 2021-06-15 | 2021-06-15 | 一种数据采集处理方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661433.1A CN113254618B (zh) | 2021-06-15 | 2021-06-15 | 一种数据采集处理方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254618A CN113254618A (zh) | 2021-08-13 |
CN113254618B true CN113254618B (zh) | 2021-11-19 |
Family
ID=77187908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110661433.1A Active CN113254618B (zh) | 2021-06-15 | 2021-06-15 | 一种数据采集处理方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254618B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065813A1 (en) * | 2003-03-11 | 2005-03-24 | Mishelevich David J. | Online medical evaluation system |
TW201612846A (en) * | 2014-09-19 | 2016-04-01 | Yi-Cheng Yu | System and method of self-help inquiry and generating structural compliant medical record |
CN109710634B (zh) * | 2018-12-28 | 2021-04-30 | 北京百度网讯科技有限公司 | 用于生成信息的方法及装置 |
CN110364251B (zh) * | 2019-06-14 | 2022-08-16 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN112214579B (zh) * | 2020-10-10 | 2022-08-23 | 浙江蓝鸽科技有限公司 | 简答题的机器智能评阅方法及系统 |
-
2021
- 2021-06-15 CN CN202110661433.1A patent/CN113254618B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113254618A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109659013B (zh) | 病症分诊及路径优化方法、装置、设备及存储介质 | |
US7428487B2 (en) | Semi-automatic construction method for knowledge base of encyclopedia question answering system | |
Naples | “Just what needed to be done”: The political practice of women community workers in low-income neighborhoods | |
CN113724848A (zh) | 基于人工智能的医疗资源推荐方法、装置、服务器及介质 | |
CN109087688B (zh) | 患者信息采集方法、装置、计算机设备和存储介质 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN116401466B (zh) | 一种图书分级分类推荐方法和系统 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN115394393A (zh) | 智能诊疗数据处理方法、装置、电子设备及存储介质 | |
CN112837772A (zh) | 一种预问诊病历生成方法及装置 | |
CN115455169A (zh) | 一种基于词汇知识和语义依存的知识图谱问答方法和系统 | |
CN113065355B (zh) | 专业百科命名实体识别方法、系统及电子设备 | |
CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
EP3901875A1 (en) | Topic modelling of short medical inquiries | |
CN113255323A (zh) | 一种描述数据处理方法、系统、电子设备及介质 | |
CN113254618B (zh) | 一种数据采集处理方法、系统、电子设备及介质 | |
CN110047569B (zh) | 基于胸片报告生成问答数据集的方法、装置及介质 | |
CN113571196A (zh) | 构建医疗训练样本的方法及装置、医疗文本的检索方法 | |
TWI582627B (zh) | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 | |
CN112349367A (zh) | 一种生成仿真病历的方法、装置、电子设备及存储介质 | |
CN112883194B (zh) | 一种症状信息抽取方法、装置、设备及存储介质 | |
CN115588430A (zh) | 基于用户语音的智能查询方法、装置、设备及存储介质 | |
JP2008234003A (ja) | 医薬品情報管理プログラム、医薬品情報管理装置、医薬品情報管理方法 | |
CN114676258A (zh) | 一种基于患者症状描述文本的疾病分类智能服务方法 | |
Guo et al. | YouTube Videos for Public Health Literacy? A Machine Learning Pipeline to Curate Covid-19 Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220721 Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd. Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |