CN115983285A - 问卷稽核方法、装置、电子设备和存储介质 - Google Patents
问卷稽核方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115983285A CN115983285A CN202211678312.9A CN202211678312A CN115983285A CN 115983285 A CN115983285 A CN 115983285A CN 202211678312 A CN202211678312 A CN 202211678312A CN 115983285 A CN115983285 A CN 115983285A
- Authority
- CN
- China
- Prior art keywords
- question
- dialogue
- answer
- questionnaire
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种问卷稽核方法、装置、电子设备和存储介质,其中方法包括:基于调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;基于各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于各对话问题的标准答案,以及匹配关系,对调研问卷进行稽核,克服了传统方案中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,提升了稽核效率和稽核准确率,节省了人力成本,避免了主观因素的涉入,使得问卷稽核过程更为客观,成效更高。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种问卷稽核方法、装置、电子设备和存储介质。
背景技术
通常,客户在营业厅办理业务后,营业厅客服会致电客户进行调研,以获知客户对于营业厅服务的满意度。而客服在对客户进行调研时,通常有固有的问卷/话术,客服描述问卷中的问题,以供客户作答,从而实现对于营业厅服务的满意度评分。
而在调研完毕后,通常还会有专门的核查人员,对客服根据客户作答填写的调研问卷进行稽核,而目前问卷稽核的流程多是人工听取录音,并与相应的调研问卷进行核对。然而,调研问卷和录音数量众多,核对工作量极大,且易出错,即需耗费大量的时间精力进行问卷稽核,稽核效率低下;此外,人工核对的过程中往往易掺入主观因素,使得稽核过程的主观性极强,客观性不佳。
发明内容
本发明提供一种问卷稽核方法、装置、电子设备和存储介质,用以解决现有技术中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,实现稽核效率和稽核准确率的提升。
本发明提供一种问卷稽核方法,包括:
确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;
基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;
基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
根据本发明提供的一种问卷稽核方法,所述基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,包括:
基于各候选答案所处的答案片段,确定所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离;
基于所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
根据本发明提供的一种问卷稽核方法,所述基于所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案,包括:
从所述各候选答案所处的答案片段中,确定所述各候选答案所处的答案语句,并确定各答案语句的语句类型;
统计所述各候选答案在所处的答案片段中的出现次数,以及所述各候选答案对应的答案类型的类型出现次数,所述类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和;
基于所述各候选答案的出现次数、各答案类型的类型出现次数、所述各答案语句的语句类型、所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
根据本发明提供的一种问卷稽核方法,所述基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,包括:
基于所述调研语音对应的对话文本,进行问题定位,得到所述对话文本中的各对话问题;
分别提取所述对话文本中各对话问题的语义特征,以及所述问题模板中各模板问题的语义特征;
基于所述各对话问题的语义特征,与所述各模板问题的语义特征之间的相似度,进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,以及所述各模板问题的问题类型。
根据本发明提供的一种问卷稽核方法,所述基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案,包括:
基于所述匹配关系,以及所述各模板问题的问题类型,确定所述各对话问题的问题类型,并基于所述各对话问题的问题类型,确定所述各对话问题的答案类型;
基于所述各对话问题的答案类型,以及所述各对话问题,对所述各对话问题在所述对话文本中对应的答案片段进行实体识别,得到所述各对话问题对应的候选答案。
根据本发明提供的一种问卷稽核方法,所述基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核,包括:
对所述调研问卷进行结构解析,得到所述调研问卷中的各模板问题,以及所述各模板问题的问题答案;
基于所述匹配关系,对所述各对话问题的标准答案和所述各模板问题的问题答案进行一致性校验。
根据本发明提供的一种问卷稽核方法,所述各对话问题对应的答案片段基于如下步骤确定:
基于所述对话文本中两两相邻的对话问题,确定所述各对话问题对应的初始答案片段;
基于所述各对话问题,对各初始答案片段进行信息过滤,得到所述各对话问题对应的答案片段。
根据本发明提供的一种问卷稽核方法,所述调研语音对应的对话文本基于如下步骤确定:
对所述调研语音进行语音转写,得到转写文本,所述转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;
对所述转写文本进行数据预处理,得到对话文本;
所述数据预处理包括数据容错处理、标点去除处理、数据标准化处理中的至少一种。
本发明还提供一种问卷稽核装置,包括:
信息确定单元,用于确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;
问题匹配单元,用于基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
答案确定单元,用于基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案;
问卷稽核单元,用于基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的问卷稽核方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的问卷稽核方法。
本发明提供的问卷稽核方法、装置、电子设备和存储介质,通过调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到匹配关系,并利用各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,根据各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,最终基于各对话问题的标准答案以及匹配关系,进行问卷稽核,克服了传统方案中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,提升了稽核效率,通过问题匹配、答案抽取以及智能化的问卷稽核,不仅保证了稽核准确率和精确度,还节省了人力成本,避免了主观因素的涉入,使得问卷稽核过程更为客观,成效更高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的问卷稽核方法的流程示意图;
图2是本发明提供的标准答案的确定过程的示意图;
图3是本发明提供的问卷稽核方法中步骤220的流程示意图;
图4是本发明提供的问卷稽核方法中步骤120的流程示意图;
图5是本发明提供的skip-gram算法的框架图;
图6是本发明提供的问卷稽核方法中步骤130的流程示意图;
图7是本发明提供的调研问卷的稽核过程的示意图;
图8是本发明提供的答案片段的确定过程的示意图;
图9是本发明提供的对话文本的确定过程的示意图;
图10是本发明提供的问卷稽核方法的业务流程图;
图11是本发明提供的问卷稽核装置的结构示意图;
图12是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,问卷稽核多是人工听取录音,并与相应的调研问卷进行核对,这就导致了核对人员工作量极大,且容易出错。简而言之,目前人工抽检进行问卷稽核时需要进行录音测听,而人工听取时往往掺入了主观意识,这使得稽核过程不够客观;并且,测听后将提取的问卷答案与客服记录的问卷答案进行对比,不仅耗时费力,还成效不高。
对此,本发明提供一种问卷稽核方法,旨在利用调研语音以及调研问卷对应的问题模板,智能化的对调研问卷进行问卷稽核,节省了人力成本,避免了因人工核对疲劳而出现核对错误的情况,保证了稽核效率,提升了稽核准确率。图1是本发明提供的问卷稽核方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待稽核的调研问卷,以及调研问卷对应的调研语音;
具体地,在进行问卷稽核之前,首先需确定稽核对象,即调研问卷,此处的调研问卷可以是营业厅客服对于客户进行满意度调研所得的调研问卷,也可以是其他场景下调研方对于调研对象进行调研的调研问卷,例如,市场需求调研、使用反馈调研等,还可以是众多调研问卷中被投诉的投诉调研问卷,本发明实施例对此不做具体限定。
由于在对调研问卷进行稽核的过程中,需以调研问卷对应的调研录音的录音内容为参考,因而,在确定调研问卷之后,还需确定与之对应的调研语音,该调研语音即为对应调研问卷的调研录音。
此处,调研问卷中包括调研问题,以及调研问题对应的正确答案;调研问题多是固定的,即在进行调研之前已固定了问题,换而言之,调研问卷对应着固定的问题模板,其中的调研问题则对应于该问题模板中的问题,即每一调研问题对应于每一模板问题,两者一一对应。
正确答案则为调研对象对于调研问题的回答,亦可以称之为调研问题对应的标准答案。由于单份调研问卷通常由单个调研对象进行作答,因而,调研过程可以视为调研方和调研对象的对话过程,记录这一对话过程的对话内容的文本则可以称之为对话文本;而在对话过程中提出的调研问题则可以理解为对话文本中包含的对话问题。
需要说明的是,此处的调研问卷可以是一份也可以是多份,在调研问卷为多份的情况下,需确定每一调研问卷对应的调研语音,以利用利用各个调研语音,以及各个调研问卷对应的问题模板,智能化的对各个调研问卷进行稽核,保证了稽核效率和稽核准确率。
步骤120,基于调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
具体地,得到调研问卷及其对应的调研语音后,即可根据调研语音对应的对话文本,以及调研问卷对应的问题模板,进行问题匹配,以确定各对话问题与各模板问题之间的匹配关系,具体过程可以包括:
首先,需确定调研语音对应的对话文本,该对话文本即记录调研过程的文本信息(对话过程的对话内容)的文本,其可以通过对调研语音进行语音识别或语音转写得到,具体可以是,通过语音识别模型、语音转写引擎等,对调研语音进行语音识别或语音转写,从而得到调研语音对应的对话文本;
值得注意的是,为区分参与问卷调研的角色双方(调研方和调研对象)在对话文本中的文本信息,从而更好的进行问卷稽核,此处在进行语音转写时,可以借助相应的声学模型和语言模型,以生成分角色的对话文本;简而言之,得到的对话文本可以包含参与问卷调研的角色双方,以及各自对应的文本信息。
同时,需确定调研问卷对应的问题模板,由于在进行调研之前已固定了调研问题,即预先为调研问卷标注有模板标号(Identity document,ID)标号,而每一模板标号对应于一个问题模板,因而,此处仅需通过调研问卷对应模板标号,确定其对应的问题模板;
随即,可以利用调研语音对应的对话文本,以及调研问卷对应的问题模板,进行问题匹配,以将对话文本中的各对话文本与问题模板中的各模板问题进行对应,以得到各对话问题对应的各模板问题,即通过问题匹配可以确定各对话文本与各模板问题之间的匹配关系。
此处,依据对话文本和问题模板进行问题匹配的过程,可以理解为对话文本中问题语句和问题模板中问题语句的文本匹配。文本匹配是自然语言理解中的核心问题,其是比较两个语句并判断语句之间的关系,其可以应用于大量的自然语言处理任务中,例如,信息检索、问答系统、复述问题、对话系统、机器翻译等,此类自然语言处理任务很大程度上均可以抽象成文本匹配问题,例如,信息检索可以归结为搜索词和文档资源的匹配,问答系统则可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句话和回复的匹配,机器翻译则可以归结两种语言的匹配。
具体而言,本发明实施例中,可以借助两个语句的语义特征之间的相似度,实现文本匹配,即可以分别对对话文本中各对话问题,以及问题模板中各模板问题进行特征提取,以提取两者中有关于各自语句的语义信息的特征,从而可以得到各对话文本的语义特征,以及各模板问题的语义特征;之后,即可借助两者语义特征之间的相似度,进行问题匹配,从而得到各对话文本与各模板问题之间的匹配关系。
需要说明的是,在进行问题匹配的过程中,由于已知调研问卷对应的问题模板,而每一问题模板下的各模板问题对应唯一的问题标号,且每一问题标号映射一种问题类型,因而,可以确定各模板问题对应的问题类型,简而言之,基于对话文本和问题模板的问题匹配过程,不仅可以得到各对话文本与各模板问题之间的匹配关系,还可以确定各模板问题对应的问题类型。
本发明实施例中,将文本匹配运用到问卷稽核中,可以对对话文本中的各对话问题和问题模板中的各模板问题进行很好的识别匹配,避免了因问题匹配错误而导致评判失误的情况,提高了稽核准确率。
步骤130,基于各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案;
具体地,确定对话文本中各对话问题之后,即可执行步骤130,依据各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,具体过程包括如下步骤:
首先,需确定对话文本中各对话问题的问题类型,此处问题类型可以在各模板问题的问题类型的基础上,通过各对话文本与各模板问题之间的匹配关系确定,即可以通过问题匹配输出的各对话文本与各模板问题之间的匹配关系,以及各模板问题对应的问题类型,确定各对话问题对应的问题类型;
同时,需从对话文本中确定各对话文本对应的答案片段,具体可以是,由于问卷调研垂直领域,问题相关话术以及业务流程相对规范,因而,可以确定标准答案多位于当前对话问题和下一对话问题之间;鉴于此,此处可以输入篇章级别的对话文本,通过对话文本中各对话问题之间的位置关系,确定各对话问题对应的答案片段,即通过对话文本中当前对话问题和下一对话问题,筛选出当前对话问题对应的答案片段。而值得注意的是,对于对话文本中最后一个对话问题,可以截取该对话问题至篇章末尾的部分,作为该对话问题对应的答案片段;
随即,可以利用各对话问题对应的问题类型,从各答案片段中确定各对话问题的候选答案,具体可以是,参照各对话问题对应的问题类型,确定各对话问题对应的答案类型,即对话问题的标准答案是具体的分值,还是否或是,或者是具体的实体,然后可以结合答案类型,通过实体识别、实体链接等技术,确定出对应答案片段中可能是对应对话问题的答案,并将该答案作为对应对话问题的候选答案。
进一步地,在确定候选答案时,还可以通过对应对话问题,确定该对话问题的标准答案可能包含的关键词,例如,满意、推荐、运营商名称等,接着可以在关键词的基础上,通过命名实体识别等相关技术,从对应答案片段中确定出对应于答案类型的候选答案。
本发明实施例中,将问题类型融入候选答案的确定过程,可以使得候选答案的筛选范围更小,筛选时间更短,即仅将对应于答案类型的实体作为候选答案,不仅提升了候选答案提取的效率,还未标准答案的提取的精确度和准确率的提升提供了关键性的助力。
步骤140,基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于各对话问题的标准答案,以及匹配关系,对调研问卷进行稽核。
具体地,在得到各对话问题对话的候选答案之后,即可执行步骤140,从各候选答案中确定出对应对话问题的标准答案,并结合对话问题和模板问题之间的匹配关系,进行问卷稽核,具体过程可以包括:
首先,需要从各候选答案中提取出对应对话问题的正确答案,即可以利用答案抽取算法,从各候选答案中筛选出对应对话问题的标准答案,这一过程中答案抽取算法的优劣会直接影响最终的标准答案;
具体而言,此处答案抽取算法依据的是各候选答案与对应对话问题之间的相关性,该相关性可以理解为各候选答案与对应对话问题之间的衔接程度,其可以是语义关联度、逻辑关联性、信息衔接度等;相关性越强,则说明对应候选答案与对应对话问题的越对应,其越有可能属于对应对话问题的正确答案,反之,相关性越弱,则说明对应候选答案与对应对话问题越疏远,其越不可能是正确答案;
鉴于此,此处可以利用各候选答案与对应对话问题之间的相关性,从各候选答案中确定对应对话问题的标准答案(正确答案),简而言之,将相关性最强的候选答案作为对应对话问题的标准答案。
本发明实施例中,答案抽取过程是先对答案片段进行定位,再抽取出候选答案,最终确定标准答案,这一逐步递进的稽核流程,能够对调研语音中的标准答案进行精确的识别和提取,确保了稽核准确性。
随后,即可依据各对话问题的标准答案,以及各对话问题与各模板问题之间的匹配关系,对调研问卷进行稽核,具体可以是,对调研问卷进行结构解析,以将其解析为“问题-答案”的标准结构,从而得到问题模板下的各模板问题,以及各模板问题的问题答案,然后可以以各模板问题的问题答案、各对话问题的标准答案,以及各对话问题与各模板问题之间的匹配关系为基准,对调研问卷进行稽核;
即可以先利用各对话问题与各模板问题之间的匹配关系,对应确定调研问卷对应的问题模板下各模板问题的标准答案,然后根据各模板问题的问题答案,以及各模板问题的标准答案,进行问卷稽核,具体可以是,对各模板问题的问题答案和标准答案进行匹配和校验,以验证两者是否一致,以及问题答案中是否有内容确实,从而得到稽核结果,以协助工作人员进行稽核报告填写,以及进一步的核对校验。
本发明提供的问卷稽核方法,通过调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到匹配关系,并利用各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,根据各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,最终基于各对话问题的标准答案以及匹配关系,进行问卷稽核,克服了传统方案中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,提升了稽核效率,通过问题匹配、答案抽取以及智能化的问卷稽核,不仅保证了稽核准确率和精确度,还节省了人力成本,避免了主观因素的涉入,使得问卷稽核过程更为客观,成效更高。
基于上述实施例,图2是本发明提供的标准答案的确定过程的示意图,如图2所示,基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,包括:
步骤210,基于各候选答案所处的答案片段,确定各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离;
步骤220,基于各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
具体地,步骤140中,依据各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案的过程,具体可以包括如下步骤:
由于通过分析数据得知,问卷调研过程中通常调研方提出调研问题的过程相对规范,而在调研对象知晓情况,且较为配合的情况下,调研问题的作答过程多较为简短,而在调研对象未知情况、未知答案、未听清问题等的情况下,调研方多会进行情况说明、问题澄清、引导、复述等,上述情况下调研问题及其标准答案的特征比较强,简而言之,当前对话问题的标准答案距离多与其接近,甚至包含在同一段落中。
鉴于此,本发明实施例中,在依据各候选答案与对应对话问题之间的相关性,确定标准答案时,可以以各候选答案与对应对话问题之间的距离,以及对应对话问题的描述篇幅长度为参考,以从各候选答案中,确定出对应对话问题的标准答案。
具体而言,首先,可以执行步骤210,通过各候选答案所处的答案片段,确定各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,具体可以是,以对话文本中各候选答案对应的答案片段为基准,分别确定各候选答案与对应对话问题之间的距离,以及对应对话问题与其所处的答案片段的片段尾部之间的距离;
其中,各候选答案与对应对话问题之间的距离,可以反映出各候选答案与对应对话问题之间的关联性的强弱,衔接度的高低等;对应对话问题与其所处的答案片段的片段尾部之间的距离则可以体现出对应对话问题的描述篇幅的长短、难易程度、重要程度等。
随即,可以执行步骤220,参考各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,从各候选答案中确定对应对话问题的标准答案,具体可以是,以各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离为参考,从各候选答案中选取出与对应对话问题的语义关联度、逻辑关联性、信息衔接度等最高的候选答案,作为对应对话问题的标准答案。
基于上述实施例,图3是本发明提供的问卷稽核方法中步骤220的流程示意图,如图3所示,步骤220包括:
步骤221,从各候选答案所处的答案片段中,确定各候选答案所处的答案语句,并确定各答案语句的语句类型;
步骤222,统计各候选答案在所处的答案片段中的出现次数,以及各候选答案对应的答案类型的类型出现次数,类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和;
步骤223,基于各候选答案的出现次数、各答案类型的类型出现次数、各答案语句的语句类型、各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
具体地,步骤220中,依据各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,从各候选答案中确定对应对话问题的标准答案的过程,具体可以包括如下步骤:
由于各候选答案与对应对话问题之间的相关性,除了可以通过问题与候选答案之间的距离,以及问题与片段尾部之间的距离进行度量之外,还可以通过答案的出现次数,答案所处语句的句型等进行衡量。
鉴于此,本发明实施例中,可以在各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离的基础上,结合各候选答案的出现次数、各答案语句的语句类型等,确定标准答案。
具体而言,首先,可以执行步骤221,参照各候选答案在对话文本中对应的答案片段,确定各候选答案所处的答案语句,并确定各答案语句的语句类型,具体可以是,从对话文本中各候选答案对应的答案片段中,确定出各候选答案所处的答案语句,即找到答案片段中包含候选答案的答案语句,从而得到各候选答案对应的答案语句,并确定每一答案语句的语句类型,即各答案语句的句型是否为问句;
同时,可以执行步骤222,依据各候选答案在对话文本中对应的答案片段,确定各候选答案的出现次数,以及各候选对应的答案类型的类型出现次数,具体可以是,以各候选答案所处的答案片段为范围,对各候选答案的出现次数,以及各候选答案对应的答案类型下所有候选答案的出现次数进行统计,从而得到各候选答案的出现次数,以及各答案类型对应的答案类型的类型出现次数;
简而言之,统计各候选答案在所处的答案片段中的出现次数,以及各候选答案对应的答案类型的类型出现次数,此处类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和,即可得到各候选答案的出现次数,以及各候选的类型出现次数。
此后,即可执行步骤223,参照各候选答案的出现次数、各答案类型的类型出现次数、各答案语句的语句类型、各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,从各候选答案中确定对应对话问题的标准答案,即利用上述条件,从各候选答案中选取出与对应对话问题的语义关联度、逻辑关联性、信息衔接度等最高的候选答案,作为对应对话问题的标准答案。
基于上述实施例,候选答案与对应对话问题之间的相关性,可以通过如下公式进行度量:
式中,s表示当前候选答案与当前对话问题之间的相关性;d表示当前候选答案与当前对话问题之间的距离;l表示当前对话问题与片段尾部之间的距离;r为角色信息度量值;c为纠错实体度量值;n表示当前候选答案的出现次数;N表示当前候选答案对应的答案类型的类型出现次数;σ表示当前候选答案所处的答案语句的语句类型,即当答案语句的语句类型为问句时,其值为0.1,为非问句时其值为1。
而在得到各候选答案与对应对话问题之间的相关性后,即可选取最大度量值s对应的候选答案,作为对应对话问题的标准答案。
基于上述实施例,图4是本发明提供的问卷稽核方法中步骤120的流程示意图,如图4所示,步骤120包括:
步骤121,基于调研语音对应的对话文本,进行问题定位,得到对话文本中的各对话问题;
步骤122,分别提取对话文本中各对话问题的语义特征,以及问题模板中各模板问题的语义特征;
步骤123,基于各对话问题的语义特征,与各模板问题的语义特征之间的相似度,进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,以及各模板问题的问题类型。
具体地,步骤120中,利用调研语音对应的对话文本,以及调研问卷对应的问题模板,进行问题匹配,以得到各对话问题与各模板问题之间的匹配关系的过程,具体可以包括如下步骤:
步骤210,首先可以依据调研语音对应的对话文本,进行问题定位,以确定对话文本中问题的大概位置,从而得到对话文本中的各对话问题,具体可以是,在相关预测算法的基础上,通过调研语音经语音转写后的对话文本来预测上下文,从而实现问题定位,以明确对话文本中问题的大概位置,进而可以得到对话文本中的各对话问题;
具体而言,此处可以使用Skip-Gram算法,通过对话文本进行上下文预测,图5是本发明提供的skip-gram算法的框架图,如图5所示,对于训练语言模型的神经网络只能接收数值输入,而无法将一个单词字符串作为输入,因此,首先需要使用训练文档以构建词汇表(vocabulary),然后再对单词进行编码,以满足神经网络的输入要求,此处可以将一个输入单词表示成一个one-hot的向量;
若构建的词汇表的大小是N,则每一单词对应的向量包含有N个元素,将单词出现的位置设置为1,其他位置设置为0。神经网络的输出是一个单独的向量,其依然包含有N个元素,每一元素的值对应于词典中的每一单词,随机选中的单词是词典中哪一单词的概率,以此来定位问题的大概位置。
步骤122,随即,可以分别提取对话文本中各对话问题的语义特征,以及问题模板中各模板问题的语义特征,具体可以是,分别对对话文本中的各对话问题,以及问题模板中的各模板问题进行特征提取,以提取两者中有关于各自问题语句的语义信息的特征,从而可以得到各对话文本的语义特征,以及各模板问题的语义特征;
具体而言,语义特征的提取可以通过深度语言模型来完成,即可以将对话文本中的各对话问题,以及问题模板中的各模板问题分别传入到训练好的深度语言模型中,以通过深度语言模型进行语义特征提取,即深度语言模型可以分别对对话问题和模板问题进行语义学习,以提取出两者中各自蕴含的语义信息,从而输出各自对应的语义特征。
步骤123,此后即可计算各对话问题的语义特征,与各模板问题的语义特征之间的相似度,并据此相似度进行问题定位,从而得到各对话问题与各模板问题之间的匹配关系,以及各模板问题的问题类型,具体可以是,依据各对话问题的语义特征,以及各模板问题的语义特征之间的相似度,进行语义相似度的度量,然后在此基础上,结合相似度阈值进行问题匹配,以得到各对话问题与各候选问题的对应关系,即将大于相似度阈值的相似度对应的对话问题和模板问题进行匹配,即可得到各对话问题与各模板问题之间的匹配关系。
此处,相似度阈值为预先设定的,用于判定的两个问题语句是否对应于同一内容的值,其具体数值可以根据实际情况相应设定,例如,可以是90%、93%、96%等。
本发明实施例中,通过语义特征之间的相似度,可以对对话文本中的各对话问题和问题模板中的各模板问题进行很好的识别匹配,避免了因问题匹配错误而导致评判失误的情况,提高了稽核准确率。
而值得注意的是,上述问题匹配过程,除得到各对话问题与各模板问题之间的匹配关系之外,还输出有匹配度(对应问题的语义特征之间的相似度),以及各模板问题的问题类型;其中模板问题的问题类型可以通过模板问题的问题标号进行映射得到。
具体而言,对于问题类型,可以从下表所示的两个维度进行分析:
问题类型 | 事实型Fact | 观点型Opinion |
实体型Entity | 您对营业厅服务是否满意 | 您给营业厅服务打几分 |
描述型Description | 您在我们营业厅办理业务体验如何 | 您对我们的服务有什么建议 |
是非型Yes No | 近半年内是否在营业厅办理过业务 | 是否愿意体验新套餐 |
如上表所示,从事实和观点两个维度出发,问题类型可以分为:实体型(Entity)、描述型(Description),以及是非型(Yes No)。
对于实体类(Entity)问题,其答案多为单一确定的回答,例如,“你给中国电信营业厅服务打几分?”,答案为具体分值。
对于是非类(Yes No)问题,其答案多为精简单一的回答,例如,“近半年内是否在中国电信营业厅办理过业务?”,答案为是或否。
对于描述类(Description)问题,其答案大多较长,可能是多个语句的总结或摘要,如典型的How/why类型的问题。例如,“您在我们营业厅办理业务体验如何?”,答案为段落式的描述。
考虑到问卷调研垂直领域,问题相关话术比较固定且相对规范,因而,对于固定的问题模板,可以对该问题模板下各模板问题的问题类型进行ID映射,即先确定问题模板下的每一模板问题的问题标号(问题ID),每一模板问题对应唯一的问题ID,再通过问题ID确定对应的问题类型,即可以通过问题ID获取对应模板问题的问题类型。
基于上述实施例,图6是本发明提供的问卷稽核方法中步骤130的流程示意图,如图6所示,步骤130包括:
步骤131,基于匹配关系,以及各模板问题的问题类型,确定各对话问题的问题类型,并基于各对话问题的问题类型,确定各对话问题的答案类型;
步骤132,基于各对话问题的答案类型,以及对话问题,对各对话问题在对话文本中对应的答案片段进行实体识别,得到各对话问题对应的候选答案。
具体地,步骤130中,依据各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案的过程,具体可以包括以下步骤:
步骤131,首先可以利用问题匹配输出的各模板问题的问题类型,以及各对话问题与各模板问题之间的匹配关系,确定各对话问题的问题类型,即可以通过匹配关系,确定各对话问题对应的各模板问题,并将各模板问题的问题类型,作为与之对应的对话问题的问题类型;
接着,需根据各对话问题的问题类型,确定各对话问题的答案类型,即可以以各对话问题的问题类型为基准,确定各对话问题的标准答案的答案类型,具体可以是,对于问题类型为实体型的对话问题,其答案类型为分值型或是非型,对于问题类型为是非型的对话问题,其答案类型为是非型或实体型,对于问题类型为描述型的对话问题,其答案类型为实体型或描述型;
步骤132,随即,可以利用各对话问题的答案类型,以及对话问题,通过实体识别等方式从各对话问题对应的答案片段中,确定各对话问题对应的候选答案,具体可以是,以各对话问题及其答案类型为基准,对各对话问题在对话文本中对应的答案片段进行实体识别,以得到各对话问题的候选答案,简而言之,是在各对话问题及其答案类型的基础上,通过命名实体识别等方式从各对话问题对应的答案片段中,识别出标准答案可能包含的关键词,例如,满意、推荐、运营商名称等,且与答案类型对应的实体,作为对应对话问题的候选答案。
本发明实施例中,将答案类型融入候选答案的确定过程,可以使得候选答案的筛选范围更小,筛选时间更短,即仅将对应于答案类型的实体作为候选答案,不仅提升了候选答案提取的效率,还未标准答案的提取的精确度和准确率的提升提供了关键性的助力。
基于上述实施例,图7是本发明提供的调研问卷的稽核过程的示意图,如图7所示,基于各对话问题的标准答案,以及匹配关系,对调研问卷进行稽核,包括:
步骤710,对调研问卷进行结构解析,得到调研问卷中的各模板问题,以及各模板问题的问题答案;
步骤720,基于匹配关系,对各对话问题的标准答案和各模板问题的问题答案进行一致性校验。
具体地,步骤140中,利用各对话问题的标准答案,以及匹配关系,对调研问卷进行稽核的过程,具体包括如下步骤:
步骤710,首先可以对调研问卷进行结构解析,以得到问题模板下的各模板问题,以及各模板问题的问题答案,即将预先手动填写好的“.dat”格式的调研问卷在结构层面进行解析,即对其进行结构化解析,以将其解析为“问题-答案”的标准结构,从而得到问题模板下的各模板问题,以及各模板问题的问题答案;
步骤720,随即可以利用各对话问题与各模板问题之间的匹配关系,对各对话问题的标准答案和各模板问题的问题答案进行一致性校验,具体可以是,在进行一致性校验之前,需先对答案抽取得到的各对话问题的标准答案进行标准化,即提取得到的标准问题变为标准形式,例如,实体型下评分类对话问题的标准答案变为标准的数字分值,尤其是满意度评分中投诉类分值(如两分、三分等),通过简单推理转换为“5分以下”,是非型对话问题的标准答案统一转换为是或否,而对于未提取出标准答案的对话问题,使用特定含义的字符进行标识;
再在标准化后的各对话问题的标准答案的基础上,利用各对话问题与各模板问题之间的匹配关系,确定各模板问题对应的标准化后的标准答案,然后即可依据标准化后的各模板问题的标准答案,以及各模板问题的问题答案,进行一致性校验,具体可以是,对各模板问题的问题答案和标准化后的标准答案进行匹配和校验,以验证两者是否一致,以及问题答案中是否有内容确实,从而得到稽核结果,以协助工作人员进行稽核报告填写,以及进一步的核对校验。
本发明实施例中,通过对调研问卷进行结构解析,并利用在调研语音对应的对话文本和调研问卷对应的问题模板的基础上进行问题匹配得到的匹配关系,对解析所得的模板问题的问题答案和答案抽取所得的标准答案进行匹配和校验,实现了调研问卷的智能稽核,规避了人工核对疲劳而出现核对错误,以及核对耗时费力的问题,节省了人力成本,避免了主观因素的掺入,有效的提升了问卷稽核的准确率。
基于上述实施例,图8是本发明提供的答案片段的确定过程的示意图,如图8所示,各对话问题对应的答案片段基于如下步骤确定:
步骤810,基于对话文本中两两相邻的对话问题,确定各对话问题对应的初始答案片段;
步骤820,基于各对话问题,对各初始答案片段进行信息过滤,得到各对话问题对应的答案片段。
具体地,各对话问题对应的答案片段的确定过程,具体可以包括:
由于问卷调研垂直领域,问题相关话术以及业务流程相对规范,因而,可以确定标准答案多位于当前对话问题和下一对话问题之间。
鉴于此,步骤810,可以先输入篇章级别的对话文本,通过对话文本中各对话问题之间的位置关系,确定各对话问题对应的初始答案片段,具体可以是,通过对话文本中当前对话问题和下一对话问题,即两两相邻的对话问题,筛选出当前对话问题对应的答案片段,而考虑到该答案片段较为粗糙,即其中包含较多的无关信息,还需对其进行过滤筛选,因而,可以将此时得到的答案片段成为初始答案片段;
需要说明的是,对于对话文本中最后一个对话问题,可以截取该对话问题至篇章末尾的部分,作为该对话问题对应的初始答案片段。
步骤820,接着可以对各对话问题对应的初始答案片段进行信息过滤,以得到各对话问题对应的答案片段,具体可以是,利用各对话问题,对各初始答案片段进行信息过滤,以滤除其中与问题无关的话术或噪声,从而得到各对话问题对应的答案片段。
具体而言,此处的信息过滤可以通过分类器实现,即可以通过分类器对各对话问题对应的初始答案片段进行过滤,滤掉其中与问题无关的信息,保留相关的信息,从而得到各对话问题对应的答案片段。
本发明实施例中,通过对话文本中初始答案片段的定位,以及对各初始答案片段进行信息过滤,可以把大量的文本信息逐步转化为与问题相关的精确信息,从而减少了答案抽取过程的工作量,缩短了答案抽取时间,精进了答案抽取过程,有益于提取更加精确的标准答案。
基于上述实施例,图9是本发明提供的对话文本的确定过程的示意图,如图9所示,调研语音对应的对话文本基于如下步骤确定:
步骤910,对调研语音进行语音转写,得到转写文本,转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;
步骤920,对转写文本进行数据预处理,得到对话文本;
数据预处理包括数据容错处理、标点去除处理、数据标准化处理中的至少一种。
具体地,调研语音对应的对话文本的确定过程可以包括如下步骤:
步骤910,首先可以对调研语音进行语音转写,得到转写文本,具体可以是,通过语音转写引擎,对调研语音进行语音转写,以将其转写为文本,从而得到调研语音对应的转写文本;
而为区分参与问卷调研的角色双方(调研方和调研对象)在对话文本中的文本信息,从而更好的进行问卷稽核,此处在进行语音转写时,可以在语音转写引擎的基础上,结合相应的声学模型和语言模型,以生成分角色的转写文本;简而言之,经语音转写得到的转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;
此处,语音转写过程中的语音转写引擎可以是由语音转写服务提供的,而语音转写服务又是在深度全序列卷积神经网络语音识别框架(Deep Fully ConvolutionalNeural Network,DFCNN)的基础上形成的,该框架可以使用大量的卷积层直接对整句语音信号进行建模。语音转写服务由语音转写引擎和相应的声学模型与语言模型组成。
步骤920,随即可以对转写文本进行数据预处理,以得到调研语音对应的对话文本,此处针对于转写文本的数据预处理可以是数据容错处理、标点去除处理、数据标准化处理中的一种或多种,即需对转写文本进行容错处理、标点符号去除处理、数据标准化处理中的一种或多种,从而得到调研语音对应的对话文本。
本发明实施例中,针对于转写文本进行数据预处理,可以清除对话文本中的错误、冗余等问题,保证了文本信息的准确率,为后续问题匹配和答案提取提供了助力。
图10是本发明提供的问卷稽核方法的业务流程图,如图10所示,问卷稽核方法的业务流程具体包括:首先分析结构化问卷信息,训练语音转写服务和问卷稽核服务中语义提取的模型框架,生成分角色的对话文本,通过文本匹配算法定位问卷问题,然后对问题采用NLP(Natural Language Processing,自然语言处理)技术进行理解,再通过信息检索技术进行答案抽取,最后对调研问卷进行结构解析,对比解析结果和答案抽取结果,实现了全量投诉问卷稽核,降低了人力成本,避免了主观因素的涉入,更为客观,成效更高。具体而言:
首先,确定待稽核的调研问卷,以及调研问卷对应的调研语音;
随即,基于调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,具体可以是,基于调研语音对应的对话文本,进行问题定位,得到对话文本中的各对话问题;分别提取对话文本中各对话问题的语义特征,以及问题模板中各模板问题的语义特征;基于各对话问题的语义特征,与各模板问题的语义特征之间的相似度,进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,以及各模板问题的问题类型;
其中,调研语音对应的对话文本基于如下步骤确定:对调研语音进行语音转写,得到转写文本,转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;对转写文本进行数据预处理,得到对话文本;此处的数据预处理包括数据容错处理、标点去除处理、数据标准化处理中的至少一种。
随后,基于各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,具体可以是,基于匹配关系,以及各模板问题的问题类型,确定各对话问题的问题类型,并基于各对话问题的问题类型,确定各对话问题的答案类型;基于各对话问题的答案类型,以及对话问题,对各对话问题在对话文本中对应的答案片段进行实体识别,得到各对话问题对应的候选答案;
其中,各对话问题对应的答案片段基于如下步骤确定:基于对话文本中两两相邻的对话问题,确定各对话问题对应的初始答案片段;基于各对话问题,对各初始答案片段进行信息过滤,得到各对话问题对应的答案片段。
此后,基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,具体可以是,基于各候选答案所处的答案片段,确定各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离;基于各候选答案与对应对话问题之间的距离以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
其中,基于各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案,具体可以是,从各候选答案所处的答案片段中,确定各候选答案所处的答案语句,并确定各答案语句的语句类型;统计各候选答案在所处的答案片段中的出现次数,以及各候选答案对应的答案类型的类型出现次数,类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和;基于各候选答案的出现次数、各答案类型的类型出现次数、各答案语句的语句类型、各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
最后,基于各对话问题的标准答案,以及匹配关系,对调研问卷进行稽核,具体可以是,对调研问卷进行结构解析,得到调研问卷中的各模板问题,以及各模板问题的问题答案;基于匹配关系,对各对话问题的标准答案和各模板问题的问题答案进行一致性校验。
本发明实施例提供的方法,通过调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到匹配关系,并利用各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,根据各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,最终基于各对话问题的标准答案以及匹配关系,进行问卷稽核,克服了传统方案中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,提升了稽核效率,通过问题匹配、答案抽取以及智能化的问卷稽核,不仅保证了稽核准确率和精确度,还节省了人力成本,避免了主观因素的涉入,使得问卷稽核过程更为客观,成效更高。
下面对本发明提供的问卷稽核装置进行描述,下文描述的问卷稽核装置与上文描述的问卷稽核方法可相互对应参照。
图11是本发明提供的问卷稽核装置的结构示意图,如图11所示,该装置包括:
信息确定单元1110,用于确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;
问题匹配单元1120,用于基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
答案确定单元1130,用于基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案;
问卷稽核单元1140,用于基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
本发明提供的问卷稽核装置,通过调研语音对应的对话文本,以及调研问卷对应的问题模板进行问题匹配,得到匹配关系,并利用各对话问题的问题类型,从各对话问题在对话文本中对应的答案片段中,确定各对话问题对应的候选答案,根据各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,最终基于各对话问题的标准答案以及匹配关系,进行问卷稽核,克服了传统方案中问卷稽核不仅耗时费力且容易出错,主观性还极强的缺陷,提升了稽核效率,通过问题匹配、答案抽取以及智能化的问卷稽核,不仅保证了稽核准确率和精确度,还节省了人力成本,避免了主观因素的涉入,使得问卷稽核过程更为客观,成效更高。
基于上述实施例,答案确定单元1130用于:
基于各候选答案所处的答案片段,确定所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离;
基于所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
基于上述实施例,答案确定单元1130用于:
从所述各候选答案所处的答案片段中,确定所述各候选答案所处的答案语句,并确定各答案语句的语句类型;
统计所述各候选答案在所处的答案片段中的出现次数,以及所述各候选答案对应的答案类型的类型出现次数,所述类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和;
基于所述各候选答案的出现次数、各答案类型的类型出现次数、所述各答案语句的语句类型、所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
基于上述实施例,问题匹配单元1120用于:
基于所述调研语音对应的对话文本,进行问题定位,得到所述对话文本中的各对话问题;
分别提取所述对话文本中各对话问题的语义特征,以及所述问题模板中各模板问题的语义特征;
基于所述各对话问题的语义特征,与所述各模板问题的语义特征之间的相似度,进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,以及所述各模板问题的问题类型。
基于上述实施例,答案确定单元1130用于:
基于所述匹配关系,以及所述各模板问题的问题类型,确定所述各对话问题的问题类型,并基于所述各对话问题的问题类型,确定所述各对话问题的答案类型;
基于所述各对话问题的答案类型,以及所述各对话问题,对所述各对话问题在所述对话文本中对应的答案片段进行实体识别,得到所述各对话问题对应的候选答案。
基于上述实施例,问卷稽核单元1140用于:
对所述调研问卷进行结构解析,得到所述调研问卷中的各模板问题,以及所述各模板问题的问题答案;
基于所述匹配关系,对所述各对话问题的标准答案和所述各模板问题的问题答案进行一致性校验。
基于上述实施例,所述装置还包括答案片段确定单元,用于:
基于所述对话文本中两两相邻的对话问题,确定所述各对话问题对应的初始答案片段;
基于所述各对话问题,对各初始答案片段进行信息过滤,得到所述各对话问题对应的答案片段。
基于上述实施例,所述装置还包括对话文本确定单元,用于:
对所述调研语音进行语音转写,得到转写文本,所述转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;
对所述转写文本进行数据预处理,得到对话文本;
所述数据预处理包括数据容错处理、标点去除处理、数据标准化处理中的至少一种。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行问卷稽核方法,该方法包括:确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的问卷稽核方法,该方法包括:确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的问卷稽核方法,该方法包括:确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种问卷稽核方法,其特征在于,包括:
确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;
基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;
基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
2.根据权利要求1所述的问卷稽核方法,其特征在于,所述基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案,包括:
基于各候选答案所处的答案片段,确定所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离;
基于所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
3.根据权利要求2所述的问卷稽核方法,其特征在于,所述基于所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案,包括:
从所述各候选答案所处的答案片段中,确定所述各候选答案所处的答案语句,并确定各答案语句的语句类型;
统计所述各候选答案在所处的答案片段中的出现次数,以及所述各候选答案对应的答案类型的类型出现次数,所述类型出现次数为对应答案类型下所有候选答案在所处的答案片段中的出现次数之和;
基于所述各候选答案的出现次数、各答案类型的类型出现次数、所述各答案语句的语句类型、所述各候选答案与对应对话问题之间的距离,以及对应对话问题与片段尾部之间的距离,确定对应对话问题的标准答案。
4.根据权利要求1至3中任一项所述的问卷稽核方法,其特征在于,所述基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,包括:
基于所述调研语音对应的对话文本,进行问题定位,得到所述对话文本中的各对话问题;
分别提取所述对话文本中各对话问题的语义特征,以及所述问题模板中各模板问题的语义特征;
基于所述各对话问题的语义特征,与所述各模板问题的语义特征之间的相似度,进行问题匹配,得到各对话问题与各模板问题之间的匹配关系,以及所述各模板问题的问题类型。
5.根据权利要求4所述的问卷稽核方法,其特征在于,所述基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案,包括:
基于所述匹配关系,以及所述各模板问题的问题类型,确定所述各对话问题的问题类型,并基于所述各对话问题的问题类型,确定所述各对话问题的答案类型;
基于所述各对话问题的答案类型,以及所述各对话问题,对所述各对话问题在所述对话文本中对应的答案片段进行实体识别,得到所述各对话问题对应的候选答案。
6.根据权利要求1至3任一项所述的问卷稽核方法,其特征在于,所述基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核,包括:
对所述调研问卷进行结构解析,得到所述调研问卷中的各模板问题,以及所述各模板问题的问题答案;
基于所述匹配关系,对所述各对话问题的标准答案和所述各模板问题的问题答案进行一致性校验。
7.根据权利要求1至3任一项所述的问卷稽核方法,其特征在于,所述各对话问题对应的答案片段基于如下步骤确定:
基于所述对话文本中两两相邻的对话问题,确定所述各对话问题对应的初始答案片段;
基于所述各对话问题,对各初始答案片段进行信息过滤,得到所述各对话问题对应的答案片段。
8.根据权利要求1至3任一项所述的问卷稽核方法,其特征在于,所述调研语音对应的对话文本基于如下步骤确定:
对所述调研语音进行语音转写,得到转写文本,所述转写文本中包含参与问卷调研的角色双方,以及角色双方各自对应的文本信息;
对所述转写文本进行数据预处理,得到对话文本;
所述数据预处理包括数据容错处理、标点去除处理、数据标准化处理中的至少一种。
9.一种问卷稽核装置,其特征在于,包括:
信息确定单元,用于确定待稽核的调研问卷,以及所述调研问卷对应的调研语音;
问题匹配单元,用于基于所述调研语音对应的对话文本,以及所述调研问卷对应的问题模板进行问题匹配,得到各对话问题与各模板问题之间的匹配关系;
答案确定单元,用于基于所述各对话问题的问题类型,从所述各对话问题在所述对话文本中对应的答案片段中,确定所述各对话问题对应的候选答案;基于各候选答案与对应对话问题之间的相关性,确定对应对话问题的标准答案;
问卷稽核单元,用于基于所述各对话问题的标准答案,以及所述匹配关系,对所述调研问卷进行稽核。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述的问卷稽核方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的问卷稽核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678312.9A CN115983285A (zh) | 2022-12-26 | 2022-12-26 | 问卷稽核方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678312.9A CN115983285A (zh) | 2022-12-26 | 2022-12-26 | 问卷稽核方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115983285A true CN115983285A (zh) | 2023-04-18 |
Family
ID=85971835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211678312.9A Pending CN115983285A (zh) | 2022-12-26 | 2022-12-26 | 问卷稽核方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983285A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
-
2022
- 2022-12-26 CN CN202211678312.9A patent/CN115983285A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
CN116975206B (zh) * | 2023-09-25 | 2023-12-08 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN110597964B (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN113626573B (zh) | 一种销售会话异议及应对提取方法及系统 | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN111639529A (zh) | 基于多层次逻辑的语音话术检测方法、装置及计算机设备 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN112562736A (zh) | 一种语音数据集质量评估方法和装置 | |
CN114997169A (zh) | 一种实体词识别方法、装置、电子设备及可读存储介质 | |
CN116028608A (zh) | 问答交互方法、装置、计算机设备及可读存储介质 | |
CN115983285A (zh) | 问卷稽核方法、装置、电子设备和存储介质 | |
CN114118080B (zh) | 一种从销售会话中自动识别客户意向的方法及系统 | |
CN112580350A (zh) | 一种诉求分析方法、装置、电子设备和存储介质 | |
CN115527551A (zh) | 语音标注质量评价方法、装置、电子设备和存储介质 | |
CN114356982A (zh) | 营销合规性检查方法、装置、计算机设备及存储介质 | |
CN113642321B (zh) | 面向金融领域的因果关系提取方法和系统 | |
CN116127011A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN115391506A (zh) | 针对多段式回复的问答内容标准性检测方法及装置 | |
CN115081441A (zh) | 运维指令意图识别方法、装置、电子设备和存储介质 | |
CN113641778A (zh) | 一种对话文本的主题识别方法 | |
CN117056453A (zh) | 数据稽核方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |