CN117540714A - 一种表单质量检测方法、装置、电子设备及存储介质 - Google Patents
一种表单质量检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117540714A CN117540714A CN202311695173.5A CN202311695173A CN117540714A CN 117540714 A CN117540714 A CN 117540714A CN 202311695173 A CN202311695173 A CN 202311695173A CN 117540714 A CN117540714 A CN 117540714A
- Authority
- CN
- China
- Prior art keywords
- field
- detected
- training
- quality
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 134
- 238000001514 detection method Methods 0.000 claims abstract description 129
- 238000000105 evaporative light scattering detection Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013441 quality evaluation Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种表单质量检测方法、装置、电子设备及存储介质,该方法包括:获取待检测表单中的待检测字段、待检测字段的字段类型、以及字段类型对应的提示参数;提示参数是预先编写的用于反映字段类型的内容;根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得。利用表单质量检测模型对表单中待检测字段进行质量评估,表单质量检测模型是对不同类型的训练实例进行训练获得的,训练好的表单质量检测模型可以对不同类型的待检测字段进行质量检测,提高质量检测的效率和准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种表单质量检测方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,各行各业包含了各种业务,导致各种业务信息越来越复杂,通常会根据各种业务生成对应的表单。大量的表单数据中,可能存在内容质量较低的内容。现有的表单服务通常是人工对表单内容进行检查或校验,这种检测方式效率较低。
发明内容
本申请实施例的目的在于一种表单质量检测方法、装置、电子设备及存储介质,使用表单质量检测模型对表单中待检测字段进行质量评估,表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得,以使训练好的表单质量检测模型可以对不同类型的待检测字段进行质量检测,提高质量检测的效率和准确性。
第一方面,本申请实施例提供了一种表单质量检测方法,包括:获取待检测表单中的待检测字段、待检测字段的字段类型、以及字段类型对应的提示参数;提示参数是预先编写的用于反映字段类型的内容;根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得。
在上述的实现过程中,利用表单质量检测模型对表单中待检测字段进行质量评估,表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得,以使训练好的表单质量检测模型可以对不同类型的待检测字段进行质量检测,提高质量检测的效率和准确性。
可选的,在本申请实施例中,在根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之前,方法还包括:获得训练数据;训练数据包括质量标签和字段类型;按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例;将训练实例输入待训练模型,将质量标签作为监督信号,对待训练模型进行训练,获得表单质量检测模型。
在上述的实现过程中,将每个字段类型的字段类型和该字段类型对应的提示参数组合为一个训练实例,利用训练实例对待训练模型进行训练,训练实例覆盖多种字段类型,因此表单质量检测模型能够学习到各种字段类型的内容质量的预测标准,实现对多种字段类型的待检测字段进行质量检测。
可选的,在本申请实施例中,在按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例之前,方法还包括:根据字段类型的内容,编写每一字段类型对应的提示参数,提示参数包括问题文本、描述文本或任务指令。
在上述的实现过程中,采集训练数据的时候注意数据的平衡和多样性,并预先编写每一字段类型的提示参数,表单质量检测模型能够在多个字段类型的内容质量上有良好的表现,提高内容质量检测的准确性。
可选的,在本申请实施例中,根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果,包括:对待检测字段进行数据预处理,获得处理后字段;根据字段类型,将处理后字段和提示参数进行组合,获得组合数据;对组合数据进行格式转换,获得模型输入数据;将模型输入数据输入表单质量检测模型,获得质量检测结果;质量检测结果用于表征待检测字段的文本质量是否符合要求。
在上述的实现过程中,利用表单质量检测模型对表单中不同类型的待检测字段进行质量检测,改善人工对表单内容质量进行检查,工作效率较低的问题,提高质量检测的效率和准确性。
可选的,在本申请实施例中,在根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之后,方法还包括:若质量检测结果表征文本质量不符合要求,则获取预设的待检测字段对应的参考文本;将待检测字段和参考文本进行关键词分析和/或词频差异分析,生成分析结果;根据分析结果,获得质量反馈内容。
在上述的实现过程中,在质量检测结果表征文本质量不符合要求的情况下,获取预设的待检测字段对应的参考文本,并利用关键词分析和/或词频差异分析,生成质量反馈内容,给用户反馈准确的质量反馈内容,用户可以根据量反馈内容有效地提高内容质量。
可选的,在本申请实施例中,在获取待检测表单中的待检测字段以及待检测字段的字段类型之后,方法还包括:获得待检测字段对应的格式检查规则;格式检查规则是预先根据待检测字段的格式要求编写的;对待检测字段进行数据格式处理,获得待匹配字段;利用格式检查规则,对待匹配字段进行格式检查,生成格式检查结果;根据分析结果,获得质量反馈内容,包括:根据分析结果和格式检查结果,获得质量反馈内容。
在上述的实现过程中,获得待检测字段对应的格式检查规则,利用格式检查规则,对待检测字段对应的待匹配字段进行格式检查,生成格式检查结果,通过格式检查规则检查字段的格式,进一步提高文本质量检测的准确性和效果。
可选的,在本申请实施例中,在获取待检测表单中的待检测字段之前,方法还包括:获取音频信息;对音频信息进行语音识别,获得音频信息对应的文本信息;解析文本信息,通过字段标识符将文本信息中的字段进行分隔,获得待填写字段;将待填写字段分别映射至预设的表单模板中,生成待检测表单。
在上述的实现过程中,通过对音频信息进行语音识别,获得音频信息对应的文本信息,并解析文本信息获得待填写字段;将待填写字段分别映射至预设的表单模板中,生成待检测表单。简化用户输入过程,减少用户复杂和繁琐的手动输入,实现快速实现表单。
第二方面,本申请实施例还提供了一种表单质量检测装置,包括:获取模块,用于获取待检测表单中的待检测字段、待检测字段的字段类型、以及字段类型对应的提示参数;提示参数是预先编写的用于反映字段类型的内容;质量检测模块,用于根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
采用本申请提供表单质量检测方法、装置、电子设备及存储介质,利用表单质量检测模型对表单中待检测字段进行质量评估,表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得,以使训练好的表单质量检测模型可以对不同类型的待检测字段进行质量检测,提高质量检测的效率和准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种表单质量检测方法的流程示意图;
图2为本申请实施例提供的表单质量检测装置的结构示意图;
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
在本申请实施例的描述中,技术术语“第一”、“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个及以上,除非另有明确具体的限定。
请参见图1示出的本申请实施例提供的一种表单质量检测方法的流程示意图。本申请实施例提供的表单质量检测方法可以应用于电子设备,该电子设备可以包括终端以及服务器;其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理(PersonalDigital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。该表单质量检测方法可以包括:
步骤S110:获取待检测表单中的待检测字段、待检测字段的字段类型、以及字段类型对应的提示参数;提示参数是预先编写的用于反映字段类型的内容。
步骤S120:根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得。
在步骤S110中,待检测表单可以是根据业务信息生成或根据用户回答内容生成的表单,具体例如,电器售后表单、用户求职申请和用户信息表等。待检测字段是待检测表单中预设的需要进行质量检测的字段,例如可以是文本输入框中的文本内容。待检测字段的字段类型是预先根据待检测字段的内容主题定义的。提示参数是预先编写的用以反应待检测字段的字段类型的内容,例如可以是以待检测字段的字段类型为中心的问题或描述。
以用户求职申请表来说,待检测字段可以是用户提交的求职申请内容;该字段的字段类型可以是求职内容;字段类型对应的提示参数可以是“关于求职申请的内容”。待检测字段还可以是申请日期;该字段的字段类型可以是日期;字段类型对应的提示参数可以是“关于日期或时间”。
在步骤S120中,根据待检测字段的字段类型,将待检测字段和字段类型对应的提示参数进行组合,获得模型的输入数据。组合的方式可以例如在提示参数的后面添加“文本起始标记”,在文本起始标记之后拼接待检测字段,生成模型的输入数据。可以理解的是,组合的方式还可以是其他方式,例如直接拼接等,具体可以参照表单质量检测模型训练时候,提示参数和训练数据的组合方式。
将获得的模型的输入数据输入预先训练好的表单质量检测模型,由表单质量检测模型输出质量检测结果。其中,表单质量检测模型的训练方式包括:获得训练数据,训练数据中标注了字段的质量标签,质量标签用于标记该字段的内容质量,质量标签具体例如“高质量”和“低质量”。训练数据还包括字段类型,训练数据的字段类型用于表征训练数据的内容主题。
将经过标注的训练数据和训练数据对应的提示参数进行组合,获得训练实例,利用训练实例对待训练的初始模型进行训练,在训练的过程中调整模型参数,优化模型性能,直至模型的输出符合预期的准确率,获得训练好的表单质量检测模型。
在训练的过程中,可以将每个字段类型的字段类型和该字段类型对应的提示参数组合为一个训练实例,重复这个过程,直到训练实例覆盖了所有需要进行质量检测的字段类型,那么通过这些训练实例训练表单质量检测模型,表单质量检测模型能够学习到各种字段类型的内容质量的预测标准。
在上述的实现过程中,利用表单质量检测模型对表单中待检测字段进行质量评估,表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得,以使训练好的表单质量检测模型可以对不同类型的待检测字段进行质量检测,提高质量检测的效率和准确性。
可选的,在本申请实施例中,在根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之前,方法还包括:获得训练数据;训练数据包括质量标签和字段类型;按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例;将训练实例输入待训练模型,将质量标签作为监督信号,对待训练模型进行训练,获得表单质量检测模型。
在具体的实现过程中:预先对采集到的数据集进行质量标记,获得训练数据,并确定训练数据的字段类型。质量标记的方式可以为对数据集添加质量标签。例如,获取数据集,数据集是预先采集的多个求职者所填写的求职内容,根据求职内容的完整性以及是否涵盖所有问题的回答等方面,对求职内容添加质量标签,获得训练数据。这些训练数据的字段类型可以确定为求职内容。求职内容对应的提示参数可以是“关于求职申请的内容”。
其中,质量标签具体例如“高质量”和“低质量”;或为内容符合标准的概率值,概率值越低则表示字段的内容质量越低,概率值越高则表示字段的内容质量越高。
按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例,具体例如,字段类型对应的提示参数为“关于求职申请的内容”,在提示参数后添加文本的起始标记“[GEN]”,在文本的起始标记之后拼接训练数据“求职内容”以及对应的质量标签,生成训练实例。
将训练实例输入待训练模型,待训练模型是初始化的深度学习模型,具体可以为BERT模型或大语言模型等。并使用标注的质量标签作为监督信号进行模型的训练。根据需求选择合适的优化器、损失函数和训练策略。
在一个可选的实施例中,可以使用验证集对训练模型进行评估,计算模型在准确度、精确度、召回率等指标上的性能。根据评估结果,根据需要调整模型的超参数和体系结构,并进行模型调优。
在上述的实现过程中,将每个字段类型的字段类型和该字段类型对应的提示参数组合为一个训练实例,利用训练实例对待训练模型进行训练,训练实例覆盖多种字段类型,因此表单质量检测模型能够学习到各种字段类型的内容质量的预测标准,实现对多种字段类型的待检测字段进行质量检测。
可选的,在本申请实施例中,在按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例之前,方法还包括:根据字段类型的内容,编写每一字段类型对应的提示参数,提示参数包括问题文本、描述文本或任务指令。
在具体的实现过程中:在收集到各种字段类型的训练数据之后,可以先编写每一字段类型对应的提示参数,提示参数应清晰明确,起到标识字段类型的作用,且能够反应字段类型的核心内容。举例来说,求职内容的提示参数可以是“关于求职申请的内容”。日期的提示参数可以是“关于日期或时间”。
在上述的实现过程中,采集训练数据的时候注意数据的平衡和多样性,并预先编写每一字段类型的提示参数,表单质量检测模型能够在多个字段类型的内容质量上有良好的表现,提高内容质量检测的准确性。
可选的,在本申请实施例中,根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果,包括:对待检测字段进行数据预处理,获得处理后字段;根据字段类型,将处理后字段和提示参数进行组合,获得组合数据;对组合数据进行格式转换,获得模型输入数据;将模型输入数据输入表单质量检测模型,获得质量检测结果;质量检测结果用于表征待检测字段的文本质量是否符合要求。
在具体的实现过程中:对待检测字段进行数据预处理,获得处理后字段。数据预处理可以包括分词、建立词汇表、tokenization等,数据预处理的过程可以理解为将待检测字段转换成表单质量检测模型预设的输入形式。
根据字段类型,将处理后字段和提示参数进行组合,获得组合数据,需要说明的是,这里的组合的方式为表单质量检测模型训练时,训练数据和字段类型对应的提示参数组合的方式一致。
获得组合数据之后,可以对组合数据进行格式转换,例如,表单质量检测模型为BERT模型,则可以将组合数据转换为BERT的输入ID、注意力掩码和段落标记等。
将模型输入数据输入表单质量检测模型,使用已经训练好的分类模型对经预处理后的待检测字段进行内容质量分类判断,获得质量检测结果。
在上述的实现过程中,利用表单质量检测模型对表单中不同类型的待检测字段进行质量检测,改善人工对表单内容质量进行检查,工作效率较低的问题,提高质量检测的效率和准确性。
可选的,在本申请实施例中,在根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之后,方法还包括:若质量检测结果表征文本质量不符合要求,则获取预设的待检测字段对应的参考文本;将待检测字段和参考文本进行关键词分析和/或词频差异分析,生成分析结果;根据分析结果,获得质量反馈内容。
在具体的实现过程中:质量检测结果表征待检测字段的文本质量是否符合要求,例如,质量检测结果为低质量可以表征文本质量不符合要求;或质量检测结果对应的预测值在预设概率值之下,可以表征文本质量不符合要求。
在质量检测结果表征文本质量不符合要求的情况下,获取预设的待检测字段对应的参考文本,待检测字段对应的参考文本是预设设置的,可以根据待检测字段的字段类型获取,例如每一类型的待检测字段均预先设置有参考文本,参考文本是待检测字段对应的符合文本质量要求的文本或高质量的文本。
将待检测字段和参考文本进行关键词分析和/或词频差异分析,其中,关键词分析可以为对参考文本和待检测字段分别进行关键词提取。可以使用文本处理工具,如自然语言处理库中的关键词提取算法,来获取对应的关键词列表。词频差异分析可以是根据提取的关键词列表,计算待检测字段与参考文本之间的词频差异。可以根据比较关键词在输入文本和高质量文本中的出现频率,计算它们之间的词频差异值。
根据分析结果,获得质量反馈内容,例如,如果某些关键词在待检测字段中的词频较低,而在参考文本中的词频较高,质量反馈内容可以是建议在待检测字段中增加相关的关键词以提高内容的丰富性和质量。
或者,如果待检测字段中存在参考文本中未出现的关键词、无关关键词或重复关键词,可以建议删除或替换这些关键词对应的内容,使文本更加精炼和准确。还可以提供其他修改建议,如增加领域相关的专业术语、优化关键词的组织和排列方式等。
在上述的实现过程中,在质量检测结果表征文本质量不符合要求的情况下,获取预设的待检测字段对应的参考文本,并利用关键词分析和/或词频差异分析,生成质量反馈内容,给用户反馈准确的质量反馈内容,用户可以根据量反馈内容有效地提高内容质量。
可选的,在本申请实施例中,在获取待检测表单中的待检测字段以及待检测字段的字段类型之后,方法还包括:获得待检测字段对应的格式检查规则;格式检查规则是预先根据待检测字段的格式要求编写的;对待检测字段进行数据格式处理,获得待匹配字段;利用格式检查规则,对待匹配字段进行格式检查,生成格式检查结果;根据分析结果,获得质量反馈内容,包括:根据分析结果和格式检查结果,获得质量反馈内容。
在具体的实现过程中:待检测字段对应的格式检查规则是预先根据待检测字段的格式要求编写的。可以根据要检查的文本格式要求,定义格式检查规则集合。格式检查规则可以包括正则表达式、关键词匹配、语法规则等。根据待检测字段的字段类型从规则集合中确定其对应的格式检查规则。可以使用编程语言和工具,如Python的正则表达式库、自然语言处理库等编写规则。
对待检测字段进行数据格式处理,获得待匹配字段。例如去除多余空格、转换大小写等。确保文本符合规则匹配的要求。
利用格式检查规则,对待匹配字段进行格式检查,例如可以对文本进行规则匹配,通过遍历待匹配字段,逐行或逐句应用规则,找到与规则匹配的文本部分,以及与规则不匹配的部分,生成格式检查结果。格式检查结果用于表征待检测字段是否符合格式要求。若格式检查结果不符合格式要求,则质量反馈内容可以提示用户该待检测字段不符合格式要求,并给出修改建议。
下面通过一个实施例对格式检查的过程进行描述,格式检测器使用定义好的格式检查规则,格式检查规则可以为正则表达式,来检测待检测字段是否符合预期格式。例如,待检测字段要求用户输入日期,正则表达式为“YYYY-MM-DD”,格式检测器会使用正则表达式规则“YYYY-MM-DD”来检查输入。若用户输入了“DD-YYYY-MM”,格式检测器将识别出不匹配并提醒用户对该待检测字段修正。
在上述的实现过程中,获得待检测字段对应的格式检查规则,利用格式检查规则,对待检测字段对应的待匹配字段进行格式检查,生成格式检查结果,通过格式检查规则检查字段的格式,进一步提高文本质量检测的准确性和效果。
可选的,在本申请实施例中,在获取待检测表单中的待检测字段之前,方法还包括:获取音频信息;对音频信息进行语音识别,获得音频信息对应的文本信息;解析文本信息,通过字段标识符将文本信息中的字段进行分隔,获得待填写字段;将待填写字段分别映射至预设的表单模板中,生成待检测表单。
在具体的实现过程中:在一些应用场景中,用户可以通过语音输入的方式填写表单。例如获得音频信息,音频信息可以是通过音频采集设备实时采集的用户音频,也可以是从电子设备从获取的。对音频信息进行语音识别,获得音频信息对应的文本信息。语音识别可以使用深度学习模型实现。
对文本信息进行解析,通过字段标识符将文本信息中的字段进行分隔,例如文本信息中包括多个字段,可以使用字段标识符将文本信息中不同的字段分隔开,获得每一待填写字段。将待填写字段分别映射至预设的表单模板中,生成待检测表单,映射的过程可以通过预设的规则或模型实现。预设的规则或模型能够关联待填写字段与代表单模板中的待填写位置,通过关联关系将待填写字段分别映射至预设的表单模板中。
在上述的实现过程中,通过对音频信息进行语音识别,获得音频信息对应的文本信息,并解析文本信息获得待填写字段;将待填写字段分别映射至预设的表单模板中,生成待检测表单。简化用户输入过程,减少用户复杂和繁琐的手动输入,实现快速实现表单。
请参见图2示出的本申请实施例提供的表单质量检测装置的结构示意图;本申请实施例提供了一种表单质量检测装置200,包括:
获取模块210,用于获取待检测表单中的待检测字段、待检测字段的字段类型、以及字段类型对应的提示参数;提示参数是预先编写的用于反映字段类型的内容;
质量检测模块220,用于根据字段类型,将待检测字段和提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对训练实例进行训练获得。
可选地,在本申请实施例中,表单质量检测装置,还包括,模型训练模块,获得训练数据;训练数据包括质量标签和字段类型;按照训练数据的字段类型,将训练数据和字段类型对应的提示参数进行组合,获得训练实例;将训练实例输入待训练模型,将质量标签作为监督信号,对待训练模型进行训练,获得表单质量检测模型。
可选地,在本申请实施例中,表单质量检测装置,还包括。提示参数编写模块,用于根据字段类型的内容,编写每一字段类型对应的提示参数,提示参数包括问题文本、描述文本或任务指令。
可选地,在本申请实施例中,表单质量检测装置,质量检测模块,还用于对待检测字段进行数据预处理,获得处理后字段;根据字段类型,将处理后字段和提示参数进行组合,获得组合数据;对组合数据进行格式转换,获得模型输入数据;将模型输入数据输入表单质量检测模型,获得质量检测结果;质量检测结果用于表征待检测字段的文本质量是否符合要求。
可选地,在本申请实施例中,表单质量检测装置,还包括:质量反馈模块,用于若质量检测结果表征文本质量不符合要求,则获取预设的待检测字段对应的参考文本;将待检测字段和参考文本进行关键词分析和/或词频差异分析,生成分析结果;根据分析结果,获得质量反馈内容。
可选地,在本申请实施例中,表单质量检测装置,还包括,格式检查模块,用于获得待检测字段对应的格式检查规则;格式检查规则是预先根据待检测字段的格式要求编写的;对待检测字段进行数据格式处理,获得待匹配字段;利用格式检查规则,对待匹配字段进行格式检查,生成格式检查结果;根据分析结果,获得质量反馈内容,包括:根据分析结果和格式检查结果,获得质量反馈内容。
可选地,在本申请实施例中,表单质量检测装置,还包括,表单生成模块,用于获取音频信息;对音频信息进行语音识别,获得音频信息对应的文本信息;解析文本信息,通过字段标识符将文本信息中的字段进行分隔,获得待填写字段;将待填写字段分别映射至预设的表单模板中,生成待检测表单。
应理解的是,该装置与上述的表单质量检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图3示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种表单质量检测方法,其特征在于,包括:
获取待检测表单中的待检测字段、待检测字段的字段类型、以及所述字段类型对应的提示参数;所述提示参数是预先编写的用于反映所述字段类型的内容;
根据所述字段类型,将所述待检测字段和所述提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;所述表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对所述训练实例进行训练获得。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述字段类型,将所述待检测字段和所述提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之前,所述方法还包括:
获得所述训练数据;所述训练数据包括质量标签和字段类型;
按照所述训练数据的字段类型,将所述训练数据和所述字段类型对应的所述提示参数进行组合,获得所述训练实例;
将所述训练实例输入待训练模型,将所述质量标签作为监督信号,对所述待训练模型进行训练,获得所述表单质量检测模型。
3.根据权利要求2所述的方法,其特征在于,在所述按照所述训练数据的字段类型,将所述训练数据和所述字段类型对应的所述提示参数进行组合,获得所述训练实例之前,所述方法还包括:
根据所述字段类型的内容,编写每一所述字段类型对应的提示参数,所述提示参数包括问题文本、描述文本或任务指令。
4.根据权利要求1所述的方法,其特征在于,所述根据所述字段类型,将所述待检测字段和所述提示参数输入预先训练好的表单质量检测模型,生成质量检测结果,包括:
对所述待检测字段进行数据预处理,获得处理后字段;
根据所述字段类型,将所述处理后字段和所述提示参数进行组合,获得组合数据;
对所述组合数据进行格式转换,获得模型输入数据;
将所述模型输入数据输入所述表单质量检测模型,获得所述质量检测结果;所述质量检测结果用于表征所述待检测字段的文本质量是否符合要求。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述字段类型,将所述待检测字段和所述提示参数输入预先训练好的表单质量检测模型,生成质量检测结果之后,所述方法还包括:
若所述质量检测结果表征文本质量不符合要求,则获取预设的所述待检测字段对应的参考文本;
将所述待检测字段和所述参考文本进行关键词分析和/或词频差异分析,生成分析结果;
根据所述分析结果,获得质量反馈内容。
6.根据权利要求5所述的方法,其特征在于,在获取所述待检测表单中的待检测字段以及待检测字段的字段类型之后,所述方法还包括:
获得所述待检测字段对应的格式检查规则;所述格式检查规则是预先根据待检测字段的格式要求编写的;
对所述待检测字段进行数据格式处理,获得待匹配字段;
利用所述格式检查规则,对所述待匹配字段进行格式检查,生成格式检查结果;
所述根据所述分析结果,获得质量反馈内容,包括:
根据所述分析结果和所述格式检查结果,获得所述质量反馈内容。
7.根据权利要求1所述的方法,其特征在于,在所述获取待检测表单中的待检测字段之前,所述方法还包括:
获取音频信息;
对所述音频信息进行语音识别,获得音频信息对应的文本信息;
解析所述文本信息,通过字段标识符将所述文本信息中的字段进行分隔,获得待填写字段;
将所述待填写字段分别映射至预设的表单模板中,生成所述待检测表单。
8.一种表单质量检测装置,其特征在于,包括:
获取模块,用于获取待检测表单中的待检测字段、待检测字段的字段类型、以及所述字段类型对应的提示参数;所述提示参数是预先编写的用于反映所述字段类型的内容;
质量检测模块,用于根据所述字段类型,将所述待检测字段和所述提示参数输入预先训练好的表单质量检测模型,生成质量检测结果;所述表单质量检测模型是将经过标注的训练数据和训练数据对应的提示参数作为训练实例,对所述训练实例进行训练获得。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311695173.5A CN117540714A (zh) | 2023-12-11 | 2023-12-11 | 一种表单质量检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311695173.5A CN117540714A (zh) | 2023-12-11 | 2023-12-11 | 一种表单质量检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117540714A true CN117540714A (zh) | 2024-02-09 |
Family
ID=89786086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311695173.5A Pending CN117540714A (zh) | 2023-12-11 | 2023-12-11 | 一种表单质量检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540714A (zh) |
-
2023
- 2023-12-11 CN CN202311695173.5A patent/CN117540714A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230132002A1 (en) | System for providing intelligent part of speech processing of complex natural language | |
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
US9767092B2 (en) | Information extraction in a natural language understanding system | |
US9286526B1 (en) | Cohort-based learning from user edits | |
KR20160122452A (ko) | 비주얼 콘텐츠기반 영상 인식을 위한 딥러닝 프레임워크 및 영상 인식 방법 | |
CN111312209A (zh) | 文本到语音的转换处理方法、装置及电子设备 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN112530405B (zh) | 一种端到端语音合成纠错方法、系统及装置 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN114580346A (zh) | 结合rpa和ai的信息生成方法、装置、电子设备及存储介质 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN116560631A (zh) | 一种机器学习模型代码的生成方法及装置 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
KR102597086B1 (ko) | Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법 | |
CN112116181A (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN113850235B (zh) | 一种文本处理方法、装置、设备及介质 | |
CN117540714A (zh) | 一种表单质量检测方法、装置、电子设备及存储介质 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN113255361B (zh) | 语音内容的自动检测方法、装置、设备以及存储介质 | |
CN112580619B (zh) | 对识别结果进行辅助修改的方法和装置 | |
US20240354602A1 (en) | Computer-implemented method and device for machine learning of facts, in particular for populating a knowledge base | |
US20220261536A1 (en) | Utterance sentence extension apparatus, utterance sentence generator apparatus, utterance sentence extension method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |