CN114138934B - 文本通顺度的检测方法、装置、设备及存储介质 - Google Patents
文本通顺度的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114138934B CN114138934B CN202111412965.8A CN202111412965A CN114138934B CN 114138934 B CN114138934 B CN 114138934B CN 202111412965 A CN202111412965 A CN 202111412965A CN 114138934 B CN114138934 B CN 114138934B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- character
- detection model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000002372 labelling Methods 0.000 claims description 55
- 238000000605 extraction Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机领域,特别涉及人工智能领域,提供了一种文本通顺度的检测方法、装置、设备及存储介质,应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:从待检测文本中的至少一个语句中,分别获得相应字符上下文特征集合和文本类型特征,再基于上述两个特征,确定至少一个语句各自的注意力特征,最后基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于至少一个语句的通顺度检测结果,确定待检测文本的文本通顺度检测结果。使用一个检测模型检测不同场景下的文本通顺度,解决了因标注数据集数量不足,造成的泛化性差、检测准确率低的问题。而且,每次检测获得的注意力特征,也有利于提高检测准确率。
Description
技术领域
本申请涉及计算机领域,特别涉及人工智能领域,提供了一种文本通顺度的检测方法、装置、设备及存储介质。
背景技术
随着移动终端的普及和社交媒体的发展,同一对象既可以是信息接收者,也可以是信息生产者,从而导致互联网上的信息内容呈现暴涨趋势。
然而,随着信息内容的总量增长,存在语法错误的内容的数量也随之增长,人工审核海量信息内容是很困难的,因此,目前常采用基于机器学习的神经网络模型执行文本通顺度检测任务。
信息内容作为文本数据,通常由标题和正文两部分组成。由于标题和正文的审核标准不同,相关技术下,通常调用标题通顺度检测模型和正文通顺度检测模型,分别检测信息内容中的标题和正文是否存在语法错误。
然而,在使用标题标注数据集和正文标注数据集训练上述两个检测模型时,由于标注数据集的规模较小,为了得到一致假设而使假设变得过度严格,容易出现过拟合现象。
例如,若任意一个标题标注数据的文本通顺度为80%,标题通顺度检测模型认为该标题标注数据没有完全拟合,则判定该标题标注数据属于存在语法错误的文本。
这样,会极大地影响上述两个检测模型的泛化性能,即能够正确检测标注数据集以外的信息内容的能力,从而影响其检测准确率。
发明内容
本申请实施例提供了一种文本通顺度的检测方法、装置、设备及存储介质,以解决泛化性差、检测准确率低的问题。
第一方面,本申请实施例提供了一种文本通顺度的检测方法,包括:
获取包含至少一个语句的待检测文本;
针对所述至少一个语句进行特征提取,分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征;
基于获得的至少一个字符上下文特征集合和至少一个文本类型特征,分别获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息;
基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于获得的所述至少一个语句的通顺度检测结果,确定所述待检测文本的文本通顺度检测结果。
第二方面,本申请实施例还提供了一种文本通顺度的检测装置,包括:
获取单元,用于获取包含至少一个语句的待检测文本;
处理单元,用于针对所述至少一个语句进行特征提取,分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征;
基于获得的至少一个字符上下文特征集合和至少一个文本类型特征,分别获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息;
检测单元,用于基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于获得的所述至少一个语句的通顺度检测结果,确定所述待检测文本的文本通顺度检测结果。
可选的,所述处理单元用于:
在所述一个语句的句首添加分类标识符,以及在相应语句的句尾添加分离标识符;
将所述分类标识符、所述一个语句包含的各个字以及所述分离标识符,拼接为所述字符序列。
可选的,所述处理单元针对各个语句,分别执行以下操作:
将一个语句的文本类型特征,分别与相应的字符上下文特征集合中的各个字符上下文特征进行归一化处理,获得所述一个语句包含的各个字符各自的注意力评估值;
通过对所述各个字符各自的字符上下文特征和各个注意力评估值进行加权求和,获得所述一个语句的注意力特征。
可选的,所述装置还包括模型训练单元,所述模型训练单元通过执行以下操作训练所述文本通顺度检测模型:
使用多个样本标注数据集训练所述文本通顺度检测模型,直至所述文本通顺度检测模型符合迭代停止条件为止,输出训练完毕的文本通顺度检测模型;
其中,每读取一个样本标注数据集,基于所述文本通顺度检测模型输出的所述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签,预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,重新调整所述文本通顺度检测模型的模型参数。
可选的,所述基模型训练单元用于:
基于所述文本通顺度检测模型输出的所述一个样本标注数据集中所述各个样本标注数据的第一样本预测标签、第二样本预测标签,所述标题通顺度检测模型或所述正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,确定所述文本通顺度检测模型的第一模型损失值;
基于所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,确定所述文本通顺度检测模型的第二模型损失值;
基于所述第一模型损失值和所述第二模型损失值,重新调整所述文本通顺度检测模型的模型参数。
可选的,所述检测单元针对所述至少一个注意力特征,分别执行以下操作:
将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中,获得所述一个语句的第一目标预测标签和第二目标预测标签,其中,所述第一目标预测标签表征所述一个语句文本通顺的预测概率,所述第二目标预测标签表征所述一个语句文本不通顺的预测概率;
将预测概率最大值对应的目标预测标签,作为所述一个语句的通顺度检测结果。
可选的,在确定所述待检测文本的文本通顺度检测结果之后,所述检测单元还用于:
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第一语句错误数量区间时,延迟推送所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第二语句错误数量区间时,提示重新审核所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第三语句错误数量区间时,拦截所述待检测文本;
其中,所述第二语句错误数量区间的取值范围大于所述第一语句错误数量区间的取值范围,且小于所述第三语句错误数量区间的取值范围。
第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种文本通顺度的检测方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种文本通顺度的检测方法的步骤。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现上述任意一种文本通顺度的检测方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种文本通顺度的检测方法、装置、设备及存储介质,该方法包括:对待检测文本中的至少一个语句进行特征提取,分别获得对应的字符上下文特征集合和文本类型特征,再基于上述获得的两个特征,确定至少一个语句各自的注意力特征,最后基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于至少一个语句的通顺度检测结果,确定待检测文本的文本通顺度检测结果。
本申请实施例使用文本通顺度检测模型检测不同场景下的文本通顺度,这样,可以使用基于不同场景下的标注数据形成的大规模标注数据集,训练文本通顺度检测模型,克服了相关技术下因标注数据集数量不足,造成的检测模型泛化性低、检测准确率低的问题。在每次检测过程获得的注意力特征,帮助文本通顺度检测模型在解码阶段确定了应着重关注的关键字符信息,与可以忽略、无需关注的冗余字符信息,进一步提高了检测模型的检测准确率。
而且,使用文本通顺度检测模型检测不同场景下的文本通顺度,无需分别构建和维护标题通顺度检测模型和正文通顺度检测模型,也提高了文本通顺度检测模型的线上利用率,降低了文本通顺度检测模型的维护成本。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种应用场景的一个可选的示意图;
图2a为本申请实施例提供的文本通顺度检测模型的模型结构示意图;
图2b为本申请实施例提供的检测文本通顺度的流程示意图;
图2c为本申请实施例提供的对一个语句进行特征提取的流程示意图;
图3a为本申请实施例提供的在具体实施例中检测文本通顺度的逻辑示意图;
图3b为本申请实施例提供的在具体实施例中文本通顺度检测模型的工作逻辑示意图;
图3c为本申请实施例提供的在短视频应用场景中检测视频标题的文本通顺度的工作逻辑示意图;
图4为本申请实施例提供的训练标题通顺度检测模型的流程示意图;
图5为本申请实施例提供的训练文本通顺度检测模型的流程示意图;
图6为本申请实施例提供的一种文本通顺度的检测装置的结构示意图;
图7为本申请实施例中提供的一种计算机设备的组成结构示意图;
图8为本申请实施例中的一个计算装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、人工智能:
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术;人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
2、深度学习:
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,那么深度学习则是机器学习的核心,是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术,深度学习则包括卷积神经网络(Convolutional NeuralNetworks,CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。
3、自然语言处理:
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,是一门融合了语言学、计算机科学、数学于一身的科学。
自然语言处理与语言学有着密切的联系,但不同于一般性的自然语言(即人们日常使用的语言)研究目标,自然语言处理主要在于研制出能够实现自然语言通信的计算机系统,尤其是其中的软件系统,实现人与计算机之间使用自然语言进行有效通信的研究目标。
4、基于自注意力机制的双向编码器(Bidirectional Encoder RepresentationWith Transformers,BERT):
BERT是一种预训练的双向语言模型,以Transformer的编码器框架为基础,还配套了训练数据集构建方法、模型训练方法、针对特定任务的结构修改策略等等,通过完形填空式地遮掩方法达到构造双向语言模型的目的,再通过在大规模文本数据上进行预训练,获得强大的文本序列建模能力,以支撑BERT处理多种NLP任务(如,文本分类、序列标注、文本匹配等等)。
Transformer网络是一种基于注意力机制的序列处理网络,摒弃了递归结构,完全依赖于注意力机制,挖掘输入和输出之间的关系,由“全局关注”转变为“局部关注”,使得前馈神经网络在解码时可以更多地关注注意力权重高的特征,这样做既可以灵活地捕捉全局和局部的关系,还可以实现快速并行计算,减少网络训练时间,改善RNN训练慢的缺点。
下面对本申请实施例的设计思想进行简要介绍:
随着移动终端的普及和社交媒体的发展,同一对象既可以是信息接收者,也可以是信息生产者,从而导致互联网上的信息内容呈现暴涨趋势。
然而,随着信息内容的总量增长,存在语法错误的内容的数量也随之增长,人工审核海量信息内容是很困难的,因此,目前常采用基于机器学习的神经网络模型执行文本通顺度检测任务。
信息内容作为文本数据,通常由标题和正文两部分组成,但是,标题和正文的审核标准却是不同的。例如,表1所示的同一个语句在不同场景下的审核结果却是截然不同的。
表1
因此,相关技术下,通常调用标题通顺度检测模型和正文通顺度检测模型,分别检测信息内容中的标题和正文是否存在语法错误。
然而,在使用标题标注数据集和正文标注数据集训练上述两个检测模型时,由于标注数据集的规模较小,为了得到一致假设而使假设变得过度严格,容易出现过拟合现象。
例如,若任意一个标题标注数据的文本通顺度为80%,标题通顺度检测模型认为该标题标注数据没有完全拟合,则判定该标题标注数据属于存在语法错误的文本。
这样,会极大地影响上述两个检测模型的泛化性能,即能够正确检测标注数据集以外的信息内容的能力,从而影响其检测准确率。
有鉴于此,本申请实施例提出了一种文本通顺度的检测方法。该方法包括:对待检测文本中的至少一个语句进行特征提取,分别获得对应的字符上下文特征集合和文本类型特征,再基于上述获得的两个特征,确定至少一个语句各自的注意力特征,最后基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于至少一个语句的通顺度检测结果,确定待检测文本的文本通顺度检测结果。
本申请实施例使用一个检测模型检测不同场景下的文本通顺度,有效缓解了因标注数据集数量不足,造成的检测模型泛化性低、检测准确率低的问题。而且,每次检测过程中分别获取相应语句中在解码阶段应着重关注的关键字符信息,通过充分利用获得的注意力特征,也进一步提高了检测模型的检测准确率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
其中,图1示出了一种应用场景的示意图,该应用场景下包括两个物理终端设备110和一台服务器130。
用户登录物理终端设备110上的应用程序,并通过应用程序使用界面120发表文章、视频等多媒体信息,应用程序后台将该用户发表的多媒体信息上传至服务器130中,服务器130利用内置的文本通顺度检测模型从多媒体信息中提取出每一个语句各自的注意力特征,并基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,进而基于获得的至少一个语句的通顺度检测结果,确定该多媒体信息的文本通顺度检测结果。
其中,物理终端设备110与服务器130之间基于通信网络建立连接,在一种可选的实施方式中,通信网络可为有线网络或者无线网络。
本申请实施例中的物理终端设备110包括但不限于个人计算机、手机、平板电脑、笔记本电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等。
本申请实施例中的服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请在此不做限制。
本申请实施例使用文本通顺度检测模型检测不同场景下的文本通顺度,这样,可以使用基于不同场景下的标注数据形成的大规模标注数据集,训练文本通顺度检测模型,克服了相关技术下因标注数据集数量不足,造成的检测模型泛化性低、检测准确率低的问题。在每次检测过程获得的注意力特征,帮助文本通顺度检测模型在解码阶段确定了应着重关注的关键字符信息,与可以忽略、无需关注的冗余字符信息,进一步提高了检测模型的检测准确率。
其次,在分别训练标题通顺度检测模型和正文通顺度检测模型时,还会因为无法充分利用数据,导致上述两个检测模型的检测效果不佳。例如,在检测“演员、歌手同台合作,却没想到坑人影星b,这也太可爱了吧”这句话时,无论是在标题检测场景中,还是在正文检测场景中,局部片段“坑人影星b”都是不通顺的,但独立训练的两个检测模型却无法利用局部不通顺片段的一致性,降低了各个检测模型的泛化性。
另外,分别部署标题通顺度检测模型和正文通顺度检测模型时,难以确保上述两个检测模型的吞吐量达到最大化,多个检测模型的维护成本也较高。
但是,本申请实施例中的文本通顺度检测模型是基于包含不同场景的样本标注数据训练得到的,得以克服上述技术缺陷,有效提升检测模型的泛化性与检测准确率。通过减少检测模型的部署数量,保证了文本通顺度检测模型的吞吐量能够达到预期设计要求,不仅提高了文本通顺度检测模型的线上利用率,还降低了文本通顺度检测模型的维护成本。
参阅图2a示出的模型结构示意图可知,在文本通顺度检测模型中至少包括输入层、输出层、特征提取模块、编码模块、多层感知器(Multi-Layered Perceptron,MLP)模块(也被称为文本通顺度分类模块)。
其中,特征提取模块具体包括用于提取字符内容特征与字符位置特征的第一特征提取子模块,以及用于提取文本类型特征的第二特征提取子模块;编码模块用于获得每个语句的字符上下文特征集合,MLP模块用于确定每个语句的通顺度检测结果。
接下来,参阅图2b示出的流程示意图,介绍使用文本通顺度检测模型进行检测操作的过程。
S201:文本通顺度检测模型获取包含至少一个语句的待检测文本。
当待检测文本源自文章、新闻等文字类多媒体信息时,待检测文本包括文字类多媒体信息的标题及正文;
当待检测文本源自长视频、短视频等视频类多媒体信息时,待检测文本包括视频类多媒体信息的标题。
其中,待检测文本中的一个语句,指的是以句号或者感叹号结尾的语句。
S202:文本通顺度检测模型针对至少一个语句进行特征提取,分别获得至少一个语句各自的字符上下文特征集合和文本类型特征。
在执行步骤202时,参阅图2c示出的流程示意图,针对各个语句,分别执行以下操作:
S2021:对一个语句i进行分字处理,获得相应的字符序列。
以一个汉字和一个外语单词为基本单位,将语句i切割为多个字,并在语句i的句首添加分类(Classification,CLS)标识符,以及在相应语句的句尾添加分离(Separating,SEP)标识符,最后将分类标识符、语句i包含的各个字以及分离标识符,拼接为字符序列。
S2022:基于文本通顺度检测模型的特征提取模块进行特征提取,获得字符序列中各个字符各自的字符内容特征及字符位置特征,以及语句i的文本类型特征。
具体地,基于文本通顺度检测模型的第一特征提取子模型,对字符序列中各个字符的内容及各个字符的位置进行特征提取,获得各个字符各自的字符内容特征及字符位置特征;
以及基于文本通顺度检测模型的第二特征提取子模型,对语句i携带的文本类型标识进行特征提取,获得语句i的文本类型特征。
当编码模块为BERT时,编码模块的输入为以下三个嵌入的组合,分别是位置嵌入(Position Embeddings)、任务嵌入(Task Embeddings)和目标词嵌入(TokenEmbeddings)。
因此,本申请实施例中的字符位置特征指的是位置嵌入,用于表达各个字符在语句i中的位置,帮助Transformer克服了不能捕获序列信息或者顺序信息的技术缺陷;
本申请实施例中的文本类型特征指的是任务嵌入,由于本申请实施例中的文本类型标识包括标题和正文两种类型,因此,通过文本类型特征,可帮助BERT区分语句来源,即哪些语句源自标题类型,哪些语句源自正文类型;
本申请实施例中的字符内容特征指的是目标词嵌入,用于帮助BERT学习到特定词汇的嵌入。
S2023:基于文本通顺度检测模型的编码模块,对各个字符内容特征、各个字符位置特征以及文本类型特征进行编码,获得语句i的字符上下文特征集合。
当编码模块为BERT时,BERT对上述三个嵌入进行编码处理,获得语句i中各个字符各自的字符上下文特征。
S203:文本通顺度检测模型基于获得的至少一个字符上下文特征集合和至少一个文本类型特征,分别获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息。
具体地,针对各个语句,分别执行以下操作:
采用公式1,将语句i的文本类型特征,分别与相应的字符上下文特征集合中的各个字符上下文特征进行归一化处理,获得语句i包含的各个字符各自的注意力评估值,再采用公式2,通过各个字符各自的字符上下文特征和各个注意力评估值进行加权求和,获得语句i的注意力特征(也被称为任务注意力(task attention)特征)。
αj=softmax(Thj) 公式1;
其中,公式1中的T表征语句i的文本类型特征,hj表征语句i中的第j个字符的上下文特征,softmax表征归一化处理,αj表征语句i中的第j个字符的注意力评估值,公式2中的z表征语句i的注意力特征,J表征语句i中包含的字符总数。
S204:文本通顺度检测模型基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于获得的至少一个语句的通顺度检测结果,确定待检测文本的文本通顺度检测结果。
采用公式3,基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果。
其中,公式3中的z表征语句i的注意力特征,W为预设的权重系数,b为预设的偏移量,softmax表征归一化处理,表征第i个语句属于不通顺标题(k=0)和不通顺正文(k=1)的预测概率值。
一个注意力特征表征相应语句中的关键字符信息,因此,文本通顺度检测模型可以基于获得的至少一个注意力特征,确定出每个语句各自需要着重关注的字符,以及可以忽略、无需关注的字符,减少检测模型对不重要字符的关注度,有利于提高检测模型的准确率和处理效率。
具体地,针对至少一个注意力特征,分别执行以下操作:
将语句i对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中,获得语句i的第一目标预测标签和第二目标预测标签,其中,第一目标预测标签表征语句i文本通顺的预测概率,第二目标预测标签表征语句i文本不通顺的预测概率,再将预测概率最大值对应的目标预测标签,作为语句i的通顺度检测结果。
如表2所示,语句i的通顺度检测结果包括但不限于以下几种:
表2
在确定待检测文本的文本通顺度检测结果之后,根据文本通顺度检测结果,分级管控待检测文本,及时修正待检测文本中存在语句错误的语句,减少在互联网上发表存在语法错误的内容的数量,降低之后的文本通顺度检测压力,节省各个平台的人工审核成本,以及提高各个平台的处理效率。
当待检测文本的文本通顺度检测结果显示待检测文本的文本通顺时,推送待检测文本;
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第一语句错误数量区间时,延迟推送待检测文本;
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第二语句错误数量区间时,提示重新审核待检测文本;
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第三语句错误数量区间时,拦截待检测文本;
其中,第二语句错误数量区间的取值范围大于第一语句错误数量区间的取值范围,且小于第三语句错误数量区间的取值范围。
在介绍完本申请实施例提供的检测方法的执行过程之后,以一具体实施例为例,参阅图3a示出的整体逻辑示意图,在该具体实施例中应用上述提出的检测方法的过程如下。
获取待检测文本“《语法纠错方法的调研结果》——语法纠错是自然处理领域中的一项重要任务,在文本校对、辅助外语学习等领域中有重要的应用。语法纠错任务要求检测一句话中是否有语法错误,并自动将检测出的语法错误进行纠正。”
通过对待检测文本进行分字处理,获得如表3所示的三个语句的字符序列。
表3
依次将三个语句的字符序列输入文本通顺度检测模型中,获得如表4所示的相应语句的通顺度检测结果,其中,图3b示出的文本通顺度检测模型的逻辑示意图,针对每个语句分别执行以下操作:
语句1的字符序列输入到文本通顺度检测模型中,通过检测模型内部的第一特征提取子模块和第二特征提取子模块,获得语句1的字符内容特征(token embeddings)、字符位置特征(position embeddings)和文本类型特征(task embeddings),BERT再基于上述获得的三个嵌入,获得语句1的字符上下文特征集合,并基于字符上下文特征集合与文本类型特征,获得语句1的注意力特征,最后,将语句1的注意力特征与文本类型特征输入到MLP模块中,获得语句1的通顺度检测结果。
表4
由于待检测文本中存在语法错误的语句较多,为了减少在互联网上发表存在语法错误的内容的数量,,拦截待检测文本,并提醒撰写这份待检测文本的用户修改文中的病句。
参阅图3c示出的逻辑示意图,在短视频的应用场景中,平台在接收到拍摄者上传的短视频时,从视频简介中获取到这支短视频的视频标题《拒绝游客照,出行打卡必学拍照技巧》,并将视频标题发送至后台服务器上进行文本通顺度的检测操作。
调用运行在服务器上的文本通顺度检测模型对视频标题进行特征提取,获得该视频标题的字符上下文特征集合[4 2 …… 3 1 2]和文本类型特征[2 2 …… 2 2 2],再基于字符上下文特征集合和文本类型特征,获得该视频标题的注意力特征4,再基于获得的注意力特征,确定该视频标题的预测概率值为0.8,表征该视频标题不存在语法错误,属于文本通顺的标题。
在介绍完文本通顺度检测模型的使用过程之后,继续介绍训练该检测模型的过程。
文本通顺度检测模型的训练过程被划分为两个阶段,分别是:在第一训练阶段中,训练标题通顺度检测模型和正文通顺度检测模型;在第二训练阶段中,采用蒸馏算法的模型训练方法,将各个样本标注数据输入训练好的标题通顺度检测模型和正文通顺度检测模型中,获得相应的预测软标签(也被称为第三样本预测标签、第四样本预测标签),再基于上述预测软标签以及各个样本标注数据各自的实际分类标签,训练文本通顺度检测模型,使得训练好的文本通顺度检测模型融合了针对不同场景的检测方式,克服了相关技术下因标注数据集数量不足,造成的检测模型泛化性低、检测准确率低的问题。
第一训练阶段:训练标题通顺度检测模型和正文通顺度检测模型。
标题通顺度检测模型、正文通顺度检测模型的模型结构,与文本通顺度检测模型的模型结构相同,每个检测模型至少包括输入层、输出层、特征提取模块、编码模块、MLP模块。
由于标题和正文的审核标准不同,所以标题通顺度检测模型和正文通顺度检测模型使用的样本标注数据是不同的,但两个检测模型的模型结构是相同的,导致两个检测模型的训练过程也是相似的。因此,为了便于描述,参阅图4示出的流程示意图,介绍标题通顺度检测模型的模型训练过程。
S401:从多个样本标题标注数据集中读取一个样本标题标注数据集m。
样本标题标注数据集m包括多个样本标题标注数据,为了提高模型的训练速度,本申请实施例中的样本标题标注数据均为一个完整的语句,即由句号或者感叹号结尾的句子。
一个样本标题标注数据包括语句内容、语句携带的文本类型标识,以及预先标注的实际分类标签,该标签用于指示文本通顺是否。
S402:标题通顺度检测模型从样本标题标注数据集m中读取一个样本标题标注数据n,并对样本标题标注数据n进行特征提取,获得相应的字符上下文特征集合和文本类型标识。
S403:标题通顺度检测模型基于获得的字符上下文特征集合和文本类型特征,获得样本标题标注数据n的注意力特征。
S404:标题通顺度检测模型基于获得的注意力特征,确定样本标题标注数据n的第三样本预测标签、第四样本预测标签。
其中,第三样本预测标签表征标题通顺度检测模型认为样本标题标注数据n属于标题不通顺的预测概率值,第四样本预测标签表征标题通顺度检测模型认为样本标题标注数据n属于正文不通顺的预测概率值。
S405:判断是否已处理样本标题标注数据集m中的所有样本标题标注数据,若是,执行步骤406;否则,返回步骤402。
S406:基于各个样本标题标注数据的第三样本预测标签、第四样本预测标签及相应的实际分类标签,计算标题通顺度检测模型在当前一轮的损失值。
在本申请实施例中,使用公式4计算标题通顺度检测模型在当前一轮的损失值。
其中,公式4中的表征第n个样本标题标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的预测概率值,表征第n个样本标题标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的实际概率值,N表征样本标题标注数据集m包含的标注数据总数,Loss1表征标题通顺度检测模型在当前一轮的损失值。
S407:判断当前一轮的损失值是否与标题通顺度检测模型在上一轮的损失值相同,若是,输出训练好的标题通顺度检测模型;否则,返回步骤401。
第二训练阶段:训练文本通顺度检测模型。
参阅图5示出的流程示意图,介绍文本通顺度检测模型的模型训练过程。
S501:从多个样本标注数据集中读取一个样本标注数据集p。
可以使用与训练另外两个检测模型不同批次的样本标注数据集,对文本通顺度检测模型进行训练。但是,为了尽快获得每个样本标注数据的第三样本预测标签、第四样本预测标签,本申请实施例是使用与训练另外两个检测模型同一批次的样本标注数据集,训练文本通顺度检测模型。
为了让文本通顺度检测模型学习到针对不同场景的检测方法,使用的样本标注数据集p可以只包含标题类型的标注数据,也可以只包含正文类型的标注数据,还可以同时包含上述两种类型的标注数据。
S502:文本通顺度检测模型从样本标注数据集p中读取一个样本标注数据q,并对样本标注数据q进行特征提取,获得相应的字符上下文特征集合和文本类型标识。
S503:文本通顺度检测模型基于获得的字符上下文特征集合和文本类型特征,获得样本标注数据q的注意力特征。
S504:文本通顺度检测模型基于获得的注意力特征,确定样本标注数据q的第一样本预测标签、第二样本预测标签。
其中,第一样本预测标签表征文本通顺度检测模型认为样本标注数据q属于标题不通顺的预测概率值,第二样本预测标签表征文本通顺度检测模型认为样本标注数据q属于正文不通顺的预测概率值。
S505:判断是否已处理样本标注数据集p中的所有样本标注数据,若是,执行步骤506;否则,返回步骤502。
S506:基于各个样本标注数据各自的第一样本预测标签、第二样本预测标签,预设的标题通顺度检测模型或者正文通顺度检测模型输出的各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及各个样本标注数据各自的实际分类标签,计算文本通顺度检测模型在当前一轮的损失值。
先采用公式5,基于文本通顺度检测模型输出的样本标注数据集p中各个样本标注数据的第一样本预测标签、第二样本预测标签,标题通顺度检测模型或所述正文通顺度检测模型输出的各个样本标注数据各自的第三样本预测标签、第四样本预测标签,确定文本通顺度检测模型的第一模型损失值Distillloss。
其中,公式5中的表征标题通顺度检测模型或者正文通顺度检测模型认为,第q个样本标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的预测概率值,表征文本通顺度检测模型认为第q个样本标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的预测概率值,Q表征样本标注数据集p包含的标注数据总数。
再采用公式6,基于各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,确定所述文本通顺度检测模型的第二模型损失值Loss2。
其中,公式6中的表征标题通顺度检测模型或者正文通顺度检测模型认为,第q个样本标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的预测概率值,表征第q个样本标注数据属于不通顺标题(k=0)和不通顺正文(k=1)的实际概率值,Q表征样本标注数据集p包含的标注数据总数。
最后,采用公式7,基于第一模型损失值和第二模型损失值,重新调整文本通顺度检测模型的模型参数。
Loss3=Distillloss+Loss2 公式7;
S507:判断文本通顺度检测模型是否符合迭代停止条件,若是,输出训练好的文本通顺度检测模型;否则,返回步骤501。
与上述方法实施例基于同一发明构思,本申请实施例还提供了一种文本通顺度的检测装置。如图6所示,装置600可以包括:
获取单元601,用于获取包含至少一个语句的待检测文本;
处理单元602,用于针对至少一个语句进行特征提取,分别获得至少一个语句各自的字符上下文特征集合和文本类型特征;
基于获得的至少一个字符上下文特征集合和至少一个文本类型特征,分别获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息;
检测单元603,用于基于获得的至少一个注意力特征,分别确定相应语句的通顺度检测结果,并基于获得的至少一个语句的通顺度检测结果,确定待检测文本的文本通顺度检测结果。
可选的,处理单元602针对各个语句,分别执行以下操作:
对一个语句进行分字处理,获得相应的字符序列;
基于文本通顺度检测模型的特征提取模块进行特征提取,获得字符序列中各个字符各自的字符内容特征及字符位置特征,以及一个语句的文本类型特征;
基于文本通顺度检测模型的编码模块,对各个字符内容特征、各个字符位置特征以及文本类型特征进行编码,获得一个语句的字符上下文特征集合。
可选的,处理单元602用于:
基于文本通顺度检测模型的第一特征提取子模块,对字符序列中各个字符的内容及各个字符的位置进行特征提取,获得各个字符各自的字符内容特征及字符位置特征;
基于文本通顺度检测模型的第二特征提取子模块,对一个语句携带的文本类型标识进行特征提取,获得一个语句的文本类型特征。
可选的,处理单元602用于:
在一个语句的句首添加分类标识符,以及在相应语句的句尾添加分离标识符;
将分类标识符、一个语句包含的各个字以及分离标识符,拼接为字符序列。
可选的,处理单元602针对各个语句,分别执行以下操作:
将一个语句的文本类型特征,分别与相应的字符上下文特征集合中的各个字符上下文特征进行归一化处理,获得一个语句包含的各个字符各自的注意力评估值;
通过对各个字符各自的字符上下文特征和各个注意力评估值进行加权求和,获得一个语句的注意力特征。
可选的,装置600还包括模型训练单元604,模型训练单元604通过执行以下操作训练文本通顺度检测模型:
使用多个样本标注数据集训练文本通顺度检测模型,直至文本通顺度检测模型符合迭代停止条件为止,输出训练完毕的文本通顺度检测模型;
其中,每读取一个样本标注数据集,基于文本通顺度检测模型输出的一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签,预设的标题通顺度检测模型或者正文通顺度检测模型输出的各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及各个样本标注数据各自的实际分类标签,重新调整文本通顺度检测模型的模型参数。
可选的,模型训练单元604用于:
基于文本通顺度检测模型输出的一个样本标注数据集中各个样本标注数据的第一样本预测标签、第二样本预测标签,标题通顺度检测模型或正文通顺度检测模型输出的各个样本标注数据各自的第三样本预测标签、第四样本预测标签,确定文本通顺度检测模型的第一模型损失值;
基于各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及各个样本标注数据各自的实际分类标签,确定文本通顺度检测模型的第二模型损失值;
基于第一模型损失值和第二模型损失值,重新调整文本通顺度检测模型的模型参数。
可选的,检测单元603针对至少一个注意力特征,分别执行以下操作:
将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中,获得一个语句的第一目标预测标签和第二目标预测标签,其中,第一目标预测标签表征一个语句文本通顺的预测概率,第二目标预测标签表征一个语句文本不通顺的预测概率;
将预测概率最大值对应的目标预测标签,作为一个语句的通顺度检测结果。
可选的,在确定待检测文本的文本通顺度检测结果之后,检测单元603还用于:
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第一语句错误数量区间时,延迟推送待检测文本;
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第二语句错误数量区间时,提示重新审核待检测文本;
当待检测文本的文本通顺度检测结果显示待检测文本中,存在语句错误的语句数量位于第三语句错误数量区间时,拦截待检测文本;
其中,第二语句错误数量区间的取值范围大于第一语句错误数量区间的取值范围,且小于第三语句错误数量区间的取值范围。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的文本通顺度的检测方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的计算机设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备,参阅图7所示,计算机设备700可以至少包括处理器701、以及存储器702。其中,存储器702存储有程序代码,当程序代码被处理器701执行时,使得处理器701执行上述任意一种文本通顺度的检测方法的步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行说明书上述描述的文本通顺度的检测方法中的步骤。例如,处理器可以执行如图2b中所示的步骤。
下面参照图8来描述根据本申请的这种实施方式的计算装置800。图6的计算装置800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。
总线803表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储单元8022,还可以进一步包括只读存储器(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置800交互的设备通信,和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
与上述方法实施例基于同一发明构思,本申请提供的文本通顺度的检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的文本通顺度的检测方法的步骤,例如,计算机设备可以执行如图2b中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (13)
1.一种文本通顺度的检测方法,其特征在于,包括:
获取包含至少一个语句的待检测文本;
针对所述至少一个语句进行特征提取,分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征,所述文本类型特征为任务嵌入,用于区分语句来源,所述语句来源包括标题类型和正文类型;
分别针对各语句执行以下操作,获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息:分别将一个语句的文本类型特征,与相应字符上下文特征集合中各个字符上下文特征之间的乘积进行归一化处理,获得所述一个语句包含的各个字符各自的注意力评估值;通过对所述各个字符各自的字符上下文特征和各个注意力评估值进行加权求和,获得所述一个语句的注意力特征;
分别针对至少一个注意力特征执行以下操作,确定相应语句的通顺度检测结果:将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中,获得所述一个语句的第一目标预测标签和第二目标预测标签,其中,所述第一目标预测标签表征所述一个语句文本通顺的预测概率,所述第二目标预测标签表征所述一个语句文本不通顺的预测概率;将预测概率最大值对应的目标预测标签,作为所述一个语句的通顺度检测结果;
基于获得的所述至少一个语句的通顺度检测结果,确定所述待检测文本的文本通顺度检测结果。
2.如权利要求1所述的方法,其特征在于,所述针对所述至少一个语句进行特征提取,分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征,包括:
针对各个语句,分别执行以下操作:
对一个语句进行分字处理,获得相应的字符序列;
基于文本通顺度检测模型的特征提取模块进行特征提取,获得所述字符序列中各个字符各自的字符内容特征及字符位置特征,以及所述一个语句的文本类型特征;
基于所述文本通顺度检测模型的编码模块,对各个字符内容特征、各个字符位置特征以及所述文本类型特征进行编码,获得所述一个语句的字符上下文特征集合。
3.如权利要求2所述的方法,其特征在于,所述基于文本通顺度检测模型的特征提取模块进行特征提取,获得所述字符序列中各个字符各自的字符内容特征及字符位置特征,以及所述一个语句的文本类型特征,包括:
基于所述文本通顺度检测模型的第一特征提取子模块,对所述字符序列中所述各个字符的内容及所述各个字符的位置进行特征提取,获得所述各个字符各自的字符内容特征及字符位置特征;
基于所述文本通顺度检测模型的第二特征提取子模块,对所述一个语句携带的文本类型标识进行特征提取,获得所述一个语句的文本类型特征。
4.如权利要求2所述的方法,其特征在于,所述对所述一个语句进行分字处理,获得相应的字符序列,包括:
在所述一个语句的句首添加分类标识符,以及在相应语句的句尾添加分离标识符;
将所述分类标识符、所述一个语句包含的各个字以及所述分离标识符,拼接为所述字符序列。
5.如权利要求2~3任一项所述的方法,其特征在于,通过执行以下操作训练所述文本通顺度检测模型:
使用多个样本标注数据集训练所述文本通顺度检测模型,直至所述文本通顺度检测模型符合迭代停止条件为止,输出训练完毕的文本通顺度检测模型;
其中,每读取一个样本标注数据集,基于所述文本通顺度检测模型输出的所述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签,预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,重新调整所述文本通顺度检测模型的模型参数;
所述第一样本预测标签表征所述文本通顺度检测模型预测一个样本标注数据属于标题不通顺的概率值,所述第二样本预测标签表征所述文本通顺度检测模型预测所述一个样本标注数据属于正文不通顺的概率值;所述第三样本预测标签表征所述标题通顺度检测模型预测一个样本标题标注数据属于标题不通顺的概率值或者所述正文通顺度检测模型预测一个样本正文标注数据属于标题不通顺的概率值,第四样本预测标签表征所述标题通顺度检测模型预测所述一个样本标题标注数据属于正文不通顺的概率值或者所述正文通顺度检测模型预测所述一个样本正文标注数据属于正文不通顺的概率值。
6.如权利要求5所述的方法,其特征在于,所述基于所述文本通顺度检测模型输出的所述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签,预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,重新调整所述文本通顺度检测模型的模型参数,包括:
基于所述文本通顺度检测模型输出的所述一个样本标注数据集中所述各个样本标注数据的第一样本预测标签、第二样本预测标签,所述标题通顺度检测模型或所述正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,确定所述文本通顺度检测模型的第一模型损失值;
基于所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签,以及所述各个样本标注数据各自的实际分类标签,确定所述文本通顺度检测模型的第二模型损失值;
基于所述第一模型损失值和所述第二模型损失值,重新调整所述文本通顺度检测模型的模型参数。
7.如权利要求1~4任一项所述的方法,其特征在于,在确定所述待检测文本的文本通顺度检测结果之后,还包括:
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第一语句错误数量区间时,延迟推送所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第二语句错误数量区间时,提示重新审核所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中,存在语句错误的语句数量位于第三语句错误数量区间时,拦截所述待检测文本;
其中,所述第二语句错误数量区间的取值范围大于所述第一语句错误数量区间的取值范围,且小于所述第三语句错误数量区间的取值范围。
8.一种文本通顺度的检测装置,其特征在于,包括:
获取单元,用于获取包含至少一个语句的待检测文本;
处理单元,用于针对所述至少一个语句进行特征提取,分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征,所述文本类型特征为任务嵌入,用于区分语句来源,所述语句来源包括标题类型和正文类型;
分别针对各语句执行以下操作,获得相应语句的注意力特征,其中,一个注意力特征表征相应语句中的关键字符信息:分别将一个语句的文本类型特征,与相应字符上下文特征集合中各个字符上下文特征之间的乘积进行归一化处理,获得所述一个语句包含的各个字符各自的注意力评估值;通过对所述各个字符各自的字符上下文特征和各个注意力评估值进行加权求和,获得所述一个语句的注意力特征;
检测单元,用于分别针对至少一个注意力特征执行以下操作,确定相应语句的通顺度检测结果:将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中,获得所述一个语句的第一目标预测标签和第二目标预测标签,其中,所述第一目标预测标签表征所述一个语句文本通顺的预测概率,所述第二目标预测标签表征所述一个语句文本不通顺的预测概率;将预测概率最大值对应的目标预测标签,作为所述一个语句的通顺度检测结果;
基于获得的所述至少一个语句的通顺度检测结果,确定所述待检测文本的文本通顺度检测结果。
9.如权利要求8所述的装置,其特征在于,所述处理单元针对各个语句,分别执行以下操作:
对一个语句进行分字处理,获得相应的字符序列;
基于文本通顺度检测模型的特征提取模块进行特征提取,获得所述字符序列中各个字符各自的字符内容特征及字符位置特征,以及所述一个语句的文本类型特征;
基于所述文本通顺度检测模型的编码模块,对各个字符内容特征、各个字符位置特征以及所述文本类型特征进行编码,获得所述一个语句的字符上下文特征集合。
10.如权利要求9所述的装置,其特征在于,所述处理单元用于:
基于所述文本通顺度检测模型的第一特征提取子模块,对所述字符序列中所述各个字符的内容及所述各个字符的位置进行特征提取,获得所述各个字符各自的字符内容特征及字符位置特征;
基于所述文本通顺度检测模型的第二特征提取子模块,对所述一个语句携带的文本类型标识进行特征提取,获得所述一个语句的文本类型特征。
11.一种计算机设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行权利要求1~7中任一项所述方法的步骤。
13.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现权利要求1~7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111412965.8A CN114138934B (zh) | 2021-11-25 | 2021-11-25 | 文本通顺度的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111412965.8A CN114138934B (zh) | 2021-11-25 | 2021-11-25 | 文本通顺度的检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114138934A CN114138934A (zh) | 2022-03-04 |
CN114138934B true CN114138934B (zh) | 2024-07-12 |
Family
ID=80391614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111412965.8A Active CN114138934B (zh) | 2021-11-25 | 2021-11-25 | 文本通顺度的检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114138934B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN113392640A (zh) * | 2020-10-13 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种标题确定方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788085B2 (en) * | 2004-12-17 | 2010-08-31 | Xerox Corporation | Smart string replacement |
JP2014154030A (ja) * | 2013-02-12 | 2014-08-25 | Japan Institute For Educational Measurement Inc | 主語動詞の一致誤り検出装置及び一致誤り検出用プログラム |
CN108255857B (zh) * | 2016-12-29 | 2021-10-15 | 北京国双科技有限公司 | 一种语句检测方法及装置 |
CN107680579B (zh) * | 2017-09-29 | 2020-08-14 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN108090043B (zh) * | 2017-11-30 | 2021-11-23 | 北京百度网讯科技有限公司 | 基于人工智能的纠错举报处理方法、装置及可读介质 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
CN111651992A (zh) * | 2020-04-24 | 2020-09-11 | 平安科技(深圳)有限公司 | 命名实体标注方法、装置、计算机设备和存储介质 |
CN111666775B (zh) * | 2020-05-21 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112347255B (zh) * | 2020-11-06 | 2021-11-23 | 天津大学 | 基于图网络的标题和正文结合的文本分类方法 |
CN113435179B (zh) * | 2021-06-24 | 2024-04-30 | 科大讯飞股份有限公司 | 一种作文评阅方法、装置、设备及存储介质 |
CN113505200B (zh) * | 2021-07-15 | 2023-11-24 | 河海大学 | 一种结合文档关键信息的句子级中文事件检测的方法 |
-
2021
- 2021-11-25 CN CN202111412965.8A patent/CN114138934B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN113392640A (zh) * | 2020-10-13 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种标题确定方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114138934A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110489555A (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
Ma et al. | Multi-teacher knowledge distillation for end-to-end text image machine translation | |
CN114241279A (zh) | 图文联合纠错方法、装置、存储介质及计算机设备 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN113407776A (zh) | 标签推荐方法、装置、标签推荐模型的训练方法和介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN114138934B (zh) | 文本通顺度的检测方法、装置、设备及存储介质 | |
CN116978028A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN110377753A (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN113657092B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN111767727B (zh) | 数据处理方法及装置 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |