CN114611497B - 语病诊断模型的训练方法、语病诊断方法、装置及设备 - Google Patents

语病诊断模型的训练方法、语病诊断方法、装置及设备 Download PDF

Info

Publication number
CN114611497B
CN114611497B CN202210502759.4A CN202210502759A CN114611497B CN 114611497 B CN114611497 B CN 114611497B CN 202210502759 A CN202210502759 A CN 202210502759A CN 114611497 B CN114611497 B CN 114611497B
Authority
CN
China
Prior art keywords
language
text
disease
category
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210502759.4A
Other languages
English (en)
Other versions
CN114611497A (zh
Inventor
李云良
胡飞
李木子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202210502759.4A priority Critical patent/CN114611497B/zh
Publication of CN114611497A publication Critical patent/CN114611497A/zh
Application granted granted Critical
Publication of CN114611497B publication Critical patent/CN114611497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Rehabilitation Tools (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供一种语病诊断模型的训练方法、语病诊断方法、装置及设备,其中该训练方法包括:获取携带有语病标签的文本样本;所述语病标签包括所述文本样本的语病类别和语病位置;根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本;其中,所述语病模板为用于指示查找指定语病的位置的文本,且所述语病模板中指定语病的信息待嵌入;基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,所述语病诊断模型用于对目标文本进行识别,得到所述目标文本中的语病类别及语病位置。本公开可以有效提升语病诊断结果的准确性和可靠性。

Description

语病诊断模型的训练方法、语病诊断方法、装置及设备
技术领域
本公开涉及人工智能领域,尤其涉及语病诊断模型的训练方法、语病诊断方法、装置及设备。
背景技术
语病诊断的目的是诊断文本内容是否符合语法规范,如果不符合规范,则识别语病的类型,并获取语病在文本中的具体位置。随着人工智能领域的兴起,研究人员开始尝试采用人工智能方式针对文本进行语病诊断,以便将其快速便捷地应用于诸如作文批改、语病纠正等场景,然而,现有的语病诊断方式的效果不佳,语病诊断结果的准确性较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语病诊断模型的训练方法、语病诊断方法、装置及设备。
根据本公开的一方面,提供了一种语病诊断模型的训练方法,包括:获取携带有语病标签的文本样本;所述语病标签包括所述文本样本的语病类别和语病位置;根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本;其中,所述语病模板为用于指示查找指定语病的位置的文本,且所述语病模板中指定语病的信息待嵌入;基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,所述语病诊断模型用于对目标文本进行识别,得到所述目标文本中的语病类别及语病位置。
根据本公开的另一方面,提供了一种语病诊断方法,包括:获取待诊断的目标文本;通过语病诊断模型对所述目标文本进行语病诊断,得到所述目标文本中的语病类别及语病位置;其中,所述语病诊断模型是采用上述训练方法训练得到的。
根据本公开的另一方面,提供了一种语病诊断模型的训练装置,包括:文本样本获取模块,用于获取携带有语病标签的文本样本;所述语病标签包括所述文本样本的语病类别和语病位置;模板文本获取模块,用于根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本;其中,所述语病模板为用于指示查找指定语病的位置的文本,且所述语病模板中指定语病的信息待嵌入;模型训练模块,用于基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,所述语病诊断模型用于对目标文本进行识别,得到所述目标文本中的语病类别及语病位置。
根据本公开的另一方面,提供了一种语病诊断装置,包括:目标文本获取模块,用于获取待诊断的目标文本;语病诊断模块,用于通过语病诊断模型对所述目标文本进行语病诊断,得到所述目标文本中的语病类别及语病位置;其中,所述语病诊断模型是采用上述训练方法训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述语病诊断模型的训练方法或者上述语病诊断方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述语病诊断模型的训练方法或者上述语病诊断方法。
本公开实施例中提供的上述语病诊断模型的训练方法及装置,能够首先获取携带有语病标签的文本样本;该语病标签包括文本样本的语病类别和语病位置,然后根据预先设置的语病模板和文本样本的语病标签,得到嵌入语病信息的模板文本;其中,语病模板为用于指示查找指定语病的位置的文本,且语病模板中指定语病的信息待嵌入;最后能够基于模板文本和携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型。在上述方式中,语病模板用于查找指定语病位置,因此具有一定的任务导向,通过将语病模板和文本样本的语病标签结合即可得到嵌入语病信息的模板文本,该模板文本不仅具有任务导向,还较好融入了语病信息,因此模板文本能够在模型训练过程中为待诊断的文本样本提供额外的上下文信息,使得训练得到的语病诊断模型的性能更佳,可以有效提升语病诊断结果的准确性和可靠性。
本公开实施例中提供的上述语病诊断方法及装置,通过采用上述训练方法得到的语病诊断模型进行语病诊断,所得的语病诊断结果更为准确可靠。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种语病诊断模型的训练方法的流程示意图;
图2为本公开实施例提供的一种模板文本的构造示意图;
图3为本公开实施例提供的一种模板文本和文本样本的组合示意图;
图4为本公开实施例提供的一种正负样本构造示意图;
图5为本公开实施例提供的一种样本训练集构造示意图;
图6为本公开实施例提供的一种语病诊断模型的训练示意图;
图7为本公开实施例提供的一种语病诊断方法的流程示意图;
图8为本公开实施例提供的一种语病诊断示意图;
图9为本公开实施例提供的一种语病诊断模型的训练装置的结构示意图;
图10为本公开实施例提供的一种语病诊断装置的结构示意图;
图11为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本公开使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
语言在人类社会发展过程中起到了非常大的作用,语言的学习至关重要。对于儿童或者学习非母语的人而言,在语法方面经常会出错,因此语病诊断是教育领域中的一个重要课题。最早期是采用人工方式进行语病诊断,诸如通过老师批改的方式来查找文本中所包含的语病,但是费时费力。因此,逐渐开始出现采用人工智能方式自动实现语病诊断的研究。
在语病诊断的相关研究中,最早出现的方法主要基于规则模版,也即根据特定的语料以及语病的特征,设计构造算法规则,通过该算法规则来识别出文本中的语病。但是这种方法存在一定的弊端:设计构造规则需要耗费大量的人力,且规则的泛化性较差。
之后,随着机器学习的兴起,研究人员开始将机器学习方法应用到语病诊断任务。在该机器学习方法中仍旧基于人为构造的特征,运用机器学习模型对文本进行语病诊断,效果优于上述基于规则的方法。然而,人为构造特征仍然需要耗费很多的人力,且整体指标效果偏低,也即语病诊断的准确性和可靠性较差。
近年兴起的深度学习促进了语病诊断任务的技术进步,以数据驱动的深度学习方法在效果上要优于基于机器学习人为构造特征的方法,目前已有的方法主要有:
(1)采用分类器诊断文本的语病,但是这种方法比较局限,因为单个样本中可能包含多种语病类别,且这种方式难以识别出语病在文本中的位置。
(2)采用序列标注方法对文本进行字符级别的诊断,但是这种方法需要对文本的字符语义信息进行编码,并抽取出语病的类别与位置,然而样本中同一个字符位置可能有多种语病标签,诸如同一个字符位置可能有多种语病类型,这又会引入实体重叠的问题,增加模型训练的难度,并且目前此方法的效果并不理想,难以准确得到语病诊断结果。
(3)采用文本生成的方法对文本进行语病纠错,首先需要基于源文本生成语法正确的文本,然后再结合源文本获取语病类别和位置,该方法需要大量的“源文本—目标文本”的句对样本来训练文本生成模型,且文本生成的输出可控性较低,可能会生成偏离源文本的结果,导致较难获取真实语病信息。
综上,现有的语病诊断方式的效果均不佳,语病诊断方式的可靠性较差,语病诊断结果准确性较低。为了改善以上至少一种问题,本公开实施例提供了一种语病诊断模型的训练方法、语病诊断方法、装置及设备,为便于理解,以下进行阐述说明。
图1为本公开实施例提供的一种语病诊断模型的训练方法的流程示意图,该方法可以由语病诊断模型的训练装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤S102~步骤S106:
步骤S102,获取携带有语病标签的文本样本;语病标签包括文本样本的语病类别和语病位置。
诸如,可以预先为存在语病的文本标注语病类别及语病位置,以此得到携带有语病标签的文本样本。在实际应用中,文本样本的数量通常为多个,且为了使训练所得的语病诊断模型能够有效识别出多种语病类别,每个文本样本可以包含有至少一种语病类别,多个文本样本所包含的语病类别数量为多个。
步骤S104,根据预先设置的语病模板和文本样本的语病标签,得到嵌入语病信息的模板文本;其中,语病模板为用于指示查找指定语病的位置的文本,且语病模板中指定语病的信息待嵌入。
语病模板可以是根据先验知识构造的用于指示查找指定语病的位置的文本,由于该语病模板可以明确指示查找指定语病的位置,因此该语病模板可视为具有任务导向,此外,为了给模型进一步提供上下文信息,语病模板中还可以包含指定语病的定义。示例性地,语病模板的样式为:“这是_____语病,它的定义是_______,请找出该语病的具体位置
Figure 739888DEST_PATH_IMAGE001
”。待填入的即为语病类别和语病定义。语病模板可以与文本样本相结合,即可得到嵌入语病信息的模板文本。
语病模板中待填入的指定语病的信息来自于和语病模板结合的文本,也即来自于文本样本。在一些实施示例中,指定语病的信息包括指定语病的类别和定义,在此基础上,步骤S104在具体执行时,可以首先从文本样本的语病标签中提取语病类别,将提取的语病类别作为指定语病的类别,并将指定语病的类别以填槽方式嵌入语病模板中;之后查找语病类别对应的语病定义,并将查找到的语病定义作为指定语病的定义,并将指定语病的定义以填槽方式嵌入语病模板中,得到嵌入语病信息的模板文本。也即,可以将文本样本的语病标签中所包含的语病类别嵌入至语病模板中待填入语病类别的对应位置,并查找该语病类别的定义,将语病定义嵌入至语病模板中待填入语病定义的对应位置。为便于理解,参见图2所示的一种模板文本的构造示意图,语病诊断数据集包含有多个文本样本,每个文本样本都携带有语病标签,从语病诊断数据集中提取语病标签信息,可得到所有的语病类别,在图2中仅简单以缺词、多词、词序错误、错词共4种语病类别进行示例,不应当被视为限制,同时每种语病类别都有相应的语病定义。在图2中以语病标签对应“词序错误”为例,语病模板“这是_____语病,它的定义是_______,请找出该语病的具体位置
Figure 72781DEST_PATH_IMAGE001
”与存在词序错误的文本样本的语病标签相结合,使用填槽的方式将语病类别和定义填入语病模板,得到的模板文本为:“这是词序错误语病,它的定义是句子中词语的顺序不合理,或句子的顺序不合逻辑、语法及习惯,请找出该语病的具体位置
Figure 418312DEST_PATH_IMAGE001
”。这种方式可有效融入语病标签语义信息的上下文,并且得到的模板文本具有明确的任务导向。应当说明的是,每个模板文本仅对应查找一种语病类别,倘若文本样本的语病标签中包含多种语病类别,则可以采用语病模板分别与每种语病类别进行结合,得到多种模板文本。
步骤S106,基于模板文本和携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,语病诊断模型用于对目标文本进行识别,得到目标文本中的语病类别及语病位置。
模板文本与携带有语病标签的文本样本可以组合输入至预设的神经网络模型,获取神经网络模型针对文本样本的语病诊断结果,并基于语病诊断结果以及语病标签之间的差异来调整模型参数,直至神经网络模型可以输出符合期望的语病诊断结果,得到训练好的语病诊断模型。上述方式可以理解为采用问答任务的模式来处理语病诊断任务,模板文本充分融入了待诊断文本(在训练过程中即为文本样本)中所包含语病的标签语义信息,不仅构造了融入语病标签语义信息的上下文,而且能够以提问的方式(诸如指示查找特定语病类别的位置)进行任务引导,便于神经网络模型结合模板文本对文本样本进行语病诊断,从而有效提升语病诊断模型的训练效果。
在上述方式中,语病模板用于查找指定语病位置,因此具有一定的任务导向,通过将语病模板和文本样本的语病标签结合即可得到嵌入语病信息的模板文本,该模板文本不仅具有任务导向,还较好融入了语病信息,因此模板文本能够在模型训练过程中为待诊断的文本样本提供额外的上下文信息,使得训练得到的语病诊断模型的性能更佳,可以有效提升语病诊断结果的准确性和可靠性。
在实际应用中,文本样本的数量通常为多个,示例性的,文本样本的数量为N个,不同文本样本的语病类别和/或语病位置不同,且N个文本样本共包含M种语病类别;模板文本的数量为M个,每个模板文本对应一种语病类别;N与M均为正整数。在此基础上,基于模板文本和携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型的步骤,包括如下步骤一和步骤二:
步骤一,将M个模板文本和N个携带有语病标签的文本样本进行组合,得到M*N个组合样本。也即,对于每个文本样本而言,其与M个模板文本组合即可得到M个问答形式的组合样本,每个模板文本用于指示查找一种语病类别的位置,通过组合的形式,也即需要针对每个文本样本逐一查找M种语病类别。对于N个文本样本而言,则可以组合得到M*N个组合样本。
为便于理解,参见图3所示的一种模板文本和文本样本的组合示意图,假设原有的N个文本样本构成训练集Train,则通过与M个模板文本进行组合(图3中仅以4个模板文本进行简单示意),则可以得到M*N个组合样本,M*N个组合样本构成训练集Train*。每个组合样本都包含模板(也即模板文本)、文本(也即文本样本)和标签(也即文本样本携带的语病标签),在图3的示例中,以文本样本是“这本书肤浅易懂,深受欢迎”为例,其所在语病标签中显示其存在的语病类别为错词和缺词,且分别通过诸如:“3,5”“10,11”指示出各语病类别在文本样本中对应的位置。应当说明的是,以上位置表征方式仅为示例,在实际应用中还可以采用其它方式表征语病类别在文本中的位置,在此不进行限制。
步骤二,基于M*N个组合样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型。M*N个组合样本可视为M*N个问答形式的训练样本,相比于原有N个文本样本而言,这种方式不仅对训练样本的数量进行了扩充(是原有样本数量的M倍),而且每个组合样本都可视为一个带有明确任务导向以及语病标签的语义信息的问答样本,可有效促使神经网络模型根据组合样本中的模板文本去从文本样本中查找特定的语病类别。
在一些具体的实施示例中,为了达到更好的模型训练效果,可以上述步骤二可参照如下步骤A~步骤B执行:
步骤A,对于每种语病类别,基于M*N个组合样本得到该种语病类别对应的正样本和负样本。示例性地,对于一个组合文本中模板文本所指示查找的语病类别A而言,语病类别A的正样本为:模板文本对应语病类别A(也即模板文本用于指示查找语病类别A的位置,还可进一步给出语病类别A的定义),且与模板文本组合的文本样本携带的语病标签包含A;语病类别A的负样本为:模板文本对应语病类别A,且与模板文本组合的文本样本携带的语病标签不包含A。
具体而言,对于每种语病类别,都可以参照如下步骤A1~步骤A3实现:
步骤A1,从M*N个组合样本中查找第一目标组合样本和第二目标组合样本;其中,第一目标组合样本中的模板文本对应该种语病类别,且第一目标组合样本中的语病标签包含该种语病类别;第二目标组合样本中的模板文本对应该种语病类别,且第二目标组合样本中的语病标签不包含该种语病类别。
步骤A2,对第一目标组合样本执行第一处理操作,将第一处理操作后的第一目标组合样本作为该种语病类别对应的正样本;其中,第一处理操作包括将第一目标组合样本的语病标签中除该种语病类别之外的语病类别剔除。也即,为了能够更为准确地进行模型训练,保证问题(指示查找某语病类别的模板文本)与答案(语病标签)的一致性,在正样本中的语病标签可以仅保留模板文本对应的语病类别。示例性地,对于语病类别A而言,第一目标组合样本中的模板文本指示查找语病类别A的位置,进一步,模板文本还可给出语病类别A的定义,第一目标组合样本中的语病标签包括语病类别A和语病类别B,此时可将语病类别B剔除,只保留语病类别A,从而得到问题与答案一致的正样本。
步骤A3,对第二目标组合样本执行第二处理操作,将第二处理操作后的第二目标组合样本作为该种语病类别对应的负样本;其中,第二处理操作包括将第二目标组合样本的所有语病标签剔除。也即,在负样本中,语病标签为空,同样为了确保问题与答案的一致性。
为便于理解,可参见如图4所示的一种正负样本构造示意图,M*N个组合样本构成的训练集Train*中以4个组合样本进行示例,分别示意出了对于每种语病类别(缺词、多词、词序错误、错词)确定正负样本的方式,以缺词类别为例,包含有缺词模板文本以及缺词语病标签的组合样本可作为缺词的正样本,与此同时只保留缺词的标签。而对于多词类别而言,包含有多词模板文本的组合样本中并未有多词语病标签,也即该组合样本中的样本文本中并没有出现多词的语病,因此将该组合样本可作为多词的负样本,与此同时将该组合样本中的所有语病标签都删除。通过上述方式所得的正负样本,语病标签仅针对模板文本中指定的语病类别相关,倘若文本样本没有出现模板文本中指定的语病类别,则语病标签为空,倘若文本样本出现模板文本中指定的语病类别,则语病标签仅包括该指定的语病类别及该语病类别在文本样本中的位置,因此可构成准确的问答样本,也即问答形式中的“问题”(指示查找特定语病类别的模板文本)和“答案”(语病标签)是一致的,更有助于提升模型训练的可靠性,使神经网络模型能够针对每种语病类别从文本样本中进行准确查找。
步骤B,根据每种语病类别对应的正样本和负样本,对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
为了提升模型训练效果,在一些实施方式中,可以参照如下步骤B1和步骤B2执行:
步骤B1,将每种语病类别对应的正样本和负样本进行合并处理,得到样本训练集。在每种语病类别对应的正样本和负样本都已获取的情况下,将所有语病类别(也即M种语病类别)的正样本和负样本都进行混合(合并及打乱顺序),从而可得到样本训练集。
在一些实施示例中,为了使神经网络模型能够准确识别语病类别及其在文本中的相应位置,可以基于每种语病类别对应的正样本数量和负样本数量,对每种语病类别进行样本处理,以使每种语病类别对应的正样本数量不小于负样本数量;其中,样本处理包括:在正样本数量小于负样本数量时降低负样本数量;将样本处理后的每种语病类别对应的正样本和负样本进行混合。其中,样本处理的具体方式可以是:判别正样本数量是否小于负样本数量,如果小于,则采用下采样方式或者直接对负样本数量进行删减,直至正样本数量不小于负样本数量。如果某语病类别的原有正样本数量大于负样本数量,则维持原有样本,不进行处理。通过上述方式,可以保证每种语病类别的正负样本均衡,或者正样本更多一些,以便于更好的训练神经网络模型对于每种语病类别具有准确的识别能力。
为便于理解,可参见图5所示的一种样本训练集构造示意图,所有语病类别对应的正负样本即为集合Dict,通过上述合并且在合并过程中进行样本处理,即可得到样本训练集QATrain,该训练样本集可视为问答形式的样板集。模板文本可视为问题,用于指示查找指定语病类别,语病标签即为答案,用于指示文本样本中是否包含该指定语病类别,如果不包含则为无,如果包含则会进一步体现出该指定语病类别在文本样本中的位置。
步骤B2,采用样本训练集对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
在一些具体的实施示例中,可以采用样本训练集、随机梯度下降法以及反向传播法对预设的神经网络模型的参数进行更新,直至达到预设条件;并将达到预设条件的神经网络模型作为训练好的语病诊断模型。该预设条件诸如可以是神经网络模型输出的语病诊断结果与相应的语病标签之间的差异低于预设阈值。
本公开实施例对神经网络模型的具体结构不进行限制,在一些具体的实施示例中,神经网络模型包括BERT(Bidirectional Encoder Representations fromTransformers,基于转换器的双向编码表征)网络和二元分类器。在实际应用中,为了便于训练,可以进一步将样本训练集中的语病标签进行处理,将语病标签在文本样本中覆盖的位置范围标注为1,其余部分标注为0,为便于理解,也可参见图6所示的一种语病诊断模型的训练示意图,神经网络模型在对文本样本进行语病诊断时,可先采用BERT对文本样本中的每个token(语义单元)进行编码,然后获取每个token是否为答案的二元分类置信度,诸如,通过二元分类器判别每个token是否对应某特定的语病类别,如果对应则输出1,如果不对应则输出0,根据输出结果与处理后的语病标签之间的差异进行模型参数调整,具体而言,可采用随机梯度下降法和反向传播更新模型权重参数,以此进行模型优化,直至神经网络模型可输出符合期望的语病诊断结果,也即与语病标签(答案)的差异较小,低于预设阈值。训练结束时的神经网络模型即可作为语病诊断模型。
在实际应用中,在得到训练后的语病诊断模型之后,还可以采用测试集对语病诊断模型进行测试(推理),测试集包含有携带有语病标签的测试文本样本(但该测试文本样本之前未参与模型训练),获取语病诊断模型针对测试文本样本输出的语病诊断结果(推理结果),具体的,由于每个语病诊断结果都只是针对一种特定的语病类别,因此可将属于同一个测试文本样本的所有语病诊断结果合并,即可得到语病诊断模型针对每个测试文本样本输出的最终语病诊断结果,以此来与测试文本样本的语病标签(包含有测试文本样本存在的所有语病类别及位置)进行比对,从而可清楚获知语病诊断模型的指标,该指标可用于衡量语病诊断模型的性能。
对应于前述语病诊断模型的训练方法,本公开实施例还提供了一种语病诊断方法,参见图7所示的一种语病诊断方法的流程示意图,主要包括如下步骤S702~步骤S704:
步骤S702,获取待诊断的目标文本。本公开实施例对目标文本的获取方式不进行限制,诸如可以直接获取用户输入的文本字符,也可以先对文本图像进行文本识别,得到文本图像中的文本字符,将该文本字符作为待诊断文本。
步骤S704,通过语病诊断模型对目标文本进行语病诊断,得到目标文本中的语病类别及语病位置;其中,语病诊断模型是采用本公开实施例提供的上述训练方法训练得到的,具体可参照前述相关内容,在此不再赘述。
由于本公开实施例通过采用上述训练方法得到的语病诊断模型进行语病诊断,所得的语病诊断结果更为准确可靠。
在一些具体的实施示例中,步骤S704可以参照如下步骤(1)~步骤(4)实现:
步骤(1),获取多个预设的模板文本;每个模板文本用于指示查找一种语病类别的位置;不同模板文本查找的语病类别不同。示例性地,获取模板文本的方式可以参照前述相关内容,诸如一共有M种语病类别,则可以获取M个模板文本,每种模板文本用于指示查找一种特定的语病类别。
步骤(2),将目标文本与多个模板文本分别组合,得到多个组合文本;每个组合文本都用于指示语病诊断模型从目标文本中查找该组合文本中模板文本对应的语病类别,模板文本为语病诊断模型提供了明确的任务导向,并且指示出所需查找的语病类别的定义,融入了与该语病类别相关的上下文信息。
步骤(3),将多个组合文本输入至语病诊断模型,得到语病诊断模型针对每种组合文本的语病诊断结果。在一些具体的实施示例中,组合文本的语病诊断结果包括目标文本是否存在组合文本中模板文本对应的语病类别的判别结果;在判别结果为存在的情况下,语病诊断结果还包括组合文本中模板文本对应的语病类别在目标文本中的位置。
步骤(4),基于每种组合文本的语病诊断结果,得到目标文本中的语病类别及语病位置。
示例性地,可以将每种组合文本的语病诊断结果进行合并,得到目标文本存在的所有语病类别以及目标文本存在的每个语病类别对应的语病位置。为便于理解,可以参照如图8所示的一种语病诊断示意图,以目标文本是“这本书肤浅易懂,深受欢迎”为例,其与四种模板文本组合得到四种组合文本,在每个组合文本中,模板文本都相当于是问题,需要语病诊断模型给出相应的答案,语病诊断模型对每种组合文本都给出相应的语病诊断结果(答案),然后再将每种组合文本的语病诊断结果进行合并,便可方便快捷地得到目标文本存在的所有语病类别以及目标文本存在的每个语病类别对应的语病位置。
综上所述,本公开实施例提供的上述语病诊断模型的训练方法及语病诊断方法,重新定义了语病诊断的算法模式,采用问答任务的模式来处理语病诊断任务,将语病的标签语义信息与待诊断文本组合起来,可以为待诊断文本提供额外的上下文信息,从而提升语病诊断的性能效果。另外,本公开实施例定义了一种融入语病标签的模板文本,通过人为地构造具备任务导向的先验知识模板(语病模板),使用填槽的方法将语病的类别和定义填入,便可构造出融入了语病标签语义信息的上下文,从而提升语病诊断模型的训练效果。进一步,本公开实施例在训练过程中将每个待诊断文本(文本样本)与所有类型的模板文本组合起来,根据文本样本原有的语病标签与模板文本中语病类别的匹配情况,对原有的语病标签进行取舍,从而构造出问答任务的正负样本,以此可以训练得到能够对每种语病类别进行准确诊断的模型。
对应于前述语病诊断模型的训练方法,本公开实施例还提供了一种语病诊断模型的训练装置,图9为本公开实施例提供的一种语病诊断模型的训练装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图9所示,语病诊断模型的训练装置900包括:
文本样本获取模块902,用于获取携带有语病标签的文本样本;语病标签包括文本样本的语病类别和语病位置;
模板文本获取模块904,用于根据预先设置的语病模板和文本样本的语病标签,得到嵌入语病信息的模板文本;其中,语病模板为用于指示查找指定语病的位置的文本,且语病模板中指定语病的信息待嵌入;
模型训练模块906,用于基于模板文本和携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,语病诊断模型用于对目标文本进行识别,得到目标文本中的语病类别及语病位置。
在上述装置中,语病模板用于查找指定语病位置,因此具有一定的任务导向,通过将语病模板和文本样本的语病标签结合即可得到嵌入语病信息的模板文本,该模板文本不仅具有任务导向,还较好融入了语病信息,因此模板文本能够在模型训练过程中为待诊断的文本样本提供额外的上下文信息,使得训练得到的语病诊断模型的性能更佳,可以有效提升语病诊断结果的准确性和可靠性。
在一些实施方式中,所述指定语病的信息包括指定语病的类别和定义。
在一些实施方式中,模板文本获取模块904具体用于:从所述文本样本的语病标签中提取语病类别,将提取的所述语病类别作为指定语病的类别,并将所述指定语病的类别以填槽方式嵌入所述语病模板中;查找所述语病类别对应的语病定义,并将查找到的所述语病定义作为指定语病的定义,并将所述指定语病的定义以填槽方式嵌入所述语病模板中,得到嵌入语病信息的模板文本。
在一些实施方式中,所述文本样本的数量为N个,不同所述文本样本的语病类别和/或语病位置不同,且N个所述文本样本共包含M种语病类别;所述模板文本的数量为M个,每个所述模板文本对应一种语病类别;N与M均为正整数。
在一些实施方式中,模型训练模块906具体用于:将M个所述模板文本和N个所述携带有语病标签的文本样本进行组合,得到M*N个组合样本;基于所述M*N个组合样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
在一些实施方式中,模型训练模块906具体用于:对于每种语病类别,基于所述M*N个组合样本得到该种语病类别对应的正样本和负样本;根据每种所述语病类别对应的正样本和负样本,对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
在一些实施方式中,模型训练模块906具体用于:对于每种语病类别,从所述M*N个组合样本中查找第一目标组合样本和第二目标组合样本;所述第一目标组合样本中的模板文本对应该种语病类别,且所述第一目标组合样本中的语病标签包含该种语病类别;所述第二目标组合样本中的模板文本对应该种语病类别,且所述第二目标组合样本中的语病标签不包含该种语病类别;对所述第一目标组合样本执行第一处理操作,将第一处理操作后的所述第一目标组合样本作为该种语病类别对应的正样本;其中,所述第一处理操作包括将所述第一目标组合样本的语病标签中除该种语病类别之外的语病类别剔除;对所述第二目标组合样本执行第二处理操作,将第二处理操作后的所述第二目标组合样本作为该种语病类别对应的负样本;其中,所述第二处理操作包括将所述第二目标组合样本的所有语病标签剔除。
在一些实施方式中,模型训练模块906具体用于:基于每种所述语病类别对应的正样本和负样本进行合并处理,得到样本训练集;采用所述样本训练集对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
在一些实施方式中,模型训练模块906具体用于:基于每种所述语病类别对应的正样本数量和负样本数量,对每种所述语病类别进行样本处理,以使每种语病类别对应的正样本数量不小于负样本数量;其中,所述样本处理包括:在正样本数量小于负样本数量时降低负样本数量;将样本处理后的每种所述语病类别对应的正样本和负样本进行混合。
在一些实施方式中,模型训练模块906具体用于:采用所述样本训练集、随机梯度下降法以及反向传播法对预设的神经网络模型的参数进行更新,直至达到预设条件;将达到所述预设条件的神经网络模型作为训练好的语病诊断模型。
在一些实施方式中,所述神经网络模型包括BERT网络和二元分类器。
本公开实施例所提供的语病诊断模型的训练装置可执行本公开任意实施例所提供的语病诊断模型的训练方法,具备执行方法相应的功能模块和有益效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
对应于前述语病诊断方法,本公开实施例还提供了一种语病诊断装置,图10为本公开实施例提供的一种语病诊断装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图10所示,语病诊断装置1000包括:
目标文本获取模块1002,用于获取待诊断的目标文本;
语病诊断模块1004,用于通过语病诊断模型对目标文本进行语病诊断,得到目标文本中的语病类别及语病位置;其中,语病诊断模型是采用上述任一项的训练方法训练得到的。
由于本公开实施例通过采用上述训练方法得到的语病诊断模型进行语病诊断,所得的语病诊断结果更为准确可靠。
在一些实施方式中,语病诊断模块1004具体用于:获取多个预设的模板文本;每个所述模板文本用于指示查找一种语病类别的位置;不同所述模板文本查找的语病类别不同;将所述目标文本与多个所述模板文本分别组合,得到多个组合文本;将所述多个组合文本输入至语病诊断模型,得到所述语病诊断模型针对每种所述组合文本的语病诊断结果;基于每种所述组合文本的语病诊断结果,得到所述目标文本中的语病类别及语病位置。
在一些实施方式中,所述组合文本的语病诊断结果包括所述目标文本是否存在所述组合文本中模板文本对应的语病类别的判别结果;在所述判别结果为存在的情况下,所述语病诊断结果还包括所述组合文本中模板文本对应的语病类别在所述目标文本中的位置。
在一些实施方式中,语病诊断模块1004具体用于:将每种所述组合文本的语病诊断结果进行合并,得到所述目标文本存在的所有语病类别以及所述目标文本存在的每个语病类别对应的语病位置。
本公开实施例所提供的语病诊断装置可执行本公开任意实施例所提供的语病诊断方法,具备执行方法相应的功能模块和有益效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的XYZ方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
参考图11,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1108可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,语病诊断模型的训练方法和语病诊断方法均可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语病诊断模型的训练方法或语病诊断方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种语病诊断模型的训练方法,包括:
获取携带有语病标签的文本样本;所述语病标签包括所述文本样本的语病类别和语病位置;
根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本;其中,所述语病模板为用于指示查找指定语病的位置的文本,且所述语病模板中指定语病的信息待嵌入;所述根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本的步骤,包括:从所述文本样本的语病标签中提取语病类别,将提取的所述语病类别作为指定语病的类别,并将所述指定语病的类别以填槽方式嵌入所述语病模板中,以得到嵌入语病信息的模板文本;
基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,所述语病诊断模型用于对目标文本进行识别,得到所述目标文本中的语病类别及语病位置;
所述文本样本的数量为N个,不同所述文本样本的语病类别和/或语病位置不同,且N个所述文本样本共包含M种语病类别;
所述模板文本的数量为M个,每个所述模板文本对应一种语病类别;N与M均为正整数;
基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型的步骤,包括:
将M个所述模板文本和N个所述携带有语病标签的文本样本进行组合,得到M*N个组合样本;
基于所述M*N个组合样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;
基于所述M*N个组合样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型的步骤,包括:
对于每种语病类别,基于所述M*N个组合样本得到该种语病类别对应的正样本和负样本;
根据每种所述语病类别对应的正样本和负样本,对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
2.如权利要求1所述的语病诊断模型的训练方法,其中,所述指定语病的信息包括指定语病的类别和定义。
3.如权利要求2所述的语病诊断模型的训练方法,其中,根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本的步骤,包括:
查找所述语病类别对应的语病定义,并将查找到的所述语病定义作为指定语病的定义,并将所述指定语病的定义以填槽方式嵌入所述语病模板中,得到嵌入语病信息的模板文本。
4.如权利要求1所述的语病诊断模型的训练方法,其中,对于每种语病类别,基于所述M*N个组合样本得到该种语病类别对应的正样本和负样本的步骤,包括:
对于每种语病类别,从所述M*N个组合样本中查找第一目标组合样本和第二目标组合样本;所述第一目标组合样本中的模板文本对应该种语病类别,且所述第一目标组合样本中的语病标签包含该种语病类别;所述第二目标组合样本中的模板文本对应该种语病类别,且所述第二目标组合样本中的语病标签不包含该种语病类别;
对所述第一目标组合样本执行第一处理操作,将第一处理操作后的所述第一目标组合样本作为该种语病类别对应的正样本;其中,所述第一处理操作包括将所述第一目标组合样本的语病标签中除该种语病类别之外的语病类别剔除;
对所述第二目标组合样本执行第二处理操作,将第二处理操作后的所述第二目标组合样本作为该种语病类别对应的负样本;其中,所述第二处理操作包括将所述第二目标组合样本的所有语病标签剔除。
5.如权利要求1所述的语病诊断模型的训练方法,其中,根据每种所述语病类别对应的正样本和负样本,对预设的神经网络模型进行训练,得到训练好的语病诊断模型的步骤,包括:
基于每种所述语病类别对应的正样本和负样本进行合并处理,得到样本训练集;
采用所述样本训练集对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
6.如权利要求5所述的语病诊断模型的训练方法,其中,基于每种所述语病类别对应的正样本和负样本进行合并处理的步骤,包括:
基于每种所述语病类别对应的正样本数量和负样本数量,对每种所述语病类别进行样本处理,以使每种语病类别对应的正样本数量不小于负样本数量;其中,所述样本处理包括:在正样本数量小于负样本数量时降低负样本数量;
将样本处理后的每种所述语病类别对应的正样本和负样本进行混合。
7.如权利要求5所述的语病诊断模型的训练方法,其中,采用所述样本训练集对预设的神经网络模型进行训练,得到训练好的语病诊断模型的步骤,包括:
采用所述样本训练集、随机梯度下降法以及反向传播法对预设的神经网络模型的参数进行更新,直至达到预设条件;
将达到所述预设条件的神经网络模型作为训练好的语病诊断模型。
8.如权利要求1所述的语病诊断模型的训练方法,其中,所述神经网络模型包括BERT网络和二元分类器。
9.一种语病诊断方法,包括:
获取待诊断的目标文本;
通过语病诊断模型对所述目标文本进行语病诊断,得到所述目标文本中的语病类别及语病位置;其中,所述语病诊断模型是采用权利要求1至8任一项所述的训练方法训练得到的。
10.如权利要求9所述的语病诊断方法,其中,通过语病诊断模型对所述目标文本进行语病诊断,得到所述目标文本中的语病类别及语病位置的步骤,包括:
获取多个预设的模板文本;每个所述模板文本用于指示查找一种语病类别的位置;不同所述模板文本查找的语病类别不同;
将所述目标文本与多个所述模板文本分别组合,得到多个组合文本;
将所述多个组合文本输入至语病诊断模型,得到所述语病诊断模型针对每种所述组合文本的语病诊断结果;
基于每种所述组合文本的语病诊断结果,得到所述目标文本中的语病类别及语病位置。
11.如权利要求10所述的语病诊断方法,其中,所述组合文本的语病诊断结果包括所述目标文本是否存在所述组合文本中模板文本对应的语病类别的判别结果;
在所述判别结果为存在的情况下,所述语病诊断结果还包括所述组合文本中模板文本对应的语病类别在所述目标文本中的位置。
12.如权利要求10或11所述的语病诊断方法,其中,基于每种所述组合文本的语病诊断结果,得到所述目标文本中的语病类别及语病位置的步骤,包括:
将每种所述组合文本的语病诊断结果进行合并,得到所述目标文本存在的所有语病类别以及所述目标文本存在的每个语病类别对应的语病位置。
13.一种语病诊断模型的训练装置,包括:
文本样本获取模块,用于获取携带有语病标签的文本样本;所述语病标签包括所述文本样本的语病类别和语病位置;
模板文本获取模块,用于根据预先设置的语病模板和所述文本样本的语病标签,得到嵌入语病信息的模板文本;其中,所述语病模板为用于指示查找指定语病的位置的文本,且所述语病模板中指定语病的信息待嵌入;所述模板文本获取模块具体用于:从所述文本样本的语病标签中提取语病类别,将提取的所述语病类别作为指定语病的类别,并将所述指定语病的类别以填槽方式嵌入所述语病模板中,以得到嵌入语病信息的模板文本;
模型训练模块,用于基于所述模板文本和所述携带有语病标签的文本样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;其中,所述语病诊断模型用于对目标文本进行识别,得到所述目标文本中的语病类别及语病位置;
所述文本样本的数量为N个,不同所述文本样本的语病类别和/或语病位置不同,且N个所述文本样本共包含M种语病类别;
所述模板文本的数量为M个,每个所述模板文本对应一种语病类别;N与M均为正整数;
所述模型训练模块具体用于:将M个所述模板文本和N个所述携带有语病标签的文本样本进行组合,得到M*N个组合样本;基于所述M*N个组合样本对预设的神经网络模型进行训练,得到训练好的语病诊断模型;
所述模型训练模块还具体用于:对于每种语病类别,基于所述M*N个组合样本得到该种语病类别对应的正样本和负样本;根据每种所述语病类别对应的正样本和负样本,对预设的神经网络模型进行训练,得到训练好的语病诊断模型。
14.一种语病诊断装置,包括:
目标文本获取模块,用于获取待诊断的目标文本;
语病诊断模块,用于通过语病诊断模型对所述目标文本进行语病诊断,得到所述目标文本中的语病类别及语病位置;其中,所述语病诊断模型是采用权利要求1至8任一项所述的训练方法训练得到的。
15.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的语病诊断模型的训练方法或者权利要求9-12中任一项所述的语病诊断方法。
16.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8中任一项所述的语病诊断模型的训练方法或者权利要求9-12中任一项所述的语病诊断方法。
CN202210502759.4A 2022-05-10 2022-05-10 语病诊断模型的训练方法、语病诊断方法、装置及设备 Active CN114611497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210502759.4A CN114611497B (zh) 2022-05-10 2022-05-10 语病诊断模型的训练方法、语病诊断方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210502759.4A CN114611497B (zh) 2022-05-10 2022-05-10 语病诊断模型的训练方法、语病诊断方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114611497A CN114611497A (zh) 2022-06-10
CN114611497B true CN114611497B (zh) 2022-08-16

Family

ID=81870323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210502759.4A Active CN114611497B (zh) 2022-05-10 2022-05-10 语病诊断模型的训练方法、语病诊断方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114611497B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807325A (zh) * 2019-10-18 2020-02-18 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN113010640A (zh) * 2021-03-04 2021-06-22 北京三快在线科技有限公司 一种业务执行的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109800414B (zh) * 2018-12-13 2023-04-18 科大讯飞股份有限公司 语病修正推荐方法及系统
CN110689447A (zh) * 2019-08-30 2020-01-14 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN110889284B (zh) * 2019-12-04 2023-04-07 成都中科云集信息技术有限公司 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807325A (zh) * 2019-10-18 2020-02-18 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN113010640A (zh) * 2021-03-04 2021-06-22 北京三快在线科技有限公司 一种业务执行的方法及装置

Also Published As

Publication number Publication date
CN114611497A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN109766540B (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20220222447A1 (en) Translation method and apparatus, electronic device, and computer-readable storage medium
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
CN114648638A (zh) 语义分割模型的训练方法、语义分割方法与装置
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN107301164B (zh) 数学公式的语义解析方法及装置
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN111539207B (zh) 文本识别方法、文本识别装置、存储介质和电子设备
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN113822040A (zh) 一种主观题阅卷评分方法、装置、计算机设备及存储介质
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN115862031B (zh) 文本处理方法、神经网络的训练方法、装置和设备
CN114611497B (zh) 语病诊断模型的训练方法、语病诊断方法、装置及设备
CN114064938B (zh) 医学文献的关系抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant