CN111062204B - 基于机器学习的文本标点符号使用错误的识别方法和装置 - Google Patents
基于机器学习的文本标点符号使用错误的识别方法和装置 Download PDFInfo
- Publication number
- CN111062204B CN111062204B CN201911285426.5A CN201911285426A CN111062204B CN 111062204 B CN111062204 B CN 111062204B CN 201911285426 A CN201911285426 A CN 201911285426A CN 111062204 B CN111062204 B CN 111062204B
- Authority
- CN
- China
- Prior art keywords
- clause
- determining
- self
- training set
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供了一种基于机器学习的文本标点符号使用错误的识别方法、装置、存储介质和处理器。该基于机器学习的文本标点符号使用错误的识别方法包括:构建训练集,训练集包括多个训练数据,训练数据为包括多个连续的分句的句子,根据训练集确定序列标注模型,将待分析文本输入至序列标注模型,确定待分析文本的各标点符号位置上出现各种标点符号的概率,根据概率识别使用错误的标点符号。该方法通过训练集和标注模型可以判断标点符号的所在位置的概率,并判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于机器学习的文本标点符号使用错误的识别方法、装置、存储介质和处理器。
背景技术
随着人工智能领域在教育行业开花结果,自动阅卷系统已经被广泛接收和认可,但作文的自动评分技术还不是特别成熟。主要原因是作文考察点复杂多样——字迹清晰美观,句子通顺,围绕中心点,引用名句,标点符号使用规范等等。因此作文评分系统需要各种基础技术模块作为支撑。其中标点符号是否正确使用是重要的评分点之一,因此,需要一种识别标点符号是否正确使用的方法。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于机器学习的文本标点符号使用错误的识别方法、装置、存储介质和处理器,以解决现有技术中难以识别中文文本标点符号是否正确的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于机器学习的文本标点符号使用错误的识别方法,该识别方法包括:构建训练集,所述训练集包括多个训练数据,所述训练数据为包括多个连续的分句的句子,根据所述训练集确定序列标注模型,将待分析文本输入至所述序列标注模型,确定所述待分析文本的各标点符号位置上出现各种标点符号的概率,根据所述概率识别使用错误的所述标点符号。
进一步地,构建训练集,包括:确定训练数据的各所述句子,通过点号将各所述句子以所述分句为单位进行划分,根据划分后的相邻的所述分句构建所述训练集。
进一步地,根据划分后的相邻的所述分句构建所述训练集,包括:将各所述句子的各所述标点符号的标签、各所述句子的相邻的至少两个所述分句、各所述句子的点号位置和各所述句子的分句信息组合成所述训练集,所述分句信息为包括本分句段的信息和其他分句段的信息的矩阵,所述其他分句段的信息为0。
进一步地,相邻的所述分句有三个,根据所述训练集确定序列标注模型,包括:确定自注意机制网络层的输入矩阵为预定输入矩阵,将所述预定输入矩阵与三个所述分句信息分别点乘,得到三个分句矩阵,三个所述分句矩阵分别为第一分句矩阵、第二分句矩阵和第三分句矩阵,各所述分句矩阵对应于所述本分句段的位置上的值与所述预定输入矩阵的值一一对应相等,根据三个所述分句矩阵分别确定三个分句特征,所述三个分句特征分别为第一分句特征、第二分句特征和第三分句特征,根据所述分句特征确定所述序列标注模型。
进一步地,根据所述分句特征确定所述序列标注模型,包括:确定第一自注意力,所述第一自注意力为各所述点号与各所述分句特征的自注意力,根据所述第一自注意力确定所述序列标注模型。
进一步地,在根据所述训练集确定序列标注模型之前,所述识别方法还包括:采用自注意力机制模型,确定第二自注意力,所述第二自注意力为各所述点号与各所述句子的各字的所述自注意力。
进一步地,根据所述第一自注意力确定所述序列标注模型,包括:根据所述第一自注意力和所述第二自注意力确定所述序列标注模型。
进一步地,据所述概率识别使用错误的所述标点符号,包括:在所述概率小于或者等于预定值的情况下,识别所述标点符号使用错误。
根据本申请的另一方面,提供了一种基于机器学习的文本标点符号使用错误的识别装置,识别装置包括:构建单元,用于构建训练集,所述训练集包括多个训练数据,所述训练数据为包括多个连续的分句的句子,第一确定单元,用于根据所述训练集确定序列标注模型,第二确定单元,用于将待分析文本输入至所述序列标注模型,确定所述待分析文本的各标点符号位置上出现各种标点符号的概率,识别单元,根据所述概率识别使用错误的所述标点符号。
根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种所述的识别方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的识别方法。
应用本申请的技术方案,上述的方法中,首先,构建训练集,所述训练集包括多个训练数据,所述训练数据为包括多个连续的分句的句子,其次,根据所述训练集确定序列标注模型,之后,将待分析文本输入至所述序列标注模型,确定所述待分析文本的各标点符号位置上出现各种标点符号的概率,也就是说,确定需要标点的各位置上出现每种标点的概率,比如在各位置上出现逗号的概率、句号的概率以及冒号等的概率;最后,根据所述概率识别使用错误的所述标点符号。该方法通过训练集和标注模型可以确定各标点符号位置的出现各标点的概率,并根据概率判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例的一种基于机器学习的文本标点符号使用错误的识别方法的流程图;以及
图2示出了根据本申请的实施例的一种基于机器学习的文本标点符号使用错误的识别装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
正如背景技术中介绍的,现有技术中难以识别标点符号是否正确使用,为了解决上述问题,根据本申请的实施例,提供了一种基于机器学习的文本标点符号使用错误的识别方法。
图1是根据本申请实施例的基于机器学习的文本标点符号使用错误的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子;
步骤S102,根据上述训练集确定序列标注模型;
步骤S103,将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率;
步骤S104,根据上述概率识别使用错误的上述标点符号。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
上述的方法中,首先,构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子,其次,根据上述训练集确定序列标注模型,之后,将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率,最后,根据上述概率识别使用错误的上述标点符号。该方法通过训练集和标注模型可以确定各标点符号位置的出现各标点的概率,并根据概率判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
本申请的一种实施例中,构建训练集,包括:确定训练数据的各上述句子;通过点号将各上述句子以上述分句为单位进行划分;根据划分后的相邻的上述分句构建上述训练集。即在构建训练集时,先确定所要进行训练的句子,再将句子以单位进行划分,以点号作为划分标准,并将若干相邻句子组合起来生成训练集。也就是说,该训练集中包括了句子的特征,后续,根据这样的训练集确定的序列标注模型能够更加准确地确定出现各种标点符号的概率,后续,可以根据该概率能够更加准确地识别使用错误的标点符号。
需要说明的是,用于作为划分标准的标点符号主要分为两大类型,标号和点号,标号表示的是句子的内容成分,比如,引号、书名号等;点号用于分割句子的语气与语义,比如逗号、问号、句号等等,用标点符号将句子以单位进行划分,这样,使得划分更加明确,为后续确定序列标注模型提供了方便。
当然,用于作为划分标准的标点符号不限于上述的方式,还可以通过其他的标点符号来作文划分标准,标号还可以是破折号、括号、省略号、连接号、间隔号、着重号、专名号等等,点号还可以是顿号、分号、叹号、冒号等等。
本申请的一种实施例中,根据划分后的相邻的上述分句构建上述训练集,包括:将各上述句子的各上述标点符号的标签、各上述句子的相邻的至少两个上述分句、各上述句子的点号位置和各上述句子的分句信息组合成上述训练集,上述分句信息为包括本分句段的信息和其他分句段的信息的矩阵,上述其他分句段的信息为0。即将若干相邻句子组合起来,生成训练集,标识出分句的信息,且训练数据将标点符号列表中的序号作为训练数据标签,这样可以更快捷地标识分句的信息,为合成训练集提供了更为准确的参数,为后续确定模型提供了基础,将其他信息以0的方式表示,表示这个位置不应该使用标点符号,为生成训练集提供了准确的标识方法。
本申请的一种具体的实施例中,相邻的上述分句有三个,即对应有三个分句信息,分别为第一分句信息、第二分句信息和第三分句信息,根据上述训练集确定序列标注模型,包括:确定自注意机制网络层的输入矩阵为预定输入矩阵;将上述预定输入矩阵与三个上述分句信息分别点乘,得到三个分句矩阵,三个上述分句矩阵分别为第一分句矩阵、第二分句矩阵和第三分句矩阵,即第一分句信息与预定输入矩阵点乘,得到第一分句矩阵,第二分句信息与预定输入矩阵点乘,得到第二分句矩阵,第三分句信息与预定输入矩阵点乘,得到第三分句矩阵,各上述分句矩阵对应于上述本分句段的位置上的值与上述预定输入矩阵的值一一对应相等;根据三个上述分句矩阵分别确定三个分句特征,上述三个分句特征分别为第一分句特征、第二分句特征和第三分句特征,根据上述分句特征确定上述序列标注模型。
即将最终训练的句子输入,且每三个句子作为一个整体,沿用Self-Attention(自注意力)框架,且单独提取每个分句的特征信息,然后独立与每个点号做自注意力。最后在将点号位置的两个独立注意力输出合并起来。每个自注意力模块的输入矩阵大小都是[batch_size,seq_len,hidden_size],输出句子大小也同样是[batch_size,seq_len,hidden_size],将其作为预定输入矩阵。
需要说明的是,输入每个Self-Attention(自注意力)前的矩阵(网络有多层Self-Attention(自注意力)),称为预定输入矩阵,记为E,其矩阵大小为[batch_size,seq_len,hidden_size]。E矩阵分别点乘分句信息,分别得到3个分句矩阵,分别记为E1,E2,E3,每个分句矩阵在自己分句位置上与E矩阵值相同,在其他分句和标点符号位置上值为0,E1,E2,E3大小与E一样,都是[batch_size,seq_len,hidden_size]。根据E1,E2,E3来分别生成分句特征F1,F2,F3,分句特征矩阵最终大小为[batch_size,1,hidden_size]。F1,F2,F3的生成方法有多种,比如求平均、做卷积、线性变换等等。
例如,“教授的岗位职责为:一是讲授基础课程,二是主持科研项目。”根据点号位置,分句信息以及标签得到矩阵,其中,冒号(:)在标点符号列表中序号为12,分号(;)序号是4,句号(。)序号是1。上面句子中点号有冒号,分号和句号,句子包含3个分句,所以有3个分句信息。具体如下:
[1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0]
[0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0]
[0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0]
本申请的一种实施例中,根据上述分句特征确定上述序列标注模型,包括:确定第一自注意力,上述第一自注意力为各上述点号与各上述分句特征的自注意力;根据上述第一自注意力确定上述序列标注模型。即确定每个点号与分句特征F1,F2,F3的注意力,得到每个点号对句子注意力向量,可以将F1,F2,F3和各个点号的输入向量拼接起来,记为F,大小为[batch_size,6,hidden_size],用F单独做Self-Attention(自注意力),然后再把对应点号位置的向量抽取出来。通过这一步得到每个点号的注意力向量,这个向量是根句子特征相关的。每个点号的注意力向量大小为[batch_size,1,hidden_size]。
本申请的又一种实施例中,在根据上述训练集确定序列标注模型之前,上述识别方法还包括:采用自注意力机制模型,确定第二自注意力,上述第二自注意力为各上述点号与各上述句子的各字的上述自注意力。即确定每个点号与句子的各字的注意力。
具体的,本申请的一种实施例中,根据上述第一自注意力确定上述序列标注模型,包括:根据上述第一自注意力和上述第二自注意力确定上述序列标注模型。这样根据这两种自注意力确定的序列标注模型更为准确,其可以更加准确地确定各标点位置上的各种标点出现的概率,从而后续可以更加准确地确定各标点符号是否使用正确。
一种具体的实施例中,根据上述第一自注意力和上述第二自注意力确定上述序列标注模型,包括:将第一自注意力和上述第二自注意力相加确定上述序列标注模型,即将各点号与分句特征的自注意力与各点号与各句子的名字的自注意力相加,得到最终的序列标注模型。
本申请的一种实施例中,根据上述概率识别使用错误的上述标点符号,包括:在上述概率小于或者等于预定值的情况下,识别上述标点符号使用错误。相反地,在上述概率大于预定值的情况下,识别上述标点符号使用正确。本申请的预定值可以根据实际情况来确定,根据不同的需求,对应的预定值不同。例如,利用序列标注模型计算在各标点位置上出现各种标点的概率,具体地,某个标点符号的位置出现逗号的概率为50%,出现句号的概率为30%,出现冒号的概率为95%,预定值为90%,因此,如果该标点符号位置上为逗号,那么,该逗号就使用错误了。
本申请实施例还提供了一种基于机器学习的文本标点符号使用错误的识别装置,需要说明的是,本申请实施例的基于机器学习的文本标点符号使用错误的识别装置可以用于执行本申请实施例所提供的用于基于机器学习的文本标点符号使用错误的识别方法。以下对本申请实施例提供的基于机器学习的文本标点符号使用错误的识别装置进行介绍。
图2是根据本申请实施例的基于机器学习的文本标点符号使用错误的识别装置的结构示意图。如图2所示,该装置包括:
构建单元10,用于构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子;
第一确定单元20,用于根据上述训练集确定序列标注模型;
第二确定单元30,用于将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率;
识别单元40,根据上述概率识别使用错误的上述标点符号。
上述的装置中,构建单元构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子,第一确定单元根据上述训练集确定序列标注模型,第二确定单元将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率,识别单元根据上述概率识别使用错误的上述标点符号。该装置通过训练集和标注模型可以确定各标点符号位置的出现各标点的概率,并根据概率判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
本申请的一种实施例中,构建单元包括第一确定模块、划分模块和构建模块,其中,第一确定模块用于确定训练数据的各上述句子,划分模块用于通过点号将各上述句子以上述分句为单位进行划分,构建模块用于根据划分后的相邻的上述分句构建上述训练集。即在构建训练集时,先确定所要进行训练的句子,再将句子以单位进行划分,以点号作为划分标准,并将若干相邻句子组合起来生成训练集。也就是说,该训练集中包括了句子的特征,后续,根据这样的训练集确定的序列标注模型能够更加准确地确定出现各种标点符号的概率,后续,可以根据该概率能够更加准确地识别使用错误的标点符号。
需要说明的是,用于作为划分标准的标点符号主要分为两大类型,标号和点号,标号表示的是句子的内容成分,比如,引号、书名号等;点号用于分割句子的语气与语义,比如逗号、问号、句号等等,用标点符号将句子以单位进行划分,这样,使得划分更加明确,为后续确定序列标注模型提供了方便。
当然,用于作为划分标准的标点符号不限于上述的装置,还可以通过其他的标点符号来作文划分标准,标号还可以是破折号、括号、省略号、连接号、间隔号、着重号、专名号等等,点号还可以是顿号、分号、叹号、冒号等等。
本申请的一种实施例中,第一构建模块还用于将各上述句子的各上述标点符号的标签、各上述句子的相邻的至少两个上述分句、各上述句子的点号位置和各上述句子的分句信息组合成上述训练集,上述分句信息为包括本分句段的信息和其他分句段的信息的矩阵,上述其他分句段的信息为0。即将若干相邻句子组合起来,生成训练集,标识出分句的信息,且训练数据将标点符号列表中的序号作为训练数据标签,这样可以更快捷地标识分句的信息,为合成训练集提供了更为准确的参数,为后续确定模型提供了基础,将其他信息以0的方式表示,表示这个位置不应该使用标点符号,为生成训练集提供了准确的标识装置。
本申请的一种实施例中,第一确定单元包括第二确定模块、点乘模块、第三确定模块和第四确定模块,相邻的上述分句有三个,即对应有三个分句信息,分别为第一分句信息、第二分句信息和第三分句信息,其中第二确定模块用于确定自注意机制网络层的输入矩阵为预定输入矩阵,点乘模块用于将上述预定输入矩阵与三个上述分句信息分别点乘,得到三个分句矩阵,三个上述分句矩阵分别为第一分句矩阵、第二分句矩阵和第三分句矩阵,即第一分句信息与预定输入矩阵点乘,得到第一分句矩阵,第二分句信息与预定输入矩阵点乘,得到第二分句矩阵,第三分句信息与预定输入矩阵点乘,得到第三分句矩阵,各上述分句矩阵对应于上述本分句段的位置上的值与上述预定输入矩阵的值一一对应相等,第三确定模块用于根据三个上述分句矩阵分别确定三个分句特征,上述三个分句特征分别为第一分句特征、第二分句特征和第三分句特征,即根据第一分句矩阵确定第一分句特征,根据第二分句矩阵确定第二分句特征,根据第三分句矩阵确定第三分句特征;第四确定模块用于根据上述分句特征确定上述序列标注模型。
即将最终训练的句子输入,且每三个句子作为一个整体,沿用Self-Attention(自注意力)框架,且单独提取每个分句的特征信息,然后独立与每个点号做自注意力。最后在将点号位置的两个独立注意力输出合并起来。每个自注意力模块的输入矩阵大小都是[batch_size,seq_len,hidden_size],输出句子大小也同样是[batch_size,seq_len,hidden_size],将其作为预定输入矩阵。
需要说明的是,输入每个Self-Attention(自注意力)前的矩阵(网络有多层Self-Attention(自注意力)),称为预定输入矩阵,记为E,其矩阵大小为[batch_size,seq_len,hidden_size]。E矩阵分别点乘分句信息,分别得到3个分句矩阵,分别记为E1,E2,E3,,每个分句矩阵在自己分句位置上与E矩阵值相同,在其他分句和标点符号位置上值为0,E1,E2,E3大小与E一样,都是[batch_size,seq_len,hidden_size]。根据E1,E2,E3来分别生成分句特征F1,F2,F3,分句特征矩阵最终大小为[batch_size,1,hidden_size]。F1,F2,F3的生成方法有多种,比如求平均、做卷积、线性变换等等。
例如,“教授的岗位职责为:一是讲授基础课程,二是主持科研项目。”根据点号位置,分句信息以及标签得到矩阵,其中,冒号(:)在标点符号列表中序号为12,分号(;)序号是4,句号(。)序号是1。上面句子中点号有冒号,分号和句号,句子包含3个分句,所以有3个分句信息。具体如下:
[1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0]
[0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0]
[0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0]
本申请的一种实施例中,第四确定模块包括第一确定子模块和第二确定子模块,第一确定子模块用于确定第一自注意力,上述第一自注意力为各上述点号与各上述分句特征的自注意力,第二确定子模块用于根据上述第一自注意力确定上述序列标注模型。即确定每个点号与分句特征F1,F2,F3的注意力,得到每个点号对句子注意力向量,可以将F1,F2,F3和各个点号的输入向量拼接起来,记为F,大小为[batch_size,6,hidden_size],用F单独做Self-Attention(自注意力),然后再把对应点号位置的向量抽取出来。通过这一步得到每个点号的注意力向量,这个向量是根句子特征相关的。每个点号的注意力向量大小为[batch_size,1,hidden_size]。
本申请的一种实施例中,上述装置还包括第三确定单元,第三确定单元用于在根据上述训练集确定序列标注模型之前,采用自注意力机制模型,确定第二自注意力,上述第二自注意力为各上述点号与各上述句子的各字的上述自注意力。即确定每个点号与句子的各字的注意力。
具体地,本申请的一种实施例中,第二确定子模块包括第三确定子模块,用于根据上述第一自注意力和上述第二自注意力确定上述序列标注模型。这样根据这两种自注意力确定的序列标注模型更为准确,其可以更加准确地确定各标点位置上的各种标点出现的概率,从而后续可以更加准确地确定各标点符号是否使用正确。
一种具体的实施例中,第三确定子模块还用于将第一自注意力和上述第二自注意力相加确定上述序列标注模型,即将各点号与分句特征的自注意力与各点号与各句子的名字的自注意力相加,得到最终的序列标注模型。相反地,在上述概率大于预定值的情况下,识别上述标点符号使用正确。本申请的预定值可以根据实际情况来确定,根据不同的需求,对应的预定值不同。例如,利用序列标注模型计算在各标点位置上出现各种标点的概率,具体地,某个标点符号的位置出现逗号的概率为50%,出现句号的概率为30%,出现冒号的概率为95%,预定值为90%,因此,如果该标点符号位置上为逗号,那么,该逗号就使用错误了。
本申请的一种实施例中,识别单元包括用于在上述概率小于或者等于预定值的情况下,识别上述标点符号使用错误。
上述基于机器学习的文本标点符号使用错误的识别装置包括处理器和存储器,上述构建单元、第一确定单元、第二确定单元和识别单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高识别中文文本标点符号是否正确使用的方法精度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于机器学习的文本标点符号使用错误的识别方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述基于机器学习的文本标点符号使用错误的识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子;
步骤S102,根据上述训练集确定序列标注模型;
步骤S103,将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率;
步骤S104,根据上述概率识别使用错误的上述标点符号。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子;
步骤S102,根据上述训练集确定序列标注模型;
步骤S103,将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率;
步骤S104,根据上述概率识别使用错误的上述标点符号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的基于机器学习的文本标点符号使用错误的识别方法,首先,构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子,其次,根据上述训练集确定序列标注模型,之后,将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率,最后,根据上述概率识别使用错误的上述标点符号。该方法通过训练集和标注模型可以确定各标点符号位置的出现各标点的概率,并根据概率判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
2)、本申请的基于机器学习的文本标点符号使用错误的识别装置,构建单元构建训练集,上述训练集包括多个训练数据,上述训练数据为包括多个连续的分句的句子,第一确定单元根据上述训练集确定序列标注模型,第二确定单元将待分析文本输入至上述序列标注模型,确定上述待分析文本的各标点符号位置上出现各种标点符号的概率,识别单元根据上述概率识别使用错误的上述标点符号。该装置通过训练集和标注模型可以确定各标点符号位置的出现各标点的概率,并根据概率判断标点符号是否使用正确,可以在自动阅卷系统发挥重要的作用,尤其是作文的自动评分技术,在作文考察点复杂多样的情况下判断中文标点符号使用是否正确。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.一种基于机器学习的文本标点符号使用错误的识别方法,其特征在于,包括:
构建训练集,所述训练集包括多个训练数据,所述训练数据为包括多个连续的分句的句子;
根据所述训练集确定序列标注模型;
将待分析文本输入至所述序列标注模型,确定所述待分析文本的各标点符号位置上出现各种标点符号的概率;
根据所述概率识别使用错误的所述标点符号;
构建训练集,包括:
确定训练数据的各所述句子;
通过点号将各所述句子以所述分句为单位进行划分;
根据划分后的相邻的所述分句构建所述训练集;
根据划分后的相邻的所述分句构建所述训练集,包括:
将各所述句子的各所述标点符号的标签、各所述句子的相邻的至少两个所述分句、各所述句子的点号位置和各所述句子的分句信息组合成所述训练集,所述分句信息为包括本分句段的信息和其他分句段的信息的矩阵,所述其他分句段的信息为0;
相邻的所述分句有三个,根据所述训练集确定序列标注模型,包括:
确定自注意机制网络层的输入矩阵为预定输入矩阵;
将所述预定输入矩阵与三个所述分句信息分别点乘,得到三个分句矩阵,三个所述分句矩阵分别为第一分句矩阵、第二分句矩阵和第三分句矩阵,各所述分句矩阵对应于所述本分句段的位置上的值与所述预定输入矩阵的值一一对应相等;
根据三个所述分句矩阵分别确定三个分句特征,所述三个分句特征分别为第一分句特征、第二分句特征和第三分句特征;
根据所述分句特征确定所述序列标注模型;
根据所述分句特征确定所述序列标注模型,包括:
确定第一自注意力,所述第一自注意力为各所述点号与各所述分句特征的自注意力;
根据所述第一自注意力确定所述序列标注模型。
2.根据权利要求1所述的识别方法,其特征在于,在根据所述训练集确定序列标注模型之前,所述识别方法还包括:
采用自注意力机制模型,确定第二自注意力,所述第二自注意力为各所述点号与各所述句子的各字的所述自注意力。
3.根据权利要求2所述的识别方法,其特征在于,根据所述第一自注意力确定所述序列标注模型,包括:
根据所述第一自注意力和所述第二自注意力确定所述序列标注模型。
4.根据权利要求1所述的识别方法,其特征在于,根据所述概率识别使用错误的所述标点符号,包括:
在所述概率小于或者等于预定值的情况下,识别所述标点符号使用错误。
5.一种基于机器学习的文本标点符号使用错误的识别装置,其特征在于,包括:
构建单元,用于构建训练集,所述训练集包括多个训练数据,所述训练数据为包括多个连续的分句的句子;
第一确定单元,用于根据所述训练集确定序列标注模型;
第二确定单元,用于将待分析文本输入至所述序列标注模型,确定所述待分析文本的各标点符号位置上出现各种标点符号的概率;
识别单元,根据所述概率识别使用错误的所述标点符号;
所述构建单元包括第一确定模块、划分模块和构建模块,其中,第一确定模块用于确定训练数据的各所述句子,划分模块用于通过点号将各所述句子以所述分句为单位进行划分,构建模块用于根据划分后的相邻的所述分句构建所述训练集;
所述构建模块还用于将各所述句子的各所述标点符号的标签、各所述句子的相邻的至少两个所述分句、各所述句子的点号位置和各所述句子的分句信息组合成所述训练集,所述分句信息为包括本分句段的信息和其他分句段的信息的矩阵,所述其他分句段的信息为0;
所述第一确定单元包括第二确定模块、点乘模块、第三确定模块和第四确定模块,其中,第二确定模块用于确定自注意机制网络层的输入矩阵为预定输入矩阵,点乘模块用于将所述预定输入矩阵与三个所述分句信息分别点乘,得到三个分句矩阵,三个所述分句矩阵分别为第一分句矩阵、第二分句矩阵和第三分句矩阵,各所述分句矩阵对应于所述本分句段的位置上的值与所述预定输入矩阵的值一一对应相等,第三确定模块用于根据三个所述分句矩阵分别确定三个分句特征,所述三个分句特征分别为第一分句特征、第二分句特征和第三分句特征;第四确定模块用于根据所述分句特征确定所述序列标注模型;
所述第四确定模块包括第一确定子模块和第二确定子模块,第一确定子模块用于确定第一自注意力,所述第一自注意力为各所述点号与各所述分句特征的自注意力,第二确定子模块用于根据所述第一自注意力确定所述序列标注模型。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4中任意一项所述的识别方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285426.5A CN111062204B (zh) | 2019-12-13 | 2019-12-13 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911285426.5A CN111062204B (zh) | 2019-12-13 | 2019-12-13 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062204A CN111062204A (zh) | 2020-04-24 |
CN111062204B true CN111062204B (zh) | 2023-08-22 |
Family
ID=70301634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911285426.5A Active CN111062204B (zh) | 2019-12-13 | 2019-12-13 | 基于机器学习的文本标点符号使用错误的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062204B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884126B (zh) * | 2021-02-26 | 2024-03-08 | 深圳蓝胖子机器智能有限公司 | 深度强化学习网络系统 |
CN113095062B (zh) * | 2021-04-12 | 2024-10-01 | 阿里巴巴创新公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558576A (zh) * | 2018-11-05 | 2019-04-02 | 中山大学 | 一种基于自注意力机制的标点符号预测方法 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
-
2019
- 2019-12-13 CN CN201911285426.5A patent/CN111062204B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109558576A (zh) * | 2018-11-05 | 2019-04-02 | 中山大学 | 一种基于自注意力机制的标点符号预测方法 |
CN109918666A (zh) * | 2019-03-06 | 2019-06-21 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
Non-Patent Citations (1)
Title |
---|
张慧 ; 蒋晔 ; .CRF模型的自动标点预测方法研究.网络新媒体技术.2018,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111062204A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
CN110717039A (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN107221328B (zh) | 修改源的定位方法及装置、计算机设备及可读介质 | |
US10957212B2 (en) | Cognitive essay annotation | |
CN111062204B (zh) | 基于机器学习的文本标点符号使用错误的识别方法和装置 | |
CN104679826A (zh) | 基于分类模型的上下文识别的方法和系统 | |
CN109326279A (zh) | 一种文本转语音的方法、装置、电子设备和存储介质 | |
CN113407675A (zh) | 教育题目自动批改方法、装置和电子设备 | |
CN112101526A (zh) | 基于知识蒸馏的模型训练方法及装置 | |
CN109582774A (zh) | 自然语言分类方法、装置、设备及存储介质 | |
CN109359308B (zh) | 机器翻译方法、装置及可读存储介质 | |
CN109753647A (zh) | 段落的划分方法及装置 | |
CN108664464B (zh) | 一种语义相关度的确定方法及确定装置 | |
CN113722441B (zh) | 一种相似文本的生成方法、装置、设备及存储介质 | |
US20220208018A1 (en) | Artificial intelligence for learning path recommendations | |
CN116560631B (zh) | 一种机器学习模型代码的生成方法及装置 | |
CN115204164B (zh) | 一种电力系统通信敏感信息识别方法、系统及存储介质 | |
US20240232245A1 (en) | Method, device, and medium for consistency detection of a document and an abstract | |
CN110532391B (zh) | 一种文本词性标注的方法及装置 | |
CN111126066B (zh) | 基于神经网络的中文修辞手法的确定方法和装置 | |
CN111460766B (zh) | 一种矛盾语块边界识别的方法及装置 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN112541341A (zh) | 一种文本事件元素提取方法 | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200805 Address after: 1608, 14 / F, No. 65, Beisihuan West Road, Haidian District, Beijing 100080 Applicant after: BEIJING INTERNETWARE Ltd. Address before: No. 603, floor 6, No. 9, Shangdi 9th Street, Haidian District, Beijing 100085 Applicant before: Smart Shenzhou (Beijing) Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |