CN110866390A - 中文语法错误的识别方法、装置、计算机设备和存储介质 - Google Patents

中文语法错误的识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110866390A
CN110866390A CN201910978231.2A CN201910978231A CN110866390A CN 110866390 A CN110866390 A CN 110866390A CN 201910978231 A CN201910978231 A CN 201910978231A CN 110866390 A CN110866390 A CN 110866390A
Authority
CN
China
Prior art keywords
word
words
recognized
grammar
dialect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910978231.2A
Other languages
English (en)
Other versions
CN110866390B (zh
Inventor
王健宗
程宁
于凤英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910978231.2A priority Critical patent/CN110866390B/zh
Priority to PCT/CN2019/117402 priority patent/WO2021072851A1/zh
Publication of CN110866390A publication Critical patent/CN110866390A/zh
Application granted granted Critical
Publication of CN110866390B publication Critical patent/CN110866390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了中文语法错误的识别方法、装置、计算机设备和计算机存储介质。该方法包括获取待识别话术;计算待识别话术中每个字对应的初始特征组;将初始特征组输入至双向循环神经网络中得到中间特征;将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征;将结果特征输入至LR分类器,得到待识别话术的识别指标,其中,识别指标用于表征待识别话术包括语法错误的概率;以及根据识别指标确定待识别话术是否包括语法错误。通过本发明,能够提高中文语法错误的识别准确率。

Description

中文语法错误的识别方法、装置、计算机设备和存储介质
技术领域
本发明涉及语法错误识别技术领域,尤其涉及一种中文语法错误的识别方法、装置、计算机设备和存储介质。
背景技术
中文是一种古老并且复杂的语言,在其漫长的发展历史中,出现了很多与其它语言不同的特点。比如,相对于英文,中文既没有单复数形式,也没有动词时态的变化。中文相对而言表达方式更多样,其语法结构更灵活,而且更倾向于使用短句而不是从句,而且,中文中喜欢重复的表达,而英文省略得更多。这些大量的不同之处让中文的语法错误识别与其他语言产生区别。
随着学习中文的人越来越多,对自动识别中文语法错误的需求越来越多,比如中文输入法自动拼写错误、网络文本规范资质检查、语音识别文字后处理等。相对而言,英文语法错误识别方法已经被研究了很多年,而中文中这方面起步地较晚,近些年才开始引起学者们的重视。
现有技术中存在的一种中文语法错误的识别方法中,基于词语进行的语法错误识别,判断的是话术中每个词语是否错误,对分词的准确性依赖较大,此外,现有技术中采用的特征也较少,使得对中文语法错误识别的准确性较低。
发明内容
本发明的目的是提供一种中文语法错误的识别方法、装置、计算机设备和计算机存储介质,用于解决现有技术中中文语法错误识别率低的技术问题。
一方面,为实现上述目的,本发明提供了一种中文语法错误的识别方法。
该中文语法错误的识别方法包括:获取待识别话术;计算待识别话术中每个字对应的初始特征组;将初始特征组输入至双向循环神经网络中得到中间特征;将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征;将结果特征输入至LR分类器,得到待识别话术的识别指标,其中,识别指标用于表征待识别话术包括语法错误的概率;以及根据识别指标确定待识别话术是否包括语法错误。
进一步地,初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,其中:
计算字的词向量的步骤包括:根据语义对待识别话术进行分词,得到多个第一词语,确定第一词语的词向量,其中,字的词向量为其所属的第一词语的词向量;
计算字的词嵌入向量的步骤包括:在待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对第一话术进行分词,得到多个第二词语,每两个相邻的第二词语具有一个相同的字,确定第二词语的词向量,其中,字的词嵌入向量为其所属的第二词语的词向量,不同字的词嵌入向量不同;
计算字的词性标识的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据第一词语的词性在第一对应关系中查找到第一词标识,根据字的字位置在第二对应关系中查找到第一位置标识,其中,字位置包括字在其第一词语的词首位和非词首位,字的词性标识包括第一词标识和第一位置标识;
采用以下公式计算字的词性离散概率:
Figure RE-GDA0002360370390000021
其中,字的词性离散概率为N*1的数组,P[i]为数组的第i个元素,xi为字在语料库中以第i种词性标识出现的次数,xS为字在语料库中出现的次数,N 为词性标识的种类;
采用以下公式计算字的PMI分数:
Figure RE-GDA0002360370390000022
其中,w1和w2为相邻的两个第三词语,w1为相邻的两个第三词语中的前一个,w2为相邻的两个第三词语中的后一个,p(w1,w2)为相邻的两个第三词语组成的词组在语料库中出现的次数,p(w1)为w1在语料库中出现的次数,p(w2)为w2在语料库中出现的次数,PMI(w2)为w2的PMI分数,字的PMI分数为其所属的第三词语的PMI分数,不同字的PMI分数不同,第三词语为根据语义对第一话术进行分词后得到的词语;
计算字的非相邻词汇搭配特征的步骤包括:在待识别话术中确定每个第一词语的依存词,字的非相邻词汇搭配特征包括字所属的第一词语的词向量、第一词语的依存词的词向量和第一词语与其依存词的依存关系标识。
进一步地,预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个模型组均可得到待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1的自然数;根据识别指标确定待识别话术是否包括语法错误的步骤具体为:判断M个识别指标中指示待识别话术包括语法错误的识别指标是否大于或等于L个;若M个识别指标中指示待识别话术包括语法错误的识别指标大于或等于L个,则确定待识别话术包括语法错误,其中,L大于0且小于或等于M。
进一步地,中文语法错误的识别方法还包括:在获取待识别话术之前,接收待识别文本;将待识别文本分割为多个待识别话术;在确定待识别文本中的每个待识别话术是否包括语法错误之后,将待识别文本中包括语法错误的待识别话术按照识别指标进行排序,删除识别指标较低的预定百分比的待识别话术,得到错误话术组;预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个模型组均可得到待识别文本对应的错误话术组,则可得到M个错误话术组,其中,M为大于1的自然数;合并M个错误话术组,以最终确定待识别文本包括语法错误的话术。
进一步地,识别指标为0~1之间的数值,根据识别指标确定待识别话术是否包括语法错误的步骤包括:判断识别指标是否大于0.5;若识别指标大于0.5,则确定待识别话术包括语法错误;若识别指标小于或等于0.5,则确定待识别话术不包括语法错误。
另一方面,为实现上述目的,本发明提供了一种中文语法错误的识别装置。
该中文语法错误的识别装置包括:获取模块,用于获取待识别话术;计算模块,用于计算待识别话术中每个字对应的初始特征组;第一处理模块,用于将初始特征组输入至双向循环神经网络中得到中间特征;第二处理模块,用于将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征;第三处理模块,用于将结果特征输入至LR分类器,得到待识别话术的识别指标,其中,识别指标用于表征待识别话术包括语法错误的概率;以及确定模块,用于根据识别指标确定待识别话术是否包括语法错误。
进一步地,初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,其中:
计算模块在计算字的词向量时,执行的步骤包括:根据语义对待识别话术进行分词,得到多个第一词语,确定第一词语的词向量,其中,字的词向量为其所属的第一词语的词向量;
计算模块在计算字的词嵌入向量时,执行的步骤包括:在待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对第一话术进行分词,得到多个第二词语,每两个相邻的第二词语具有一个相同的字,确定第二词语的词向量,其中,字的词嵌入向量为其所属的第二词语的词向量,不同字的词嵌入向量不同;
计算模块在计算字的词性标识时,执行的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据第一词语的词性在第一对应关系中查找到第一词标识,根据字的字位置在第二对应关系中查找到第一位置标识,其中,字位置包括字在其第一词语的词首位和非词首位,字的词性标识包括第一词标识和第一位置标识;
计算模块采用以下公式计算字的词性离散概率:
Figure RE-GDA0002360370390000041
其中,字的词性离散概率为N*1的数组,P[i]为数组的第i个元素,xi为字在语料库中以第i种词性标识出现的次数,xS为字在语料库中出现的次数,N 为词性标识的种类;
计算模块采用以下公式计算字的PMI分数:
Figure RE-GDA0002360370390000051
其中,w1和w2为相邻的两个第三词语,w1为相邻的两个第三词语中的前一个,w2为相邻的两个第三词语中的后一个,p(w1,w2)为相邻的两个第三词语组成的词组在语料库中出现的次数,p(w1)为w1在语料库中出现的次数,p(w2)为w2在语料库中出现的次数,PMI(w2)为w2的PMI分数,字的PMI分数为其所属的第三词语的PMI分数,不同字的PMI分数不同,第三词语为根据语义对第一话术进行分词后得到的词语;
计算模块计算字的非相邻词汇搭配特征时,执行的步骤包括:在待识别话术中确定每个第一词语的依存词,字的非相邻词汇搭配特征包括字所属的第一词语的词向量、第一词语的依存词的词向量和第一词语与其依存词的依存关系标识。
进一步地,中文语法错误的识别装置还包括存储模块,存储模块用于存储预置的双向循环神经网络和LR分类器一一对应的M个模型组,通过每个模型组均可得到待识别话术的识别指标,则可得到M个识别指标,其中,M为大于 1的自然数;确定模块还用于判断M个识别指标中指示待识别话术包括语法错误的识别指标是否大于或等于L个;其中,若M个识别指标中指示待识别话术包括语法错误的识别指标大于或等于L个,则确定模块确定待识别话术包括语法错误,其中,L大于0且小于或等于M。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的中文语法错误的识别方法、装置、计算机设备和计算机存储介质,获取到待识别话术后,针对待识别话术中的每个字,分别计算其初始特征组,然后将每个字的初始特征组输入至训练好的双向循环神经网络,将双向循环神经网络的输出定义为中间特征,再将待识别话术中每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,形成待识别话术对应的结果特征,将结果特征输入至LR分类器后,LR分类器输出待识别话术的识别指标,最终根据该识别指标来确定待识别话术是否包括语法错误。其中,在构建待识别话术的识别特征时,提取的是每个字的初始特征组,与现有技术中提取词语的特征而言,对分词的依赖性较小,然后又将每个字的特征作为训练好的双向循环神经网络的一个输入,使得双向循环神经网络能够自适应地学习待识别话术中非相邻字之间的长距离依赖,将双向循环神经网络的所有输出拼接后形成待识别话术的整体特征输入分类器进行计算,使识别指标类器输出的识别指标能够反映出待识别话术中的长距离搭配错误,提升中文语法错误识别的准确率。
附图说明
图1为本发明实施例一提供的中文语法错误的识别方法的步骤流程图;
图2为本发明实施例二提供的中文语法错误的识别方法的步骤流程图;
图3为本发明实施例三提供的中文语法错误的识别方法的步骤流程图;
图4为本发明实施例四提供的中文语法错误的识别装置的框图
图5为本发明实施例五提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种中文语法错误的识别方法、装置、计算机设备和计算机存储介质,在中文语法错误的识别方法中,构建待识别话术中每个字对应的初始特征组,然后将特征序列输入至双向循环神经网络中进一步提取特征,将提取到的特征定义为中间特征,然后将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征,将结构特征输入到LR分类器中,得到待识别话术的识别指标,最终根据该识别指标确定待识别话术是否包括语法错误,其中,构建的初始特征组是针对待识别话术中每个字的初始特征组,减小对分词准确性的依赖,从而该双向循环神经网络能够更好地自适应地学习待识别话术中各个非相邻字之间的长距离依赖,有助于识别话术中的长距离搭配错误,提升中文语法错误识别的准确率。
关于本发明提供的中文语法错误的识别方法、装置、计算机设备和计算机存储介质的具体实施例,将在下文中详细描述。
实施例一
本发明实施例提供了一种中文语法错误的识别方法,对中文话术进行语法错误的识别,通过该方法,能够提升中文语法错误识别的准确率,具体地,图 1为本发明实施例一提供的中文语法错误的识别方法的步骤流程图,如图1所示,该实施例提供的中文语法错误的识别方法包括如下的步骤S101至步骤S106。
步骤S101:获取待识别话术。
其中,该中文语法错误的识别方法可针对单个话术进行识别,也可以对一篇文章或一段文字等包括多个话术的文本进行识别。对单个话术进行识别时,该单个话术即为待识别话术。对文本进行识别时,可先对文本进行话术的分离,然后分离出的每个话术均为一个待识别话术。
步骤S102:计算待识别话术中每个字对应的初始特征组。
可选地,初始特征组包括至少两个特征,能够从更多的维度反馈字的特征,进一步可选地,具体包括词向量、词嵌入向量、词性标识、词性离散概率、PMI 分数和非相邻词汇搭配特征中的至少两个。
关于初始特征组中包括的各个特征的计算方法,详细描述如下:
(1)计算字的词向量的步骤包括:
根据语义对待识别话术进行分词,将根据语义分词后得到的多个词语均命名为第一词语,例如,待识别话术为“我想要买保险”,根据语义分词后得到的第一词语包括“我”、“想要”、“买”、“保险”,共四个第一词语。然后确定第一词语的词向量,其中,词向量是一种对词汇语义进行数学表征的向量,可以采用现有技术中任意的词向量表征方式,该处不再详述,可由大语料训练得到,可选地,该处的词向量使用谷歌开源的中文预训练词向量。无论采用何种方式得到第一词语的词向量,本发明中字的词向量是指其所属的第一词语的词向量,例如“想要”中的“想”和“要”的词向量是指“想要”的词向量。
(2)计算字的词嵌入向量的步骤包括:
在待识别话术的首尾分别添加间隔字,将待识别话术和首尾的间隔字组成的新的话术定义为第一话术,其中,间隔字可以为任意字,或者也可以为非中文的特殊字符,然后以相邻两个字为一组对第一话术进行分词,分词后得到的每个词语均定义为第二词语,其中,每两个相邻的第二词语具有一个相同的字,例如,第一话术为“#我想要买保险*”,以相邻两个字为一组进行分词后,得到的第二词语包括“#我”、“我想”、“想要”、“要买”、“买保”、“保险”和“险*”。然后确定第二词语的词向量,在确定第二词语的词向量时,可采用与确定第一词语的词向量相同的方式,该处不再赘述。无论采用何种方式得到第二词语的词向量,本发明中字的词嵌入向量是指其所属的第二词语的词向量,不同字的词嵌入向量不同,也即,可将每个第二词语的词向量作为其第一个字的词嵌入向量,或者可将每个第二词语的词向量作为其第二个字的词嵌入向量,例如“#我”、“我想”、“想要”、“要买”、“买保”和“保险”依次为“我”、“想”、“要”、“买”、“保”和“险”的词嵌入向量,或者“我想”、“想要”、“要买”、“买保”、“保险”和“险*”依次为“我”、“想”、“要”、“买”、“保”和“险”的词嵌入向量。
(3)计算字的词性标识的步骤包括:
预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,其中,词性可包括名词、动词、形容词和副词等,例如用A、B、C、D作为词标识,依次与名词、动词、形容词和副词对应。字位置包括字在其第一词语的词首位和非词首位,例如第一词语“想要”,其中“想”在“想要”的词首位,“要”在“想要”的非词首位,又如,第一词语“拖拉机”,其中“拖”在“拖拉机”的词首位,“拉”和“机”均在“拖拉机”的非词首位。用1和0作为位置标识,1对应词首位,0对应非词首位。
然后根据第一词语的词性在第一对应关系中查找到第一词标识,根据字的字位置在第二对应关系中查找到第一位置标识,其中,字的词性标识包括第一词标识和第一位置标识。例如,“拖拉机”的词性为名词,在第一对应关系中查找到第一词标识为A,“拖”的字位置为词首位,在第二对应关系中查找到第一位置标识为1,“拉”和“机”的字位置均为非词首位,在第二对应关系中查找到第一位置标识均为1,则“拖”的词性标识为A1,“拉”和“机”的词性标识均为A0。
(4)采用以下公式计算字的词性离散概率:
Figure RE-GDA0002360370390000091
其中,字的词性离散概率为N*1的数组,P[i]为数组的第i个元素,xi为字在语料库中以第i种词性标识出现的次数,xS为字在语料库中出现的次数,N 为词性标识的种类,例如,词性包括名词、动词、形容词、副词和其他,该处的其他表示名词、动词、形容词和副词之外的词性,词标识依次为A、B、C、 D和X,字位置包括词首位和非词首位,位置标识依次为1和0,词性标识的种类为十种,分别A1、B1、C1、D1、X1、A0、B0、C0、D0、X0,N=10。字的词性离散概率为10*1的数组,P[i]为数组的第i个元素,具体为P[1]、P[2]和 P[3]、…P[9]、P[10];xi为字在语料库中以第i种词性标识出现的次数,具体地,x1为字在语料库中以词性标识为A1出现的次数,x2为字在语料库中以词性标识为B1出现的次数…,x9为字在语料库中以词性标识为D0出现的次数, x10为字在语料库中以词性标识为X0出现的次数。
在该步骤中,通过一语料库进行计算,可得到每个字的词性离散概率。
(5)采用以下公式计算字的PMI分数:
Figure RE-GDA0002360370390000092
其中,w1和w2为相邻的两个第三词语,w1为相邻的两个第三词语中的前一个,w2为相邻的两个第三词语中的后一个,p(w1,w2)为相邻的两个第三词语组成的词组在语料库中出现的次数,p(w1)为w1在语料库中出现的次数,p(w2)为w2在语料库中出现的次数,PMI(w2)为w2的PMI分数,字的PMI分数为其所属的第三词语的PMI分数。
具体地,第三词语为根据语义对第一话术进行分词后得到的词语,仍以上文中举例的第一话术为“#我想要买保险*”为例,根据语义对第一话术进行分词后,得到的第三词语包括“#”、“我”、“想要”、“买”、“保险”和“*”,其中,若w1为“我”,则w2为“想要”,若w1为“想要”,则w2为“买”。w1为“我”,w2 为“想要”为例,“想要”的PMI分数根据“我想要”在语料库中出现的次数、“我”单独在语料库中出现的次数和“想要”单独在语料库中出现的次数计算得到,则“想”和“要”的PMI分数均为“想要”的PMI分数。
(6)计算字的非相邻词汇搭配特征的步骤包括:
在待识别话术中确定每个第一词语的依存词,字的非相邻词汇搭配特征包括字所属的第一词语的词向量、第一词语的依存词的词向量和第一词语与其依存词的依存关系标识。
具体地,对待识别话术按照语义进行分词后,得到多个第一词语,进一步利用依存句法分析工具,例如stanford parser,可以得到待识别话术中每个第一词语的依存词,以及第一词语和依存词之间的依存关系,该关系包括主谓、并列、偏正和动宾等,可设置依存关系标识来区分不同的依存关系,例如利用向量表示,具体可通过one-hot向量表示依存关系,也即可以用0001表示主谓, 0010表示并列、0100表示偏正、1000表示动宾。例如某待识别话术为“我想要买重疾险和医疗险”,分词后得到的第一词语包括“我”、“想要”、“买”、“重疾险”、“和”、“医疗险”,其中,“重疾险”的依存词为“医疗险”,二者的依存关系为并列,对应的向量为0010,则“重”、“疾”和“险”的非相邻词汇搭配特征包括“重疾险”的词向量、“医疗险”的依存词的词向量和 0010。
可选地,可对上述六种特征按照上述(1)至(6)的顺序进行拼接,得到初始特征组。或者也可按照其他顺序进行拼接,本申请对此并不进行限定。
步骤S103:将初始特征组输入至双向循环神经网络中得到中间特征。
其中,双向循环神经网络是两层的深度循环神经网络,能够用于学习目标与完整输入序列的相关性,因此,在该步骤中,将待识别话术中所有字对应的初始特征组构成待识别对应的一个完整输入序列,双向循环神经网络能够输出表征待识别话术语法的特征,在本申请中,将该表征待识别话术语法的特征定义为中间特征。当待识别话术包括N个字时,输入序列包括N个初始特征组,双向循环神经网络相应输出N个中间特征。
步骤S104:将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征。
在该步骤中,将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到的结果特征也即待识别话术的整体语法特征。例如,待识别话术包括a1、a2、a3、…、an共n个字,分别计算每个字的初始特征组依次得到b1、 b2、b3、…、bn共n个初始特征组,将n个初始特征组作为双向循环神经网络的输入,输出c1、c2、c3、…、cn共n个中间特征,然后将n个中间特征按照 1、2、3~n的顺序进行拼接,c1c2c3…cn即为结果特征。
步骤S105:将结果特征输入至LR分类器,得到待识别话术的识别指标。
LR分类器为线性分类器,在本申请中用于根据话术对应的结果特征对话术进行分类,对LR分类器进行训练后,将话术的结果特征输入LR分类器后, LR分类器能够输出话术的识别指标,其中,识别指标用于表征待识别话术包括语法错误的概率。
因此,在该步骤中,将上述待识别话术的结果特征输入至LR分类器后,能够得到待识别话术的识别指标。
步骤S106:根据识别指标确定待识别话术是否包括语法错误。
可选地,在步骤S105中,LR分类器输出的待识别话术的识别指标为0~1 之间的数值,在步骤S106中,在根据识别指标确定待识别话术是否包括语法错误时,判断识别指标是否大于0.5,若识别指标大于0.5,则确定待识别话术包括语法错误;若识别指标小于或等于0.5,则确定待识别话术不包括语法错误。
可选地,在上述步骤S103之前,使用样本数据库对初始双向循环神经网络和初始LR分类器进行训练,以得到步骤S103中使用的双向循环神经网络和步骤S106中使用的LR分类器。
具体地,在训练时,首先获取样本数据库,样本数据库中包括多个话术样本,该多个话术样本中部分为存在语法错误的话术,部分为不存在语法错误的话术,其中,数据库中样本的覆盖性越高,训练得到的模型泛化能力越好。获取到样本数据库后,按照上述的步骤S102对每个话术样本进行计算,得到每个话术样本中每个字的初始特征组,同时按照话术样本是否存在语法错误设置对应的识别指标,定义为样本识别指标。
然后构建初始双向循环神经网络和初始LR分类器,对于每个话术样本,将话术样本中每个字的初始特征组分别作为初始双向循环神经网络的一个输入,将初始双向循环神经网络的所有输出进行拼接后作为初始LR分类器的输入,以该话术样本的样本识别指标作为初始LR分类器输出,对初始双向循环神经网络和初始LR分类器进行训练,训练后即可得到上述步骤S103和步骤S105 中使用的训练好的双向循环神经网络和LR分类器。
采用该实施例提供的中文语法错误的识别方法,获取到待识别话术后,针对待识别话术中的每个字,分别计算每个字的初始特征组,然后将每个字的初始特征组输入至训练好的双向循环神经网络,将双向循环神经网络的输出定义为中间特征,再将待识别话术中每个字对应的中间特征进行拼接,形成待识别话术对应的结果特征,将结果特征输入至LR分类器后,LR分类器输出待识别话术的识别指标,最终根据该识别指标来确定待识别话术是否包括语法错误。其中,在构建待识别话术的识别特征时,基于字的特征与现有技术中提取词语的特征而言,对分词的依赖性较小,然后又将每个字的特征作为训练好的双向循环神经网络的一个输入,使得双向循环神经网络能够自适应地学习待识别话术中非相邻字之间的长距离依赖,将双向循环神经网络的所有输出拼接后形成待识别话术的整体特征输入分类器进行计算,使识别指标类器输出的识别指标能够反映出待识别话术中的长距离搭配错误,提升中文语法错误识别的准确率。
实施例二
本发明实施例二提供了一种优选地中文语法错误的识别方法,部分特征和相应的技术效果与上述实施例一相同,可参考上述实施例一,该处不在赘述。在该实施例中,预置双向循环神经网络和LR分类器一一对应的M个模型组,也即训练多个模型组,各个模型组的结构相同,初始训练参数通过随机生成,通过每个模型组均可得到一个待识别话术的识别指标,也即,每个待识别话术可得到M个识别指标,其中,M为大于1的自然数。具体地,图2为本发明实施例二提供的中文语法错误的识别方法的步骤流程图,如图2所示,该实施例提供的中文语法错误的识别方法包括如下的步骤S201至步骤S207。
步骤S201:获取待识别话术;
步骤S202:计算待识别话术中每个字对应的初始特征组。
步骤S203:获取一个模型组。
步骤S204:将初始特征组输入模型组,得到待识别话术对应的一个识别指标。
具体地,将初始特征组输入至模型组中的双向循环神经网络中得到中间特征,再将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征,再将结果特征输入至模型组中的LR分类器,得到待识别话术的识别指标,识别指标用于表征待识别话术包括语法错误的概率。
对于M个模型组,循环执行步骤S203至步骤S204,即可得到M个识别指标。
可选地,设置预定阈值,当识别指标大于该预定阈值时,该识别指标指示待识别话术包括语法错误,当设置识别指标大于预定阈值时,该识别指标指示待识别话术包括语法错误,当识别指标小于或等于该预定阈值时,该识别指标指示待识别话术不包括语法错误。
步骤S205:判断M个识别指标中指示待识别话术包括语法错误的识别指标是否大于或等于L个。
步骤S206:若M个识别指标中指示待识别话术包括语法错误的识别指标大于或等于L个,则确定待识别话术包括语法错误。
其中,L大于0且小于或等于M。
步骤S207:若M个识别指标中指示待识别话术包括语法错误的识别指标小于L个,则确定待识别话术不包括语法错误。
采用该实施例提供的中文语法错误的识别方法,设置多个模型组,将待识别话术各个字对应的初始特征组输入至每个模型组后,均可得到一个识别指标,每个识别指标均可指示待识别话术是否包括语法错误,也即均可得到一个识别结果,通过融合多个模型组的识别结果来确定待识别话术是否包括语法错误,能够进一步提升语法错误识别的准确性。
实施例三
本发明实施例三提供了一种优选地中文语法错误的识别方法,部分特征和相应的技术效果与上述实施例一相同,可参考上述实施例一,该处不在赘述。该实施例针对的是对包括多个话术的待识别文本的识别,在该实施例中,预置双向循环神经网络和LR分类器一一对应的M个模型组,也即训练多个模型组,各个模型组的结构相同,初始训练参数通过随机生成,通过每个模型组均可得到待识别文本的对应的错误话术组,也即,待识别文本对应M个错误话术组,其中,M为大于1的自然数。具体地,图3为本发明实施例三提供的中文语法错误的识别方法的步骤流程图,如图3所示,该实施例提供的中文语法错误的识别方法包括如下的步骤S301至步骤S307。
步骤S301:接收待识别文本。
步骤S302:将待识别文本分割为多个待识别话术,并计算每个待识别话术中每个字对应的初始特征组。
步骤S303:获取一个模型组。
步骤S304:将一个待识别话术对应的初始特征组输入至模型组,得到该待识别话术对应的一个识别指标。
具体地,将初始特征组输入至模型组中的双向循环神经网络中得到中间特征,再将每个字对应的中间特征进行拼接,得到结果特征,再将结果特征输入至模型组中的LR分类器,得到待识别话术的识别指标。
步骤S305:根据识别指标确定待识别话术是否包括语法错误。
将待识别文本中的每个待识别话术对应的初始特征组输入至模型组,即可得到待识别文本中的每个待识别话术的识别指标,进而根据每个识别指标可确定出每个待识别话术是否包括语法错误。在确定待识别文本中的每个待识别话术是否包括语法错误之后,也即确定出待识别文本中包括语法错误的待识别话术之后,执行下述步骤。
步骤S306:将待识别文本中包括语法错误的待识别话术按照识别指标进行排序,删除识别指标较低的预定百分比的待识别话术,得到错误话术组。
对于M个模型组,循环执行步骤S303至步骤S306,即可得到M个错误话术组。需要说明的是,在该实施例中,首先计算得到每个待识别话术中每个字对应的初始特征组,然后再去获取一个模型组进行计算,但本发明并不限定于该步骤执行时序。例如,也可以在获取到每个模型组后,均针对每个待识别话术进行一次初始特征组的计算,或者,也可以在获取到一个模型组后,计算每个待识别话术对应的初始特征组,然后进行存储,从而后续获取到其他模型组后,直接利用存储的初始特征组识别即可。
步骤S307:合并M个错误话术组,以最终确定待识别文本包括语法错误的话术。
其中,在合并M个错误话术组时,将不同错误话术组种相同的话术只保留一个即可,最终形成的错误话术组即为最终确定待识别文本包括语法错误的话术。
采用该实施例提供的中文语法错误的识别方法,针对包括多个话术的待识别文本,设置多个模型组,将待识别话术各个字对应的初始特征组输入至每个模型组后,均可得到一个识别指标,每个识别指标均可指示待识别话术是否包括语法错误,从而对于待识别文本而言,均可得到其中包括语法错误的话术,也即错误话术组,通过融合多个模型组得到的错误话术组来确定待识别文本中包括的错误话术,能够提升针对文本中话术语法错误识别的准确性。
实施例四
对应于上述实施例,本发明实施例四提供了一种中文语法错误的识别装置,该识别装置与上述实施例中识别方法具有相对应的技术特征以及技术效果,该处不再详细描述。图4为本发明实施例四提供的中文语法错误的识别装置的框图,如图4所示,该装置包括:获取模块401、计算模块402、第一处理模块 403、第二处理模块404、第三处理模块405和确定模块406。
其中,获取模块401用于获取待识别话术;计算模块402用于计算待识别话术中每个字对应的初始特征组;第一处理模块403用于将初始特征组输入至双向循环神经网络中得到中间特征;第二处理模块404用于将每个字对应的中间特征按照待识别话术中各个字的顺序进行拼接,得到结果特征;第三处理模块405用于将结果特征输入至LR分类器,得到待识别话术的识别指标,,其中,该识别指标用于表征待识别话术包括语法错误的概率;以及确定模块406 用于根据识别指标确定待识别话术是否包括语法错误。
可选地,初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、 PMI分数和非相邻词汇搭配特征中的至少两个,其中:
计算模块在计算字的词向量时,执行的步骤包括:根据语义对待识别话术进行分词,得到多个第一词语,确定第一词语的词向量,其中,字的词向量为其所属的第一词语的词向量;
计算模块在计算字的词嵌入向量时,执行的步骤包括:在待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对第一话术进行分词,得到多个第二词语,每两个相邻的第二词语具有一个相同的字,确定第二词语的词向量,其中,字的词嵌入向量为其所属的第二词语的词向量,不同字的词嵌入向量不同;
计算模块在计算字的词性标识时,执行的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据第一词语的词性在第一对应关系中查找到第一词标识,根据字的字位置在第二对应关系中查找到第一位置标识,其中,字位置包括字在其第一词语的词首位和非词首位,字的词性标识包括第一词标识和第一位置标识;
计算模块采用以下公式计算字的词性离散概率:
Figure RE-GDA0002360370390000171
其中,字的词性离散概率为N*1的数组,P[i]为数组的第i个元素,xi为字在语料库中以第i种词性标识出现的次数,xS为字在语料库中出现的次数,N 为词性标识的种类;
计算模块采用以下公式计算字的PMI分数:
Figure RE-GDA0002360370390000172
其中,w1和w2为相邻的两个第三词语,w1为相邻的两个第三词语中的前一个,w2为相邻的两个第三词语中的后一个,p(w1,w2)为相邻的两个第三词语组成的词组在语料库中出现的次数,p(w1)为w1在语料库中出现的次数,p(w2)为w2在语料库中出现的次数,PMI(w2)为w2的PMI分数,字的PMI分数为其所属的第三词语的PMI分数,不同字的PMI分数不同,第三词语为根据语义对第一话术进行分词后得到的词语;
计算模块计算字的非相邻词汇搭配特征时,执行的步骤包括:在待识别话术中确定每个第一词语的依存词,字的非相邻词汇搭配特征包括字所属的第一词语的词向量、第一词语的依存词的词向量和第一词语与其依存词的依存关系标识。
可选地,中文语法错误的识别装置还包括存储模块,存储模块用于存储预置的双向循环神经网络和LR分类器一一对应的M个模型组,通过每个模型组均可得到待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1 的自然数;确定模块还用于判断M个识别指标中指示待识别话术包括语法错误的识别指标是否大于或等于L个;其中,若M个识别指标中指示待识别话术包括语法错误的识别指标大于或等于L个,则确定模块确定待识别话术包括语法错误,其中,L大于0且小于或等于M。
可选地,该装置还包括:接收模块、分割模块、删除模块、预设模块和合并模块。其中,接收模块用于在获取模块获取待识别话术之前,接收待识别文本;分割模块用于将待识别文本分割为多个待识别话术;删除模块用于在确定模块确定待识别文本中的每个待识别话术是否包括语法错误之后,将待识别文本中包括语法错误的待识别话术按照识别指标进行排序,删除识别指标较低的预定百分比的待识别话术,得到错误话术组;预设模块用于预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个模型组均可得到待识别文本对应的错误话术组,则可得到M个错误话术组,其中,M为大于1的自然数;合并模块用于合并M个错误话术组,以最终确定待识别文本包括语法错误的话术。
可选地,识别指标为0~1之间的数值,确定模块在根据识别指标确定待识别话术是否包括语法错误时,具体执行的步骤包括:判断识别指标是否大于0.5;若识别指标大于0.5,则确定待识别话术包括语法错误;若识别指标小于或等于 0.5,则确定待识别话术不包括语法错误。
实施例五
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算机设备01至少包括但不限于:可通过系统总线相互通信连接的存储器011、处理器012,如图3所示。需要指出的是,图5仅示出了具有组件存储器011和处理器012的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器011可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器011也可以是计算机设备 01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡 (Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器011通常用于存储安装于计算机设备 01的操作系统和各类应用软件,例如实施例四的中文语法错误的识别装置的程序代码等。此外,存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器012在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中,处理器012用于运行存储器011中存储的程序代码或者处理数据,例如中文语法错误的识别方法等。
实施例六
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储中文语法错误的识别装置,被处理器执行时实现实施例一的中文语法错误的识别方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种中文语法错误的识别方法,其特征在于,包括:
获取待识别话术;
计算所述待识别话术中每个字对应的初始特征组;
将所述初始特征组输入至双向循环神经网络中得到每个字对应的中间特征;
将每个字对应的所述中间特征按照所述待识别话术中各个字的顺序进行拼接,得到结果特征;
将所述结果特征输入至LR分类器,得到所述待识别话术的识别指标,其中,所述识别指标用于表征所述待识别话术包括语法错误的概率;以及
根据所述识别指标确定所述待识别话术是否包括语法错误。
2.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,其中:
计算所述字的词向量的步骤包括:根据语义对所述待识别话术进行分词,得到多个第一词语,确定所述第一词语的词向量,其中,所述字的词向量为其所属的第一词语的词向量;
计算所述字的词嵌入向量的步骤包括:在所述待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对所述第一话术进行分词,得到多个第二词语,每两个相邻的所述第二词语具有一个相同的字,确定所述第二词语的词向量,其中,所述字的词嵌入向量为其所属的第二词语的词向量,不同字的所述词嵌入向量不同;
计算所述字的词性标识的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据所述第一词语的词性在所述第一对应关系中查找到第一词标识,根据所述字的字位置在所述第二对应关系中查找到第一位置标识,其中,所述字位置包括所述字在其所述第一词语的词首位和非词首位,所述字的词性标识包括所述第一词标识和所述第一位置标识;
采用以下公式计算所述字的词性离散概率:
Figure RE-FDA0002360370380000021
其中,所述字的词性离散概率为N*1的数组,P[i]为所述数组的第i个元素,xi为所述字在语料库中以第i种所述词性标识出现的次数,xS为所述字在所述语料库中出现的次数,N为所述词性标识的种类;
采用以下公式计算所述字的PMI分数:
Figure RE-FDA0002360370380000022
其中,w1和w2为相邻的两个第三词语,w1为所述相邻的两个第三词语中的前一个,w2为所述相邻的两个第三词语中的后一个,p(w1,w2)为所述相邻的两个第三词语组成的词组在所述语料库中出现的次数,p(w1)为所述w1在所述语料库中出现的次数,p(w2)为所述w2在所述语料库中出现的次数,PMI(w2)为所述w2的PMI分数,所述字的PMI分数为其所属的第三词语的PMI分数,不同字的所述PMI分数不同,所述第三词语为根据语义对所述第一话术进行分词后得到的词语;
计算所述字的非相邻词汇搭配特征的步骤包括:在所述待识别话术中确定每个所述第一词语的依存词,所述字的非相邻词汇搭配特征包括所述字所属的第一词语的词向量、所述第一词语的依存词的词向量和所述第一词语与其依存词的依存关系标识。
3.根据权利要求1所述的中文语法错误的识别方法,其特征在于,
预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1的自然数;
根据所述识别指标确定所述待识别话术是否包括语法错误的步骤具体为:
判断M个识别指标中指示所述待识别话术包括语法错误的识别指标是否大于或等于L个;
若M个识别指标中指示所述待识别话术包括语法错误的识别指标大于或等于L个,则确定所述待识别话术包括语法错误,其中,L大于0且小于或等于M。
4.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述方法还包括:
在获取待识别话术之前,接收待识别文本;将所述待识别文本分割为多个所述待识别话术;
在确定所述待识别文本中的每个待识别话术是否包括语法错误之后,将所述待识别文本中包括语法错误的待识别话术按照所述识别指标进行排序,删除识别指标较低的预定百分比的所述待识别话术,得到错误话术组;
预置双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别文本对应的所述错误话术组,则可得到M个错误话术组,其中,M为大于1的自然数;
合并所述M个错误话术组,以最终确定所述待识别文本包括语法错误的话术。
5.根据权利要求1所述的中文语法错误的识别方法,其特征在于,所述识别指标为0~1之间的数值,根据所述识别指标确定所述待识别话术是否包括语法错误的步骤包括:
判断所述识别指标是否大于0.5;
若所述识别指标大于0.5,则确定所述待识别话术包括语法错误;
若所述识别指标小于或等于0.5,则确定所述待识别话术不包括语法错误。
6.一种中文语法错误的识别装置,其特征在于,包括:
获取模块,用于获取待识别话术;
计算模块,用于计算所述待识别话术中每个字对应的初始特征组;
第一处理模块,用于将所述初始特征组输入至双向循环神经网络中得到每个字对应的中间特征;
第二处理模块,用于将每个字对应的所述中间特征按照所述待识别话术中各个字的顺序进行拼接,得到结果特征;
第三处理模块,用于将所述结果特征输入至LR分类器,得到所述待识别话术的识别指标,其中,所述识别指标用于表征所述待识别话术包括语法错误的概率;以及
确定模块,用于根据所述识别指标确定所述待识别话术是否包括语法错误。
7.根据权利要求6所述的中文语法错误的识别装置,其特征在于,所述初始特征组包括词向量、词嵌入向量、词性标识、词性离散概率、PMI分数和非相邻词汇搭配特征中的至少两个,
所述计算模块在计算所述字的词向量时,执行的步骤包括:根据语义对所述待识别话术进行分词,得到多个第一词语,确定所述第一词语的词向量,其中,所述字的词向量为其所属的第一词语的词向量;
所述计算模块在计算所述字的词嵌入向量时,执行的步骤包括:在所述待识别话术的首尾分别添加间隔字,得到第一话术;以相邻两个字为一组对所述第一话术进行分词,得到多个第二词语,每两个相邻的所述第二词语具有一个相同的字,确定所述第二词语的词向量,其中,所述字的词嵌入向量为其所属的第二词语的词向量,不同字的所述词嵌入向量不同;
所述计算模块在计算所述字的词性标识时,执行的步骤包括:预置词性与词标识的第一对应关系、字位置与位置标识的第二对应关系,根据所述第一词语的词性在所述第一对应关系中查找到第一词标识,根据所述字的字位置在所述第二对应关系中查找到第一位置标识,其中,所述字位置包括所述字在其所述第一词语的词首位和非词首位,所述字的词性标识包括所述第一词标识和所述第一位置标识;
所述计算模块采用以下公式计算所述字的词性离散概率:
Figure RE-FDA0002360370380000051
其中,所述字的词性离散概率为N*1的数组,P[i]为所述数组的第i个元素,xi为所述字在语料库中以第i种所述词性标识出现的次数,xS为所述字在所述语料库中出现的次数,N为所述词性标识的种类;
所述计算模块采用以下公式计算所述字的PMI分数:
Figure RE-FDA0002360370380000052
其中,w1和w2为相邻的两个第三词语,w1为所述相邻的两个第三词语中的前一个,w2为所述相邻的两个第三词语中的后一个,p(w1,w2)为所述相邻的两个第三词语组成的词组在所述语料库中出现的次数,p(w1)为所述w1在所述语料库中出现的次数,p(w2)为所述w2在所述语料库中出现的次数,PMI(w2)为所述w2的PMI分数,所述字的PMI分数为其所属的第三词语的PMI分数,不同字的所述PMI分数不同,所述第三词语为根据语义对所述第一话术进行分词后得到的词语;
所述计算模块计算所述字的非相邻词汇搭配特征时,执行的步骤包括:在所述待识别话术中确定每个所述第一词语的依存词,所述字的非相邻词汇搭配特征包括所述字所属的第一词语的词向量、所述第一词语的依存词的词向量和所述第一词语与其依存词的依存关系标识。
8.根据权利要求6所述的中文语法错误的识别装置,其特征在于,
所述中文语法错误的识别装置还包括存储模块,所述存储模块用于存储预置的双向循环神经网络和LR分类器一一对应的M个模型组,通过每个所述模型组均可得到所述待识别话术的识别指标,则可得到M个识别指标,其中,M为大于1的自然数;
所述确定模块还用于判断M个识别指标中指示所述待识别话术包括语法错误的识别指标是否大于或等于L个;其中,若M个识别指标中指示所述待识别话术包括语法错误的识别指标大于或等于L个,则所述确定模块确定所述待识别话术包括语法错误,其中,L大于0且小于或等于M。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201910978231.2A 2019-10-15 2019-10-15 中文语法错误的识别方法、装置、计算机设备和存储介质 Active CN110866390B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910978231.2A CN110866390B (zh) 2019-10-15 2019-10-15 中文语法错误的识别方法、装置、计算机设备和存储介质
PCT/CN2019/117402 WO2021072851A1 (zh) 2019-10-15 2019-11-12 中文语法错误的识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910978231.2A CN110866390B (zh) 2019-10-15 2019-10-15 中文语法错误的识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110866390A true CN110866390A (zh) 2020-03-06
CN110866390B CN110866390B (zh) 2022-02-11

Family

ID=69652564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910978231.2A Active CN110866390B (zh) 2019-10-15 2019-10-15 中文语法错误的识别方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110866390B (zh)
WO (1) WO2021072851A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445827A (zh) * 2022-01-26 2022-05-06 上海易康源医疗健康科技有限公司 手写文本识别方法及系统
CN114881009A (zh) * 2022-04-26 2022-08-09 上海师范大学 一种基于UniLM的中文语法纠错方法
CN114896966B (zh) * 2022-05-17 2024-09-06 西安交通大学 一种中文文本语法错误定位方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563634A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN110046350A (zh) * 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899298B (zh) * 2015-06-09 2018-01-16 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN109670040B (zh) * 2018-11-27 2024-04-05 平安科技(深圳)有限公司 写作辅助方法、装置及存储介质、计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563634A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN110046350A (zh) * 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卓利艳: "字词级中文文本自动校对的方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Also Published As

Publication number Publication date
CN110866390B (zh) 2022-02-11
WO2021072851A1 (zh) 2021-04-22

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
US20170177563A1 (en) Methods and systems for automated text correction
US20150227505A1 (en) Word meaning relationship extraction device
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Chanlekha et al. Thai named entity extraction by incorporating maximum entropy model with simple heuristic information
CN110866390B (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
KR20140056753A (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN112148862B (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
CN109189907A (zh) 一种基于语义匹配的检索方法及装置
TWI676167B (zh) 用於分割句子的系統和方法及相關的非暫時性電腦可讀取媒體
Yeh et al. Chinese spelling check based on N-gram and string matching algorithm
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN112071304B (zh) 一种语意分析方法及装置
CN112530406A (zh) 一种语音合成方法、语音合成装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant