CN111310457A - 词语搭配不当识别方法、装置、电子设备和存储介质 - Google Patents

词语搭配不当识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111310457A
CN111310457A CN202010125461.7A CN202010125461A CN111310457A CN 111310457 A CN111310457 A CN 111310457A CN 202010125461 A CN202010125461 A CN 202010125461A CN 111310457 A CN111310457 A CN 111310457A
Authority
CN
China
Prior art keywords
word
recognized
words
collocation
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010125461.7A
Other languages
English (en)
Other versions
CN111310457B (zh
Inventor
陈致鹏
崔一鸣
伍大勇
王士进
胡国平
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Xunfei Institute Of Artificial Intelligence
Zhongke Xunfei Internet Beijing Information Technology Co ltd
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202010125461.7A priority Critical patent/CN111310457B/zh
Publication of CN111310457A publication Critical patent/CN111310457A/zh
Application granted granted Critical
Publication of CN111310457B publication Critical patent/CN111310457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种词语搭配不当识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别文本中的存在搭配关系的两个待识别词;将待识别文本中的任一待识别词替换为遮盖标记,得到任一待识别词对应的输入文本;将任一待识别词对应的输入文本输入至词语预测模型,得到词语预测模型输出的任一待识别词的预测结果;其中,词语预测模型是基于样本文本训练得到的;基于两个待识别词的预测结果,确定词语搭配不当识别结果。本发明实施例提供的词语搭配不当识别方法、装置、电子设备和存储介质,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。

Description

词语搭配不当识别方法、装置、电子设备和存储介质
技术领域
本发明涉及文本校对技术领域,尤其涉及一种词语搭配不当识别方法、装置、电子设备和存储介质。
背景技术
随着信息处理技术和互联网的不断发展,电子书、电子报纸、电子邮件、电子办公文件等电子出版物,以及新的输入技术(如OCR识别、语音识别等)产生的电子文本不断涌现,使得文本自动校对的研究越来越受到重视。
现有技术中的文本校对方法通常基于字词级别和语法级别,主要集中在别字、别词以及常见语法错误的校对上。然而,对于语义层面的词语搭配不当问题,现有的文本校对方法无法准确识别。
发明内容
本发明实施例提供一种,用以解决现有技术无法根据当前语境识别搭配不当的词语的问题。
第一方面,本发明实施例提供一种词语搭配不当识别方法,包括:
确定待识别文本中的存在搭配关系的两个待识别词;
将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
基于两个待识别词的预测结果,确定词语搭配不当识别结果。
可选地,所述基于两个待识别词的预测结果,确定词语搭配不当识别结果,具体包括:
基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果;
基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果。
可选地,所述基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果,具体包括:
确定任一待识别词的预测结果中,所述任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率;
基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果。
可选地,所述基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果,具体包括:
若所述任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定所述任一待识别词的搭配判断结果为搭配不当;
否则,确定所述任一待识别词的搭配判断结果为搭配正确。
可选地,所述基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果,具体包括:
若两个待识别词的搭配判断结果均为搭配正确,则确定所述词语搭配不当识别结果为无;
若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为所述词语搭配不当识别结果;所述预测概率是从所述预测结果中提取的;
否则,将搭配判断结果为搭配不当的待识别词作为所述词语搭配不当识别结果。
可选地,所述确定待识别文本中的存在搭配关系的两个待识别词,具体包括:
确定所述待识别文本中的所有候选词对;
若任一候选词对的两个分词均存在于预设搭配词表中,且所述两个分词在所述预设搭配词表中不构成搭配词对,则确定所述两个分词为待识别词。
可选地,所述预设搭配词表的构建方法包括:
确定语料文本中的多个语料词对;
基于每一语料词对,以及每一语料词对在所述语料文本中的出现频率,构建所述预设搭配词表。
可选地,所述基于两个待识别词的预测结果,确定词语搭配不当识别结果,之后还包括:
若所述词语搭配不当识别结果为任一待识别词,则基于所述待识别词的预测结果,或基于所述待识别词的预测结果和所述待识别文本的上下文词共现关系,确定所述任一待识别词所对应的纠正词。
第二方面,本发明实施例提供一种词语搭配不当识别装置,包括:
待识别词确定单元,用于确定待识别文本中的存在搭配关系的两个待识别词;
替换单元,用于将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
预测单元,用于将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
搭配不当识别单元,用于基于两个待识别词的预测结果,确定词语搭配不当识别结果。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种词语搭配不当识别方法、装置、电子设备和存储介质,通过将待识别文本中的任一待识别词替换成遮盖标记后输入至词语预测模型,得到任一待识别词的预测结果,并基于该预测结果确定词语搭配不当识别结果,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的词语搭配不当识别方法的流程示意图;
图2为本发明实施例提供的词语搭配不当识别结果确定方法的流程示意图;
图3为本发明实施例提供的待识别词搭配判断结果确定方法的流程示意图;
图4为本发明实施例提供的待识别词确定方法的流程示意图;
图5为本发明实施例提供的预设搭配词表构建方法的流程示意图;
图6为本发明又一实施例提供的词语搭配不当识别方法的流程示意图;
图7为本发明实施例提供的词语搭配不当识别装置的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着信息处理技术的不断发展,各类电子出版物层出不穷,另外,新的输入技术(如OCR识别、语音识别等)产生的电子文本也不断涌现。这些通过键盘输入、语音识别或者OCR识别等方式产生的电子文本中,通常会出现字词拼写错误等问题。然而人工校对方式由于效率太低导致完全无法满足目前电子文本校对的需求,因此文本自动校对的研究越来越受到重视。
目前常用的文本自动校对方法中,包括使用大规模语料数据进行统计分析的N-gram文本校对方法、基于混淆集和特征提取的文本校对方法以及基于模式匹配的文本校对方法等。这些方法主要集中在字词层面,基于字词统计或者提取字词特征,能够很好地检测出丢字多字、打字错误、拼写错误、标点错误和常见语法错误等字词错误。
然而,正由于目前的文本自动校对方法主要关注点在字词层面,在进行文本校对的时候没有考虑整句的语境和语义信息,使得目前的文本校对方法在涉及更高级语义错误的词语搭配不当问题上,无法给出很好的识别结果。其原因在于,汉语的词语搭配关系复杂,词语之间的搭配合适与否,不仅和字词本身、语法结构相关,还会受到当前语境的影响,因此会存在相同的词对在这句话中可能搭配不当,但换到另一句话中却搭配正确的情况。对于这种情况下的词语搭配不当识别问题,现有的文本校对方法无法根据语境做出调整,一旦识别结果认定某个词对搭配不当,则在任何语境中都会认为该词对搭配不当,即使该词对在另外一个语境中是搭配正确的也不例外,最终导致识别错误。
对此,本发明实施例提供一种词语搭配不当识别方法。图1为本发明实施例提供的词语搭配不当识别方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待识别文本中的存在搭配关系的两个待识别词。
此处,待识别文本即需要进行词语搭配不当识别的文本,待识别文本可以是用户直接输入的文本,也可以是通过对用户输入的语音数据进行语音识别后得到的文本,还可以是应用OCR(Optical Character Recognition,光学字符识别)等文字识别技术对用户输入的图像进行文字识别得到的,本发明实施例对此不作具体限定。
确定待识别文本后,即可从待识别文本中获取存在搭配关系的两个待识别词。此处,两个待识别词为可能存在搭配不当情况的两个分词,此两个分词之间的搭配关系可以是主谓关系(Subject-verb,SBV)、动宾关系(Verb-object,VOB)、定中关系(attribute,ATT)以及前置宾语(Fronting-object,FOB)等等。例如,待识别文本为“建筑师在桌前绘制文章”,确定出的两个待识别词为“绘制”和“文章”,其中“绘制”和“文章”在待识别文本“建筑师在桌前绘制文章”中存在搭配关系,且“绘制”和“文章”可能存在搭配不当的情况。
步骤120,将待识别文本中的任一待识别词替换为遮盖标记,得到任一待识别词对应的输入文本。
此处,任一待识别词为步骤110中确定的两个待识别词之一,遮盖标记用于遮盖待识别文本中的任一待识别词,对应地,任一待识别词对应的输入文本即将待识别文本中的该待识别词替换为遮盖标记后的文本。
针对步骤110中确定的两个待识别词A和B,将待识别文本中的待识别词A替换为遮盖标记,得到该待识别词A对应的输入文本。并且将待识别文本中的待识别词B替换为遮盖标记,得到该待识别词B对应的输入文本。例如,对于待识别文本“建筑师在桌前绘制文章”,以及两个待识别词“绘制”和“文章”,将“建筑师在桌前绘制文章”中的“绘制”替换成遮盖标记“[MASK]”,得到“绘制”对应的输入文本“建筑师在桌前[MASK]文章”;将“建筑师在桌前绘制文章”中的“文章”替换成遮盖标记“[MASK]”,得到“文章”对应的输入文本“建筑师在桌前绘制[MASK]”。需要说明的是,遮盖标记“[MASK]”不具备语言含义,在待识别文本中仅用于表示此处为空缺。
步骤130,将任一待识别词对应的输入文本输入至词语预测模型,得到词语预测模型输出的任一待识别词的预测结果;其中,词语预测模型是基于样本文本训练得到的。
具体地,词语预测模型用于分析输入的任一待识别词对应的输入文本,根据输入文本的整句信息,预测并输出符合该输入文本语境的针对于遮盖标记处的预测结果,其中,该预测结果与该待识别词对应。此处,预测结果包括所有在该输入文本的遮盖标记位置处可能出现的分词,以及每一可能出现的分词在此处的出现概率。其中,任一可能出现的分词在此处的出现概率可以表征该分词与输入文本语境的契合程度,与输入文本的语境越契合,出现概率越大。
例如,将待识别词“绘制”对应的输入文本“建筑师在桌前[MASK]文章”输入至词语预测模型,得到词语预测模型输出的“绘制”对应的预测结果,预测结果包括所有在[MASK]处(即“桌前”与“文章”之间)可能出现的分词,以及每个分词的出现概率。同样地,将待识别词“文章”对应的输入文本“建筑师在桌前绘制[MASK]”输入至词语预测模型,得到词语预测模型输出的“文章”对应的预测结果,其中预测结果包括所有在[MASK]处(即“绘制”后面)可能出现的分词,以及每个分词的出现概率。
另外,在执行步骤130之前,还可以预先训练得到词语预测模型,具体可通过如下方式训练得到词语预测模型:首先,收集大规模不存在搭配不当问题的语料,并对所有语料进行分句,得到若干样本文本;然后,针对任一样本文本,随机将该样本文本中的某个分词用遮盖标记替换,得到对应的输入文本;再将输入文本输入至初始模型,对初始模型进行训练,从而得到词语预测模型。可选地,初始模型可以是基于Transformer的BERT模型。
经过上述方式训练得到的词语预测模型,在大规模语料的基础上,不断学习了人类语言中符合整句语境的词语搭配知识。因此,当输入任何带有遮盖标记的文本时,词语预测模型都能根据该文本的语境,给出所有可能在遮盖标记位置处出现的分词及其出现概率,且越符合该文本语境的分词,其对应的出现概率越高。
步骤140,基于两个待识别词的预测结果,确定词语搭配不当识别结果。
具体地,基于词语预测模型分别输出的待识别词的预测结果,判断两个待识别词在待识别文本的语境下是否搭配不当,并在两个待识别词搭配不当的情况下,确定不符合待识别文本语境的一个待识别词,作为词语搭配不当识别结果。词语搭配不当识别结果可以表征在待识别文本语境下,两个待识别词中是否存在搭配不当的待识别词,以及在存在搭配不当的待识别词的时候,表征不符合待识别文本语境的待识别词。
例如,基于待识别词“绘制”对应的预测结果和待识别词“文章”对应的预测结果,判断得知“绘制”和“文章”在待识别文本“建筑师在桌前绘制文章”中搭配不当,并确定“文章”不符合“建筑师在桌前绘制文章”的语境,最后输出“文章”作为词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别方法,通过将待识别文本中的任一待识别词替换成遮盖标记后输入至词语预测模型,得到任一待识别词的预测结果,并基于该预测结果确定词语搭配不当识别结果,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。
基于上述实施例,图2为本发明实施例提供的词语搭配不当识别结果确定方法的流程示意图,如图2所示,该方法中,步骤140具体包括:
步骤141,基于任一待识别词的预测结果,确定任一待识别词的搭配判断结果。
具体地,任一待识别词的预测结果中包括所有在该待识别词对应的输入文本的遮盖标记位置处可能出现的分词,以及每一可能出现的分词在此处的出现概率。并且,越是符合输入文本语境的分词,其对应的出现概率越大。因此,基于任一待识别词的预测结果,可以分析出该待识别词是否搭配不当,并确定该待识别词的搭配判断结果。此处,任一待识别词的搭配判断结果可以表征该待识别词是否搭配不当。
步骤142,基于两个待识别词的搭配判断结果,确定词语搭配不当识别结果。
具体地,基于步骤141中确定的两个待识别词的搭配判断结果,判断待识别文本的语境下,是否存在搭配不当的待识别词,若不存在,则确定词语搭配不当识别结果为搭配正确,若存在,则从两个待识别词中,选取出不符合待识别文本语境的一个待识别词,作为词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别方法,通过基于待识别词的预测结果,确定对应的搭配判断结果,并综合两个待识别词的搭配判断结果,确定词语搭配不当识别结果,提高了词语搭配不当识别的准确性。
基于上述任一实施例,图3为本发明实施例提供的待识别词搭配判断结果确定方法的流程示意图,如图3所示,该方法中,步骤141具体包括:
步骤1411,确定任一待识别词的预测结果中,任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率。
此处,任一分词的预测概率用于表征该分词与对应的输入文本语境的契合程度。该分词与对应的输入文本越契合,则该分词越有可能在该输入文本中出现,该分词的预测概率也就越大。
任一待识别词的预测结果中包含了所有在该待识别词对应的输入文本的遮盖标记位置处可能出现的分词,以及每一可能出现的分词在此处的出现概率。从任一待识别词的预测结果中,可以提取该待识别词的出现概率,作为该待识别词的预测概率。另外,为了判断该待识别词是否搭配不当,还需提取另一待识别词所对应的若干个候选搭配词的预测概率,以供对比。其中,另一待识别词所对应的候选搭配词可以是另一识别词的常用搭配词,也可以是针对另一识别词预先设定的搭配词,候选搭配词可以是从预先构建的搭配词表中匹配得到的。因此,从该待识别词的预测结果中,提取出另一待识别词的候选搭配词对应的出现概率,作为候选搭配词的预测概率。
例如,对于待识别词“绘制”,“绘制”的预测结果包括在“建筑师在桌前[MASK]文章”的“[MASK]”处可能出现的所有分词,例如“写”、“修改”、“创作”、“绘制”以及“批改”等等,还包括“写”、“修改”、“创作”、“绘制”以及“批改”分别在“[MASK]”处的出现概率P1、P2、P3、P4以及P5。基于“绘制”的预测结果,找到“绘制”,并提取“绘制”的预测概率,即“绘制”的出现概率P4。同时,提取“文章”所对应的若干个候选搭配词及其预测概率,即“写”、“修改”、“创作”以及“批改”,及其出现概率P1、P2、P3以及P5。
步骤1412,基于任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定任一待识别词的搭配判断结果。
具体地,任一分词的预测概率可以体现该分词与对应的输入文本语境的契合程度,一个分词越是不契合对应的输入文本语境,该分词的预测概率越小,那么该分词出现搭配不当的可能性就越大。因此,根据任一待识别词的预测概率,以及所有候选搭配词的预测概率,即可确定该待识别词的搭配判断结果。
本发明实施例提供的词语搭配不当识别方法,通过确定任一待识别词的预测概率和候选搭配词的预测概率,得到该待识别词的搭配判断结果,为确定词语搭配不当识别结果提供了依据。
基于上述任一实施例,该方法中,步骤1412具体包括:
若任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定任一待识别词的搭配判断结果为搭配不当;
否则,确定任一待识别词的搭配判断结果为搭配正确。
具体地,若任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,表明该待识别词搭配不当的可能性较大,因此可以确定该待识别词的搭配判断结果为搭配不当。反之,若任一待识别词的预测概率大于等于所有候选搭配词的预测概率的平均值,表明该待识别词搭配不当的可能性较小,因此可以确定该待识别词的搭配判断结果为搭配正确。
例如,“绘制”的预测概率为P4,所有候选搭配词“写”、“修改”、“创作”以及“批改”的预测概率分别为P1、P2、P3以及P5。计算所有候选搭配词的预测概率平均值Pmean=(P1+P2+P3+P5)/4,若P4<Pmean,则“绘制”的搭配判断结果为搭配不当,否则,“绘制”的搭配判断结果为搭配正确。
本发明实施例提供的词语搭配不当识别方法,通过比较任一待识别词的预测概率和所有候选搭配词的平均预测概率,得到该待识别词的搭配判断结果,为确定词语搭配不当识别结果提供了依据。
基于上述任一实施例,该方法中,步骤142具体包括:
若两个待识别词的搭配判断结果均为搭配正确,则确定词语搭配不当识别结果为无;
若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为词语搭配不当识别结果;预测概率是从预测结果中提取的;
否则,将搭配判断结果为搭配不当的待识别词作为词语搭配不当识别结果。
具体地,若两个待识别词的搭配判断结果均为搭配正确,表明两个待识别词均符合待识别文本的语境,不存在搭配不当的问题,则确定词语搭配不当识别结果为无。
若两个待识别词的搭配判断结果均为搭配不当,表明两个待识别词都在一定程度上与待识别文本的语境不契合。这种情况下,对比两个待识别词的预测概率,预测概率较低的待识别词相对于另一待识别词,更不符合待识别文本的语境,该待识别词搭配不当的可能性更大。因此,将预测概率较低的待识别词作为词语搭配不当识别结果。其中,任一待识别词的预测概率,即从该待识别词的预测结果中提取出的该待识别词的出现概率。
例如,对于待识别词“绘制”和“文章”,若“绘制”和“文章”的搭配判断结果均为搭配不当,则比较“绘制”的预测概率和“文章”的预测概率。当比较得知“文章”的预测概率更低,则将“文章”作为词语搭配不当识别结果。
若其中一个待识别词的搭配判断结果为搭配正确,另一个待识别词的搭配判断结果为搭配不当,表明搭配不当的那个待识别词不符合待识别文本语境。因此,直接将搭配判断结果为搭配不当的待识别词作为词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别方法,通过综合分析两个待识别词的搭配判断结果,确定词语搭配不当识别结果,提高了词语搭配不当识别结果的准确性。
基于上述任一实施例,图4为本发明实施例提供的待识别词确定方法的流程示意图,如图4所示,该方法中,步骤110具体包括:
步骤111,确定待识别文本中的所有候选词对。
具体地,对待识别文本进行分词及句法结构分析,获取待识别文本中的各个分词及分词间的搭配关系。可选地,可利用LTP、Jieba等分词工具对待识别文本进行分词和句法结构分析,本发明实施例对此不作具体限定。基于待识别文本中的各个分词及分词间的搭配关系,提取所有符合上述搭配关系的两个分词构成的词对,作为候选词对。
例如,可以提取符合VOB(例如“我送她一束花”中的“送”和“花”)和/或ATT关系(例如“我有一个红苹果”中的“红”和“苹果”)的词对,作为候选词对。
步骤112,若任一候选词对的两个分词均存在于预设搭配词表中,且两个分词在预设搭配词表中不构成搭配词对,则确定两个分词为待识别词。
此处,预设搭配词表为预先构建的词表,该词表中包含有若干个搭配词对,其中搭配词对是由存在常见搭配关系的分词构成的词对。
若任一候选词对中的两个分词均存在于该预设搭配词表中,且这两个分词在预设搭配词表中不构成搭配词对,即一个分词出现在某个搭配词对中,而另一个分词却出现在另一个搭配词对中,表明这两个分词构成的搭配关系并不常见,存在搭配不当的可能。因此,将这两个分词作为待识别词,以进行后续的词语搭配不当识别。
若任一候选词对中的任一分词不在该预设搭配词表中,或者任一候选词对中的两个分词均存在于该预设搭配词表中,且这两个分词在预设搭配词表中构成搭配词对,则不处理该候选词对,转而处理下一候选词对。
本发明实施例提供的词语搭配不当识别方法,通过判断待识别文本的候选词对是否存在于预设搭配词表中,以及候选词对的两个分词是否不构成搭配词对,确定待识别词,筛选出可能存在搭配不当情况的待识别词,再进行后续的词语搭配不当识别,进一步提高了词语搭配不当识别的效率和准确性。
基于上述任一实施例,图5为本发明实施例提供的预设搭配词表构建方法的流程示意图,如图5所示,预设搭配词表的构建方法包括:
步骤101,确定语料文本中的多个语料词对。
具体地,首先收集大规模的没有明显句法错误的句子作为语料文本,其中可以从中文新闻网站、维基数据等来源获取语料文本。对语料文本中的每个句子进行分词和句法结构分析,获取每个句子中的各个分词及分词间的搭配关系。基于每个句子中的各个分词及分词间的搭配关系,提取语料词对。可选地,可利用LTP、Jieba等分词工具对语料文本的每个句子进行分词和句法结构分析,本发明实施例对此不作具体限定。此处,语料词对为语料文本中存在上述搭配关系的分词构成的词对。需要说明的是,提取语料词对时所依据的分词间的搭配关系,与上述实施例的步骤111中提取候选词对时所依据的分词间的搭配关系是一致的。例如,若步骤101中依据VOB关系和/或ATT关系提取语料词对,则步骤111中同样依据VOB关系和/或ATT关系提取候选词对。
步骤102,基于每一语料词对,以及每一语料词对在语料文本中的出现频率,构建预设搭配词表。
具体地,记录提取的每一语料词对在语料文本中的出现频率,其中,任一语料词对在语料文本中的出现频率可以表征该语料词对中两个分词的搭配关系的常见程度。基于每一语料词对,以及每一语料词对在语料文本中的出现频率,挑选出现频率高于预设阈值的语料词对,或者挑选出现频率明显高于该语料词对中任一分词的平均词频的语料词对,将其加入预设搭配词表,本发明实施例不对语料词对的具体挑选过程作具体限定。
需要说明的是,上述任一实施例中的词语预测模型,可以基于构建的预设搭配词表,预测任一待识别词的输入文本的遮盖标记位置可能出现的分词及其出现概率,并输出任一待识别词对应的预测结果。
本发明实施例提供的词语搭配不当识别方法,通过确定语料文本中的语料词对及其出现频率,构建预设搭配词表,为确定待识别词提供了依据。
目前,对于涉及句法以及语义层面的错误无法给出合理纠正结果。基于统计N-gram和相关字词特征进行模式匹配的文本校对方法只能停留在字词层面,对于涉及语义层面的搭配不当问题,很难根据当前语境给出合适的纠正结果。
针对上述问题,本发明实施例提供的词语搭配不当识别方法还包括纠正方法。基于上述任一实施例,该方法中,步骤140之后还包括:
若词语搭配不当识别结果为任一待识别词,则基于待识别词的预测结果,或基于待识别词的预测结果和待识别文本的上下文词共现关系,确定该待识别词所对应的纠正词。
此处,纠正词为用于替换待识别文本中的词语搭配不当识别结果,且最符合待识别文本语境的分词。
若词语搭配不当识别结果为某个待识别词,则可以基于该待识别词的预测结果,从预测结果中选取最符合待识别文本语境的候选搭配词,作为该待识别词所对应的纠正词。
进一步地,基于该待识别词的预测结果,提取预测概率最高的候选搭配词,作为候选纠正词。若该待识别词的预测概率小于预设概率阈值,并且候选纠正词的预测概率与该待识别词的预测概率的比值大于预设比值阈值,则将候选纠正词作为纠正词。否则,候选搭配词不符合作为纠正词的条件,确定纠正词为无。此处,将预设概率阈值设置为一个较小的值,例如0.01,将预设比值阈值设置为一个较大的值,例如10。若待识别词的预测概率小于预设概率阈值,则说明该待识别词非常不符合待识别文本的语境;此时,若候选纠正词的预测概率与该待识别词的预测概率的比值大于预设比值阈值,则说明候选纠正词在待识别文本的语境中明显优于该待识别词。这种情况下,可以确定候选纠正词是最符合当前语境的候选搭配词,可作为纠正词。
为了进一步提高纠正词的准确性,可选地,在已知该待识别词的预测结果的基础上,还可以考虑待识别文本的上下文词共现关系。此处,待识别文本的上下文词共现关系是指待识别文本的上下文中出现的分词与待识别文本中出现的分词之间的共现关系。由于语言的复杂性,某个句子的语境,还可能与其上下文的语境相关。因此,在待识别词的预测结果的基础上,结合上下文词共现关系,可以更准确地选取出最符合待识别文本语境的候选搭配词。例如,若前面出现“小明听了白求恩的故事,深受感动”,根据词共现关系,那么后面“成为医生”的概率相较于“害怕医生”的概率更大。因此当候选搭配词中包含了“成为医生”和“害怕医生”时,可以根据待识别文本的上下文词共现关系,排除“害怕医生”,而选择“成为医生”作为纠正词。
本发明实施例提供的词语搭配不当识别方法,通过基于待识别词的预测结果,或者在此基础上还结合待识别文本的上下文词共现关系,确定纠正词,提高了纠正词选取的准确性。
基于上述任一实施例,图6为本发明又一实施例提供的词语搭配不当识别方法的流程示意图,如图6所示,该方法包括:
确定待识别文本中的所有候选词对;
若任一候选词对的两个分词均存在于预设搭配词表中,且两个分词在预设搭配词表中不构成搭配词对,则确定两个分词为待识别词;
将待识别文本中的任一待识别词替换为遮盖标记,得到任一待识别词对应的输入文本;
将任一待识别词对应的输入文本输入至词语预测模型,得到词语预测模型输出的任一待识别词的预测结果;
确定任一待识别词的预测结果中,任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率;
基于任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定任一待识别词的搭配判断结果;其中,若任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定任一待识别词的搭配判断结果为搭配不当;否则,确定任一待识别词的搭配判断结果为搭配正确;
若两个待识别词的搭配判断结果均为搭配正确,则确定词语搭配不当识别结果为无;若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为词语搭配不当识别结果;预测概率是从预测结果中提取的;否则,将搭配判断结果为搭配不当的待识别词作为词语搭配不当识别结果;
若词语搭配不当识别结果为任一待识别词,则基于待识别词的预测结果,或基于待识别词的预测结果和待识别文本的上下文词共现关系,确定任一待识别词所对应的纠正词。
本发明实施例提供的词语搭配不当识别方法,通过将待识别文本中的任一待识别词替换成遮盖标记后输入至词语预测模型,得到任一待识别词的预测结果,并基于该预测结果确定词语搭配不当识别结果,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。同时,通过基于待识别词的预测结果,或者在此基础上还结合待识别文本的上下文词共现关系,确定纠正词,提高了纠正词选取的准确性。
基于上述任一实施例,图7为本发明实施例提供的词语搭配不当识别装置的结构示意图,如图7所示,词语搭配不当识别装置包括:待识别词确定单元710、替换单元720、预测单元730以及搭配不当识别单元740。
其中,待识别词确定单元710用于确定待识别文本中的存在搭配关系的两个待识别词;
替换单元720用于将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
预测单元730用于将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
搭配不当识别单元740用于基于两个待识别词的预测结果,确定词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别装置,通过将待识别文本中的任一待识别词替换成遮盖标记后输入至词语预测模型,得到任一待识别词的预测结果,并基于该预测结果确定词语搭配不当识别结果,能够基于待识别文本的语境,识别出语义层面上搭配不当的词语,提高了词语搭配不当识别的准确率。
基于上述任一实施例,搭配不当识别单元740具体包括搭配判断单元和词语搭配不当识别结果确定单元。
其中,搭配判断单元用于基于任一待识别词的预测结果,确定任一待识别词的搭配判断结果;
词语搭配不当识别结果确定单元用于基于两个待识别词的搭配判断结果,确定词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别装置,通过基于待识别词的预测结果,确定对应的搭配判断结果,并综合两个待识别词的搭配判断结果,确定词语搭配不当识别结果,提高了词语搭配不当识别的准确性。
基于上述任一实施例,搭配判断单元具体包括预测概率确定单元和搭配判断结果确定单元。
其中,预测概率确定单元用于确定任一待识别词的预测结果中,任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率;
搭配判断结果确定单元用于基于任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定任一待识别词的搭配判断结果。
本发明实施例提供的词语搭配不当识别装置,通过确定任一待识别词的预测概率和候选搭配词的预测概率,得到该待识别词的搭配判断结果,为确定词语搭配不当识别结果提供了依据。
基于上述任一实施例,搭配判断结果确定单元具体用于:
若任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定任一待识别词的搭配判断结果为搭配不当;
否则,确定任一待识别词的搭配判断结果为搭配正确。
本发明实施例提供的词语搭配不当识别装置,通过比较任一待识别词的预测概率和所有候选搭配词的平均预测概率,得到该待识别词的搭配判断结果,为确定词语搭配不当识别结果提供了依据。
基于上述任一实施例,词语搭配不当识别结果确定单元具体用于:
若两个待识别词的搭配判断结果均为搭配正确,则确定词语搭配不当识别结果为无;
若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为词语搭配不当识别结果;预测概率是从预测结果中提取的;
否则,将搭配判断结果为搭配不当的待识别词作为词语搭配不当识别结果。
本发明实施例提供的词语搭配不当识别装置,通过综合分析两个待识别词的搭配判断结果,确定词语搭配不当识别结果,提高了词语搭配不当识别结果的准确性。
基于上述任一实施例,待识别词确定单元710具体包括候选词对确定单元和待识别词判定单元。
其中,候选词对确定单元用于确定待识别文本中的所有候选词对;
待识别词判定单元用于若任一候选词对的两个分词均存在于预设搭配词表中,且两个分词在预设搭配词表中不构成搭配词对,则确定两个分词为待识别词。
本发明实施例提供的词语搭配不当识别装置,通过判断待识别文本的候选词对是否存在于预设搭配词表中,以及候选词对的两个分词是否不构成搭配词对,确定待识别词,筛选出可能存在搭配不当情况的待识别词,再进行后续的词语搭配不当识别,进一步提高了词语搭配不当识别的效率和准确性。
基于上述任一实施例,该装置还包括预设搭配词表构建单元,预设搭配词表构建单元具体包括语料词对确定单元和词表构建子单元。
其中,语料词对确定单元用于确定语料文本中的多个语料词对;
词表构建子单元用于基于每一语料词对,以及每一语料词对在语料文本中的出现频率,构建预设搭配词表。
本发明实施例提供的词语搭配不当识别装置,通过确定语料文本中的语料词对及其出现频率,构建预设搭配词表,为确定待识别词提供了依据。
基于上述任一实施例,该装置还包括纠正单元,纠正单元用于若词语搭配不当识别结果为任一待识别词,则基于待识别词的预测结果,或基于待识别词的预测结果和待识别文本的上下文词共现关系,确定任一待识别词所对应的纠正词。
本发明实施例提供的词语搭配不当识别装置,通过基于待识别词的预测结果,或者在此基础上还结合待识别文本的上下文词共现关系,确定纠正词,提高了纠正词选取的准确性。
图8为本发明实施例提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:确定待识别文本中的存在搭配关系的两个待识别词;将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;基于两个待识别词的预测结果,确定词语搭配不当识别结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定待识别文本中的存在搭配关系的两个待识别词;将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;基于两个待识别词的预测结果,确定词语搭配不当识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种词语搭配不当识别方法,其特征在于,包括:
确定待识别文本中的存在搭配关系的两个待识别词;
将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
基于两个待识别词的预测结果,确定词语搭配不当识别结果。
2.根据权利要求1所述的词语搭配不当识别方法,其特征在于,所述基于两个待识别词的预测结果,确定词语搭配不当识别结果,具体包括:
基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果;
基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果。
3.根据权利要求2所述的词语搭配不当识别方法,其特征在于,所述基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果,具体包括:
确定任一待识别词的预测结果中,所述任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率;
基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果。
4.根据权利要求3所述的词语搭配不当识别方法,其特征在于,所述基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果,具体包括:
若所述任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定所述任一待识别词的搭配判断结果为搭配不当;
否则,确定所述任一待识别词的搭配判断结果为搭配正确。
5.根据权利要求2所述的词语搭配不当识别方法,其特征在于,所述基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果,具体包括:
若两个待识别词的搭配判断结果均为搭配正确,则确定所述词语搭配不当识别结果为无;
若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为所述词语搭配不当识别结果;所述预测概率是从所述预测结果中提取的;
否则,将搭配判断结果为搭配不当的待识别词作为所述词语搭配不当识别结果。
6.根据权利要求1至5中任一项所述的词语搭配不当识别方法,其特征在于,所述确定待识别文本中的存在搭配关系的两个待识别词,具体包括:
确定所述待识别文本中的所有候选词对;
若任一候选词对的两个分词均存在于预设搭配词表中,且所述两个分词在所述预设搭配词表中不构成搭配词对,则确定所述两个分词为待识别词。
7.根据权利要求6所述的词语搭配不当识别方法,其特征在于,所述预设搭配词表的构建方法包括:
确定语料文本中的多个语料词对;
基于每一语料词对,以及每一语料词对在所述语料文本中的出现频率,构建所述预设搭配词表。
8.根据权利要求1至5中任一项所述的词语搭配不当识别方法,其特征在于,所述基于两个待识别词的预测结果,确定词语搭配不当识别结果,之后还包括:
若所述词语搭配不当识别结果为任一待识别词,则基于所述待识别词的预测结果,或基于所述待识别词的预测结果和所述待识别文本的上下文词共现关系,确定所述任一待识别词所对应的纠正词。
9.一种词语搭配不当识别装置,其特征在于,包括:
待识别词确定单元,用于确定待识别文本中的存在搭配关系的两个待识别词;
替换单元,用于将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
预测单元,用于将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
搭配不当识别单元,用于基于两个待识别词的预测结果,确定词语搭配不当识别结果。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的词语搭配不当识别方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的词语搭配不当识别方法的步骤。
CN202010125461.7A 2020-02-27 2020-02-27 词语搭配不当识别方法、装置、电子设备和存储介质 Active CN111310457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125461.7A CN111310457B (zh) 2020-02-27 2020-02-27 词语搭配不当识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125461.7A CN111310457B (zh) 2020-02-27 2020-02-27 词语搭配不当识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111310457A true CN111310457A (zh) 2020-06-19
CN111310457B CN111310457B (zh) 2024-02-02

Family

ID=71149391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125461.7A Active CN111310457B (zh) 2020-02-27 2020-02-27 词语搭配不当识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111310457B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053534A (zh) * 2020-09-11 2020-12-08 上海小鹏汽车科技有限公司 一种车内安全控制的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133444A1 (en) * 2006-12-05 2008-06-05 Microsoft Corporation Web-based collocation error proofing
US20100036654A1 (en) * 2008-07-24 2010-02-11 Educational Testing Service Systems and methods for identifying collocation errors in text
CN106502979A (zh) * 2016-09-20 2017-03-15 海信集团有限公司 一种自然语言信息的数据处理方法和装置
US20170132205A1 (en) * 2015-11-05 2017-05-11 Abbyy Infopoisk Llc Identifying word collocations in natural language texts
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133444A1 (en) * 2006-12-05 2008-06-05 Microsoft Corporation Web-based collocation error proofing
US20100036654A1 (en) * 2008-07-24 2010-02-11 Educational Testing Service Systems and methods for identifying collocation errors in text
US20170132205A1 (en) * 2015-11-05 2017-05-11 Abbyy Infopoisk Llc Identifying word collocations in natural language texts
CN106502979A (zh) * 2016-09-20 2017-03-15 海信集团有限公司 一种自然语言信息的数据处理方法和装置
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
程月;陈小荷;: "基于条件随机场的汉语动宾搭配自动识别", 中文信息学报, no. 01 *
陶永才;海朝阳;石磊;卫琳;: "中文词语搭配特征提取及文本校对研究", no. 11, pages 3 - 5 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053534A (zh) * 2020-09-11 2020-12-08 上海小鹏汽车科技有限公司 一种车内安全控制的方法和装置

Also Published As

Publication number Publication date
CN111310457B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN108536654B (zh) 识别文本展示方法及装置
RU2251737C2 (ru) Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
CN109614623B (zh) 一种基于句法分析的作文处理方法及系统
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
KR102188739B1 (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN110147546B (zh) 一种英语口语的语法校正方法及装置
KR20230061001A (ko) 문서 교정 장치 및 방법
CN111881297A (zh) 语音识别文本的校正方法及装置
US8335681B2 (en) Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
Álvarez et al. Towards customized automatic segmentation of subtitles
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
US20230069113A1 (en) Text Summarization Method and Text Summarization System
Mekki et al. COTA 2.0: An automatic corrector of tunisian Arabic social media texts
Chiu et al. Chinese spell checking based on noisy channel model
CN115438655A (zh) 人物性别识别方法、装置、电子设备及存储介质
Schlippe et al. Statistical machine translation based text normalization with crowdsourcing
CN112380877B (zh) 一种用于篇章级英译中机器翻译测试集的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200708

Address after: 065001 Xinya R&D Building 608-609, 106 No. 1 Road, Langfang Economic and Technological Development Zone, Hebei Province

Applicant after: Hebei Xunfei Institute of Artificial Intelligence

Applicant after: Zhongke Xunfei Internet (Beijing) Information Technology Co.,Ltd.

Applicant after: IFLYTEK Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: IFLYTEK Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 065001 608-609, Xinya R & D building, No.106, No.1 Road, Langfang Economic and Technological Development Zone, Hebei Province

Applicant after: Hebei Xunfei Institute of Artificial Intelligence

Applicant after: iFLYTEK (Beijing) Co.,Ltd.

Applicant after: IFLYTEK Co.,Ltd.

Address before: 065001 608-609, Xinya R & D building, No.106, No.1 Road, Langfang Economic and Technological Development Zone, Hebei Province

Applicant before: Hebei Xunfei Institute of Artificial Intelligence

Applicant before: Zhongke Xunfei Internet (Beijing) Information Technology Co.,Ltd.

Applicant before: IFLYTEK Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant