CN106815191A - 修正词的确定方法和装置 - Google Patents
修正词的确定方法和装置 Download PDFInfo
- Publication number
- CN106815191A CN106815191A CN201510849926.2A CN201510849926A CN106815191A CN 106815191 A CN106815191 A CN 106815191A CN 201510849926 A CN201510849926 A CN 201510849926A CN 106815191 A CN106815191 A CN 106815191A
- Authority
- CN
- China
- Prior art keywords
- word
- term
- vector
- term vector
- wrong
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种修正词的确定方法和装置。其中,该方法包括:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词。本申请解决了现有技术中无法给出对错别字的修正词的技术问题。
Description
技术领域
本申请涉及文本处理领域,具体而言,涉及一种修正词的确定方法和装置。
背景技术
在文本处理领域,已经有一些可以识别文本中错别字的方法。然而,发明人发现,目前还没有关于对识别出的错别字的修正方案,也即是,现有技术中仅限于对错别字的识别,还无法给出对错别字进行修正的词语。例如,通过一定的方法能够识别出“阿里巴巴CEO马天”中的“马天”为错别字,但计算机系统还无法给出将“马天”修改为“马云”。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种修正词的确定方法和装置,以至少解决现有技术中无法给出对错别字的修正词的技术问题。
根据本申请实施例的一个方面,提供了一种修正词的确定方法,包括:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,所述相关词为一个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:确定所述相关词对应的词向量;从预先通过模型训练得到的训练集中计算出与所述相关词对应的词向量的距离小于第一预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从所述词向量的距离小于第一预设值的词语中选择与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,所述相关词为多个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:确定多个所述相关词对应的词向量;计算多个所述相关词对应的词向量的平均向量;从预先通过模型训练得到的训练集中计算出与所述平均向量的距离小于第二预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从与所述平均向量的距离小于第二预设值的词语中选择与多个所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,所述方法还包括:获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到所述训练集。
进一步地,计算多个所述相关词对应的词向量的平均向量包括:将多个所述相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;将所述词向量和除以所述相关词的个数,得到所述平均向量,其中,所述词向量和除以所述相关词的个数是指所述词向量和中每个位置的数值除以所述相关词的个数。
根据本申请实施例的另一方面,还提供了一种修正词的确定装置,包括:选取单元,用于从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定单元,用于确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,所述相关词为一个的情况下,所述确定单元包括:第一确定模块,用于确定所述相关词对应的词向量;第一计算模块,用于从预先通过模型训练得到的训练集中计算出与所述相关词对应的词向量的距离小于第一预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;第一选择模块,用于从所述词向量的距离小于第一预设值的词语中选择与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,所述相关词为多个的情况下,所述确定单元包括:第二确定模块,用于确定多个所述相关词对应的词向量;第二计算模块,用于计算多个所述相关词对应的词向量的平均向量;第三计算模块,用于从预先通过模型训练得到的训练集中计算出与所述平均向量的距离小于第二预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;第二选择模块,用于从与所述平均向量的距离小于第二预设值的词语中选择与多个所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
进一步地,所述装置还包括:获取单元,用于在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;训练单元,用于利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到所述训练集。
进一步地,所述第二计算模块包括:第一计算子模块,用于将多个所述相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;第二计算子模块,用于将所述词向量和除以所述相关词的个数,得到所述平均向量,其中,所述词向量和除以所述相关词的个数是指所述词向量和中每个位置的数值除以所述相关词的个数。
根据本申请实施例,通过从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词,从而确定出了用于对包含错别字的词语进行修正的修正词,解决了现有技术中无法给出对错别字的修正词的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的修正词的确定方法的流程图;
图2是根据本申请优选实施例的修正词的确定方法的流程图;
图3是根据本申请实施例的修正词的确定装置的示意图;
图4是根据本申请优选实施例的修正词的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种修正词的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的修正词的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S104,从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词。
这里的包含错别字的词语,例如,“阿里巴巴CEO马天”,词语“马天”即为包含有错别字的词语,其中错别字应该是“天”字。需要说明的是,这里的词语可以是一个字的词语也可以是多个字的词语。
在确定出包含有错别字的词语之后,从文本中该词语的上下文的预设范围内选择与该词语相关的相关词。本申请实施例的相关词可以根据待测文本中包含错别字的词语附近的上下文的语句结构来选取,例如,当识别出的包含有错别字的词语为“马天”,其附近的文本为“阿里巴巴CEO马天”,即词语“马天”前面为两个名词作为定语的词语,那么,词语“阿里巴巴”和“CEO”为词语“马天”的相关词。还例如,当识别出的包含有错别字的词语为“京京”,而其附近的上下文为“两大电商淘宝和京京又展开了一轮促销大战”,根据其上下文的语句结构,词语“京京”是与另一个词语“淘宝”为并列的两个名词,因此,词语“淘宝”为词语“京京”的相关词;当然,由于该语句中“电商”是作为词语“淘宝”和作为词语“京京”的定语,则还可以将词语“电商”和“淘宝”一起作为词语“京京”的相关词。
需要说明的是,本实施例中的预设范围可以根据需要进行设置,例如设置为该包含有错别字的词语前5个词至后5个词等。
步骤S106,确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词。
在选取相关词之后,可以从预先统计的文本中确定出与该相关词相关联且与该相关词成组出现的词语,其中词语的相关联可以是指两个词语之间具有相关性,例如“阿里巴巴”与“马云”,“淘宝”与“京东”等等。与相关词多次成组出现的词语是指该词语与上述相关词在预先统计的文本中多次成组出现,例如,在出现词语“马云”的同时,通常都会出现“阿里巴巴”和“CEO”,也即是,“阿里巴巴”和“CEO”与“马云”通常为成组出现的词语,因此,本实施例中,对于“阿里巴巴CEO马天”中包含有错别字的词语“马天”的修正词为“马云”。
根据本申请实施例,通过从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词,从而给出了用于对包含错别字的词语进行修正的修正词,解决了现有技术中无法给出对错别字的修正词的技术问题。
优选地,如图2所示,在步骤S104之前,方法还可以包括:
步骤S102,对待测文本进行检测,识别出待测文本中的包含错别字的词语。
本申请实施例中,对待测文本中包含错别字的词语的检测可以采用现有的检测方法。其中,检测错别字可以是以词语为单位,如上述中“阿里巴巴CEO马天”中的词语“马天”。
优选地,如图2所示,在步骤S106之后,方法还可以包括:
步骤S108,输出用于提示包含错别字的词语的提示信息,并输出修正词,以提示利用修正词对包含错别字的词语进行修正。
在确定出修正词之后,输出提示信息,用于提示待测文本中存在包含有错别字的词语,并将相应的修正词输出,用户可以根据提供的修正词对包含有错别字的词语进行修正。
需要说明的是,由于确定出的修正词可能为多个,而并非每个修正词均可以用于对包含错别字的词语进行修正,因此,本申请实施例中,可以将确定出的修正词以输出方式提供的用户作为候选项,用户可以从中选择正确定的词语来对包含错别字的词语进行修正。
本申请实施例中,选取出的相关词可以是一个,也可以是多个。其中,在相关词为一个的情况下,确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词包括:确定相关词对应的词向量;从预先通过模型训练得到的训练集中计算出与相关词对应的词向量的距离小于第一预设值的词语,其中,训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从词向量的距离小于第一预设值的词语中选择与相关词多次成组出现的词语,作为包含错别字的词语的修正词。
本申请实施例中的词向量为用于唯一表示对应的词语的多维数组。其中,词语对应的词向量之间距离越小,词语之间的关联性越大。词向量之间的距离可以通过词向量之间的欧式距离、范式等方法计算。
本实施例中,以词向量之间的距离来找出与相关词相关联的词语,便于计算机系统进行处理。具体地,计算出与相关词对应的词向量的距离小于第一预设值的词语,其中,第一预设值可以根据需求的精度进行设置。先确定与相关词相关联的词语之后,再从这些词语中确定出与该相关词多次成组出现的词语,从而使得最终确定出的词语满足上述修正词的条件。
另一方面,在相关词为多个的情况下,确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词包括:确定多个相关词对应的词向量;计算多个相关词对应的词向量的平均向量;从预先通过模型训练得到的训练集中计算出与平均向量的距离小于第二预设值的词语,其中,训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;从与平均向量的距离小于第二预设值的词语中选择与多个相关词多次成组出现的词语,作为包含错别字的词语的修正词。
本实施例中的方案与上述相关词为一个的情况相类似,其区别在于,当相关词为多个的时候,则需要计算多个相关词的平均向量,以该平均向量作为计算出与该多个相关词相关联的词语。第二预设值可以与第一预设值相等,也可以不相等,均可以根据需求进行设置。其他的实现方式可以参见上述描述,这里不做赘述。
进一步地,在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,方法还包括:获取目标文本库,目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对目标文本库进行训练,以生成目标文本库中的词语对应的词向量,得到训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词典、文章等不包含错别字的文本库,获取目标文本库用以训练得到上述训练集,其中,训练得到的词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小。词向量模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将“一”可能标记为[1,0,0,……],将“CEO”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的训练集中每个词语的词向量,以便于从中查询对每个词语的词向量。
进一步地,计算多个相关词对应的词向量的平均向量包括:将多个相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;将词向量和除以相关词的个数,得到平均向量,其中,词向量和除以相关词的个数是指词向量和中每个位置的数值除以相关词的个数。
本实施例中,把多个相关词中每个相关词对应的词向量相加之后除以相关词的个数,即将每个词向量相应位置上的数值相加再除以词向量个数,得到的值作为平均向量该相应位置上的数值。
本申请实施例还提供了一种修正词的确定装置,该装置可以用于执行本申请实施例的修正词的确定方法,如图3所示,该装置包括:选取单元20和确定单元30。
选取单元20用于从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词。
这里的包含错别字的词语,例如,“阿里巴巴CEO马天”,词语“马天”即为包含有错别字的词语,其中错别字应该是“天”字。需要说明的是,这里的词语可以是一个字的词语也可以是多个字的词语。
在确定出包含有错别字的词语之后,从文本中该词语的上下文的预设范围内选择与该词语相关的相关词。本申请实施例的相关词可以根据待测文本中包含错别字的词语附近的上下文的语句结构来选取,例如,当识别出的包含有错别字的词语为“马天”,其附近的文本为“阿里巴巴CEO马天”,即词语“马天”前面为两个名词作为定语的词语,那么,词语“阿里巴巴”和“CEO”为词语“马天”的相关词。还例如,当识别出的包含有错别字的词语为“京京”,而其附近的上下文为“两大电商淘宝和京京又展开了一轮促销大战”,根据其上下文的语句结构,词语“京京”是与另一个词语“淘宝”为并列的两个名词,因此,词语“淘宝”为词语“京京”的相关词;当然,由于该语句中“电商”是作为词语“淘宝”和作为词语“京京”的定语,则还可以将词语“电商”和“淘宝”一起作为词语“京京”的相关词。
需要说明的是,本实施例中的预设范围可以根据需要进行设置,例如设置为该包含有错别字的词语前5个词至后5个词等。
确定单元30用于确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词。
在选取相关词之后,可以从预先统计的文本中确定出与该相关词相关联且与该相关词成组出现的词语,其中词语的相关联可以是指两个词语之间具有相关性,例如“阿里巴巴”与“马云”,“淘宝”与“京东”等等。与相关词多次成组出现的词语是指该词语与上述相关词在预先统计的文本中多次成组出现,例如,在出现词语“马云”的同时,通常都会出现“阿里巴巴”和“CEO”,也即是,“阿里巴巴”和“CEO”与“马云”通常为成组出现的词语,因此,本实施例中,对于“阿里巴巴CEO马天”中包含有错别字的词语“马天”的修正词为“马云”。
根据本申请实施例,通过从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词,从而给出了用于对包含错别字的词语进行修正的修正词,解决了现有技术中无法给出对错别字的修正词的技术问题。
优选地,如图4所示,装置还包括:识别单元10,用于对待测文本进行检测,识别出待测文本中的包含错别字的词语。
本申请实施例中,对待测文本中包含错别字的词语的检测可以采用现有的检测方法。其中,检测错别字可以是以词语为单位,如上述中“阿里巴巴CEO马天”中的词语“马天”。
优选地,如图4所示,装置还包括:输出单元40,用于输出用于提示包含错别字的词语的提示信息,并输出修正词,以提示利用修正词对包含错别字的词语进行修正。
在确定出修正词之后,输出提示信息,用于提示待测文本中存在包含有错别字的词语,并将相应的修正词输出,用户可以根据提供的修正词对包含有错别字的词语进行修正。
需要说明的是,由于确定出的修正词可能为多个,而并非每个修正词均可以用于对包含错别字的词语进行修正,因此,本申请实施例中,可以将确定出的修正词以输出方式提供的用户作为候选项,用户可以从中选择正确定的词语来对包含错别字的词语进行修正。
本申请实施例中,选取出的相关词可以是一个,也可以是多个。其中,在相关词为一个的情况下,确定单元包括:第一确定模块,用于确定相关词对应的词向量;第一计算模块,用于从预先通过模型训练得到的训练集中计算出与相关词对应的词向量的距离小于第一预设值的词语,其中,训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;第一选择模块,用于从词向量的距离小于第一预设值的词语中选择与相关词多次成组出现的词语,作为包含错别字的词语的修正词。
本申请实施例中的词向量为用于唯一表示对应的词语的多维数组。其中,词语对应的词向量之间距离越小,词语之间的关联性越大。词向量之间的距离可以通过词向量之间的欧式距离、范式等方法计算。
本实施例中,以词向量之间的距离来找出与相关词相关联的词语,便于计算机系统进行处理。具体地,计算出与相关词对应的词向量的距离小于第一预设值的词语,其中,第一预设值可以根据需求的精度进行设置。先确定与相关词相关联的词语之后,再从这些词语中确定出与该相关词多次成组出现的词语,从而使得最终确定出的词语满足上述修正词的条件。
另一方面,在相关词为多个的情况下,确定单元包括:第二确定模块,用于确定多个相关词对应的词向量;第二计算模块,用于计算多个相关词对应的词向量的平均向量;第三计算模块,用于从预先通过模型训练得到的训练集中计算出与平均向量的距离小于第二预设值的词语,其中,训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;第二选择模块,用于从与平均向量的距离小于第二预设值的词语中选择与多个相关词多次成组出现的词语,作为包含错别字的词语的修正词。
本实施例中的方案与上述相关词为一个的情况相类似,其区别在于,当相关词为多个的时候,则需要计算多个相关词的平均向量,以该平均向量作为计算出与该多个相关词相关联的词语。第二预设值可以与第一预设值相等,也可以不相等,均可以根据需求进行设置。其他的实现方式可以参见上述描述,这里不做赘述。
进一步地,装置还包括:获取单元,用于在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,获取目标文本库,目标文本库所包含的文本为不包含有错别字的文本;训练单元,用于利用词向量模型对目标文本库进行训练,以生成目标文本库中的词语对应的词向量,得到训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词典、文章等不包含错别字的文本库,获取目标文本库用以训练得到上述训练集,其中,训练得到的词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小。词向量模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将“一”可能标记为[1,0,0,……],将“CEO”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的训练集中每个词语的词向量,以便于从中查询对每个词语的词向量。
进一步地,第二计算模块包括:第一计算子模块,用于将多个相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;第二计算子模块,用于将词向量和除以相关词的个数,得到平均向量,其中,词向量和除以相关词的个数是指词向量和中每个位置的数值除以相关词的个数。
本实施例中,把多个相关词中每个相关词对应的词向量相加之后除以相关词的个数,即将每个词向量相应位置上的数值相加再除以词向量个数,得到的值作为平均向量该相应位置上的数值。
所述修正词的确定装置包括处理器和存储器,上述选取单元20和确定单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述第一预设值和第二预设值都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来输出用于提示包含错别字的词语的提示信息,并输出修正词,以提示利用修正词对包含错别字的词语进行修正。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;确定出与相关词相关联且与相关词多次成组出现的词语,作为包含错别字的词语的修正词。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种修正词的确定方法,其特征在于,包括:
从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;
确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
2.根据权利要求1所述的方法,其特征在于,所述相关词为一个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:
确定所述相关词对应的词向量;
从预先通过模型训练得到的训练集中计算出与所述相关词对应的词向量的距离小于第一预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;
从所述词向量的距离小于第一预设值的词语中选择与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
3.根据权利要求1所述的方法,其特征在于,所述相关词为多个的情况下,确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词包括:
确定多个所述相关词对应的词向量;
计算多个所述相关词对应的词向量的平均向量;
从预先通过模型训练得到的训练集中计算出与所述平均向量的距离小于第二预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;
从与所述平均向量的距离小于第二预设值的词语中选择与多个所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
4.根据权利要求2或3所述的方法,其特征在于,在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,所述方法还包括:
获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;
利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到所述训练集。
5.根据权利要求3所述的方法,其特征在于,计算多个所述相关词对应的词向量的平均向量包括:
将多个所述相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;
将所述词向量和除以所述相关词的个数,得到所述平均向量,其中,所述词向量和除以所述相关词的个数是指所述词向量和中每个位置的数值除以所述相关词的个数。
6.一种修正词的确定装置,其特征在于,包括:
选取单元,用于从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词;
确定单元,用于确定出与所述相关词相关联且与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
7.根据权利要求6所述的装置,其特征在于,所述相关词为一个的情况下,所述确定单元包括:
第一确定模块,用于确定所述相关词对应的词向量;
第一计算模块,用于从预先通过模型训练得到的训练集中计算出与所述相关词对应的词向量的距离小于第一预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;
第一选择模块,用于从所述词向量的距离小于第一预设值的词语中选择与所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
8.根据权利要求6所述的装置,其特征在于,所述相关词为多个的情况下,所述确定单元包括:
第二确定模块,用于确定多个所述相关词对应的词向量;
第二计算模块,用于计算多个所述相关词对应的词向量的平均向量;
第三计算模块,用于从预先通过模型训练得到的训练集中计算出与所述平均向量的距离小于第二预设值的词语,其中,所述训练集中词语之间的关联性越大,则训练出的词语对应的词向量之间距离越小;
第二选择模块,用于从与所述平均向量的距离小于第二预设值的词语中选择与多个所述相关词多次成组出现的词语,作为所述包含错别字的词语的修正词。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
获取单元,用于在从待测文本中包含错别字的词语附近的上下文的预设范围内选取相关词之前,获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;
训练单元,用于利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到所述训练集。
10.根据权利要求8所述的装置,其特征在于,所述第二计算模块包括:
第一计算子模块,用于将多个所述相关词对应的词向量相加,得到词向量和,其中,词向量相加是指词向量中相应位置的数值加和得到的与词向量具有相同数量维度的向量;
第二计算子模块,用于将所述词向量和除以所述相关词的个数,得到所述平均向量,其中,所述词向量和除以所述相关词的个数是指所述词向量和中每个位置的数值除以所述相关词的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510849926.2A CN106815191B (zh) | 2015-11-27 | 2015-11-27 | 修正词的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510849926.2A CN106815191B (zh) | 2015-11-27 | 2015-11-27 | 修正词的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815191A true CN106815191A (zh) | 2017-06-09 |
CN106815191B CN106815191B (zh) | 2020-04-21 |
Family
ID=59102935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510849926.2A Active CN106815191B (zh) | 2015-11-27 | 2015-11-27 | 修正词的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815191B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984515A (zh) * | 2018-05-22 | 2018-12-11 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
CN111324214A (zh) * | 2018-12-17 | 2020-06-23 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
CN111324214B (zh) * | 2018-12-17 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN102456001A (zh) * | 2010-10-27 | 2012-05-16 | 北京四维图新科技股份有限公司 | 错别字的检查方法和装置 |
WO2014171605A1 (en) * | 2013-04-15 | 2014-10-23 | Keukey Inc. | Type error revising method |
-
2015
- 2015-11-27 CN CN201510849926.2A patent/CN106815191B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN102456001A (zh) * | 2010-10-27 | 2012-05-16 | 北京四维图新科技股份有限公司 | 错别字的检查方法和装置 |
WO2014171605A1 (en) * | 2013-04-15 | 2014-10-23 | Keukey Inc. | Type error revising method |
Non-Patent Citations (1)
Title |
---|
陆玉清 等: "基于上下文的真词错误检查及校对方法", 《中文信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984515A (zh) * | 2018-05-22 | 2018-12-11 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
CN108984515B (zh) * | 2018-05-22 | 2022-09-06 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
CN111324214A (zh) * | 2018-12-17 | 2020-06-23 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
CN111324214B (zh) * | 2018-12-17 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种语句纠错方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106815191B (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN110298035B (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
CN106815197A (zh) | 文本相似度的确定方法和装置 | |
CN108496190B (zh) | 用于从电子数据结构中提取属性的注释系统 | |
CN106468960A (zh) | 一种输入法候选项排序的方法和系统 | |
CN107544982A (zh) | 文本信息处理方法、装置及终端 | |
CN105051741A (zh) | 并行局部序列对齐 | |
CN110689084B (zh) | 一种异常用户识别方法及装置 | |
CN108734110A (zh) | 基于最长公共子序列的文本段落识别对比方法及系统 | |
CN109885828A (zh) | 基于语言模型的词语纠错方法、装置、计算机设备及介质 | |
CN112162977B (zh) | 一种面向mes的海量数据去冗余方法和系统 | |
CN106485529A (zh) | 广告位的排序方法和装置 | |
CN106815193A (zh) | 模型训练方法及装置和错别字识别方法及装置 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN106874165A (zh) | 网页检测方法和装置 | |
CN105844226A (zh) | 基于主观题的数据处理方法及其装置 | |
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN103714086A (zh) | 用于生成非关系数据库的模式的方法和设备 | |
CN107229694A (zh) | 一种基于大数据的数据信息一致性处理方法、系统及装置 | |
CN104317574B (zh) | 识别应用程序类型的方法和装置 | |
CN110909168A (zh) | 知识图谱的更新方法和装置、存储介质及电子装置 | |
CN106815593A (zh) | 中文文本相似度的确定方法和装置 | |
CN106815191A (zh) | 修正词的确定方法和装置 | |
CN111723206B (zh) | 文本分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |