CN108376129A - 一种纠错方法及装置 - Google Patents

一种纠错方法及装置 Download PDF

Info

Publication number
CN108376129A
CN108376129A CN201810067378.1A CN201810067378A CN108376129A CN 108376129 A CN108376129 A CN 108376129A CN 201810067378 A CN201810067378 A CN 201810067378A CN 108376129 A CN108376129 A CN 108376129A
Authority
CN
China
Prior art keywords
error correction
pair
target
sample
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810067378.1A
Other languages
English (en)
Other versions
CN108376129B (zh
Inventor
孙超博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810067378.1A priority Critical patent/CN108376129B/zh
Publication of CN108376129A publication Critical patent/CN108376129A/zh
Application granted granted Critical
Publication of CN108376129B publication Critical patent/CN108376129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种纠错方法及装置,涉及计算机技术领域,该方法包括:确定待进行纠错处理的目标词;在目标纠错词典中查找与该目标词匹配的纠错对,作为候选纠错对;其中,目标纠错词典为:预先构建的纠错词典,该目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;根据查找到的候选纠错对,获得上述目标词的纠错结果。与现有技术相比,应用本发明实施例提供的方案,对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。

Description

一种纠错方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种纠错方法及装置。
背景技术
随着互联网技术的快速发展,用户能够从网络中获得的信息越来越多。当用户搜索想要的信息时,一般会在其所使用的客户端中输入搜索词,客户端获得与用户所输入搜索词相匹配的信息,并将所获得的信息展示给用户。
然而用户在输入搜索词的时候可能会存在输入错误,为保证向用户提供用户想要的信息,在获得用户输入的搜索词后,一般会对上述搜索词进行纠错处理。
现有技术中,对用户输入的搜索词进行纠错处理时,一般将用户输入的搜索词与已知纠错词典中存储的纠错对进行匹配,获得与用户输入的搜索词相匹配的纠错对,然后从所获得的纠错对中确定用户输入的搜索词的纠错结果。其中,一个纠错对中包括一个待纠错词和该待纠错词的纠错结果,也就是纠错词。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:由于已知的纠错词典中所包含的纠错对不够全面,导致对用户输入的搜索词进行纠错处理时,难以从已知的纠错词典中找到与上述搜索词匹配的纠错对,从而导致对搜索词进行纠错时失败概率较高。
发明内容
本发明实施例的目的在于提供一种纠错方法及装置,以降低对待进行纠错处理的词进行纠错时失败的概率。
具体技术方案如下:
第一方面,本发明实施例提供了一种纠错方法,所述方法包括:
确定待进行纠错处理的目标词;
在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
根据查找到的候选纠错对,获得所述目标词的纠错结果。
一种实现方式中,所述根据查找到的候选纠错对,获得所述目标词的纠错结果,包括:
获取所查找到候选纠错对针对预设特征的特征值;
将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
根据所获得的分类结果,获得所述目标词的纠错结果。
一种实现方式中,通过以下方式获得所述目标纠错词典中的一个纠错对:
获取样本词;
对所述样本词进行分词处理,得到所述样本词包含的分词;
将得到的分词输入至所述纠错模型,获得各个分词的纠错词;
根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。
一种实现方式中,通过以下方式训练得到所述纠错模型:
获得已知纠错词典中的纠错对,作为训练样本;
将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练得到所述纠错模型。
一种实现方式中,通过以下方式训练得到所述分类模型:
获得样本纠错对;
提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;
将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。
一种实现方式中,所述获得样本纠错对,包括:
从所述已知纠错词典中抽取纠错对,作为样本纠错对。
一种实现方式中,在得到所述分类模型之后,还包括:
提取所述目标纠错词典中各个纠错对针对预设特征的特征值;
将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;
确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
从所述目标纠错词典中删除所确定的目标纠错对。
一种实现方式中,所述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
第二方面,本发明实施例提供了一种纠错装置,所述装置包括:
目标词确定模块,用于确定待进行纠错处理的目标词;
纠错对查找模块,用于在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
纠错结果获得模块,用于根据查找到的候选纠错对,获得所述目标词的纠错结果。
一种实现方式中,所述纠错结果获得模块,包括:
特征值获得子模块,用于获取所查找到候选纠错对针对预设特征的特征值;
分类结果获得子模块,用于将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
纠错结果获得子模块,用于根据所获得的分类结果,获得所述目标词的纠错结果。
一种实现方式中,所述装置还包括:
纠错对获得模块,用于获得所述目标纠错词典中的一个纠错对;
其中,所述纠错对获得模块,包括:
样本词获得子模块,用于获取样本词;
分词获得子模块,用于对所述样本词进行分词处理,得到所述样本词包含的分词;
纠错词获得子模块,用于将得到的分词输入至所述纠错模型,获得各个分词的纠错词;
纠错对确定子模块,用于根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。
一种实现方式中,所述装置还包括:
纠错模型训练模块,用于训练得到所述纠错模型;
其中,所述纠错模型训练模块,包括:
训练样本获得子模块,用于获得已知纠错词典中的纠错对,作为训练样本;
纠错模型训练子模块,用于将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练,得到所述纠错模型。
一种实现方式中,所述装置还包括:
分类模型训练模块,用于训练得到所述分类模型;
样本纠错对获得子模块,用于获得样本纠错对;
训练信息获得子模块,用于提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;
分类模型训练子模块,用于将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。
一种实现方式中,所述样本纠错对获得子模块,具体用于从所述已知纠错词典中抽取纠错对,作为样本纠错对。
一种实现方式中,其特征在于,所述装置还包括:
特征值提取模块,用于在得到所述分类模型之后提取所述目标纠错词典中各个纠错对针对预设特征的特征值;
分类结果获得模块,用于将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;
目标纠错对确定模块,用于确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
目标纠错对删除模块,用于从所述目标纠错词典中删除所确定的目标纠错对。
一种实现方式中,所述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面提供的纠错方法中任一所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的纠错方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的纠错方法。
由以上可见,本发明实施例提供的方案中,由于目标纠错词典中存储的各个纠错对是通过纠错模型对样本搜索词进行纠错处理得到的,而上述纠错模型是采用已知纠错词典中的纠错对训练得到的,因此通过纠错模型对样本词进行纠错处理可以准确的得到样本词的纠错词,另外,样本词可以是根据实际应用需求进行样本收集得到的,因此可以得到比已知纠错词典中纠错对更为丰富的目标纠错词典,也就是,实现了对已知的纠错词典的扩充。鉴于上述情况,应用上述目标纠错词典对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种纠错方法的流程示意图。
图2为本发明实施例提供的另一种纠错方法的流程示意图。
图3为本发明实施例提供的一种获得纠错对的方法的流程示意图。
图4为本发明实施例提供的一种纠错模型训练方法的流程示意图。
图5为本发明实施例提供的一种分类模型训练方法的流程示意图。
图6为本发明实施例提供的一种纠错装置的结构示意图。
图7为本发明实施例提供的另一种纠错装置的结构示意图。
图8为本发明实施例提供的一种获得纠错对的装置的结构示意图。
图9为本发明实施例提供的一种纠错模型训练装置的结构示意图。
图10为本发明实施例提供的一种分类模型训练装置的结构示意图。
图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
发明人在实现本发明的过程中发现,现有技术至少存在如下问题:由于已知的纠错词典中所包含的纠错对不够全面,导致对用户输入的搜索词进行纠错处理时,难以从已知的纠错词典中找到与上述搜索词匹配的纠错对,进而难以确定用户输入的搜索词的纠错结果。
为解决现有技术中存在的问题,本发明实施例提供了一种纠错方法,该方法包括:
确定待进行纠错处理的目标词;
在目标纠错词典中查找与上述目标词匹配的纠错对,作为候选纠错对;其中,目标纠错词典为:预先构建的纠错词典,目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
根据查找到的候选纠错对,获得上述目标词的纠错结果。
由以上可见,本发明实施例提供的方案中,由于目标纠错词典中存储的各个纠错对是通过纠错模型对样本词进行纠错处理得到的,而上述纠错模型是采用已知纠错词典中的纠错对训练得到的,因此通过纠错模型对样本词进行纠错处理可以准确的得到样本词的纠错词,另外,样本词可以是根据实际应用需求进行样本收集得到的,因此可以得到比已知纠错词典中纠错对更为丰富的目标纠错词典,也就是,实现了对已知的纠错词典的扩充。鉴于上述情况,应用上述目标纠错词典对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。
下面对本发明实施例提供的纠错方法进行详细说明。
如图1所示,为本发明实施例提供的一种纠错方法的流程示意图,该方法包括:
S101:确定待进行纠错处理的目标词;
其中,上述目标词是待进行纠错处理的词,该词可能存在输入错误,也可能不存在输入错误。
目标词可以是中文的一字词,例如“幂”,也可以是多字词,例如“鹿晗”、“微微一笑很倾城”等;当然待纠错词也可以是其他文字形式的,例如待纠错词是英文,可以是一个英文单词“TFboys”,也可以是多个英文单词“House of Cards(纸牌屋)”等。
在信息搜索这一应用场景中,用户输入的用来作为搜索关键字的词可以作为目标词,在该实现方式中,目标词可以是用户输入的常见的用来作为搜索关键字的词,也可以是长尾搜索词,其中,长尾搜索词是:在用户输入的用来作为搜索关键字的词中出现频率非常小的词,在实际应用中技术人员可以根据实际应用的需要设置一个频率阈值,将在用户输入的用来作为搜索关键字的词中出现频率小于上述频率阈值的词作为长尾搜索词。
S102:在目标纠错词典中查找与上述目标词匹配的纠错对,作为候选纠错对;其中,目标纠错词典为:预先构建的纠错词典;目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对;纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型。
上述一个纠错对中包括一个待纠错词和该待纠错词的纠错词。
与待纠错词匹配的纠错对可以是:纠错对中的待纠错词与目标词相同的纠错对;
也可以是:纠错对中的待纠错词与目标词的相似度达到预设比例的纠错对,其中,可以利用词语相似度计算方法,例如基于向量空间模型的词语相似度计算方法、基于编辑距离的词语相似度计算方法等,计算纠错对中的待纠错词与目标词的相似度,通过判断计算得到的相似度是否达到预设比例来查找与目标词匹配的纠错对,上述预设比例可以是技术人员按照实际需要设定的比例。。
一种实现方式中,已知纠错词典可以包括互联网上已有的纠错词典。
采用已有的纠错词典中的纠错对对第一预设模型进行训练得到纠错模型,这样可以使得纠错模型能够学习到已有的纠错词典中各个纠错对反应的纠错模式,又由于互联网上已有的纠错词典所反应的纠错模式一般是得到广泛认可的纠错模式,因此,在通过纠错模型对样本词进行纠错处理时,能够得到较为准确的纠错对。
另一种实现方式中,已知纠错词典也可以包括收集到的实际应用过程中预设时间内对用户输入的词进行纠错处理得到的纠错对。
用户输入的词中,有些词不存在输入错误,不需要进行纠错处理;有些词存在输入错误的,需要进行纠错处理。采用本实现方式中的纠错词典中的纠错对对第一预设模型进行训练得到纠错模型,不但可以使得纠错模型能够学习到已有的纠错词典中各个纠错对反应的纠错模式,还可以学习到在哪种情况下不需要对词进行纠错处理,因此,在通过纠错模型对样本词进行纠错处理时,不但能够得到较为准确的纠错对,也可以提高纠错处理的效率,同时,可以将在实际应用中出现的新的纠错对添加到已知纠错词典中,对已知纠错词典进行扩充。
S103:根据查找到的候选纠错对,获得上述目标词的纠错结果。
一种实现方式中,纠错结果可以是查找到的候选纠错对中的纠错词。
由以上可见,本发明实施例提供的方案中,由于目标纠错词典中存储的各个纠错对是通过纠错模型对样本词进行纠错处理得到的,而上述纠错模型是采用已知纠错词典中的纠错对训练得到的,因此通过纠错模型对样本词进行纠错处理可以准确的得到样本词的纠错词,另外,样本词可以是根据实际应用需求进行样本收集得到的,因此可以得到比已知纠错词典中纠错对更为丰富的目标纠错词典,也就是,实现了对已知的纠错词典的扩充。鉴于上述情况,应用上述目标纠错词典对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。
一种实现方式中,如图2所示,为本发明实施例提供的另一种纠错方法的流程示意图,该方法中,上述S103根据查找到的候选纠错对,获得上述目标词的纠错结果的步骤可以包括:
S1031:获取所查找到候选纠错对针对预设特征的特征值;
一种实现方式中,上述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言概率模型特征、纠错对中纠错词的语言概率模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
其中,语言概率模型特征为:在前面几个词的情况下,后面会出现特定的词的概率,例如,已知前面几个词为“微微一笑”,出现特定词“很倾城”的概率。
点击次数为:在视频搜索引擎中,使用搜索词搜索视频时,对得到的搜索结果中的视频的点击次数。
S1032:将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果;
其中,分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
上述分类模型的分类结果为:纠错对中纠错词能够作为待纠错词的纠错结果能够,或纠错对中纠错词不能作为待纠错词的纠错结果。
S1033:根据所获得的分类结果,获得所述待纠错词的纠错结果。
一种实现方式中,分类模型的分类结果可以用0、1表示,当分类结果为1时,表示纠错对中纠错词能够作为待纠错词的纠错结果;当分类结果为0时,表示纠错对中纠错词不能作为待纠错词的纠错结果。
另一种实现方式中,分类模型的分类结果可以用一个概率值表示,当获得的概率值不小于预设判定阈值时,表示纠错对中纠错词能够作为待纠错词的纠错结果;当获得的概率值小于预设判定阈值时,表示纠错对中纠错词不能作为待纠错词的纠错结果;其中,预设判定阈值可以是技术人员根据实际应用情况设定的。
分类模型是用来确定纠错对中纠错词是否能够作为待纠错词的纠错结果的模型,因此能够从候选纠错对中选择出纠错词能够作为待纠错词的纠错结果的纠错对,将选择出来的纠错对作为目标词的纠错结果,这样在上述获得的候选纠错对的基础上,能够得到纠错效果更好的纠错结果。
一种实现方式中,如图3所示,为本发明实施例提供的一种获得纠错对的方法的流程示意图,该方法包括:
S301:获取样本词;
一种实现方式中,样本纠错词可以包括在用户输入的词中收集到的不能在已知纠错词典中匹配到纠错对的词;
另一种实现方式中,样本纠错词也可以上述长尾搜索词。
S302:对上述样本词进行分词处理,得到上述样本词包含的分词;
上述分词处理是将样本词中的字序列按照一定的规则切分成词序列,也就是将样本词按照一定的规则切分为至少一个词,切分得到的每一个词都是样本词包含的一个分词,分词可以是一字词,也可以是多字词。
一种实现方式中,可以使用分词工具对样本搜索词进行分词,例如分词工具可以是ChineseAnalyzer、CJKAnalyzer等工具。当然也可以使用其他方法对样本搜索词进行分词,本申请不对分词处理的具体方法进行限定。
S303:将得到的分词输入至纠错模型,获得各个分词的纠错词;
其中,每个分词可以得到至少一个纠错词。
S304:根据所获得的纠错词,得到上述样本词的纠错词,并确定由上述样本词和样本词的纠错词形成的纠错对。
将得到的各个分词的一个纠错词组合在一起,得到样本词的一个纠错词,将样本词和样本词的纠错词组合在一起,得到纠错对。
其中,可以将得到的各个分词的纠错词按照各个分词在样本词中的顺序进行排列;也可以按照语言规则将得到的各个分词的纠错词进行排列。本申请不对样本搜索词的形成方式进行限定。
由于每一个分词都有至少一个纠错词,因此包含这些分词的样本词也能够得到至少一个纠错词。
一种实现方式中,如图4所示,为本发明实施例提供的一种纠错模型训练方法的流程示意图,该方法包括:
S401:获得已知纠错词典中的纠错对,作为训练样本;
其中,训练样本可以是已知纠错词典中的所有纠错对,也可以是已知纠错词典中的一定数量的纠错对。
S402:将上述训练样本中的待纠错词作为纠错源,将上述训练样本中的纠错词作为纠错目标,对第一预设模型进行训练得到纠错模型。
其中,纠错源是需要进行纠错处理的词,纠错目标是对需要进行纠错处理的词进行纠错处理之后,希望得到的纠错词。
由以上可见,本实现方式中,利用已知纠错词典中的纠错对作为训练样本得到纠错模型,可以使得纠错模型能够学习到已有的纠错词典中各个纠错对反应的纠错模式,又由于互联网上已有的纠错词典所反应的纠错模式一般是得到广泛认可的纠错模式,因此在利用该纠错模型对样本词进行纠错处理时,即使样本词所包含的分词在已知纠错字典中不存在,纠错模型依然可以利用学习到的纠错模式对其进行纠错,得到分词的纠错词。从而使得纠错模型具有良好的泛化能力,总是能够实现对样本词的纠错处理,得到样本词的纠错词。
一种实现方式中,如图5所示,为本发明实施例提供的一种分类模型训练方法的流程示意图:
S501:获得样本纠错对;
一种实现方式中,可以从已知纠错词典中抽取纠错对,作为样本纠错对。
一种实现方式中,可以是从目标纠错词典中抽取纠错对,作为样本纠错对。
一种实现方式中,可以是技术人员收集到的实际应用过程中预设时间段内对用户输入的词进行纠错处理得到的纠错对。
S502:提取上述样本纠错对针对预设特征的特征值,并获得上述样本纠错对的标注分类;
其中,标注分类是用来表示纠错对中纠错词是否能够作为原待纠错词的纠错结果的分类标签。
一种实现方式中,标注分类可以用0、1表示,当标注分类为1时,表示纠错对中纠错词能够作为待纠错词的纠错结果;当标注分类为0时,表示纠错对中纠错词不能作为待纠错词的纠错结果。
当然,也可以使用其他形式的分类标签来表示标注分类,例如,可以用“能”表示纠错对中纠错词能够作为待纠错词的纠错结果,用“不能”表示纠错对中纠错词不能作为待纠错词的纠错结果等。
S503:将所提取的特征值和所获得的标注分类作为第二预设模型的输入参数,对该第二预设模型进行训练,得到分类模型。
一种实现方式中,在获得上述分类模型之后,本发明实施例还提供了一种目标纠错词典处理方法,该方法具体包括以下步骤:上述纠错方法还包括了一种对对以下步骤:
S1:提取目标纠错词典中各个纠错对针对预设特征的特征值;
S2:将所提取的特征值输入至上述分类模型,获得上述目标纠错词典中各个纠错对的分类结果;
S3:确定上述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
一种实现方式中,分类结果可以用0/1表示,当分类结果为1时,表示纠错对中纠错词能够作为待纠错词的纠错结果,该纠错对不是目标纠错对;当分类结果为0时,表示纠错对中纠错词不能作为待纠错词的纠错结果,该纠错对是目标纠错对。
另一种实现方式中,分类结果可以用一个概率值表示,当获得的概率值不小于预设目标阈值时,表示纠错对中纠错词能够作为待纠错词的纠错结果,该纠错对不是目标纠错对;当获得的概率值小于预设目标阈值时,表示纠错对中纠错词不能作为待纠错词的纠错结果,该纠错对是目标纠错对;其中,预设目标阈值可以是技术人员根据实际应用情况设定的。
S4:从上述目标纠错词典中删除所确定的目标纠错对。
由以上可见,本实现方式中,利用分类模型对目标纠错词典中的纠错对进行分类,将纠错对中纠错词不能作为待纠错词的纠错结果的纠错对确定为目标纠错对,删除这些目标纠错对,从而使得目标纠错词典中的纠错对中的纠错词能够作为待纠错词的纠错结果,基于这样的目标纠错词典对目标词进行纠错处理时,能够获得更优异的待纠错词的纠错结果,对待纠错词的纠错效果更好。
对应于上述纠错方法,如图6所示,为本发明实施例还提供了一种纠错装置的结构示意图,该装置包括:
目标词确定模块610,用于确定待进行纠错处理的目标词;
纠错对查找模块620,用于在目标纠错词典中查找与上述目标词匹配的纠错对,作为候选纠错对;
其中,目标纠错词典为:预先构建的纠错词典,目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
纠错结果获得模块630,用于根据查找到的候选纠错对,获得上述目标词的纠错结果。
由以上可见,本发明实施例提供的方案中,由于目标纠错词典中存储的各个纠错对是通过纠错模型对样本词进行纠错处理得到的,而上述纠错模型是采用已知纠错词典中的纠错对训练得到的,因此通过纠错模型对样本词进行纠错处理可以准确的得到样本词的纠错词,另外,样本词可以是根据实际应用需求进行样本收集得到的,因此可以得到比已知纠错词典中纠错对更为丰富的目标纠错词典,也就是,实现了对已知的纠错词典的扩充。鉴于上述情况,应用上述目标纠错词典对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。
一种实现方式中,如图7所示,为本发明实施例提供的另一种纠错装置,该装置中,纠错结果获得模块630,包括:
特征值获得子模块6301,用于获取所查找到候选纠错对针对预设特征的特征值;
分类结果获得子模块6302,用于将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果;
其中,分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
纠错结果获得子模块6303,用于根据所获得的分类结果,获得上述目标词的纠错结果。
由以上可见,本实现方式中,分类模型是用来确定纠错对中纠错词是否能够作为待纠错词的纠错结果的模型,因此能够从候选纠错对中选择出纠错词能够作为待纠错词的纠错结果的纠错对,将选择出来的纠错对作为待纠错词的纠错结果,这样在上述获得的候选纠错对的基础上,能够得到纠错效果更好的纠错结果。
一种实现方式中,如图8所示,为本发明实施例提供的一种获得纠错对的装置的结构示意图,该装置包括:
纠错对获得模块,用于获得目标纠错词典中的一个纠错对;
具体的,上述纠错对获得模块包括:
样本词获得子模块810,用于获取样本词;
分词获得子模块820,用于对上述样本词进行分词处理,得到上述样本词包含的分词;
纠错词获得子模块830,用于将得到的分词输入至纠错模型,获得各个分词的纠错词;
纠错对确定子模块840,用于根据所获得的纠错词,得到上述样本词的纠错词,并确定由上述样本词和样本词的纠错词形成的纠错对。
一种实现方式中,如图9所示,为本发明实施例提供的一种纠错模型训练装置的结构示意图,该装置包括:
纠错模型训练模块,用于训练得到纠错模型;
具体的,上述纠错模型训练模块包括:
训练样本获得子模块910,用于获得已知纠错词典中的纠错对,作为训练样本;
纠错模型训练子模块920,用于将上述训练样本中的待纠错词作为纠错源,将上述训练样本中的纠错词作为纠错目标,对第一预设模型进行训练,得到纠错模型。
由以上可见,本实现方式中,利用已知纠错词典中的纠错对作为训练样本得到纠错模型,可以使得纠错模型能够学习到已有的纠错词典中各个纠错对反应的纠错模式,又由于互联网上已有的纠错词典所反应的纠错模式一般是得到广泛认可的纠错模式,因此在利用该纠错模型对样本词进行纠错处理时,即使样本词所包含的分词在已知纠错字典中不存在,纠错模型依然可以利用学习到的纠错模式对其进行纠错,得到分词的纠错词。从而使得纠错模型具有良好的泛化能力,总是能够实现对样本词的纠错处理,得到样本词的纠错词。
一种实现方式中,如图10所示,为本发明实施例提供的一种分类模型训练装置的结构示意图,该装置包括:
分类模型训练模块,用于训练得到分类模型;
具体的,上述分类模型训练模块,包括:
样本纠错对获得子模块1010,用于获得样本纠错对;
训练信息获得子模块1020,用于提取上述样本纠错对针对预设特征的特征值,并获得上述样本纠错对的标注分类;
分类模型训练子模块1030,用于将所提取的特征值和所获得的标注分类作为第二预设模型的输入参数,对第二预设模型进行训练,得到分类模型。
一种实现方式中,上述样本纠错对获得模块1010具体用于:从所述已知纠错词典中抽取纠错对,作为样本纠错对。
一种实现方式中,上述纠错装置还包括:
特征值提取模块,用于在得到分类模型之后提取目标纠错词典中各个纠错对针对预设特征的特征值;
分类结果获得模块,用于将所提取的特征值输入至上述分类模型,获得上述目标纠错词典中各个纠错对的分类结果;
目标纠错对确定模块,用于确定上述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
目标纠错对删除模块,用于从上述目标纠错词典中删除所确定的目标纠错对。
由以上可见,本实现方式中,利用分类模型对目标纠错词典中的纠错对进行分类,将纠错对中纠错词不能作为原待纠错词的纠错结果的纠错对确定为目标纠错对,删除这些目标纠错对,从而使得目标纠错词典中的纠错对中的纠错词能够作为待纠错词的纠错结果,基于这样的目标纠错词典对目标词进行纠错处理时,能够获得更优异的目标词的纠错结果,对目标词的纠错效果更好。
一种实现方式中,上述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
本发明实施例还提供了一种电子设备,如图11所示,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信,
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现本发明实施例提供的一种纠错方法。
具体的,上述纠错方法,包括:
确定待进行纠错处理的目标词;
在目标纠错词典中查找与上述目标词匹配的纠错对,作为候选纠错对,其中,目标纠错词典为:预先构建的纠错词典,目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,纠错模型为:采用已知纠错词典中的纠错对第一预设模型进行训练得到的模型;
根据查找到的候选纠错对,获得上述目标词的纠错结果。
需要说明的是,上述处理器1110执行存储器1130上存放的程序而实现的纠错方法的其他实现方式,与前述方法实施例部分提供的纠错方法实施例相同,这里不再赘述。
由以上可见,本发明实施例提供的方案中,由于目标纠错词典中存储的各个纠错对是通过纠错模型对样本词进行纠错处理得到的,而上述纠错模型是采用已知纠错词典中的纠错对训练得到的,因此通过纠错模型对样本词进行纠错处理可以准确的得到样本词的纠错词,另外,样本词可以是根据实际应用需求进行样本收集得到的,因此可以得到比已知纠错词典中纠错对更为丰富的目标纠错词典,也就是,实现了对已知的纠错词典的扩充。鉴于上述情况,应用上述目标纠错词典对待进行纠错处理的目标词进行纠错处理时,能够较高概率的在目标纠错词典中找到目标词的纠错词,进而降低对目标词进行纠错时失败的概率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的纠错方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的纠错方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和包含指令的计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种纠错方法,其特征在于,所述方法包括:
确定待进行纠错处理的目标词;
在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
根据查找到的候选纠错对,获得所述目标词的纠错结果。
2.根据权利要求1所述的方法,其特征在于,所述根据查找到的候选纠错对,获得所述目标词的纠错结果,包括:
获取所查找到候选纠错对针对预设特征的特征值;
将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
根据所获得的分类结果,获得所述目标词的纠错结果。
3.根据权利要求1或2所述的方法,其特征在于,通过以下方式获得所述目标纠错词典中的一个纠错对:
获取样本词;
对所述样本词进行分词处理,得到所述样本词包含的分词;
将得到的分词输入至所述纠错模型,获得各个分词的纠错词;
根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。
4.根据权利要求1或2所述的方法,其特征在于,通过以下方式训练得到所述纠错模型:
获得已知纠错词典中的纠错对,作为训练样本;
将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练得到所述纠错模型。
5.根据权利要求2所述的方法,其特征在于,通过以下方式训练得到所述分类模型:
获得样本纠错对;
提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;
将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。
6.根据权利要求5所述的方法,其特征在于,所述获得样本纠错对,包括:
从所述已知纠错词典中抽取纠错对,作为样本纠错对。
7.根据权利要求5或6所述的方法,其特征在于,在得到所述分类模型之后,还包括:
提取所述目标纠错词典中各个纠错对针对预设特征的特征值;
将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;
确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
从所述目标纠错词典中删除所确定的目标纠错对。
8.根据权利2所述的方法,其特征在于,所述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
9.一种纠错装置,其特征在于,所述装置包括:
目标词确定模块,用于确定待进行纠错处理的目标词;
纠错对查找模块,用于在目标纠错词典中查找与所述目标词匹配的纠错对,作为候选纠错对;其中,所述目标纠错词典为:预先构建的纠错词典,所述目标纠错词典中存储的每一纠错对是:通过纠错模型对样本词进行纠错处理得到的纠错对,所述纠错模型为:采用已知纠错词典中的纠错对对第一预设模型进行训练得到的模型;
纠错结果获得模块,用于根据查找到的候选纠错对,获得所述目标词的纠错结果。
10.根据权利要求9所述的装置,其特征在于,所述纠错结果获得模块,包括:
特征值获得子模块,用于获取所查找到候选纠错对针对预设特征的特征值;
分类结果获得子模块,用于将所获取的特征值输入到预先训练得到的分类模型中,获得每一候选纠错对的分类结果,其中,所述分类模型为:用于对纠错对中纠错词是否能够作为待纠错词的纠错结果进行分类的模型,所述分类模型是:通过样本纠错对针对所述预设特征的特征值和样本纠错对的标注分类,对第二预设模型进行训练得到的模型;
纠错结果获得子模块,用于根据所获得的分类结果,获得所述目标词的纠错结果。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
纠错对获得模块,用于获得所述目标纠错词典中的一个纠错对;
其中,所述纠错对获得模块,包括:
样本词获得子模块,用于获取样本词;
分词获得子模块,用于对所述样本词进行分词处理,得到所述样本词包含的分词;
纠错词获得子模块,用于将得到的分词输入至所述纠错模型,获得各个分词的纠错词;
纠错对确定子模块,用于根据所获得的纠错词,得到所述样本词的纠错词,并确定由所述样本词和样本词的纠错词形成的纠错对。
12.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
纠错模型训练模块,用于训练得到所述纠错模型;
其中,所述纠错模型训练模块,包括:
训练样本获得子模块,用于获得已知纠错词典中的纠错对,作为训练样本;
纠错模型训练子模块,用于将所述训练样本中的待纠错词作为纠错源,将所述训练样本中的纠错词作为纠错目标,对所述第一预设模型进行训练,得到所述纠错模型。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
分类模型训练模块,用于训练得到所述分类模型;
样本纠错对获得子模块,用于获得样本纠错对;
训练信息获得子模块,用于提取所述样本纠错对针对所述预设特征的特征值,并获得所述样本纠错对的标注分类;
分类模型训练子模块,用于将所提取的特征值和所获得的标注分类作为所述第二预设模型的输入参数,对所述第二预设模型进行训练,得到所述分类模型。
14.根据权利要求13所述的装置,其特征在于,所述样本纠错对获得子模块,具体用于从所述已知纠错词典中抽取纠错对,作为样本纠错对。
15.根据权利要求13或14所述的装置,其特征在于,所述装置还包括:
特征值提取模块,用于在得到所述分类模型之后提取所述目标纠错词典中各个纠错对针对预设特征的特征值;
分类结果获得模块,用于将所提取的特征值输入至所述分类模型,获得所述目标纠错词典中各个纠错对的分类结果;
目标纠错对确定模块,用于确定所述目标纠错词典中的目标纠错对,其中,目标纠错对为:分类结果表征纠错对中的纠错词不能作为待纠错词的纠错结果的纠错对;
目标纠错对删除模块,用于从所述目标纠错词典中删除所确定的目标纠错对。
16.根据权利要求10所述的装置,其特征在于,所述预设特征包括以下特征中的至少一种:
纠错对中待纠错词的语言模型特征、纠错对中纠错词的语音模型特征、纠错对中待纠错词的搜索次数、纠错对中纠错词的搜索次数、纠错对中待纠错词的点击次数、纠错对中纠错词的点击次数。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN201810067378.1A 2018-01-24 2018-01-24 一种纠错方法及装置 Active CN108376129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067378.1A CN108376129B (zh) 2018-01-24 2018-01-24 一种纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067378.1A CN108376129B (zh) 2018-01-24 2018-01-24 一种纠错方法及装置

Publications (2)

Publication Number Publication Date
CN108376129A true CN108376129A (zh) 2018-08-07
CN108376129B CN108376129B (zh) 2022-04-22

Family

ID=63016680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067378.1A Active CN108376129B (zh) 2018-01-24 2018-01-24 一种纠错方法及装置

Country Status (1)

Country Link
CN (1) CN108376129B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145300A (zh) * 2018-08-17 2019-01-04 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN109325227A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于生成修正语句的方法和装置
CN109858473A (zh) * 2018-12-28 2019-06-07 天津幸福生命科技有限公司 一种自适应纠偏方法、装置、可读介质及电子设备
CN111144101A (zh) * 2019-12-26 2020-05-12 北大方正集团有限公司 错别字处理方法和装置
CN111191441A (zh) * 2020-01-06 2020-05-22 广东博智林机器人有限公司 文本纠错方法、装置及存储介质
CN111324214A (zh) * 2018-12-17 2020-06-23 北京搜狗科技发展有限公司 一种语句纠错方法和装置
CN111523305A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111814455A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 搜索词纠错对构建方法、终端及存储介质
WO2022126986A1 (zh) * 2020-12-15 2022-06-23 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN111324214B (zh) * 2018-12-17 2024-05-24 北京搜狗科技发展有限公司 一种语句纠错方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051323A (zh) * 2007-05-22 2007-10-10 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN104036004A (zh) * 2014-06-17 2014-09-10 百度在线网络技术(北京)有限公司 搜索纠错方法和搜索纠错装置
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
CN107301241A (zh) * 2017-07-03 2017-10-27 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051323A (zh) * 2007-05-22 2007-10-10 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN104036004A (zh) * 2014-06-17 2014-09-10 百度在线网络技术(北京)有限公司 搜索纠错方法和搜索纠错装置
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
CN107301241A (zh) * 2017-07-03 2017-10-27 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145300B (zh) * 2018-08-17 2022-08-16 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN109145300A (zh) * 2018-08-17 2019-01-04 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN109325227A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于生成修正语句的方法和装置
US11531814B2 (en) 2018-09-14 2022-12-20 Beijing Bytedance Network Technology Co., Ltd. Method and device for generating modified statement
CN111324214B (zh) * 2018-12-17 2024-05-24 北京搜狗科技发展有限公司 一种语句纠错方法和装置
CN111324214A (zh) * 2018-12-17 2020-06-23 北京搜狗科技发展有限公司 一种语句纠错方法和装置
CN109858473A (zh) * 2018-12-28 2019-06-07 天津幸福生命科技有限公司 一种自适应纠偏方法、装置、可读介质及电子设备
CN109858473B (zh) * 2018-12-28 2023-03-07 天津幸福生命科技有限公司 一种自适应纠偏方法、装置、可读介质及电子设备
CN111523305A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111144101A (zh) * 2019-12-26 2020-05-12 北大方正集团有限公司 错别字处理方法和装置
CN111144101B (zh) * 2019-12-26 2021-12-03 北大方正集团有限公司 错别字处理方法和装置
CN111191441A (zh) * 2020-01-06 2020-05-22 广东博智林机器人有限公司 文本纠错方法、装置及存储介质
CN111814455B (zh) * 2020-06-29 2022-08-26 平安国际智慧城市科技股份有限公司 搜索词纠错对构建方法、终端及存储介质
CN111814455A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 搜索词纠错对构建方法、终端及存储介质
WO2022126986A1 (zh) * 2020-12-15 2022-06-23 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108376129B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN108376129A (zh) 一种纠错方法及装置
WO2020001373A1 (zh) 一种本体构建方法及装置
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
US9299031B2 (en) Active learning on statistical server name extraction from information technology (IT) service tickets
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
US20230076387A1 (en) Systems and methods for providing a comment-centered news reader
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
US20210272013A1 (en) Concept modeling system
CN109714356A (zh) 一种异常域名的识别方法、装置及电子设备
US11615361B2 (en) Machine learning model for predicting litigation risk in correspondence and identifying severity levels
US20140365494A1 (en) Search term clustering
CN115883218A (zh) 基于多模态数据模型的复合攻击链补全方法、系统及介质
AU2018201708A1 (en) Method and system for mapping attributes of entities
JP2017151933A (ja) データ分類装置、データ分類方法、及びプログラム
CN113282831A (zh) 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN114692778B (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN110674290A (zh) 一种用于重叠社区发现的关系预测方法、装置和存储介质
US20150186797A1 (en) Data reduction in nearest neighbor classification
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN115249012A (zh) 一种基于关键短语的知识图谱可视化方法及系统
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN115048504A (zh) 信息推送方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant