CN107122346B - 一种输入语句的纠错方法及装置 - Google Patents

一种输入语句的纠错方法及装置 Download PDF

Info

Publication number
CN107122346B
CN107122346B CN201611233791.8A CN201611233791A CN107122346B CN 107122346 B CN107122346 B CN 107122346B CN 201611233791 A CN201611233791 A CN 201611233791A CN 107122346 B CN107122346 B CN 107122346B
Authority
CN
China
Prior art keywords
sentence
word
identified
probability
wrong
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611233791.8A
Other languages
English (en)
Other versions
CN107122346A (zh
Inventor
王健宗
袁威强
韩茂琨
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201611233791.8A priority Critical patent/CN107122346B/zh
Priority to PCT/CN2017/099706 priority patent/WO2018120889A1/zh
Publication of CN107122346A publication Critical patent/CN107122346A/zh
Application granted granted Critical
Publication of CN107122346B publication Critical patent/CN107122346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于信息处理领域,提供了一种输入语句的纠错方法及装置,包括:基于训练语料构建并训练语言模型;获取语言模型的判错阈值,判错阈值表示输入语句为错误语句的临界概率值;将待识别语句输入语言模型,以计算出待识别语句的正确概率;当待识别语句的正确概率低于判错阈值时,判定待识别语句为错误语句并对待识别语句执行纠错处理。本发明实施例实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将该错误的字词自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进智能问答技术的发展。

Description

一种输入语句的纠错方法及装置
技术领域
本发明属于信息处理领域,尤其涉及一种输入语句的纠错方法及装置。
背景技术
输入法是指为将各种符号输入计算机或其他智能终端而使用的编码方法。依照输入设备的不同,输入法可分为键盘输入法、语音输入法以及手写输入法。由于键盘输入法的技术实现难度低且输入的文字准确率高,因此,相比于其他两种输入法来说,使用群体的范围更广。
目前,汉语拼音输入法已经成为用户最常使用的键盘输入法之一。但是,用户在使用拼音输入法的过程中,由于输入了错误的拼音字母或者选择了错误的候选词语,导致了最终输入的结果并非为用户实际所需的汉字。在机器智能问答领域中,由于用户输入的问题语句都比较短,因此,若此时输入的语句中包含有错误的字词,则会导致智能问答系统无法正确理解用户实际的问题,从而给出了错误的问题答案,降低了自动问答的成功率,严重制约了智能问答系统的发展。
发明内容
本发明实施例提供一种输入语句的纠错方法及装置,旨在解决目前当用户在智能问答系统中输入了错误的语句时,自动问答成功率低的问题。
本发明实施例是这样实现的,一种输入语句的纠错方法,包括:
基于训练语料构建并训练语言模型;
获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
本发明实施例的另一目的在于提供一种输入语句的纠错装置,包括:
构建单元,用于基于训练语料构建并训练语言模型;
获取单元,用于获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
计算单元,用于将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
纠错单元,用于当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
本发明实施例中,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将包含该错误字词的语句自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
附图说明
图1是本发明实施例提供的输入语句的纠错方法的实现流程图;
图2是本发明实施例提供的输入语句的纠错方法S11的具体实现流程图;
图3是本发明实施例提供的输入语句的纠错方法S12的具体实现流程图;
图4是本发明实施例提供的输入语句的纠错方法S14的具体实现流程图;
图5是本发明实施例提供的输入语句的纠错方法S401的具体实现流程图;
图6是本发明实施例提供的输入语句的纠错装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将包含该错误字词的语句自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
图1示出了本发明实施例提供的输入语句的纠错方法的实现流程,详述如下:
在S11中,基于训练语料构建并训练语言模型。
在本实施例中,训练语料是在实际使用中真实出现过的语言材料,按照语料采集单位的不同,训练语料可以分为语篇、语句、短语等三大类。将训练语料作为基础信息来进行分析及处理,根据语料所表达的客观事实,可对训练语料进行语言抽象数学建模,从而得到最终的语言模型。
特别地,本实施例中的训练语料为智能问答领域及其相关领域内的规范文本数据以及真实的用户问题记录文本,根据真实记录文本与规范文本之间的特征差异,能够训练出对所有训练语料拟合程度较高的语言模型。
作为本发明的一个实施例,图2示出了本发明实施例提供的输入语句的纠错方法S11的具体实现流程,详述如下:
在本实施例中,以N-Gram模型作出语言模型的原始模型,对于一条输入语句中的第k个词(k为大于零的整数),由于第k个词的出现只与前面k-1个词相关,而与其它任何词都不相关,因此可得知出该条输入语句的正确概率为该句子中所有词语的联合概率。
在S101中,对每条所述训练语料执行分词操作,得到多个词语。
本实施例中存在多条训练语料,对于其中任意一条训练语料,可通过中文分词等方法来获取该条语料中的多个词语。
在S102中,分别计算每个所述词语在该条训练语料中与其后邻接词之间的条件概率。
其中,所述条件概率的计算过程包括:
获取所述词语在所有所述训练语料中出现的第一次数,及获取所述词语的后邻接词在所有所述训练语料中出现在所述词语的后邻接位置的第二次数;
根据所述第一次数以及所述第二次数,计算所述词语与对应的所述后邻接词之间的条件概率。
本实施例中,“第一”与“第二”仅作区分之用,并不表示具体的数字含义。
具体地,在本实施例中,提取每条训练语料中的每个词语,并且对于所述每个词语,分别执行如下操作:
以当前提取出的词语作为对比样本,并将该词语与当前所有训练语料中的所有字词依次进行匹配对比,一旦匹配到任一训练语料中存在相同的词语时,关于该词语的第一次数加一。
对每条训练语料中的每个词语重复执行上述操作,可获得每个词语在所有训练语料中出现的第一次数。
优选地,若训练语料中的任一词语已经在前面执行操作的训练语料中出现,则无需重复计算该相同词语在所有训练语料中出现的第一次数,从而提高系统的运作效率。
在本实施例中,一条训练语料中的某个词语A以及该词语的后邻接词B,在其他训练语料中可能同时出现或者分别出现。若要使该后邻接词B出现在词语A的后邻接位置,则需要满足以下三个条件:
条件一:词语A与其后邻接词B需要在一条训练语料中同时出现。即,一条训练语料中同时包含该词语A及该后邻接词B。
条件二:词语A与其后邻接词B需要处于相邻的位置。若该词语A与该后邻接词B之间还存在其他字词,则此时后邻接词B并未与词语A相邻。
条件三:词语A位于其后邻接词B的前方位置。即,词语A在一条训练语料中需要先于该后邻接词B出现。
对于训练语料中的任意一个词语,当其他任意一条训练语料满足以上三个条件时,将关于该词语的后邻接词在所有训练语料中出现在该词语的后邻接位置的次数加一。
通过上述统计操作,可以确定出某个词语wi在所有训练语料中出现的次数n(wj)以及该词语的后邻接词wj在所有训练语料中出现在该词语的后邻接位置的次数n(wjwi)。
通过以下公式估算出词语wi、wj之间的条件概率p(wi|j):
在S103中,将所述多个词语对应的所述条件概率相乘,并根据相乘后得到的结果,构建并训练所述语言模型。
本实施例依照以下原理来计算某条训练语料的正确概率:某个词是否可能出现在句子中,仅与它前面出现的一个词相关。
因此,假设一条训练语料s由p个词语组成,即s={w1,w2,…,wp},则该条训练语料的正确概率为:
p(s)=p(w1w2…wp)=p(w2|w1)p(w3|w2)p(w4|w3)…p(wp|wp-1)
其中,p(w2|w1)、p(w3|w)、p(w4|w3)、…及p(wp|wp-1)的值可通过S102中条件概率的计算方法获得,该值表示该条训练语料中每个词语与每个词语的后邻接词之间的条件概率。
本实施例通过将训练语料中每个词语与每个词语的后邻接词之间的条件概率相乘,得出关于该条训练语料的正确概率,并根据每条训练语料的正确概率来训练出所述语言模型,以使所述语言模型能够用于计算用户输入的未知语句的正确概率。
在S12中,获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值。
在本实施例中,同样利用规范文本及真实的用户问题记录文本作为测试语料,因此,测试语料中包含有多条输入错误的语句样本及输入正确的语句样本。利用语言模型来对每条测试语料进行逐一测试,能够判断出每条测试语料属于正确语句还是错误语句。该判断结果可能与测试语料的真实类别存在差异,为了降低该差异出现的可能性,提高语言模型对语句正确性的判断准确率,通过统计的方法来获得一个语句正确与否的判断临界值。
作为本发明的一个实施例,如图3所示,S12中,所述获取所述语言模型的判错阈值包括:
在S201中,分别将M条错误语句与N条正确语句作为测试语料输入所述语言模型,得到所述每条错误语句的所述正确概率与所述每条正确语句的所述正确概率。
本实施例中,分别将每条错误语句与每条正确语句作为一个输入参数输入所述语言模型,经过语言模型的自动运行处理,得到关于每条测试语料的正确概率的输出参数。
在S202中,通过预设算法对所述每条错误语句的所述正确概率与所述每条正确语句的所述正确概率进行统计处理,得到所述语言模型的判错阈值。
通过输出某条错误语句的正确概率,能够获知对于某条错误语句来说,其被用户真实所需的可能性有多大。例如,若某条错误语句A的正确概率为30%,则表明在实际使用中,用户只有30%的可能性是真实想要输入此条语句。
语言模型输出的语句的正确概率为理论计算值,其与实际正确概率可能存在偏差,具体表现为:一条常用的规范语句经过语言模型处理后得到的正确概率为10%,而一条明显不符合语义的错误语句经过语言模型处理后得到的正确概率为80%。因此,通过统计多种类别测试语料的正确概率,能够选出一个所述正确概率的最优临界值作为语言模型的判错阈值,从而提高输入语句正确概率与输入语句正确性的关联程度。
在S13中,将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率。
本实施例中,语言模型输出待识别语句的正确概率与上述实施例中输出测试语料的正确概率的处理流程及原理均相同,在此不一一赘述。
在S14中,当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
当待识别语句的正确概率高于判错阈值时,表明当前待识别的语句出现在真实生活中的可能性比较高,极大可能为用户输入正确的语句。因此,将该待识别语句判断为正确语句,并直接输入至智能问答系统中使用。
当待识别语句的正确概率低于判错阈值时,表明当前待识别的语句出现在真实生活中的可能性比较低,极大可能为用户输入错误的语句。因此,将该待识别语句判断为错误语句。
同时,当识别到当前用户输入的语句为错误语句时,自动执行纠错处理,以使该待识别语句能够调整为最有可能表达用户真实问题的正确语句后,再输入至智能问答系统中使用。
本发明实施例中,利用多种类型的训练语料训练语言模型,能够提高语言模型输出参数的正确率,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将包含该错误字词的语句自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
作为本发明的一个实施例,图4示出了本发明实施例提供的输入语句的纠错方法S14的具体实现流程,详述如下:
在S401中,生成所述待识别语句的多条候选语句。
对于判定为错误语句的待识别语句,存在一条或多条与该待识别语句在形式上相似、但有可能表达了该待识别语句本身正确语义的语句,这些语句称为候选语句。
通过预设算法获取待识别语句中可能出现的错误字词,并将该错误字词进行替换,得到多条候选语句。
具体地,作为本发明的一个实施例,如图5所示,S401中,所述生成所述待识别语句的多条候选语句包括:
在S501中,获取所述待识别语句中每个词语对应的音似词及同音词。
根据拼音输入法的出错特性,词语在输入过程中出错的原因为候选词选择出错以及拼音输入出错的可能性最大,且每个词语均有出错的可能。因此,在本发明实施例中,对于待识别语句中的每个词语,获取与该词语中文发音相同或相近的所有词语,即,以该词语的所有同音词或音似词来作为该词语对应的候选词。
例如,“隐形”的同音词包括“隐性”、“银杏”、“阴性”等词语,音似词包括“音信”、“迎新”等词语。“隐性”、“银杏”、“阴性”、“音信”、“迎新”均构成待识别语句中“隐形”一词的候选词。
在S502中,将所述待识别语句中的至少一个所述词语替换为所述词语对应的所述音似词或所述同音词。
在本实施例中,每条待识别语句中包含有多个词语,每个词语对应有多个候选词,将待识别语句中的至少一个词语替换为该词语对应的音似词或同音词可具体表现为:将待识别语句中的一个词语替换为该词语对应的候选词集合中的一个候选词,或者将待识别语句中的多个词语同时替换为各个词语分别对应的一个候选词。
例如,若待识别语句为“这个货物保佑吗”,则可以将该句子中的词语“保佑”替换成该词对应的同音词“包邮”,或者将词语“货物”替换成该词所对应的同音词“活物”,或者将词语“货物”及“保佑”一并替换,分别替换为各自对应的同音词“活物”及“包邮”。
在S503中,将完成替换后的每一条所述待识别语句分别输出为一条所述待识别语句的所述候选语句。
对待识别语句执行的每一次替换动作,均可以得到一条包含替换后的候选词的语句,多次替换动作执行完毕后,得到相互不同的多条语句,每条语句均输出为一条所述候选语句。
例如,上述例子中,将“保佑”替换成该词对应的同音词“包邮”后,得到第一条候选语句为“这个货物包邮吗”;将词语“货物”替换成该词所对应的同音词“活物”后,得到第二条候选语句为“这个活物保佑吗”;将词语“货物”及“保佑”同时替换为各自对应的同音词“活物”及“包邮”时,得到第三条候选语句为“这个活物包邮吗”。
在S402中,利用所述语言模型,分别输出每条所述候选语句的所述正确概率。
将每条候选语句逐一输入所述语言模型后,经过语言模型的分析处理,输出每条候选语句的正确概率。
本实施例中,语言模型计算每条候选语句的正确概率与上述实施例中计算测试语料的正确概率及待识别语句的正确概率的流程及原理均相同,在此不一一赘述。
在S403中,在所有所述候选语句中确定出所述正确概率最大的一条所述候选语句,并将所述待识别语句纠正为该候选语句。
通过将S402中得到的每条候选语句的正确概率的大小进行比较,获取其中正确概率最大的一条候选语句,则该条候选语句包含待识别语句原意的可能性最大。因此,将待识别语句纠正为所述正确概率最大的候选语句。
本发明实施例中,利用多种类型的训练语料训练语言模型,能够提高语言模型输出参数的正确率,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将该错误的字词自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
图6示出了本发明实施例提供的输入语句的纠错装置的结构框图,该装置可以位于手机、计算机、平板电脑、笔记本电脑等终端中,用于运行本发明图1至图5实施例所述的输入语句的纠错方法。为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该装置包括:
构建单元61,用于基于训练语料构建并训练语言模型。
获取单元62,用于获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值。
计算单元63,用于将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率。
纠错单元64,用于当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
可选地,所述构建单元61包括:
分词单元,用于对每条所述训练语料执行分词操作,得到多个词语。
条件概率计算单元,用于分别计算每个所述词语在该条训练语料中与其后邻接词之间的条件概率。
乘法单元,用于将所述多个词语对应的所述条件概率相乘,并根据相乘后得到的结果,构建并训练所述语言模型。
其中,所述条件概率计算单元具体用于:
获取所述词语在所有所述训练语料中出现的第一次数,及获取所述词语的后邻接词在所有所述训练语料中出现在所述词语的后邻接位置的第二次数;
根据所述第一次数以及所述第二次数,计算所述词语与对应的所述后邻接词之间的条件概率。
可选地,所述获取单元62包括:
输入子单元,用于分别将M条错误语句与N条正确语句作为测试语料输入所述语言模型,得到所述每条错误语句的所述正确概率与所述每条正确语句的所述正确概率。
统计子单元,用于通过预设算法对所述每条错误语句的所述正确概率与所述每条正确语句的所述正确概率进行统计处理,得到所述语言模型的判错阈值;
其中,所述M和N为大于1的整数。
可选地,所述纠错单元64包括:
生成子单元,用于生成所述待识别语句的多条候选语句。
输出子单元,用于利用所述语言模型,分别输出每条所述候选语句的所述正确概率。
纠正子单元,用于在所有所述候选语句中确定出所述正确概率最大的一条所述候选语句,并将所述待识别语句纠正为为该候选语句。
可选地,所述生成子单元具体用于:
获取所述待识别语句中每个词语对应的音似词及同音词;
将所述待识别语句中的至少一个所述词语替换为所述词语对应的所述音似词或所述同音词;
将替换完成后的每一条所述待识别语句分别输出为一条所述待识别语句的所述候选语句。
本发明实施例中,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将该错误的字词自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种输入语句的纠错方法,其特征在于,包括:
基于训练语料构建并训练语言模型,所述训练语料是在实际使用中真实出现过的语言材料,所述训练语料包括语篇、语句以及短语三大类,以N-Gram模型作为所述语言模型的原始模型;
获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为用户输入错误的错误语句并对所述待识别语句执行纠错处理;
所述基于训练语料训练并构建语言模型包括:
对每条所述训练语料执行分词操作,得到多个词语;
分别计算每个所述词语在训练语料中与其后邻接词之间的条件概率;
将所述多个词语对应的所述条件概率相乘,并根据相乘后得到的结果,构建并训练所述语言模型;
其中,所述条件概率的计算过程包括:
获取所述词语在所有所述训练语料中出现的第一次数,及获取所述词语的后邻接词在所有所述训练语料中出现在所述词语的后邻接位置的第二次数;
根据所述第一次数以及所述第二次数,计算所述词语与对应的所述后邻接词之间的条件概率;
所述获取所述语言模型的判错阈值包括:
分别将M条错误语句与N条正确语句作为测试语料输入所述语言模型,得到每条所述错误语句的所述正确概率与每条所述正确语句的所述正确概率;
通过预设算法对每条所述错误语句的所述正确概率与每条所述正确语句的所述正确概率进行统计处理,得到所述语言模型的判错阈值;
其中,所述M和N为大于1的整数。
2.如权利要求1所述的方法,其特征在于,所述判定所述待识别语句为用户输入错误的错误语句并对所述待识别语句执行纠错处理包括:
生成所述待识别语句的多条候选语句;
利用所述语言模型,分别输出每条所述候选语句的所述正确概率;
在所有所述候选语句中确定出所述正确概率最大的一条所述候选语句,并将所述待识别语句纠正为该候选语句。
3.如权利要求2所述的方法,其特征在于,所述生成所述待识别语句的多条候选语句包括:
获取所述待识别语句中每个词语对应的音似词及同音词;
将所述待识别语句中的至少一个所述词语替换为所述词语对应的所述音似词或所述同音词;
将完成替换后的每一条所述待识别语句分别输出为一条所述待识别语句的所述候选语句。
4.一种输入语句的纠错装置,其特征在于,包括:
构建单元,用于基于训练语料构建并训练语言模型,所述训练语料是在实际使用中真实出现过的语言材料,所述训练语料包括语篇、语句以及短语三大类,以N-Gram模型作为所述语言模型的原始模型;
获取单元,用于获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
计算单元,用于将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
纠错单元,用于当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为用户输入错误的错误语句并对所述待识别语句执行纠错处理;
所述构建单元包括:
分词单元,用于对每条所述训练语料执行分词操作,得到多个词语;
条件概率计算单元,用于分别计算每个所述词语在训练语料中与其后邻接词之间的条件概率;
乘法单元,用于将所述多个词语对应的所述条件概率相乘,并根据相乘后得到的结果,构建并训练所述语言模型;
其中,所述条件概率计算单元具体用于:
获取所述词语在所有所述训练语料中出现的第一次数,及获取所述词语的后邻接词在所有所述训练语料中出现在所述词语的后邻接位置的第二次数;
根据所述第一次数以及所述第二次数,计算所述词语与对应的所述后邻接词之间的条件概率;
所述获取单元包括:
输入子单元,用于分别将M条错误语句与N条正确语句作为测试语料输入所述语言模型,得到每条所述错误语句的所述正确概率与每条所述正确语句的所述正确概率;
统计子单元,用于通过预设算法对每条所述错误语句的所述正确概率与每条所述正确语句的所述正确概率进行统计处理,得到所述语言模型的判错阈值;
其中,所述M和N为大于1的整数。
5.如权利要求4所述的装置,其特征在于,所述纠错单元包括:
生成子单元,用于生成所述待识别语句的多条候选语句;
输出子单元,用于利用所述语言模型,分别输出每条所述候选语句的所述正确概率;
纠正子单元,用于在所有所述候选语句中确定出所述正确概率最大的一条所述候选语句,并将所述待识别语句纠正为该候选语句。
6.如权利要求5所述的装置,其特征在于,所述生成子单元具体用于:
获取所述待识别语句中每个词语对应的音似词及同音词;
将所述待识别语句中的至少一个所述词语替换为所述词语对应的所述音似词或所述同音词;
将替换完成后的每一条所述待识别语句分别输出为一条所述待识别语句的所述候选语句。
CN201611233791.8A 2016-12-28 2016-12-28 一种输入语句的纠错方法及装置 Active CN107122346B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611233791.8A CN107122346B (zh) 2016-12-28 2016-12-28 一种输入语句的纠错方法及装置
PCT/CN2017/099706 WO2018120889A1 (zh) 2016-12-28 2017-08-30 输入语句的纠错方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611233791.8A CN107122346B (zh) 2016-12-28 2016-12-28 一种输入语句的纠错方法及装置

Publications (2)

Publication Number Publication Date
CN107122346A CN107122346A (zh) 2017-09-01
CN107122346B true CN107122346B (zh) 2018-02-27

Family

ID=59718246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611233791.8A Active CN107122346B (zh) 2016-12-28 2016-12-28 一种输入语句的纠错方法及装置

Country Status (2)

Country Link
CN (1) CN107122346B (zh)
WO (1) WO2018120889A1 (zh)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608963B (zh) * 2017-09-12 2021-04-16 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN110083819B (zh) * 2018-01-26 2024-02-09 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN108491392A (zh) * 2018-03-29 2018-09-04 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108519973A (zh) * 2018-03-29 2018-09-11 广州视源电子科技股份有限公司 文字拼写的检测方法、系统、计算机设备及存储介质
CN108563634A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108694166B (zh) * 2018-04-11 2022-06-28 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108647207B (zh) * 2018-05-08 2022-04-05 上海携程国际旅行社有限公司 自然语言修正方法、系统、设备及存储介质
CN108647346B (zh) * 2018-05-15 2021-10-29 苏州东巍网络科技有限公司 一种用于可穿戴电子设备的老年人语音交互方法和系统
CN109062888B (zh) * 2018-06-04 2023-03-31 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN108829674A (zh) * 2018-06-08 2018-11-16 Oppo(重庆)智能科技有限公司 内容纠错方法及相关装置
CN110600005B (zh) * 2018-06-13 2023-09-19 蔚来(安徽)控股有限公司 语音识别纠错方法及装置、计算机设备和记录介质
CN110780749B (zh) * 2018-07-11 2024-03-08 北京搜狗科技发展有限公司 一种字符串纠错方法和装置
CN109146610B (zh) * 2018-07-16 2022-08-09 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备
CN110796153B (zh) * 2018-08-01 2023-06-20 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN109344830B (zh) * 2018-08-17 2024-06-28 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
CN109147146B (zh) * 2018-08-21 2022-04-12 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN110889118B (zh) * 2018-09-07 2024-06-18 广州视源电子科技股份有限公司 异常sql语句检测方法、装置、计算机设备和存储介质
CN109522542B (zh) * 2018-09-17 2023-05-05 深圳市元征科技股份有限公司 一种识别汽车故障语句的方法及装置
CN110929504B (zh) * 2018-09-20 2023-05-30 阿里巴巴集团控股有限公司 语句诊断方法、装置和系统
CN111079412B (zh) * 2018-10-18 2024-01-23 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN109558584B (zh) * 2018-10-26 2024-08-20 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109376360B (zh) * 2018-10-29 2023-10-20 广东小天才科技有限公司 一种辅助学习语言的方法和装置
CN109542247B (zh) * 2018-11-14 2023-03-24 腾讯科技(深圳)有限公司 句式推荐方法及装置、电子设备、存储介质
CN109558600B (zh) * 2018-11-14 2023-06-30 抖音视界有限公司 翻译处理方法及装置
CN109766538B (zh) * 2018-11-21 2023-12-15 北京捷通华声科技股份有限公司 一种文本纠错方法、装置、电子设备以及存储介质
CN109670040B (zh) * 2018-11-27 2024-04-05 平安科技(深圳)有限公司 写作辅助方法、装置及存储介质、计算机设备
CN109992769A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备
CN111310460B (zh) * 2018-12-12 2022-03-01 Tcl科技集团股份有限公司 语句的调整方法及装置
CN109614623B (zh) * 2018-12-12 2023-06-30 广东小天才科技有限公司 一种基于句法分析的作文处理方法及系统
CN109558596A (zh) * 2018-12-14 2019-04-02 平安城市建设科技(深圳)有限公司 识别方法、装置、终端及计算机可读存储介质
CN111324214B (zh) * 2018-12-17 2024-05-24 北京搜狗科技发展有限公司 一种语句纠错方法和装置
CN111460804B (zh) * 2019-01-02 2023-05-02 阿里巴巴集团控股有限公司 文本处理方法、装置和系统
CN109800306B (zh) * 2019-01-10 2023-10-17 深圳Tcl新技术有限公司 意图分析方法、装置、显示终端及计算机可读存储介质
CN111523305A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111488732B (zh) * 2019-01-25 2024-04-09 深信服科技股份有限公司 一种变形关键词检测方法、系统及相关设备
CN110110334B (zh) * 2019-05-08 2022-09-13 郑州大学 一种基于自然语言处理的远程会诊记录文本纠错方法
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN112015279B (zh) * 2019-05-28 2024-02-13 北京搜狗科技发展有限公司 按键误触纠错方法及装置
CN110362824B (zh) * 2019-06-24 2022-12-02 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110309515B (zh) * 2019-07-10 2023-08-11 北京奇艺世纪科技有限公司 实体识别方法及装置
CN110442864B (zh) * 2019-07-24 2022-12-23 新华智云科技有限公司 语句通顺度确定方法、装置、电子设备及存储介质
CN110457695B (zh) * 2019-07-30 2023-05-12 安徽火蓝数据有限公司 一种在线文字纠错方法及系统
CN110442870B (zh) * 2019-08-02 2023-06-09 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110674276B (zh) * 2019-09-23 2024-08-16 深圳前海微众银行股份有限公司 机器人自学习方法、机器人终端、装置及可读存储介质
CN110764647B (zh) * 2019-10-21 2023-10-31 科大讯飞股份有限公司 输入纠错方法、装置、电子设备和存储介质
CN112733529B (zh) * 2019-10-28 2023-09-29 阿里巴巴集团控股有限公司 文本纠错方法和装置
CN112836495A (zh) * 2019-11-22 2021-05-25 Tcl集团股份有限公司 一种语句的纠错方法及设备
CN111507085B (zh) * 2019-11-25 2023-07-07 江苏艾佳家居用品有限公司 句型识别方法
CN111125302A (zh) * 2019-11-29 2020-05-08 海信视像科技股份有限公司 用户输入语句检错方法、装置及电子设备
CN111026884B (zh) * 2019-12-12 2023-06-02 上海益商网络科技有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN111126036A (zh) * 2019-12-13 2020-05-08 智慧神州(北京)科技有限公司 Nlp领域固定搭配使用错误的识别方法、装置与处理器
CN111144101B (zh) * 2019-12-26 2021-12-03 北大方正集团有限公司 错别字处理方法和装置
CN111339758B (zh) * 2020-02-21 2023-06-30 苏宁云计算有限公司 基于深度学习模型的文本纠错方法及系统
CN111312209A (zh) * 2020-02-21 2020-06-19 北京声智科技有限公司 文本到语音的转换处理方法、装置及电子设备
CN111460795B (zh) * 2020-03-26 2023-05-26 云知声智能科技股份有限公司 一种文本纠错方法及系统
CN111541904B (zh) * 2020-04-15 2024-03-22 腾讯科技(深圳)有限公司 直播过程中的信息提示方法、装置、设备及存储介质
CN111539199B (zh) * 2020-04-17 2023-08-18 中移(杭州)信息技术有限公司 文本的纠错方法、装置、终端、及存储介质
CN111639217A (zh) * 2020-05-12 2020-09-08 广东小天才科技有限公司 一种口语评级方法、终端设备及存储介质
CN111753530B (zh) * 2020-06-24 2024-05-31 上海依图网络科技有限公司 一种语句处理方法、装置、设备及介质
CN111859921B (zh) * 2020-07-08 2024-03-08 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111651978A (zh) * 2020-07-13 2020-09-11 深圳市智搜信息技术有限公司 基于实体的词法检查方法与装置和计算机设备及存储介质
CN112001182B (zh) * 2020-07-20 2024-02-13 北京百度网讯科技有限公司 多语言语义表示模型的训练方法、装置、设备及存储介质
CN111768765B (zh) * 2020-07-30 2022-08-19 华为技术有限公司 语言模型生成方法和电子设备
CN111949793B (zh) * 2020-08-13 2024-02-27 深圳市欢太科技有限公司 用户意图识别方法、装置及终端设备
CN111931490B (zh) * 2020-09-27 2021-01-08 平安科技(深圳)有限公司 文本纠错方法、装置及存储介质
CN112256232B (zh) * 2020-10-22 2023-08-15 海信视像科技股份有限公司 显示设备与自然语言生成后处理方法
CN112434141B (zh) * 2020-11-11 2024-07-16 北京沃东天骏信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112509565A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音识别方法、装置、电子设备及可读存储介质
CN112560450B (zh) * 2020-12-11 2024-02-13 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112652325B (zh) * 2020-12-15 2023-12-15 平安科技(深圳)有限公司 基于人工智能的远程语音调整方法及相关设备
CN112712793A (zh) * 2020-12-22 2021-04-27 平安普惠企业管理有限公司 语音交互下基于预训练模型的asr纠错方法及相关设备
CN112765953A (zh) * 2020-12-31 2021-05-07 维沃移动通信有限公司 中文语句的显示方法及装置、电子设备和可读存储介质
CN112685550B (zh) * 2021-01-12 2023-08-04 腾讯科技(深圳)有限公司 智能问答方法、装置、服务器及计算机可读存储介质
CN112905775A (zh) * 2021-02-24 2021-06-04 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质
CN112818090B (zh) * 2021-02-24 2023-10-03 中国人民大学 一种基于谐音字的答非所问对话生成方法和系统
CN112926306B (zh) * 2021-03-08 2024-01-23 北京百度网讯科技有限公司 文本纠错方法、装置、设备以及存储介质
CN113065354B (zh) * 2021-03-19 2024-01-09 平安普惠企业管理有限公司 语料中地理位置的识别方法及其相关设备
CN113096667A (zh) * 2021-04-19 2021-07-09 上海云绅智能科技有限公司 一种错别字识别检测方法和系统
CN113378553B (zh) * 2021-04-21 2024-07-09 广州博冠信息科技有限公司 文本处理方法、装置、电子设备和存储介质
CN113435500B (zh) * 2021-06-25 2023-05-26 竹间智能科技(上海)有限公司 一种语言模型构建方法及设备
CN113553398B (zh) * 2021-07-15 2024-01-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质
CN113642317A (zh) * 2021-08-12 2021-11-12 广域铭岛数字科技有限公司 一种基于语音识别结果的文本纠错方法及系统
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法
CN113987127A (zh) * 2021-11-03 2022-01-28 北京锐安科技有限公司 信息查询方法、装置、计算机设备和存储介质
CN114444514B (zh) * 2022-02-08 2023-01-24 北京百度网讯科技有限公司 语义匹配模型训练、语义匹配方法及相关装置
CN114495910B (zh) * 2022-04-07 2022-08-02 联通(广东)产业互联网有限公司 文本纠错方法、系统、设备及存储介质
CN114780704A (zh) * 2022-05-17 2022-07-22 徐州国云信息科技有限公司 一种Al智能机器人自然语言处理系统
CN115438650B (zh) * 2022-11-08 2023-04-07 深圳擎盾信息科技有限公司 融合多源特征的合同文本纠错方法、系统、设备及介质
CN118246438B (zh) * 2024-05-29 2024-09-20 苏州元脑智能科技有限公司 一种容错计算方法、装置、设备、介质及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN104142912A (zh) * 2013-05-07 2014-11-12 百度在线网络技术(北京)有限公司 一种精确的语料类别标注方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
CN103246714B (zh) * 2013-04-26 2015-05-27 中国科学院计算技术研究所 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
CN105468468B (zh) * 2015-12-02 2018-07-27 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN105869634B (zh) * 2016-03-31 2019-11-19 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN104142912A (zh) * 2013-05-07 2014-11-12 百度在线网络技术(北京)有限公司 一种精确的语料类别标注方法及装置
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法

Also Published As

Publication number Publication date
CN107122346A (zh) 2017-09-01
WO2018120889A1 (zh) 2018-07-05

Similar Documents

Publication Publication Date Title
CN107122346B (zh) 一种输入语句的纠错方法及装置
US11250033B2 (en) Methods, systems, and computer program product for implementing real-time classification and recommendations
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
US10705796B1 (en) Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data
US11093854B2 (en) Emoji recommendation method and device thereof
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
US10528329B1 (en) Methods, systems, and computer program product for automatic generation of software application code
US10467122B1 (en) Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN108304468A (zh) 一种文本分类方法以及文本分类装置
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN109241525B (zh) 关键词的提取方法、装置和系统
US20220269939A1 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN110264038A (zh) 一种产品测评模型的生成方法及设备
CN112528007B (zh) 一种招商项目的目标企业的确认方法及确认装置
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN108228622A (zh) 业务问题的分类方法及装置
US20200065369A1 (en) Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
US20230325424A1 (en) Systems and methods for generating codes and code books based using cosine proximity
CN107797981B (zh) 一种目标文本识别方法及装置
Azad et al. Picking pearl from seabed: Extracting artefacts from noisy issue triaging collaborative conversations for hybrid cloud services
CN113761193A (zh) 日志分类方法、装置、计算机设备和存储介质
US20230351121A1 (en) Method and system for generating conversation flows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1237074

Country of ref document: HK

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1237074

Country of ref document: HK