CN103942223A - 一种对语言模型进行在线纠错的方法及系统 - Google Patents

一种对语言模型进行在线纠错的方法及系统 Download PDF

Info

Publication number
CN103942223A
CN103942223A CN201310024375.7A CN201310024375A CN103942223A CN 103942223 A CN103942223 A CN 103942223A CN 201310024375 A CN201310024375 A CN 201310024375A CN 103942223 A CN103942223 A CN 103942223A
Authority
CN
China
Prior art keywords
error correction
retrieval word
behavior
mapping table
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310024375.7A
Other languages
English (en)
Inventor
曹立新
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310024375.7A priority Critical patent/CN103942223A/zh
Publication of CN103942223A publication Critical patent/CN103942223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供了一种对语言模型进行在线纠错的方法,该方法包括以下步骤:记录线上用户在检索过程中对检索词的纠错行为;基于所述线上用户的纠错行为形成纠错映射表;利用所述纠错映射表对语言模型中的语料进行纠错。相应地,本发明还提供了一种对语言模型进行在线纠错的系统。本发明利用线上用户的检索行为对语言模型的语料进行纠错,有效地提高了纠错的准确率和纠错的速度。

Description

一种对语言模型进行在线纠错的方法及系统
技术领域
本发明涉及语言模型建模技术,尤其涉及一种对语言模型进行在线纠错的方法及系统。
背景技术
随着互联网技术的发展,互联网日益成为人类获取信息的主要途径之一,特别是语音搜索技术的不断发展,使用户搜集信息更加便捷。相应地,作为语音识别系统中的重要组成部分——语言模型,其也在不断更新。一般地,语言模型的建模主要是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。现实中,语言模型的语料通常存在较多错误,由此会导致语音识别系统错误的识别结果。例如,用户语音输入“liu de hua”(查找目标为“刘德华”),但是由于语言模型中语料的错误,语音识别系统可能给出“刘得华”作为识别结果。如此一来,导致用户无法通过语音搜索输入正确的检索词,进而降低了用户的使用体验。因此,需要对语言模型的语料进行纠错。
但是,面对海量的语料,现有方法(例如基于统计模型的纠错方法)几乎不可能实时且有效地对语言模型的语料进行纠错。因此,亟需提出一种纠错速度快、纠错准确率高的纠错方法及系统。
发明内容
本发明的目的是提供一种对语言模型进行在线纠错的方法和系统,利用线上用户的检索行为对语言模型的语料进行纠错,有效地提高了纠错的准确率和纠错的速度。
根据本发明的一个方面,提供了一种对语言模型进行在线纠错的方法,该方法包括以下步骤:
记录线上用户在检索过程中对检索词的纠错行为;
基于所述线上用户的纠错行为形成纠错映射表;
利用所述纠错映射表对语言模型中的语料进行纠错。
根据本发明的另一个方面,还提供了一种对语言模型进行在线纠错的系统,包括:
记录模块,用于记录线上用户在检索过程中对检索词的纠错行为;
映射表形成模块,用于基于所述用户的检索行为形成纠错映射表;
纠错模块,用于利用所述纠错映射表对语言模型中的语料进行纠错。
与现有技术相比,本发明具有以下优点:通过线上用户的检索行为对语言模型的语料进行纠错,有效地提高了纠错的速度和纠错的准确性,实现了利用较低的代价解决语言模型中语料存在错误的问题,从而能够有效地提高语言模型建模的正确性,进而提升了使用该语言模型的语音识别系统的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个方面的对线语言模型进行在线纠错的方法流程图;
图2为搜索引擎为用户推荐检索词的示意图;以及
图3为根据本发明另一个方面的对线语言模型进行在线纠错的系统示意图。
具体实施方式
现实中,语言模型的语料通常存在较多错误,由此会导致语音识别系统错误的识别结果。例如,用户语音输入“liu de hua”(查找目标为“刘德华”),但是由于语言模型中语料的错误,语音识别系统可能给出“刘得华”作为识别结果。如此一来,导致用户无法通过语音搜索输入正确的检索词。因此,需要对语言模型的语料进行纠错。但是,面对海量的语料,现有方法不能快速且有效地对其进行纠错。所以希望提出一种快速且有效的纠错方法。在对线上用户的检索行为进行分析研究的过程中,发现线上用户输入初始检索词后,往往需要对初始检索词进行一次或者多次的纠错,才会最终获得满足其搜索需求的检索词。而且,线上用户最终得到的检索词往往是具有一定含义的词汇,而不是毫无意义的文本串。因此,线上用户的检索行为可以看作是对检索词的纠错行为,且该纠错行为具有可信度高的特点。基于上述特点,可以从大量线上用户对检索词的纠错行为中提取相应的纠错规则,并将该纠错规则用于语言模型中,从而实现对语料进行快速且有效的纠错。
下面结合附图对本发明作进一步详细描述。
根据本发明的一个方面,提供了一种对语言模型进行在线纠错的方法。请参考图1,图1为根据本发明一个方面的对线语言模型进行在线纠错的方法流程图。如图所示,该方法包括以下步骤:
在步骤S101中,记录线上用户在检索过程中对检索词的纠错行为。
具体地,在线上用户利用搜索引擎进行检索的过程中,经常会出现检索词输入不准确的情况。因此,用户往往需要对检索词进行一次或者多次纠错,才会最终获得符合其搜索需求的检索词。对上述用户的纠错行为进行记录,即,将用户初始输入的检索词(下文以“初始检索词”表示)、调整过程中使用的检索词(下文以“过程检索词”表示)以及最终符合用户搜索需求的检索词(下文以“目标检索词”表示)记录下来,并将这些检索词进行关联。
下面,以一个优选实施例进行说明。
用户输入初始检索词进行搜索,搜索引擎会对该初始检索词进行判断。如果搜索引擎判断该初始检索词可能存在错误(如初始检索词中出现明显错别字、或者初始检索词不属于常见词汇),则会为用户推荐目标检索词,供用户选择。例如,如图2所示,用户输入的检索词为“刘德化”,搜索引擎给出基于“刘德化”的搜索结果,并在搜索结果页中给出“您要找的是不是:刘德华”的提示,即,推荐目标检索词“刘德华”。当用户选择“刘德华”作为目标检索词进行搜索后,则对用户输入的初始检索词“刘德化”和搜索引擎推荐的目标检索词“刘德华”进行关联(刘德化->刘德华),并对其进行记录。需要说明的是,搜索引擎对初始检索词进行判断并推荐目标检索词的方法为现有技术,为了简明起见,对此不再进行赘述。
上述实施例仅为一个优选实施例。在其他实施例中,也可以是用户自己对初始检索词进行一次或者多次的修改。例如,用户初始输入“刘得化”,接着修改为“刘德化”,最后修改为“刘德华”并将其作为最终的目标检索词。在这种情况下,将初始检索词“刘得化”、过程检索词“刘德化”以及目标检索词“刘德华”三者进行关联并记录下来。在其他实施例中,也可以将初始检索词、过程检索词分别和目标检索词进行关联。仍以上述初始检索词“刘得化”、过程检索词“刘德化”以及目标检索词“刘德华”为例说明,分别将“刘得化”与“刘德华”(刘得化->刘德华)、“刘德化”与“刘德华”进行关联(刘德化->刘德华),并对其分别进行记录。
在步骤S102中,基于所述线上用户的纠错行为形成纠错映射表。
具体地,通常情况下,线上用户在检索过程中最终采用的目标检索词是具有一定含义的词汇,而不是毫无意义的文本串。因此,可以认为用户最终采用的目标检索词是准确度较高的语料,用户对初始检索词的纠错过程是可信较高的纠错行为。而对于语言模型来说,对其中的语料进行纠错的过程,其本质也是将错误的语料纠正为具有一定含义的正确语料,与线上用户对初始检索词进行纠错的过程在一定程度上有相似的地方。因此,可以将线上用户在纠错行为中所使用的纠错准则用于对语言模型的语料的纠错中。即,对大量线上用户的纠错行为进行统计分析,从中提取出相应的纠错规则建立纠错映射表,然后将该纠错映射表用于语言模型,即可实现对语言模型中语料的纠错。
优选地,为了获取准确的纠错规则,在记录用户纠错行为的过程中,对于相同的纠错行为的出现次数进行计数。当相同的纠错行为的出现次数多于预定阈值时,则认为该纠错行为可信度高,可以从中提出去相应的纠错规则添加至纠错映射表内;反之,则认为纠错行为可信度低,该纠错行为将不会被用于纠错规则的提取。假设预定阈值为10000,经统计发现“刘得化->刘德华”的纠错行为出现的次数超过10000次,而“刘德华->刘得化”的纠错行为仅出现了不到500次,在这种情况下,“刘得化->刘德华”作为可信的纠错规则被记录至纠错映射表中,而“刘德华->刘得化”的纠错行为则被认为不可信,不被用于纠错规则的提取。当然,本领域的技术人员应该可以理解,在其他实施例中,也可以从线上用户的纠错行为中将纠错准则提取出来后直接记录至纠错映射表内,然后在纠错映射表内对该纠错准则出现的次数进行记录,当该纠错准则出现的次数高于一定阈值时,才会用于对语言模型的语料的纠错中。
但是,需要说明的是,并不是所有用户在线上的对检索词的纠错行为都能用于形成纠错规则,为了实现对用于语音识别的语言模型进行纠错,主要是选择类型为同音纠错、非补全性纠错以及字符集内纠错的行为进行纠错规则的提取。
其中,同音纠错是指通过将初始检索词中的一个或者多个字修改为同音字来对其进行纠错。在本实施例中,同音字指在现代汉语中语音相同但字形、意义不同的字,其中,语音相同是广义地指声母和韵母相同。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,其中“德”与“得”为同音字,在这种情况下,将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“太平洋战争”,纠错后的目标检索词为“太平洋战役”,即,将“争”纠正为“役”,而“役”与“争”并非是同音字,在这种情况下,则不会从用户的纠错行为中提取纠错规则。
非补全性纠错是指不通过增加或减少内容的方式来对初始检索词进行纠错。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,而并没有在初始检索词中添加其他内容,在这种情况下,将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“斗破”,纠错后的目标检索词为“斗破苍穹”,即,在“斗破”的后面添加了“苍穹”,在这种情况下,则不会从用户的纠错行为中提取纠错规则。
字符集内纠错是指利用字符集中存在的字对目标检索词进行纠错。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,其中“德”存在于语言模型的字符集中,在这种情况下,将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“小岛阳菜”,纠错后的目标检索词为“小嶋阳菜”,即,将“岛”纠正为“嶋”,而“嶋”不存在于语言模型的字符集中,在这种情况下,则不会从用户的纠错行为中提取纠错规则。
优选地需要判断所述纠错行为是否同时属于上述同音纠错、非补全纠错以及字符集内纠错,如果判断属于上述三种纠错行为,则基于该纠错行为形成纠错映射表。
在步骤S103中,利用所述纠错映射表对语言模型中的语料进行纠错。
具体地,形成纠错映射表之后,即可将纠错映射表中的纠错规则应用至语言模型中,对语言模型中的语料进行纠错。即,将语言模型中的语料与纠错映射表中的初始检索词以及过程检索词进行匹配,如果匹配成功,则用与该初始检索词或过程检索词相对应的目标检索词对该语料进行替换,否则认为该语料为正确的语料,不对其进行纠错。例如,语言模型中存在语料“刘得华”,而在纠错映射表中存在“刘得华->刘德华”的纠错准则,那么将该语料“刘得华”纠正为“刘德华”。其中,语言模型可以用于电脑、手机等各种通信终端的语音搜索。在本实施例中,语言模型优选采用N-Gram模型。
但是,在一些实施例中,可能存在有些语料是错误的,但是在纠错映射表中不存在相应纠错规则的情况。因此,可以在语料与纠错映射表匹配失败、且该语料又是由多个词语构成的情况下,对该语料进行分词,然后利用纠错映射表对分词后的词语分别进行纠错,以此尽可能避免上述情况的出现,从而保证更加全面的纠错。例如,对于语料“刘德化演唱汇”,在纠错映射表中不存在相应纠错规则的情况下,可以将其进行分词为“刘德化”和“演唱汇”两个词,然后利用纠错映射表中的“刘德化->刘德华”以及“演唱汇->演唱会”两个纠错规则分别进行纠错,将“刘德化”纠正为“刘德华”,将“演唱汇”纠正为“演唱会”,从而完成了对语料“刘德化演唱汇”的纠错。
此外,由于线上用户每天的检索行为非常多,而且语言模型中的语料数量又非常巨大,因此,为了提高纠错效率,优选地通过部署大量的线上服务器来实现本发明所提供的对语言模型进行在线纠错的方法。
与现有技术相比,本发明所提供的对语言模型进行在线纠错方法具有以下优点:通过线上用户的检索行为对语言模型的语料进行纠错,有效地提高了纠错的速度和纠错的准确性,实现了利用较低的代价解决语言模型中语料存在错误的问题,从而能够有效地提高语言模型建模的正确性,进而提升了使用该语言模型的语音识别系统的准确率。
根据本发明的另一个方面,还提供了一种对语言模型进行在线纠错的系统。请参考图3,图3为根据本发明另一个方面的对线语言模型进行在线纠错的系统示意图。如图所示,该纠错系统300包括记录模块301、映射表形成模块302以及纠错模块303,其中:
所述记录模块301,用于记录线上用户在检索过程中对检索词的纠错行为;
所述映射表形成模块302,用于基于所述线上用户的纠错行为形成纠错映射表;
所述纠错模块303,用于利用所述纠错映射表对语言模型中的语料进行纠错。
下面,对上述模块的具体工作过程进行描述。
在线上用户利用搜索引擎进行检索的过程中,经常会出现检索词输入不准确的情况。因此,用户往往需要对检索词进行一次或者多次纠错,才会最终获得符合其搜索需求的检索词。记录模块301对上述用户的纠错行为进行记录,即,将用户初始输入的检索词(下文以“初始检索词”表示)、调整过程中使用的检索词(下文以“过程检索词”表示)以及最终符合用户搜索需求的检索词(下文以“目标检索词”表示)记录下来,并将这些检索词进行关联。
以一个优选实施例进行说明。用户输入初始检索词进行搜索,搜索引擎会对该初始检索词进行判断。如果搜索引擎判断该初始检索词可能存在错误(如初始检索词中出现明显错别字、或者初始检索词不属于常见词汇),则会为用户推荐目标检索词,供用户选择。例如,如图2所示,用户输入的检索词为“刘德化”,搜索引擎给出基于“刘德化”的搜索结果,并在搜索结果页中给出“您要找的是不是:刘德华”的提示,即,推荐目标检索词“刘德华”。当用户选择“刘德华”作为目标检索词进行搜索后,记录模块301对用户输入的初始检索词“刘德化”和搜索引擎推荐的目标检索词“刘德华”进行关联(刘德化->刘德华),并对其进行记录。
上述实施例仅为一个优选实施例。在其他实施例中,也可以是用户自己对初始检索词进行一次或者多次的修改。例如,用户初始输入“刘得化”,接着修改为“刘德化”,最后修改为“刘德华”并将其作为最终的目标检索词。在这种情况下,记录模块301将初始检索词“刘得化”、过程检索词“刘德化”以及目标检索词“刘德华”三者进行关联并记录下来。在其他实施例中,记录模块301也可以将初始检索词、过程检索词分别和目标检索词进行关联。仍以上述初始检索词“刘得化”、过程检索词“刘德化”以及目标检索词“刘德华”为例说明,记录模块301分别将“刘得化”与“刘德华”(刘得化->刘德华)、“刘德化”与“刘德华”进行关联(刘德化->刘德华),并对其分别进行记录。
记录模块301对线上用户对检索词的纠错行为进行记录后,映射表形成模块302将对记录的纠错行为进行统计分析,从中提取出相应的纠错规则建立纠错映射表,该纠错映射表将用于对语言模型的语料的纠错。
优选地,为了获取准确的纠错规则,记录模块301在记录用户纠错行为的过程中,对于相同的纠错行为的出现次数进行计数。进一步地,纠错系统300还包括阈值比较模块(未示出),当该阈值比较模块检测到相同的纠错行为的出现次数多于预定阈值时,会通知映射表形成模块302该纠错行为可信度高,于是映射表形成模块302将从中该纠错行为中提出去相应的纠错规则添加至纠错映射表内;反之,映射表形成模块302将不会从该纠错行为中提取纠错规则。假设预定阈值为10000,经统计记录模块301发现“刘得化->刘德华”的纠错行为出现的次数超过10000次,而“刘德华->刘得化”的纠错行为仅出现了不到500次,在这种情况下,“刘得化->刘德华”作为可信的纠错规则被映射表形成模块302记录至纠错映射表中,而“刘德华->刘得化”的纠错行为则被认为不可信,不被用于纠错规则的提取。当然,本领域的技术人员应该可以理解,在其他实施例中,也可以是映射表形成模块302从线上用户的纠错行为中将纠错准则提取出来后直接记录至纠错映射表内,然后映射表形成模块302对该纠错准则出现的次数进行记录,当阈值比较模块检测到该纠错准则出现的次数高于一定阈值时,该纠错准则才会被用于对语言模型的语料的纠错中。
但是,需要说明的是,并不是所有用户在线上的对检索词的纠错行为都能用于形成纠错规则,为了实现对用于语音识别的语言模型进行纠错的目的,映射表形成模块302主要是选择类型为同音纠错、非补全性纠错以及字符集内纠错的行为进行纠错规则的提取。
其中,同音纠错是指通过将初始检索词中的一个或者多个字修改为同音字来对其进行纠错。在本实施例中,同音字指在现代汉语中语音相同但字形、意义不同的字,其中,语音相同是广义地指声母和韵母相同。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,其中“德”与“得”为同音字,在这种情况下,映射表形成模块302将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“太平洋战争”,纠错后的目标检索词为“太平洋战役”,即,将“争”纠正为“役”,而“役”与“争”并非是同音字,在这种情况下,映射表形成模块302则不会从用户的纠错行为中提取纠错规则。
非补全性纠错是指不通过增加或减少内容的方式来对初始检索词进行纠错。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,而并没有在初始检索词中添加其他内容,在这种情况下,映射表形成模块302将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“斗破”,纠错后的目标检索词为“斗破苍穹”,即,在“斗破”的后面添加了“苍穹”,在这种情况下,映射表形成模块302则不会从用户的纠错行为中提取纠错规则。
字符集内纠错是指利用字符集中存在的字对目标检索词进行纠错。举例说明,如果用户的初始检索词为“刘得华”,纠错后的目标检索词为“刘德华”,即,将“得”纠正为“德”,其中“德”存在于语言模型的字符集中,在这种情况下,映射表形成模块302将提取“刘得华->刘德华”作为纠错规则;如果用户的初始检索词为“小岛阳菜”,纠错后的目标检索词为“小嶋阳菜”,即,将“岛”纠正为“嶋”,而“嶋”不存在于语言模型的字符集中,在这种情况下,映射表形成模块302则不会从用户的纠错行为中提取纠错规则。
优选地,映射表形成模块302需要判断所述纠错行为是否同时属于上述同音纠错、非补全纠错以及字符集内纠错,如果判断属于上述三种纠错行为,则基于该纠错行为形成纠错映射表。
形成纠错映射表之后,纠错模块303即可将纠错映射表中的纠错规则应用至语言模型中,对语言模型中的语料进行纠错。即,纠错模块303将语言模型中的语料与纠错映射表中的初始检索词以及过程检索词进行匹配,如果匹配成功,则用与该初始检索词或过程检索词相对应的目标检索词对该语料进行替换,否则认为该语料为正确的语料,不对其进行纠错。例如,语言模型中存在语料“刘得华”,而在纠错映射表中存在“刘得华->刘德华”的纠错准则,那么纠错模块303将该语料“刘得华”纠正为“刘德华”。其中,语言模型可以用于电脑、手机等各种通信终端的语音搜索。在本实施例中,语言模型优选采用N-Gram模型。
进一步地,纠错系统300还可以包括分词模块(未示出),用于在语料与纠错映射表匹配失败、且该语料又是由多个词语构成的情况下,对该语料进行分词。然后,纠错模块303利用纠错映射表对分词后的词语分别进行纠错,以此尽可能保证更加全面的纠错。例如,对于语料“刘德化演唱汇”,在纠错映射表中不存在相应纠错规则的情况下,分词模块可以将其进行分词为“刘德化”和“演唱汇”两个词,然后纠错模块303利用纠错映射表中的“刘德化->刘德华”以及“演唱汇->演唱会”两个纠错规则分别进行纠错,将“刘德化”纠正为“刘德华”,将“演唱汇”纠正为“演唱会”,从而完成了对语料“刘德化演唱汇”的纠错。
此外,由于线上用户每天的检索行为非常多,而且语言模型中的语料数量又非常巨大,因此,纠错系统300优选地由大量的服务器所构成,以此来加快纠错的速度和提高纠错的效率。
与现有纠错系统相比,本发明所提供的对语言模型进行在线纠错的系统具有以下优点:通过线上用户的检索行为对语言模型的语料进行纠错,有效地提高了纠错的速度和纠错的准确性,实现了利用较低的代价解决语言模型中语料存在错误的问题,从而能够有效地提高语言模型建模的正确性,进而提升了使用该语言模型的语音识别系统的准确率。
本发明提供的对语言模型进行在线纠错的方法可以使用可编程逻辑器件结合来实现,也可以实施为计算机程序软件,例如根据本发明的实施例可以是一种计算机程序产品,运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述对语言模型进行在线纠错的方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (17)

1.一种对语言模型进行在线纠错的方法,该方法包括以下步骤:
记录线上用户在检索过程中对检索词的纠错行为;
基于所述线上用户的纠错行为形成纠错映射表;
利用所述纠错映射表对语言模型中的语料进行纠错。
2.根据权利要求1所述的方法,其中,记录线上用户在检索过程中对检索词的纠错行为的步骤包括:
当线上用户对初始检索词进行纠错时,记录纠错过程中所述线上用户使用的初始检索词、过程检索词以及目标检索词。
3.根据权利要求2所述的方法,其中:
在记录用户纠错行为的过程中,计算相同的纠错行为的出现的次数;
当所述相同的纠错行为的出现的次数大于预定阈值时,该纠错行为用于纠错映射表的形成。
4.根据权利要求1至3中任一项所述的方法,其中,基于所述线上用户的纠错行为形成纠错映射表的步骤包括:
从线上用户特定的纠错行为中,提取该纠错行为中的初始检索词、过程检索词以及目标检索词,并将其进行关联,记录至纠错映射表中。
5.根据权利要求4所述的方法,其中:
判断所述特定纠错行为的类型是否属于同音纠错、非补全纠错以及字符集内纠错,如果属于上述类型的纠错行为则基于该纠错行为形成纠错映射表。
6.根据权利要求4所述的方法,其中,利用所述纠错映射表对语言模型中的语料进行纠错的步骤包括:
将语言模型中的语料与所述纠错映射表中的初始检索词和过程检索词进行匹配,在匹配成功的情况下,使用与所述初始检索词或过程检索词相关联的目标检索词替代所述语料。
7.根据权利要求4所述的方法,其中,利用所述纠错映射表对语言模型中的语料进行纠错的步骤包括:
将语言模型中的语料进行分词,形成多个词语;
将该多个词语分别与所述纠错映射表中的初始检索词和过程检索词进行匹配,在匹配成功的情况下,使用与所述初始检索词或过程检索词相关联的目标检索词替代所述词语。
8.根据权利要求1至3中任一项所述的方法,其中,所述语言模型为N-Gram模型。
9.一种对语言模型进行在线纠错的系统,包括:
记录模块,用于记录线上用户在检索过程中对检索词的纠错行为;
映射表形成模块,用于基于所述线上用户的纠错行为形成纠错映射表;
纠错模块,用于利用所述纠错映射表对语言模型中的语料进行纠错。
10.根据权利要求9所述的系统,其中:
当线上用户对初始检索词进行纠错时,所述记录模块记录纠错过程中所述线上用户使用的初始检索词、过程检索词以及目标检索词。
11.根据权利要求10所述的系统,其中:
在记录用户纠错行为的过程中,所述记录模块计算相同的纠错行为的出现的次数。
12.根据权利要求11所述的系统,还包括:
阈值比较模块,用于将所述相同的纠错行为的出现的次数与预定阈值进行比较。
13.根据权利要求9至12中任一项所述的系统,其中:
从线上用户特定的纠错行为中,所述映射表形成模块提取该纠错行为中的初始检索词、过程检索词以及目标检索词,并将其进行关联,记录至纠错映射表中。
14.根据权利要求13所述的系统,其中:
判断所述特定纠错行为的类型是否属于同音纠错、非补全纠错以及字符集内纠错,如果属于上述类型的纠错行为则基于该纠错行为形成纠错映射表。
15.根据权利要求9至12中任一项所述的系统,其中:
所述纠错模块将语言模型中的语料与所述纠错映射表中的初始检索词和过程检索词进行匹配,在匹配成功的情况下,使用与所述初始检索词或过程检索词相关联的目标检索词替代所述语料。
16.根据权利要求9至12中任一项所述的系统,还包括:
分词模块,用于将语言模型中的语料进行分词,形成多个词语。
17.根据权利要求9至12中任一项所述的系统,其中,所述语言模型为N-Gram模型。
CN201310024375.7A 2013-01-23 2013-01-23 一种对语言模型进行在线纠错的方法及系统 Pending CN103942223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310024375.7A CN103942223A (zh) 2013-01-23 2013-01-23 一种对语言模型进行在线纠错的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310024375.7A CN103942223A (zh) 2013-01-23 2013-01-23 一种对语言模型进行在线纠错的方法及系统

Publications (1)

Publication Number Publication Date
CN103942223A true CN103942223A (zh) 2014-07-23

Family

ID=51189893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310024375.7A Pending CN103942223A (zh) 2013-01-23 2013-01-23 一种对语言模型进行在线纠错的方法及系统

Country Status (1)

Country Link
CN (1) CN103942223A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及系统
CN105468468A (zh) * 2015-12-02 2016-04-06 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN105868356A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 语料检测方法及装置
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN106934918A (zh) * 2015-12-30 2017-07-07 航天信息股份有限公司 利用基本语料库辅助进行票据字符识别的方法和装置
CN107622054A (zh) * 2017-09-26 2018-01-23 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN110889028A (zh) * 2018-08-15 2020-03-17 北京嘀嘀无限科技发展有限公司 一种语料处理以及模型训练的方法及系统
CN111310442A (zh) * 2020-02-06 2020-06-19 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN112861518A (zh) * 2020-12-29 2021-05-28 科大讯飞股份有限公司 文本纠错方法、装置和存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106790A1 (en) * 2004-11-17 2006-05-18 Transversal Corporation Limited Information handling mechanism
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106790A1 (en) * 2004-11-17 2006-05-18 Transversal Corporation Limited Information handling mechanism
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN106156098B (zh) * 2015-04-02 2020-08-14 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN105244029B (zh) * 2015-08-28 2019-02-26 安徽科大讯飞医疗信息技术有限公司 语音识别后处理方法及系统
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及系统
CN105468468B (zh) * 2015-12-02 2018-07-27 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105468468A (zh) * 2015-12-02 2016-04-06 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN106934918A (zh) * 2015-12-30 2017-07-07 航天信息股份有限公司 利用基本语料库辅助进行票据字符识别的方法和装置
CN105550171B (zh) * 2015-12-31 2018-10-16 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN105868356A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 语料检测方法及装置
CN107622054A (zh) * 2017-09-26 2018-01-23 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN107622054B (zh) * 2017-09-26 2020-12-22 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN110889028A (zh) * 2018-08-15 2020-03-17 北京嘀嘀无限科技发展有限公司 一种语料处理以及模型训练的方法及系统
CN111310442A (zh) * 2020-02-06 2020-06-19 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN111310442B (zh) * 2020-02-06 2021-12-28 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN112861518A (zh) * 2020-12-29 2021-05-28 科大讯飞股份有限公司 文本纠错方法、装置和存储介质及电子装置
CN112861518B (zh) * 2020-12-29 2023-12-01 科大讯飞股份有限公司 文本纠错方法、装置和存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN103942223A (zh) 一种对语言模型进行在线纠错的方法及系统
CN108287858B (zh) 自然语言的语义提取方法及装置
CN107526967B (zh) 一种风险地址识别方法、装置以及电子设备
CN107622054B (zh) 文本数据的纠错方法及装置
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN102483743B (zh) 对书写体系和语言的检测
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN110134949B (zh) 一种基于教师监督的文本标注方法和设备
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN102831177B (zh) 语句纠错方法及其系统
CN101950285A (zh) 利用统计学方法对汉字的本国语读音串转换系统及其方法
CA3029588A1 (en) Error correction method and device for search term
CN104142915A (zh) 一种添加标点的方法和系统
CN112541076B (zh) 目标领域的扩充语料生成方法、装置和电子设备
CN103049458A (zh) 一种修正用户词库的方法和系统
CN106610990A (zh) 情感倾向性分析的方法及装置
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN103678271A (zh) 一种文本校正方法及用户设备
CN103473217A (zh) 从文本中抽取关键词的方法和装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN110781291A (zh) 一种文本摘要提取方法、装置、服务器及可读存储介质
CN102955770A (zh) 一种拼音自动识别方法及系统
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN102402298A (zh) 一种拼音输入法及拼音输入法的用户词添加方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140723