CN104050255B - 基于联合图模型的纠错方法及系统 - Google Patents
基于联合图模型的纠错方法及系统 Download PDFInfo
- Publication number
- CN104050255B CN104050255B CN201410264085.4A CN201410264085A CN104050255B CN 104050255 B CN104050255 B CN 104050255B CN 201410264085 A CN201410264085 A CN 201410264085A CN 104050255 B CN104050255 B CN 104050255B
- Authority
- CN
- China
- Prior art keywords
- pinyin
- syllable
- error correction
- graph model
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种信息处理技术领域的基于联合图模型的纠错方法及系统,基于拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的可能包含错误的拼音串进行音节切分,并对切分得到的音节串构建拼音纠错和整句生成的联合图模型,最终通过在联合图模型上进行最短路径解码,获得拼音纠错‑整句生成联合最优解,完成纠错。本发明能够在拼音输入含有错误时仍能够通过自动容错纠错,生成用户意图输入的句子,在复杂度为0(E)的情况下准确率达到97%以上。
Description
技术领域
本发明涉及的是一种信息处理技术领域的方法,具体是一种基于联合图模型的纠错方法及系统。
背景技术
人们的日常工作与生活强烈地依赖于中文输入法。不论是写邮件、发短信,还是写文章、填表格;凡是需要将中文输入到计算机当中几乎都离不开中文输入法。中文输入也是中文的信息化处理的重要环节,只有将中文通过输入法录入到计算机中,才可能进行后续的储存、分类、统计、检索、传输等信息化处理工作。作为人们日常生活的必需软件和中文信息处理的基石,中文输入法的重要性不言而喻。
早期的中文输入法受限于计算机的软硬件条件,普遍要求用户不得不去适应机器,如记忆大量的编码,或产生歧义时人工选择等。随着计算机的性能的不断提升,计算机硬件方面汉字输入计算机的性能制约已不复存在,中文输入法软件也随之进步发展。
现阶段主流的输入法都采用了拼音输入、整句解码的架构。用户只需要输入和汉字句子对应的连续的拼音串,输入法会自动进行拼音切分,查找候选词,最终解码生成整句。整句解码不仅使用户的输入更加连贯自然,更重要的是利用了整句层面的统计语言学信息极大程度地减少了歧义,使得中文输入更加准确高效。
然而现有的整句解码方案都要求用户的拼音输入没有错误,否则便无法进行正确解码。然而随着智能手机、平板电脑等触摸屏便携智能设备的普及,受限于触摸屏的软键盘的大小和缺乏物理反馈,拼音输入的错误率较使用物理键盘大大增加,极大地影响了这些设备上的使用体验和输入效率。
经过对现有技术的检索发现,中国专利文献号CN102156551A公开(公告)日2011.08.17,公开了一种字词输入的纠错方法及系统,其中:,所述方法包括:检测用户输入的编码字符串中存在的错误输入片段;纠正所述编码字符串中的错误输入片段,生成至少一个纠错候选字符串;利用基于编码字符串的噪音信道模型,对所述纠错候选字符串进行评估;根据评估的结果,将至少一个所述纠错候选字符串转换为输入文字,并展现所述输入文字。通过该技术,能够提高纠错的有效性或命中率。但该技术基于的是片段的字符串,且对拼音和汉字是分开处理的,由于忽视了拼音与汉字之间的关联性,使得其纠错的正确率较低。
中国专利文献号CN101350004公开(公告)日2009.01.21,公开了一种形成个性化纠错模型的方法,该方法包括:收集用户的输入信息;分析所述输入信息,获取用户的输入习惯信息;根据所述输入习惯信息对当前纠错模型进行调整,得到个性化纠错模型。该技术还公开了一种形成个性化纠错模型的装置及个性化纠错的输入法系统。该技术通过对当前纠错模型进行调整来得到符合用户输入习惯的个性化纠错模型,以用于实现对用户的输入序列进行更准确的个性化自动纠错。另外,可以收集多方面的信息,纠错范围不仅包括类似南方模糊音的认知错误,还包括非认知错误,纠错覆盖面广。由于综合考虑了输入设备布局、输入设备质量等因素,使得该技术可以适用于PC键盘、迷你键盘等不同的输入设备,具有广泛的适用性。但该技术需要收集用户输入信息来建立纠错模型,使得不同用户使用过程中的输入习惯将导致纠错的结果各不相同。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于联合图模型的纠错方法及系统,基于拼音切分、拼音纠错和汉字整句解码联合图模型来达到容错输入的拼音输入法,在拼音输入含有错误时仍能够通过自动容错纠错,生成用户意图输入的句子。
本发明是通过以下技术方案实现的,本发明基于拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的可能包含错误的拼音串进行音节切分,并对切分得到的音节串构建拼音纠错和整句生成的联合图模型,最终通过在联合图模型上进行最短路径解码,获得拼音纠错-整句生成联合最优解,完成纠错。
所述的拼音音节语言模型是指:使用拼音文本训练得到拼音音节语言模型。
所述的音节切分是指:使用最短路径算法对拼音音节进行切分。
所述的联合图模型通过以下步骤构建得到:
4.1)将用户输入的可能包含错误的拼音串中的音节作为节点加入图模型;
4.2)对音节串中母进行逐一修改,将替换得到的新的合法音节加入图模型;
4.3)合并输入字符串上相邻的音节,当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中;
4.4)通过查找拼音-汉字词典,将图模型的节点由音节转换为汉字词,获得联合图模型。
所述的汉字词语言模型通过使用已经分词的汉字文本训练得到。
所述的联合图模型中:使用拼音-汉字发射概率和拼音修改的编辑概率加权求和作为节点权重,使用汉字词语言模型概率作为边权重。
所述的拼音-汉字发射概率通过使用拼音-汉字对应文本抽取拼音-汉字词典并训练得到。
所述的拼音修改的编辑概率是指:将一个拼音串在当前上下文中修改为相邻的一个拼音串的概率。
本发明涉及实现上述方法的系统,包括:交互装置、切分模块、联合图模型生成模块和最短路径计算模块,其中:交互装置接收用户输入的拼音字符串并输出至切分模块,切分模块根据预存的拼音规则和拼音音节语言模型,使用最短路径算法对拼音字符串进行切分,并将切分后音节串的输出至联合图模型生成模块,联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块,最短路径计算模块针对联合图模型进行最短路径解码,并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。
技术效果
与现有技术相比,本发明纠错方法相比现有技术更加高效、快速、准确,其算法复杂度为0(E),处理速度能够达到2000字/秒;准确率为97.52%,而现有的google输入法纠错准确率为95.26%。
附图说明
图1为实施例拼音切分示意图。
图2为实施例纠错图模型示意图。
图3为实施例联合图模型示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施对用户输入的可能包含错误的拼音串,对拼音纠错和整句生成进行联合解码,包括以下步骤:
1.使用拼音文本训练得到拼音音节语言模型;
2.使用已经分词的汉字文本训练得到汉字词语言模型;
3.使用拼音-汉字对应文本抽取拼音-汉字词典,训练得到拼音-汉字发射概率模型。
本实施例使用了一个已经收集好的拼音-汉字对应的人民日报语料库进行训练。使用拼音部分训练得到拼音音节语言模型,拼音音节语言模型可以提供已知已经出现的若干拼音音节si-n...si-2si-1,下一个拼音音节sn的概率P(si|si-n...si-2si-1)。
类似地,使用已经分词的汉字部分训练得到汉字词语言模型,提供已知已经出现的若干汉字词wi-n...wi-2wi-1,下一个拼音音节wi的概率P(wi|wi-n...wi-2wi-1)。
使用拼音-汉字对应语料库,抽取拼音-汉字词典,并训练得到拼音-汉字词发射概率P(w|S),其中:w为汉字词,S为它的拼音。
所述的拼音音节语言模型的获得方式为:
其中:count(x1x2...xk)为序列x1x2...xk的在语料中的计数,smooth()为平滑函数。
所述的拼音-汉字发射概率的获得方式为其中:count(w)为词语w的在语料中的计数,count(S)为拼音S的在语料中的计数,smooth()为平滑函数。
按照拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的拼音进行音节切分:
对于用户输入的拼音串c1c2...cN,如果其子串ci...cj可以组成一个合法音节si,j,就将其作为节点加入到图中,相邻音节si,j,sj+1,k之间有一条边相连,边权重由拼音语言模型P(si|si-n...si-2si-1)给出。在这个图上求最短路径,即可得到概率最大的音节切分。
例如,用户希望输入“你好世界”,并且错误地输入了拼音“mihaoshijiw”,拼音切分过程如图1所示。
对切分得到的音节串构建拼音纠错和整句生成的联合图模型,并进行联合优化解码,具体包括:
i)将音节串中的音节作为节点加入图模型,即将2中的音节si,j加入这一步中的图中。
ii)使用任意一种现有技术对音节串中的字母进行逐一修改。将替换得到的新的合法音节加入图模型。合并相邻的音节,如果可以得到合法的音节,也加入图模型,即修改si,j得到si,j,如果si,j也是一个合法的音节,就将其加入图中。如果si,j,sj+1,k可以合并成一个新的合法音节si,k,就将其加入图中。
iii)本实施例中,得到的新的图模型如图2所示。
iv)通过查找拼音-汉字词典,将图模型的节点由音节转换为汉字词,获得联合图模型,即通过合并若干相邻的音节为一个可能的词si,jsj+1,k...,在词典中查找是否存在对应的汉字词语w,如果有,就将这些音节对应的节点合并出一个新的节点代表这个汉字词语。
本实施例中,这个图模型如图3所示,进一步地:使用拼音-汉字发射概率和拼音修改的编辑概率加权求和为节点权重。使用汉字词语言模型概率为边权重。
使用编辑距离近似编辑概率,与拼音-汉字发射概率加权求和得到节点权重。而边权重由汉字词语言模型P(wi|wi-n...wi-2wi-1)给出。
在联合图模型上进行最短路径解码,获得拼音纠错-整句生成联合最优解,即在汉字词语的节点上进行最短路径解码,得到整句概率最大同时纠错概率最大的联合最优结果。
本实施例实现上述方法的系统包括:交互装置、切分模块、联合图模型生成模块和最短路径计算模块,其中:交互装置接收用户输入的拼音字符串并输出至切分模块,切分模块根据预存的拼音规则和拼音音节语言模型,使用最短路径算法对拼音字符串进行切分,并将切分后音节串的输出至联合图模型生成模块,联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块,最短路径计算模块针对联合图模型进行最短路径解码,并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。
本实施例中,用户通过向交互装置输入拼音“mihaoshijiw”,系统自动判断用户希望输入的拼音为”nihaoshijie”,经拼音纠错-整句生成联合最优解,即“你好世界”。
Claims (5)
1.一种基于联合图模型的纠错方法,其特征在于,基于拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的可能包含错误的拼音串进行音节切分,并对切分得到的音节串构建拼音纠错和整句生成的联合图模型,最终通过在联合图模型上进行最短路径解码,获得拼音纠错-整句生成联合最优解,完成纠错;
所述的拼音音节语言模型是指:使用拼音文本训练得到拼音音节语言模型,拼音音节语言模型根据已知已经出现的若干拼音音节si-n…si-2si-1,提供下一个拼音音节sn的概率P(si|si-n…si-2si-1);
所述的拼音音节语言模型的获得方式为:其中:count(x1x2…xk)为序列x1x2…xk的在语料中的计数,smooth()为平滑函数;
所述的联合图模型通过以下方式构建得到:
4.1)将用户输入的可能包含错误的拼音串中的音节作为节点加入图模型;
4.2)使用任意一种现有技术对音节串中的字母进行逐一修改,将替换得到的新的合法音节加入图模型;
4.3)合并输入字符串上相邻的音节,当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中;否则什么都不做;
4.4)通过查找拼音-汉字词典,将图模型的节点由音节转换为汉字词,获得联合图模型。
2.根据权利要求1所述的方法,其特征是,所述的联合图模型中:使用拼音-汉字发射概率和拼音修改的编辑概率加权求和作为节点权重,使用汉字词语言模型概率作为边权重。
3.根据权利要求2所述的方法,其特征是,所述的汉字词语言模型通过使用已经分词的汉字文本训练得到,汉字词语言模型根据已知已经出现的若干汉字词wi-n…wi-2wi-1,提供下一个拼音音节wi的概率P(wi|wi-n…wi-2wi-1)。
4.根据权利要求2所述的方法,其特征是,所述的拼音-汉字发射概率是指:通过使用拼音-汉字对应文本抽取拼音-汉字词典并训练得到P(w|S),其中:w为汉字词,S为它的拼音;其中:count(w)为词语w的在语料中的计数,count(S)为拼音S的在语料中的计数。
5.一种实现上述任一权利要求所述基于联合图模型的纠错方法的系统,其特征在于,包括:交互装置、切分模块、联合图模型生成模块和最短路径计算模块,其中:交互装置接收用户输入的拼音字符串并输出至切分模块,切分模块根据预存的拼音规则和拼音音节语言模型,使用最短路径算法对拼音字符串进行切分,并将切分后音节串的输出至联合图模型生成模块,联合图模型生成模块根据音节串生成拼音纠错和整句生成的联合图模型并分别输出至最短路径计算模块,最短路径计算模块针对联合图模型进行最短路径解码,并根据拼音纠错联合得到纠错结果并将纠错后的结果反馈至交互装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410264085.4A CN104050255B (zh) | 2014-06-13 | 2014-06-13 | 基于联合图模型的纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410264085.4A CN104050255B (zh) | 2014-06-13 | 2014-06-13 | 基于联合图模型的纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050255A CN104050255A (zh) | 2014-09-17 |
CN104050255B true CN104050255B (zh) | 2017-10-03 |
Family
ID=51503087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410264085.4A Active CN104050255B (zh) | 2014-06-13 | 2014-06-13 | 基于联合图模型的纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050255B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206267B (zh) * | 2015-09-09 | 2019-04-02 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN107291730B (zh) * | 2016-03-31 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 对查询词提供校正建议的方法、装置、及概率词典构建方法 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN106843520B (zh) * | 2017-02-27 | 2020-02-07 | 百度在线网络技术(北京)有限公司 | 用于输出整句的方法和装置 |
CN107220381B (zh) * | 2017-06-28 | 2019-11-15 | 南京云问网络技术有限公司 | 一种面向问答系统的输入文本自动纠错方法 |
CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109814734B (zh) * | 2019-01-15 | 2022-04-15 | 上海趣虫科技有限公司 | 一种修正汉语拼音输入的方法及处理终端 |
CN113589954B (zh) * | 2020-04-30 | 2024-09-03 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN112560452B (zh) * | 2021-02-25 | 2021-05-18 | 智者四海(北京)技术有限公司 | 一种自动生成纠错语料的方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324621A (zh) * | 2012-03-21 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
-
2014
- 2014-06-13 CN CN201410264085.4A patent/CN104050255B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324621A (zh) * | 2012-03-21 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于 Android 的语句级智能汉字输入法研究;刘峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110615(第6期);摘要、第7-31页 * |
拼写纠正在拼音输入法中的应用;陈正 等;《计算机学报》;20010731;第24卷(第7期);第758-763页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104050255A (zh) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050255B (zh) | 基于联合图模型的纠错方法及系统 | |
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
CN110717327B (zh) | 标题生成方法、装置、电子设备和存储介质 | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
Nguyen et al. | An improved neural network model for joint POS tagging and dependency parsing | |
CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
CN102866782B (zh) | 一种提高整句生成效率的输入法和输入法系统 | |
CN102968411B (zh) | 多语机器翻译智能辅助处理方法和系统 | |
CN102135814A (zh) | 一种字词输入方法及系统 | |
CN103927329A (zh) | 一种即时搜索方法和系统 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
CN102053974B (zh) | 一种汉字输入方法和装置 | |
CN110738997B (zh) | 一种信息修正方法、装置、电子设备及存储介质 | |
CN101158969A (zh) | 一种整句生成方法及装置 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN103927330A (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
CN103049458A (zh) | 一种修正用户词库的方法和系统 | |
CN104462105A (zh) | 中文分词方法、装置和服务器 | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN107291730B (zh) | 对查询词提供校正建议的方法、装置、及概率词典构建方法 | |
Kumar et al. | A reliable technique for sentiment analysis on tweets via machine learning and bert | |
CN103246714B (zh) | 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |