CN109062888B - 一种出现错误文本输入时的自纠正方法 - Google Patents
一种出现错误文本输入时的自纠正方法 Download PDFInfo
- Publication number
- CN109062888B CN109062888B CN201810561235.6A CN201810561235A CN109062888B CN 109062888 B CN109062888 B CN 109062888B CN 201810561235 A CN201810561235 A CN 201810561235A CN 109062888 B CN109062888 B CN 109062888B
- Authority
- CN
- China
- Prior art keywords
- character
- text
- relevance
- characters
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种出现错误文本输入时的自纠正方法,属于文本分析技术领域。接收待检测的文本信息,记录到数据流中;进行文本进行单一化字符处理,将文本进行解析,处理为一个个单一的字符信息;创建双字符关联词库表,将每一个单一字符,此处命名为key字符,其后都建立一张关联表格,用以存放关联字符表;统计key字符之后的词库表中每个字符出现的条件概率为多少;再次从数据流中获取待纠错文本信息;运用字符表进行对比,当出现比预定阈值小的字符关联时,按照字符表中概率由高到低的顺序进行推送纠正。
Description
技术领域
本发明涉及一种出现错误文本输入时的自纠正方法,属于文本分析技术领域。
背景技术
大量文本输入和编辑的时候,难免会出现输入错误的情况,主要的错误为音相似错误和形似错误方式。现有的纠错方式为,人工的方式,在文本成稿之后,通常是由人力的方式,通过全文阅读文章来进行错误文本的改正工作,这样的方式其效率非常低下,同时,在错误文本为形似错误的时候,通过人力的方式,以阅读的手段来解决问题,往往很难被发现出来。
发明内容
本发明要解决的技术问题是提供一种出现错误文本输入时的自纠正方法,用以解决上述问题。
本发明的技术方案是:一种出现错误文本输入时的自纠正方法,首先接收待纠正的文本信息,在获取到待纠错文本信息之后,将其存储于数据流中,以便多次使用待纠错文本信息,从数据流中获取文本信息,将其进行单一化处理,处理为单一化的文本字符信息。
将每一个字符后建立一张关联性字符表,其中被创建表的字符取名为key字符,其表格特点为,记录关联性字符出现的条件概率,即以全文本信息为范围,计算出当key字符出现后,下一可能字符出现的在全文范围内的条件概率。
再次从数据流中获取待纠错文本信息,与字符表中的文本信息进行对比,同时,结合预定阈值,对疑似错误输入部分进行甄别,当大于阈值时,判定关联性强,为正确关联输入,当小于阈值时,判定其为错误的文本关联性信息;从当前key字符表格中,筛选出大于阈值的关联字符,按照条件概率的大小排序推送出纠正选项。
具体为:
第一步:接收待纠正的文本信息;
第二步:储存待纠正文本信息于数据流中,待重复使用文本信息;
第三步:将数据流中的待纠错文本信息进行单一化字符处理,当前字符用key字符代指;将文本中的key字符后建立关联性词库表,用于存放key字符后出现的所有字符,并存放其出现的条件概率值为多少,其计算方式为;
第四步:再次读取数据流中的待纠错文本信息,与关联性词库进行比对,同时,与预定阈值进行比对,产生比对结果;
第五步:当大于阈值时,判定关联性强,为正确关联输入,当小于阈值时,判定其为错误的文本关联性信息;
第六步:从当前key字符表格中,筛选出大于阈值的关联字符,按照条件概率的大小排序推送出纠正选项。
本发明的有益效果是:用概率的方式,将全文本中的字符条件概率进行建立关联性表统计,使用全文本的数据量来对个别偶发错误输入文本进行甄别,大大的提高了纠错的效率,同时,提高了纠错的精准度,适合现在的实际使用要求。
附图说明
图1是本发明的流程图;
图2是本发明关键字概率关系矩阵图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种出现错误文本输入时的自纠正方法,具体为:
第一步: 接收待纠正的文本信息,从外部接收到待检测的文本信息;如图1中所示流程图,在第一步中,将待查错的文本信息进行接收。储存待纠正文本信息与数据流中,待重复使用文本信息。
第二步:将数据流中的待纠错文本信息进行单一化字符处理,如图1流程图所示,将文本中的所有字符信息,全部按照单个的字符形式进行表示,同时,当前字符用key字符代指,如表1所示,当文本信息为“中间名族”时,将其处理为“中”“间”“名”“族”;将文本中的key字符后建立关联性词库表。
表1
第三步:计算条件概率,如图1流程图所示,统计key字符之后的词库表中每一个字符出现的概率,并存放入相对应表格中,其计算方式为;如表1所示,其中“中国”这一文本信息,在表中的展示结构为,key字符为“中”字,其后出现“国”字在全文范围内的概率为0.351。
第四步:再次获取数据中的文本数据,用于和第三步中建立的关联性表格进行比对,甄别出可能的错别输出文本信息,如图1流程图所示,再次获取数据流中的文本信息;并处理为单一字符信息。如表1所示,当文本信息为“中间名族”时,将其处理为“中”“间”“名”“族”;
第五步:当大于阈值时,判定关联性强,为正确关联输入,当小于阈值时,判定其为错误的文本关联性信息;如图1流程图所示,对于比对的结果进行判定,由阈值来控制,是否判定为错误文本输入。如表1实例来看,例如:待纠错文本中的部分文本为“中间名族”,有表中数据可以得到,“中”字之后出现“间”字的全文本中的条件概率为0.092,如若给定的阈值为0.2,可见,其条件概率是小于阈值的,此时,将会判定其为错误的文本输入,对于原文本中的“名族”,有表1中数据可知,其出现的概率为0.001,其概率远远小于阈值,故而判定其为错误的文本关联性输入。
第六步:根据概率,从key字符后的关联性表格中选取出,大于阈值的字符信息进行推送,以表中的数据为例,此时,“中”字后的关联性表格中,出现“国”字的概率为0.351,出现“央”字的概率为0.385,出现“华”字的概率为0.405,这些字符的概率是大于阈值的,此时,按照其概率的大小来进行排序,按照顺序进行推送,其最终的推送方式为“华”,“央”,“国”。从关联性表格中可以知道,此时,“民”字后出现“族”的概率为0.425,照其概率的大小来进行排序,按照顺序进行推送,其最终的推送方式为“民”字。
第七步:按照提示的纠错提示性字符,可以将抉择出最高概率的正确语句为“中华民族”。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种出现错误文本输入时的自纠正方法,其特征在于:
第一步:接收待纠正的文本信息;
第二步:储存待纠正的文本信息于数据流中,以便多次使用所述待纠正的文本信息;
第三步:将数据流中的待纠正的文本信息进行单一化字符处理,其中,单一化字符处理指将文本中的所有字符信息,全部按照单个的字符形式进行表示;选择一字符设定为key字符,针对key字符及其后面出现的所有字符建立关联性字符表,关联性字符表中存放有key字符后出现的所有字符及各个字符出现的条件概率值,条件概率值的计算方式为
第四步:读取所述数据流中的待纠正的文本信息及第三步中建立的关联性字符表,将字符表中key字符后出现字符的条件概率值与预设阈值进行比对,产生比对结果,甄别出可能的错误输入文本信息;
第五步:当关联性字符表中的条件概率值大于阈值时,判定关联性强,为正确关联输入;当关联性字符表中的条件概率值小于阈值时,判定其为错误的文本关联性信息,转至第六步;具体的,当关联性字符表中key字符后出现A字符的条件概率为PA,且PA小于预设阈值时,判定key字符后出现A字符的情况为错误的文本关联性输入;
第六步:从当前key字符的关联性字符表中,筛选出条件概率值大于阈值的字符,按照条件概率的大小对字符进行排序,按照排序顺序推送纠正选项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561235.6A CN109062888B (zh) | 2018-06-04 | 2018-06-04 | 一种出现错误文本输入时的自纠正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810561235.6A CN109062888B (zh) | 2018-06-04 | 2018-06-04 | 一种出现错误文本输入时的自纠正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062888A CN109062888A (zh) | 2018-12-21 |
CN109062888B true CN109062888B (zh) | 2023-03-31 |
Family
ID=64820275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810561235.6A Active CN109062888B (zh) | 2018-06-04 | 2018-06-04 | 一种出现错误文本输入时的自纠正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062888B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110303A (zh) * | 2019-03-28 | 2019-08-09 | 苏州八叉树智能科技有限公司 | 新闻文本生成方法、装置、电子设备和计算机可读介质 |
CN110020432B (zh) * | 2019-03-29 | 2021-09-14 | 联想(北京)有限公司 | 一种信息处理方法和信息处理设备 |
CN110489723A (zh) * | 2019-08-19 | 2019-11-22 | 绍兴数纺科技有限公司 | 一种印染行业信息系统的数据查错与纠错系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101420483A (zh) * | 2008-11-28 | 2009-04-29 | 深圳华为通信技术有限公司 | 错别字检测方法及移动终端 |
WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
CN102375807A (zh) * | 2010-08-27 | 2012-03-14 | 汉王科技股份有限公司 | 文字校对方法和装置 |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103136196A (zh) * | 2008-04-18 | 2013-06-05 | 上海触乐信息科技有限公司 | 用于向电子设备输入文本和纠错的方法 |
JP2013218628A (ja) * | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 文字列類似度計算装置、方法、及びプログラム |
CN103616962A (zh) * | 2013-12-13 | 2014-03-05 | 联想(北京)有限公司 | 一种信息处理方法和装置 |
WO2014189625A1 (en) * | 2013-05-24 | 2014-11-27 | Google Inc. | Order-independent text input |
CN104298672A (zh) * | 2013-07-16 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种输入的纠错方法和装置 |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN106777073A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种搜索引擎中错别字自动更正方法和服务器 |
WO2017104805A1 (ja) * | 2015-12-18 | 2017-06-22 | 国立大学法人東京農工大学 | プログラム、情報記憶媒体及び文字列認識装置 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602006013969D1 (de) * | 2006-08-11 | 2010-06-10 | Harman Becker Automotive Sys | Spracherkennung mittels eines statistischen Sprachmodells unter Verwendung von Quadratwurzelglättung |
CA2595541A1 (en) * | 2007-07-26 | 2009-01-26 | Hamid Htami-Hanza | Assisted knowledge discovery and publication system and method |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101350004B (zh) * | 2008-09-11 | 2010-08-11 | 北京搜狗科技发展有限公司 | 形成个性化纠错模型的方法及个性化纠错的输入法系统 |
CN101833547B (zh) * | 2009-03-09 | 2015-08-05 | 三星电子(中国)研发中心 | 基于个人语料库进行短语级预测输入的方法 |
TW201203135A (en) * | 2010-07-07 | 2012-01-16 | Chun-Yen Chang | Literacy instrument constructing method and device of the same |
CN103078913B (zh) * | 2012-12-27 | 2015-11-25 | 北京百度网讯科技有限公司 | 输入法应用程序的词库更新方法和系统 |
US20140278349A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Language Model Dictionaries for Text Predictions |
US20140267045A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Adaptive Language Models for Text Predictions |
CN103605642B (zh) * | 2013-11-12 | 2016-06-15 | 清华大学 | 一种面向文本输入的自动纠错方法与系统 |
CN104239292B (zh) * | 2014-08-18 | 2017-07-28 | 武汉传神信息技术有限公司 | 一种获取专业词汇译文的方法 |
CN104317961B (zh) * | 2014-11-14 | 2018-04-27 | 武汉众邦领创技术有限公司 | 一种专业系统输入智能提示系统 |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN107844199B (zh) * | 2016-09-18 | 2022-03-04 | 北京搜狗科技发展有限公司 | 一种输入方法、系统和用于输入的装置 |
-
2018
- 2018-06-04 CN CN201810561235.6A patent/CN109062888B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136196A (zh) * | 2008-04-18 | 2013-06-05 | 上海触乐信息科技有限公司 | 用于向电子设备输入文本和纠错的方法 |
WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
CN101420483A (zh) * | 2008-11-28 | 2009-04-29 | 深圳华为通信技术有限公司 | 错别字检测方法及移动终端 |
CN102375807A (zh) * | 2010-08-27 | 2012-03-14 | 汉王科技股份有限公司 | 文字校对方法和装置 |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
JP2013218628A (ja) * | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 文字列類似度計算装置、方法、及びプログラム |
WO2014189625A1 (en) * | 2013-05-24 | 2014-11-27 | Google Inc. | Order-independent text input |
CN104298672A (zh) * | 2013-07-16 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种输入的纠错方法和装置 |
CN103616962A (zh) * | 2013-12-13 | 2014-03-05 | 联想(北京)有限公司 | 一种信息处理方法和装置 |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
WO2017104805A1 (ja) * | 2015-12-18 | 2017-06-22 | 国立大学法人東京農工大学 | プログラム、情報記憶媒体及び文字列認識装置 |
CN106777073A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种搜索引擎中错别字自动更正方法和服务器 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
Non-Patent Citations (1)
Title |
---|
"Chinese Spelling Errors Detection based on CSLM";Zhaoyi Guo et al;《2015 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology》;20160204;第173-176页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109062888A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
US11024287B2 (en) | Method, device, and storage medium for correcting error in speech recognition result | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN109062888B (zh) | 一种出现错误文本输入时的自纠正方法 | |
JP5847871B2 (ja) | 誤打校正システム及び誤打校正方法 | |
US7810030B2 (en) | Fault-tolerant romanized input method for non-roman characters | |
KR102348845B1 (ko) | 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법 | |
US10242296B2 (en) | Method and device for realizing chinese character input based on uncertainty information | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
US10192028B2 (en) | Data analysis device and method therefor | |
CN106708798B (zh) | 一种字符串切分方法及装置 | |
CN109522558A (zh) | 一种基于深度学习的中文错字校正方法 | |
KR102148984B1 (ko) | 데이터 처리 시스템 및 방법 | |
CN102063482A (zh) | 一种手持设备高效联系人查找方法 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
JPH0528183A (ja) | テキスト原稿解析法 | |
CN107153469B (zh) | 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品 | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
JP2015022431A (ja) | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN112287657B (zh) | 基于文本相似度的信息匹配系统 | |
CN114429136A (zh) | 一种文本纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |