CN113168498A - 语言校正系统及其方法以及系统中的语言校正模型学习方法 - Google Patents
语言校正系统及其方法以及系统中的语言校正模型学习方法 Download PDFInfo
- Publication number
- CN113168498A CN113168498A CN201980078320.XA CN201980078320A CN113168498A CN 113168498 A CN113168498 A CN 113168498A CN 201980078320 A CN201980078320 A CN 201980078320A CN 113168498 A CN113168498 A CN 113168498A
- Authority
- CN
- China
- Prior art keywords
- correction
- sentence
- language
- corrected
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 461
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000010801 machine learning Methods 0.000 claims abstract description 91
- 238000007781 pre-processing Methods 0.000 claims description 55
- 238000013519 translation Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 34
- 238000012805 post-processing Methods 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种语言校正系统及其方法以及在系统中学习语言校正模型的方法。该系统包括校正模型学习单元和语言校正单元。校准模型学习单元用于通过机器学习由非文本数据和分别对应所述非文本数据的无错误的文本数据构成的多个数据集,创建一个校准模型以检测与要校正的非文本数据相对应的文本数据。语言校正单元使用由所述校正模型学习单元针对待校正的句子生成的校正模型来生成对应的校正句子,并且显示并输出校正后的部分以及所生成的校正句子。
Description
技术领域
本发明涉及语言校正系统及其方法以及在系统中学习语言校正模型的方法。
背景技术
语言校正是以各种形式的语言编写的句子,例如,在因特网上编写或在因特网上分发的语言句子,即,指的是校正因特网数据中的拼写或文本错误。这些校正不仅可以包括对拼写错误或文本表达进行校正,还可以使句子更整洁,更易于阅读。
上述语言校正可以用于语言学习,或用于各种形式的文本出版物,例如书或报纸文章,以及需要语言校正的区域。
尤其,最近通过因特网分发或使用了大量的语言数据,由于语言校正主要在简单的拼写或文本上执行,因此最近出现了对大量语言数据进行更有效的语言校正的需求。
发明内容
要解决的技术问题
本发明是鉴于所述诸多问题而提出的,其目的在于,提供一种能够通过使用基于机器学习的校正模型来提供有效的语言校正结果的语言校正系统及其方法以及在系统中学习语言校正模型的方法。
技术方案
为了实现所述目的,本发明的语言校正系统,作为基于机器学习的语言校正系统,其中,包括:矫正模型学习单元,对由非文本数据和分别对应所述非文本数据的无错误的文本数据组成的多个数据集执行机器学习,使得创建一个校正模型以检测与要校正的非文本数据相对应的文本数据;以及语言校正单元,对于要校正的句子,使用由所述校正模型学习单元生成的校正模型来生成对应的校正句子,显示并输出校正后的部分以及生成的校正语句。
所述矫正模型学习单元包括:预处理单元,对所述非文本数据执行语言检测,以执行对单个语言句子的过滤,数据净化和规范化;学习处理单元,其针对由所述预处理器过滤的多个数据集执行监督学习数据标记,机器学习数据扩展和机器学习并行数据构造;校正学习单元,其通过对由所述学习处理单元处理的多个数据集执行基于监督学习的机器学习来生成相应的所述校正模型;以及第一后处理单元,通过在所述学习处理单元中在有监督的学习数据标记操作期间添加的标签附加信息来输出错误和错误类别信息,然后去除相应的标签附加信息。
所述学习处理单元中的机器学习数据扩展操作包括数据扩展操作,该数据扩展操作根据键盘的正确位置使用周围印刷字符形成的字母来键入包含在非文本数据中的字母。
在所述学习处理单元中构建用于机器学习的并行数据的操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
所述校正学习单元提供在所述监督式基于学习的机器学习中的学习结果的错误发生概率值,作为非文本数据和文本数据之间的注意力权重信息。
还包括针对输入的句子以预设语言执行翻译的翻译引擎,所述预处理单元在通过所述翻译引擎对所述多个数据集中的大量非文本数据执行翻译时,使用预设标记显示未注册在所述翻译引擎使用的词典中的单词,在完成大量所述非文本数据的翻译之后,进行行校正以提取由所述预设标记标记的单词,然后一起校正为没有错误的单词。
所述预处理单元在提取所述预设标记所指示的单词的同时,掌握频率,所述预设标记标记的单词会根据识别的频率进行排序,并统一校正为没有错误的单词。
所述语言校正单元包括:预处理单元,对于要校正的句子,以句子为单位执行句子分离,并且执行对分离的句子进行标记化的预处理;错误句子检测单元,对于已由所述预处理器预处理的要校正的句子,使用二进制分类器来区分错误句子和非错误句子;拼写校正单元,当错误句子检测单元将句子划分为错误句子时,对所述要校正的句子执行拼写错误的校正;文本校正单元,用于通过使用所述校正模型对通过所述拼写校正单元校正了拼写错误的句子进行文本校正的语言校正来生成校正后的句子;以及后处理单元,对由所述文本校正单元进行的语言校正期间显示校正后的部分进行后处理,并将其与所述校正后的句子一起输出。
所述错误句子检测单元根据当对所述要校正的句子进行分类时识别出的可靠性信息,对所述错误句子和所述非错误句子进行分类。
所述拼写校正单元在校正拼写错误时提供出现拼写错误的概率值作为可靠性信息,所述文本校正单元通过针对所述拼写错误校正的句子的语言校正的关注权重来提供概率值作为可靠性信息,所述后处理单元组合由所述拼写校正单元提供的可靠性信息和所述文本校正单元提供的可靠性信息被组合起来,并作为所述校正后句子的最终可靠性信息提供。
在所述文本校正单元和所述后处理单元之间还包括语言建模单元,所述语言建模单元使用针对由所述文本校正单元生成的校正语句的预设推荐语句来执行语言建模,所述语言建模单元通过在语言建模过程中语言模型的困惑度和互信息(MI)值的组合来提供所述校正语句的可靠性信息,当提供所述最终的可靠性时,所述后处理单元还会合并从所述语言建模单元提供的可靠性信息。
进一步包括由用户注册的源单词和与其相对应的目标单词构成的用户词典,所述源单词和目标单词均为至少一个单词,当在所述用户词典中注册的单词包括在所述多个数据集中时,所述校正模型学习单元通过用预设的用户词典标记替换单词来执行机器学习,当要校正的文本中的用户词典中包括单词时,所述语言校正单元通过用用户词典标记替换要校正的文本来对所述要校正的文本进行语言校正,当用户词典标记包括在校正后的句子中时,将所述用户词典标记替换为对应于所述要校正的句子中的对应单词在所述用户词典中注册的单词。
本发明的语言校正模型学习方法,作为语言校正系统学习基于机器学习的语言校正模型的方法,其中,包括:包括用于由非文本数据和没有错误的分别对应于所述非文本数据的文本数据组成的多个数据集的有监督的学习数据标记,机器学习数据扩展操作和用于机器学习的并行数据构建操作的执行学习处理的步骤;以及通过对已执行所述学习处理的多个数据集执行基于监督学习的机器学习来生成相应的校正模型的步骤。
所述机器学习数据扩展操作包括数据扩展操作,所述数据扩展操作根据键盘的正确位置,使用由周围印刷字符形成的字母,以键入包含在所述非文本数据中的字母,所述机器学习并行数据构建操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
还包括在执行所述学习处理的步骤之前,对所述多个数据集执行语言检测以过滤成单个语言语句,数据净化和规范化的执行预处理的步骤,所述执行预处理的步骤包括:通过翻译引擎翻译所述多个数据集中的大量非文本数据的步骤;使用预设标记显示未在所述翻译引擎使用的词典中注册的单词的步骤;完成大量非文本数据的翻译后,提取由所述预设标记指示的单词;以及将提取的单词统一校正为没有错误的单词的步骤。
所述统一校正的步骤包括:提取所述预设标记指示的单词的步骤;掌握提取词的频率的步骤;根据识别出的频率排列由所述预设标记显示的单词的步骤;以及将排序的单词统一校正为没有错误的单词的步骤。
所述语言校正系统还包括用户词典,用户词典包括由用户注册的源单词和与之相对应的目标单词,所述源单词和目标单词均为至少一个单词,所述生成校正模型的步骤为,当在所述用户词典中注册的单词包括在所述多个数据集中时,通过用预设的用户词典标记替换单词来执行机器学习,以生成所述校正模型。
本发明的语言校正方法,作为基于语言校正系统基于机器学习的语言校正方法,其中,包括:对要校正的句子执行拼写错误的步骤;以及通过对校正后的句子使用校正模型执行文本校正来生成校正后的句子的步骤,通过对分别由所述非文本数据和对应所述非文本数据的无错误的所述文本数据组成的多个数据集执行有监督的基于学习的机器学习来生成所述校正模型。
还包括:在执行所述拼写错误校正的步骤之前,将要校正的句子以句子为单位划分为句子,并且执行对分离的句子进行标记化的预处理的步骤;以及对于已经进行了上述预处理的要校正的句子使用二元分类器区分错误句子和非错误句子的步骤,在将所述错误句子和非错误句子分类的步骤中,当将所述要校正的句子分为错误句子时,执行所述拼写错误校正的步骤。
在区分所述错误句子和非错误句子的步骤中,根据当识别出所述要校正的句子时识别出的可靠性信息来区分所述错误句子和所述非错误句子。
还包括:在所述生成校正语句的步骤之后,使用预设的建议句子作为所述校正句子进行语言建模的步骤;以及在生成所述校正句子时对于显示校正部分进行后处理,并与所述校正后的句子一起输出的步骤。
所述语言校正系统还包括用户词典,所述用户词典包括由用户注册的源单词和与之相对应的目标单词,所述源单词和目标单词均为至少一个词,还包括:在执行所述拼写错误的校正步骤之前,确定所述用户词典中包含的单词是否包含在所述要校正的句子中的步骤;以及当所述用户词典中包括的单词包括在所述要校正的句子中时,用预设的用户词典标记替换所述用户词典和所述要校正的句子中通常包括的单词,还包括:在所述生成校正语句的步骤之后,检查所生成的校正语句中是否包括所述用户词典标记的步骤;当在所述生成的校正语句中包括所述用户词典标记时,通过替换与对应于所包括的用户词典标记的位置的所述校正句子中的单词相对应的所述用户词典中的单词,来生成最终的校正句子的步骤。
有益效果
根据本发明的实施例,可以通过使用基于机器学习的校正模型来提供有效的语言校正结果。
此外,通过将用于语言教育校正教学来开发在线学习系统。
此外,可以通过消除句子级搜索中的错别字/文本错误来提高搜索性能。
此外,可以应用于各种办公工具以帮助文档创建。
此外,通过以用户预定义的形式以变量的形式存储校正信息并在运行时对其进行处理,可以容易地执行语言校正,而无需另外添加或更改校正模型。
另外,可以通过在用户词典中注册及处理难以校正或有意不能很好地工作的部分来提高语言校正的效率。
附图说明
图1是根据本发明实施例的语言校正系统的示意性配置图。
图2是图1所示的校正模型学习单元的详细结构图。
图3是图1所示的语言校正单元的详细配置图。
图4是示出通过根据本发明的实施例的语言校正系统执行语言校正的结果的示例的图。
图5是根据本发明实施例的基于机器学习的语言校正方法的示意性流程图。
图6是根据本发明实施例的学习语言校正模型的方法的示意性流程图。
图7是根据本发明另一实施例的校正模型学习单元的详细配置图。
图8是根据本发明另一实施例的用于校正模型学习句子的预校正的方法的流程图。
图9是示出根据本发明的另一实施例的校正模型学习句子的预校正方法的示例的图。
图10是根据本发明另一实施例的语言校正系统的示意性配置图。
图11是图10所示的校正模型学习单元的详细结构图。
图12是图10所示的语言校正单元的详细配置图。
图13是根据本发明另一实施例的学习语言校正模型的方法的流程图。
图14是根据本发明另一实施例的语言校正方法的流程图。
具体实施方式
在下文中,将参考附图详细描述本发明的实施例,以使本领域普通技术人员可以容易地实现本发明。然而,本发明可以以各种不同的形式来实现,并且不限于此时描述的实施例。在附图中,省略了与描述无关的部分以清楚地描述本发明,并且在整个说明书中相似的附图标记附于相似的部分。
在整个说明书中,当部件“包括”某个组件时,意味着可以另外包括其他组件而不是排除其他组件,除非有相反的明确说明。
另外,说明书中描述的诸如“...单元”,“...组”及“模块”之类的术语是指处理至少一种功能或操作的单元,其可以通过硬件或软件或硬件及软件的组合来实现。
在下文中,将参考附图描述根据本发明实施例的语言校正系统。
图1是根据本发明实施例的语言校正系统的示意性配置图。
如图1所示,根据本发明实施例的语言校正系统100包括输入单元110,校正模型学习单元120,校正模型存储单元130以及语言校正单元140及输出单元150。此时,由于图1所示的语言校正系统100仅是本发明的一个实施例,因此本发明不限于图1,并且根据本发明的各个实施例与图1不同地配置。
输入单元110接收用于学习语言校正的数据或作为要校正的语言校正的对象的数据。此时,作为用于学习语言校正的数据,对于稍后将描述的基于监督学习的机器学习,将包括校正信息的非文本数据及没有错误的文本数据作为一对互联网海量数据输入。
校正模型学习单元120通过输入单元110输入的数据当中用于语言校正学习的数据,即,通过使用由成对的非文本数据及文本数据组成的大量学习数据,执行用于语言校正的机器学习以创建校正模型,该校正模型是用于语言校正的学习模型。在这种情况下,将由校正模型学习单元120生成的校正模型存储在校正模型存储单元130中。另一方面,上述机器学习是人工智能领域,通过分析大量数据来预测未来的技术以及通过获取计算机运行时未输入的信息来解决问题的技术。对于机器学习,可以使用诸如CNN(卷积神经网络),RNN(递归神经网络)及变压器网络之类的神经网络的深度学习技术。由于这些机器学习技术已经众所周知,因此此时省略详细描述。
校正模型存储单元130存储通过校正模型学习单元120的机器学习生成的校正模型。
语言校正单元140是通过输入单元110输入的大量语言校正数据,即,使用用于校正拼写错误或文本错误的校正目标数据的存储在校正模型存储单元130中的校正模型,对要校正的数据执行拼写/文本校正,并且将已校正的校正数据输出到输出单元150。
可选地,即使当校正拼写/文本校正完成并且不需要校正时,语言校正单元140也可以附加地执行用于将句子校正为自然句子的语言建模操作。
输出单元150从语言校正单元140接收校正数据以及已经完成了语言校正的校正数据,并将该数据输出到外部的用户。
另外,输出单元150可以将与要校正的数据相对应的校正数据与要校正的数据一起输出。可选地,输出单元150另外显示校正数据,以便知道校正目标数据中已经进行了校正的部分。在这种情况下,从语言校正单元140向输出单元150提供关于已经执行了校正的部分的信息。
同时,所述校正模型学习单元120及语言校正单元140可以彼此集成以被实现为一个组件,或者可以被实现为单独的设备。例如,仅包括输入单元110,校正模型学习单元120及校正模型存储单元130的校正模型学习装置及仅包括输入单元110,校正模型存储单元130及语言校正单元140及输出单元150的语言校正设备之类的各个设备。
在下文中,将更详细地描述上述校正模型学习单元120。
图2是图1所示的校正模型学习单元120的详细配置图。
参照图2,校正模型学习单元120包括预处理单元121,学习处理单元122,校正学习单元123,后处理单元124及校正模型输出单元125。
在描述之前,在本发明的实施例中执行的对校正模型的机器学习使用监督学习,但是不限于此。此时,监督学习学习输入及输出之间的映射,并在输入及输出成对作为数据给出时应用。当应用于本发明的实施例时,输入作为用于校正拼写及文本的源数据的题字数据,并且作为与校正后的句子相对应的目标数据的文本数据对应于输出。由于根据这种监督学习的机器学习方法已经众所周知,因此此时省略详细描述。
预处理单元121通过一对用于学习通过输入单元110输入的语言校正的数据,即在由成对的非文本数据(也称为“源句”)及文本数据(也称为“目标句”)组成的训练数据中,语言识别技术应用于非文本及文本数据以进行过滤单字句子。
即,通过语言检测,非文本或文本数据基本上被过滤成单个语言句子,从而可以基于相同语言进行学习。
可选地,预处理单元121可以在检测到语言时另外执行代码切换部分过滤。即使使用了不同的语言,例如,在英语及韩语混合使用的情况下,例如“韩国似乎沉迷于传统思维”即使使用了不同的语言,也会通过语言检测技术进行过滤以进行代码切换,不会被删除并保留在句子中。
另外,预处理单元121对非文本数据执行净化。这些净化可应用于单语语料库或平行语料库。
另外,预处理单元121检查源/目标句子中是否存在冗余及空白信息,设置最大/最小字符/单词数,限制字母及单词的长度中的空格数,限制数量对于大写字母,限制重复单词的数量,可以进一步执行非图形字符(非图形/不可打印字符),统一码处理错误检查,外语比率检查,编码验证等。由于这些操作是众所周知的,因此这里省略详细描述。
另外,预处理单元121可以根据统一码,标点符号,大写及小写字母以及区域拼写不同的情况来另外执行数据的规范化。在这种情况下,数据的规范化可以与上述数据净化集成在一起。
学习处理单元122使用由预处理单元121预处理的一对数据,即,使用一对非文本数据及文本数据,用于准备稍后由校正学习单元123执行的机器学习必要的数据,执行监督学习数据标记,机器学习数据扩展及用于机器学习的并行数据构建。这些受监督的学习数据标记操作,机器学习数据扩展操作及机器学习并行数据构建操作不需要顺序执行,并且只能执行部分操作,而不是全部操作。
首先,执行监督学习数据标记的操作如下。
通过使用单词及字符的编辑距离,可将有关校正句子中校正形式(插入,替换,删除)的信息作为附加信息添加。
另外,添加错误类别信息。此处,作为错误类别信息,包括拼写错误(诸如遗漏,添加,错误选择,顺序等错误),文本错误(诸如词性,匹配等错误),语言模型错误(句子组成,替换项参考,惯用语表达,含义表达,模式表达之类的错误)。
以下【表1】可以被称为交换错误的类别信息。
同样,非文本及正面文本分类信息以二进制形式添加。通过非文本及文本的分类信息,可以掌握学习数据,即,可以识别非文本数据和文本数据都被分类为不需要校正的正门的情况。由于可以将其分类为不需要对非文本数据进行校正,因此将来可以通过使用此学习数据来扩展数据,并且可以在以后的语言校正中快速检查并响应校正的需要。此时,对于非文本数据,在通过二进制分类器对不需要校正的文本和需要校正的非文本进行分类的同时,可以显示非文本数据与非文本和文本相对应的概率值。
另外,标记了由预处理单元121执行的关于代码切换部分的信息。例如,执行韩国-英语代码切换部分的标记。
此外,在执行各种自然语言处理之后添加标签信息。此时,各种自然语言处理可以包括句子分离,令牌分离,语素分析,文本分析,实体名称识别,语义域识别,交叉引用,复述等。
另外,通过在【表1】添加必要的详细错误类别信息,可以使用语言功能信息来启用机器学习。
接下来,机器学习数据扩展操作如下。此时,机器学习数据扩展操作指的是用于增加稍后在校正学习单元123中学习时要使用的机器学习数据的数量的操作。
可以通过向非文本数据添加各种类型的噪声来执行机器学习数据扩展。此时,噪声类型可以包括单词/拼写遗漏,替换,加法,间隔错误及外语加法。
此外,可以主要对印刷错误进行高频率的数据扩展。
另外,可以使用键盘周围字母附近的错字来执行数据扩展。即,对于非文本数据的特定字符,可以基于用于键入相应字符的键盘的正确位置,使用由周围的印刷字符形成的字符的错字来执行数据扩展。由于通过围绕键盘周围的字母的错字来扩展数据,因此可以非常有效地执行通过智能电话等使用小键盘键盘输入的句子中的语言校正。
另外,可以通过应用在无监督学习中使用的算法(例如,VAE(可变自动编码器)及GAN(生成对抗网络))来执行数据扩展。
接下来,构造用于机器学习的并行数据的操作如下。
如上所述,包含扩展的数据,即作为包含一对大容量数据的噪声的校正句子的非文本句子和执行并行数据构建工作以构建并行不需要校正的文本句子配对语料库。
另外,通过在预处理单元121中以二进制形式添加非文本和文本文本分类信息,使用不需要校正的非文本数据,执行并行数据构建工作以构建带有不需要校正的成对句子的并行语料库。以此方式,当由于使用平行语料库作为不需要校正的一对句子的平行数据的构造而不需要在语言校正单元140中校正校正目标数据时,由于可以处理校正目标数据,从而不执行校正工作,因此可以加速整体校正工作。当然,即使对于不需要这种校正的要校正的数据,也可以执行使句子自然的语言建模。
校正学习单元123是由学习处理单元122处理的一对数据,即,基于非文本数据及文本数据构造的并行数据的组合,通过应用基于监督学习的机器学习来生成相应的校正模型。本发明不限于监督学习,还可以通过基于无监督学习的机器学习来执行校正学习。在这种情况下,应伴随一个将先前的预处理或数据处理应用于基于无监督学习的机器学习的程序。此时,校正学习单元123可以在基于监督学习的机器学习中提供针对机器学习结果的错误发生概率值。在这种情况下,错误发生概率值可以是非文本和文本之间的注意权重信息。
可选地,校正学习单元123可以基于大容量互联网数据来利用预先学习的嵌入矢量。即,可以使用从外部广泛地预先学习的数据。
后处理单元124通过在学习处理单元122中的有监督的学习数据标记操作期间添加的标签附加信息来输出错误及错误类别信息,然后去除相应的标签附加信息。
校正模型输出单元125将由校正学习单元123生成的校正模型输出并存储到校正模型存储单元130。
然后,将更详细地描述上述语言校正单元140。
图3是图1所示的语言校正单元140的详细配置图。
如图3所示,语言校正单元140包括预处理单元141,错误句子检测单元142,拼写校正单元143,文本校正单元144,语言建模单元145及后处理单元146。
预处理单元141对通过输入单元110输入的用于语言校正的要校正的数据执行句子分离操作。该句子分离是在识别出校正目标数据中包括的句子的结束单元之后将输入单元划分为句子单元的操作。
另外,预处理单元141对分离的句子进行各种标记。此时,标记化是指将句子切成期望的单位,并且可以以诸如字母单位,词,子词,词素及词之类的单位来执行标记化。
另外,预处理单元141可以执行由校正模型学习单元120的预处理单元121执行的数据归一化操作。
接下来,错误句子检测单元142使用二进制分类器通过预处理单元141已经标记的信息将错误句子及非错误句子分类。这是一种除了训练以外,还通过在错误句子的位置添加非错误句子,基于扩展数据,测量输入句子与机器学习的错误句子或非错误句子之间的相似度。现有错误/非错误句子对的数据。此时,显示与错误句子及非错误句子的标识相对应的可靠性值。
若可靠性值大于或等于阈值,则错误句子检测单元142将其检测为错误句子,若可靠性值小于阈值,则错误句子检测单元142将其检测为非错误句子。
根据错误句子检测单元142的错误句子检测结果,若将其检测为错误句子,则将校正目标数据发送给拼写校正单元143,但是若将其检测为非错误句子,则将错误检测数据不经过拼写校正单元143和文本校正单元144,直接将其传送到语言建模单元145。
拼写校正单元143在从错误句子检测单元142发送的校正对象数据中检测校正句子中的拼写错误并对其进行校正。此处的拼写校正包括空格,标点符号(句号,问号,感叹号,逗号,中间点,冒号,阴影线,双引号,单引号,括号,大括号,方括号,双大括号及双箭头括号,单引号及可能适用于单箭头括弧,破折号,标点符号,波浪号,未覆盖的标记及下划线,隐藏标记,省略标记,省略号)等的拼写错误的校正。另外,对于这种拼写校正,执行用于拼写校正的机器学习以生成相应的校正模型,并且可以使用所生成的校正模型来执行拼写校正,但是如上所述,拼写校正不是应用机器学习的程度的对象,因此可以使用现有的基于拼写的标准单词词典来执行。
可选地,拼写校正单元143可以提供基于字典的拼写错误概率值作为关于要校正的数据的拼写校正的可靠性信息。
文本校正单元144使用存储在校正模型存储单元130中的校正模型,对要由拼写校正单元143校正的数据执行语言校正,特别是文本校正。即,文本校正单元144可以通过将校正模型应用于要校正的数据来获得针对要校正的数据的校正数据作为结果。在这种情况下,通过注意权重得出的概率值,以及通过校正模型校正的数据,即,提供了可靠性信息。
语言建模单元145甚至在对于由文本校正单元144校正的数据或从错误句子检测单元142发送的非错误句子不需要校正的情况下,也将该句子转换为文本及语义/合成范围改成自然句子。这样的语言建模还可以使用诸如校正模型之类的使用机器学习的方法,但是在本发明中未应用,并且将仅描述为使用各种类型的推荐句子对相应的句子执行语言建模。
可选地,在执行语言建模时,语言建模单元145可以通过语言模型的困惑度(PPL)及互信息(MI)值的组合来提供校正句子的可靠性信息。
后处理单元146显示已由语言建模单元145执行了语言建模的校正数据的校正部分。可以通过各种颜色的错误信息的可视化来执行这种校正部分的显示。
可选地,后处理单元146在错误语句检测单元142中使用二进制分类器通过组合在对错误语句和非错误语句进行分类时提供的概率值的可靠性信息,在拼写校正单元143中的拼写校正期间提供的基于字典的拼写错误概率值的可靠性信息,在语言校正期间由文本校正单元144提供的注意权重信息以及由语言建模单元145提供的语言模型的宣传值,从互惠信息(MI)等各个组成部分计算出的可靠性的加权总和根据启发式信息提供最终的可靠性信息,以对要校正的数据进行校正。
可选地,后处理单元146可以对一个校正目标数据执行N个最佳句子处理。即,在为一个校正目标数据提供多个校正数据候选组的同时,可以提供每个候选组的可靠性作为等级,以使得用户可以选择。可以与输出单元150协作执行该处理。
接下来,输出单元150从语言校正单元140接收校正目标数据以及已经完成了语言校正的校正数据,并将该数据输出到外部。此时,输出单元150一起显示要校正的数据,与之对应的校正数据以及校正部分。例如,如图4所示,一起显示左侧的校正目标数据(源),中间的校正数据(建议)和右侧的校正部分,可以清楚地知道校正数据和要校正的数据的校正部分。
在下文中,将描述根据本发明实施例的基于机器学习的语言校正方法。
图5是根据本发明实施例的基于机器学习的语言校正方法的示意性流程图。图5所示的基于机器学习的语言校正方法可以由参照图1至图4描述的语言校正系统100执行。
参照图5,首先,当输入要针对语言校正而校正的句子时S100,对输入的校正对象执行包括句子分离操作,句子的归一化及归一化操作等的预处理操作S100。此时,参照图3进行包括用于校正输入文本的句子分离操作,句子标记化和规范化等的预处理操作。
接下来,使用二进制分类器针对已经对其执行了预处理的校正后的句子来检测错误句子S120。参照图3所示,此时,提供错误句检测的可靠性。
因此,可以看出,若在步骤S120中提供的可靠性高于或等于预设阈值,则已经检测到错误并且需要语言校正,否则,作为其中未检测到错误的非错误句子,不需要语言校正。
因此,确定可靠性是否大于或等于预设阈值S130,并且若可靠性大于或等于预设阈值,则首先针对要进行语言校正的要校正的文本执行拼写校正,即拼写校正S140。有关这种拼写校正的详细信息,请参阅参考图3所述的部分。
然后,通过基于监督学习的机器学习使用预先生成的模型来校正要校正的文本,通过执行语言校正,具体地执行文本校正,输出与校正后的句子相对应的校正后的句子S150。在这种情况下,生成的模型提供关于从校正句子到校正句子的校正部分的信息。另外,提供注意权重作为用于校正要校正的句子的可靠性信息。
然后,执行用于在文本及语义/合成范围内将校正后的句子校正为更自然的句子的语言建模S160。对于这种语言建模,参考图3描述的部分。
以此方式,对语言建模的句子执行诸如提供如上所述的用于语言校正的可靠性信息及N最佳句子处理的后处理操作S170。有关然后处理操作的详细信息,请参阅参考图3所述的部分。
然后,可以通过将校正部分一起显示,同时输出在其上已经完成了后处理的最终校正句子以及校正句子,来将根据本发明实施例的校正校正句子提供给用户S180。
另一方面,在所述步骤S130中,若确定可靠性小于预设阈值,因此句子不需要语言校正,则上述拼写校正步骤S140及立即执行语言建模处理步骤S160,而无需执行文本校正步骤S150。
在下文中,将描述执行机器学习以生成以上使用的校正模型的方法。
图6是根据本发明实施例的学习语言校正模型的方法的示意性流程图。图6所示的语言校正模型学习方法可以由参照图1至图3描述的语言校正系统100执行。
参照图6,首先,当输入在基于监督学习的机器学习中针对语言校正模型进行校正学习的数据,即,当输入由一对非文本数据和文本数据组成的大量训练数据时S200,执行诸如语言检测操作,数据净化操作和规范化操作之类的预处理操作S210。对于特定的预处理操作,参考图2描述的部分。
然后,对完成了预处理操作的校正学习目标数据用机器学习所需的数据执行机器学习处理操作S220。机器学习处理操作包括监督学习数据标记操作,机器学习数据扩展操作,用于机器学习的并行数据构建操作等,具体的操作细节请参考图2所述。
然后,使用已经完成了机器学习处理操作的校正学习目标数据来执行基于监督学习的机器学习,然后生成相应的校正模型S230。在这种情况下,可以将机器学习结果中发生错误的概率值与校正模型一起提供。
然后,通过在机器学习处理期间受监督的学习数据标记添加的附加标签信息来输出错误和错误类别信息,然后,执行去除相应标签附加信息的后处理S240。
最后,在所述步骤S230中生成的校正模型被存储在校正模型存储单元130中,使得其可以用于稍后要校正的句子的语言校正S250。
另一方面,已经描述了当学习监督式基于学习的校正模型时,预处理单元121仅执行诸如语言检测,数据净化及规范化之类的预处理操作,但是本发明不限于此,还执行各种类型的预处理操作,以实现更准确的基于机器学习的校正模型训练。
例如,在训练校正模型之前,分批校正校正模型训练中使用的非文本句子中的源句子中的错误(错误),使得在训练实用的校正模型时,可以使用更准确的原始句子。尤其是,可以对无法识别的单词进行预校正,因为这些单词未在源句子的词典中注册。
图7是根据本发明另一实施例的校正模型学习单元220的详细配置图。
参照图7,根据本发明另一实施例的校正模型学习单元220包括预处理单元221,学习处理单元222,校正学习单元223,后处理单元224,校正模型输出单元225及翻译引擎226。此时,学习处理单元222,校正学习单元223,后处理单元224及校正模型输出单元225是参考图2描述的校正模型学习单元120的学习处理单元122,校正学习单元123,后处理单元124及校正模型输出单元125具有相同的配置及功能,因此参照图2描述的部分。
在图7中,翻译引擎226是执行由用户指定的语言的输入句子的翻译的引擎,并且可以是例如基于规则的机器翻译(RBMT)引擎,但是本发明不限于此。此时,基于规则的机器翻译(RBMT)是一种基于众多语言规则及语言词典的翻译方法。简而言之,RBMT可以指的是一种翻译,其中语言学家输入了所有带有英语单词及文本的教科书。
预处理单元221通过翻译引擎226对大量源数据执行翻译,该源数据是用于通过输入单元110输入的用于学习语言校正的大容量数据中的题字数据,当执行翻译时,若单词没有被注册在翻译引擎226所使用的词典中,则将特定标记例如“##”用于单词,翻译完成后,将提取带有特定标记的单词,并将其分批校正为正确的单词。在上文中,在要在校正模型中训练的语言及要执行翻译的语言的情况下,将与要校正的语言相同的语言用作起始语言。在针对翻译引擎226的起始单词的预处理过程中识别的单词单元可以通过词典功能及令牌分离模块显示未注册单词,从而可以校正具有较高错误率的未注册单词。
可选地,预处理器221提取标记有特定标记的词,然后识别频率并根据该频率对其进行排序,通过将排序后的单词校正为正确的单词并将分批应用,可以执行针对大量源数据的基于翻译引擎的预校正。
以此方式,可以在训练校正模型之前通过对要用于校正训练的大量源数据执行预校正来执行更准确的校正模型训练,从而可以执行更准确的校正模型训练,这可以提高语言校正的效率。
在下文中,将描述根据本发明的另一实施例的校正模型学习句子的预校正方法。
图8是根据本发明另一实施例的用于校正模型训练句子的预校正的方法的流程图。
参考图8,首先,当通过输入单元110输入大量的源数据(其是用于语言校正学习的大容量数据中的题写数据时S300,使用RBMT引擎对大量源数据中的大量源语句执行翻译S310。
在翻译期间,确定该单词是否是在词典中注册的单词S320,并且若该单词未在词典中注册,则在该单词的前面显示带有诸如“##”的标记的未注册单词S330。
参考图9中所示的示例,输入“对不起,我不能理解”的源句子以训练英语句子1的校正模型,并且在针对这些原始句子执行RBMT翻译成韩文的同时,可以看出,在未注册的单词“anderstand”的前面显示了标记“##”,因为确定“anderstand”是尚未预先注册的单词2。
以此方式,当对大量的源句子执行RBMT翻译并且针对未在词典中注册的单词显示标记时,翻译完成S340,提取用标记标记的单词S350,确定所提取单词的频率S360,并基于识别出的频率对单词进行排序S370。参照图9所示的示例,提取标记为“##”的单词3,识别提取单词的频率,并根据频率进行排序4。例如,可以基于频率以降序排序。
然后,通过对基于频率排序的单词使用正确的单词,针对大量的源句子共同进行校正S380,可以对未预先登记在要用于校正模型训练的大量源句中的单词进行预校正,以校正单词。
再次参考图9中所示的示例,以最大频率的单词的顺序对“学习”,“消息”,“实践”等进行排序,对于这些单词,可以使用诸如“学习”,“发送消息”和“实践”之类的正确单词来执行批量校正(5)。
另一方面,当以不同于原始文本含义的方式应用诸如专有名词之类的翻译或校正时,或者以可变格式存储预定义格式的校正信息时,可以使用用户允许处理的字典。
在下文中,将描述创建用户词典,注册用户所需的值(单词)以及以设定值导出结果的内容。
图10是根据本发明另一实施例的语言校正系统300的示意性配置图。
如图10所示,根据本发明另一实施例的语言校正系统300包括输入单元310,校正模型学习单元320,校正模型存储单元330及语言校正单元340,输出单元350及用户词典360。此时,输入单元310,校正模型存储单元330和输出单元350与参考图1描述的输入单元110,校正模型存储单元130和输出单元150相同,因此,省略说明,仅说明具有不同结构的校正模型学习单元320,语言校正单元340以及用户词典360。
首先,用户词典360存储用户先前为特定单词定义的值(单词)。例如,专有名词,“劳动节”-“劳动节”,“纪念日”-“纪念日”,“非洲美洲历史月”-“非洲美洲历史月”等,与原始含义不同,用户为校正期间可能故意失败的单词创建并使用用户词典。在下文中,为了描述的方便,假定“单词”是指“单词”或“单词组”。
因此,在本发明的另一个实施例中,假设用户字典360已经由用户预先为某些单词生成。
校正模型学习单元320使用大量的由非文本数据及文本数据对组成的学习数据,即在通过输入单元310输入的数据中,用于学习语言校正。通过进行机器学习生成用于语言校正的学习模型。
尤其,根据本发明的另一实施例的校正模型学习单元320从由一对非文本数据及文本数据组成的大量训练数据中搜索在用户词典360中注册的单词,用用户词典标记(例如“UD_NOUN”)替换后,将执行机器学习以生成校正模型。此时,用户词典标记“UD_NOUN”可以进一步包括各种类型的特殊符号,例如“<<”,“>>”,“_”等,以便识别用户词典标记是用户词典。通过这样的机器学习,可以学习用户的词典标记的位置,并且可以详细地学习上下文信息。此时,当在用户词典360中注册一个学习数据,即,句子中包括的几个不同单词时,使用替换每个不同的用户词典标记之后的用户词典标记的位置可以不同地执行机器学习。例如,若在一个句子中包括三个不同的单词,并且这些单词被注册在用户词典360中,则这些单词分别替换使用“UD_NOUN#1”,“UD_NOUN#2”及“UD_NOUN#3”。
接下来,语言校正单元340针对通过输入单元310输入的大容量语言校正数据,即,作为拼写错误的校正目标的校正目标数据,使用存储在校正模型存储单元330中的校正模型,对要校正的数据执行拼写/文本校正,并且将已校正的校正数据输出到输出单元350。
尤其,若在校正目标数据中的用户词典中登记有单词,则根据本发明的另一实施例的语言校正单元340将替换为用户词典标记,然后使用校正模型执行拼写/文本校正。然后,将与随后的结果中包括的用户词典标记相对应的单词替换为在用户词典中注册的结果值(单词),从而完成语言校正。在这种情况下,若在用户词典360中登记了一个校正目标数据,即一个句子中包括的几个不同的单词,则使用彼此不同的每个用户词典标记来替换及校正拼写/文本。即,在用户词典360中找到并替换了与不同的用户词典标记相对应的单词,以完成校正。例如,若三个不同的单词被包括在一个要校正的句子中,并且这些单词被注册在用户词典360中,则这些单词分别是“UD_NOUN#1”,“UD_NOUN#2”及“UD_NOUN#3”进行校正,并在校正完成后,在用户词典360中注册与“UD_NOUN#1”,“UD_NOUN#2”及“UD_NOUN#3”相对应的词。
将详细描述如上所述的根据本发明的另一实施例的校正模型学习单元320及语言校正单元340。
图11是图10所示的校正模型学习单元320的详细配置图。
如图11所示,校正模型学习单元320包括预处理单元321,学习处理单元322,校正学习单元323,后处理单元324及校正模型输出单元325。此时,学习处理单元322,校正学习单元323,后处理单元324及校正模型输出单元325与参考图2描述的学习处理单元122,校正学习单元123。后处理单元124及校正模型输出单元125相同,此时省略详细描述。将仅描述具有不同配置的预处理单元321。
预处理单元321执行参考图2所述的预处理单元121的功能,此外,还执行通过输入单元110用于语言校正学习的数据,即当输入由成对的非文本数据(表示源句子)和文本数据(表示目标句子)组成的学习数据时,检查在用户词典360中注册的单词是否包括在训练数据中,并且若包含,用户词典标记替换包含的单词,例如“<<UD_NOUN>>”。
因此,在预处理单元321之后,通过学习处理单元322,校正学习单元323,后处理单元324和校正模型输出单元325执行机器学习,用“<<UD_NOUN>>”代替,可以学习用户词典标记的位置。
图12是图10所示的语言校正单元340的详细配置图。
参照图12,语言校正单元340包括预处理单元341,错误句子检测单元342,拼写校正单元343,文本执行单元344,语言建模单元345以及后处理单元346。此时,错误句检测单元342,拼写校正单元343,文本校正单元344和语言建模单元346与参照图3说明的错误句检测单元142,拼写校正单元143,文本校正单元144及语言建模单元145相同,这里省略详细描述,并且将仅描述具有不同配置的预处理单元341及后处理单元346。
预处理单元341检查在用户字典360中注册的单词是否包括在通过输入单元310输入的校正目标数据中,若包含了该单词,则在用户词典中使用包含的单词,例如代替为<<UD_NOUN>>”。
后处理单元346在已经由语言建模单元345执行了语言建模的校正数据中包括用户词典标记,例如“<<UD_NOUN>>”,该源单词典与用户词典标记相对应,即,将非文本数据中的单词替换为在用户词典360中注册的值(单词)。
因此,由于预先在用户词典360中登记的单词被预先在预处理单元341中由用户词典标记代替,因此使用其中学习了与用户词典标记有关的上下文信息的校正模型来进行语言校正,即,当校正拼写及文本时,由于可以将用户词典标记输入到后处理单元346,而无需任何校正,然后处理单元346可以使用用户词典360替换相应的单词。
因此,可以对包括在用户词典360中注册的单词的源句子成功地执行基于用户词典360的校正。
在下文中,将参考附图描述根据本发明的另一实施例的学习语言校正模型的方法。学习语言校正模型的方法可以由参考图10至图12描述的语言校正系统300执行。
图13是根据本发明另一实施例的学习语言校正模型的方法的流程图。此时,图13所示的根据本发明的另一实施例的学习语言校正模型的方法可以由参照图10至图12描述的根据本发明的另一实施例的语言校正系统300执行。。
在描述之前,假定已经预先配置了存储由用户针对特定单词预定义的值(单词)的用户词典360。
参照图13,首先,当用于语言校正学习的数据,即,由一对非文本数据(表示源句子)及文本数据(表示目标句子)组成的学习数据被输入时S400,确定在用户词典360中注册的单词是否包括在源句子及目标句子中S410。
若确定在源单词典及目标句子中包括用户词典360中注册的单词,则将与用户词典360中注册的单词匹配的单词替换为用户词典标记S420。例如,在用户词典360中注册<“memorial day”-“Memorial Day”,当用于语言校正学习的源句子输入是“memorial dayis observed on the last Monday”时,将源句子中的词“memorial day”登记在用户词典360中,使得该词是用户词典标记。例如,将其替换为“<<UD_NOUN>>”,并将源句子更改为“<<UD_NOUN>>is observed on the last Monday”。
然而,若在用户词典360中注册的单词不包括在源句子及目标句子中,则源句子及目标句子可以被用作输入而没有改变。
然后,通过对改变或未改变的源句子及作为目标句子的语言校正训练数据执行机器学习来生成校正模型S430。可以通过这种机器学习来学习用户词典标记的位置。另外,对于执行机器学习的具体细节,参考参照图1至图9描述的实施例。
*接下来,将给出根据本发明另一实施例的语言校正方法的描述。这样的语言校正方法可以由以上参考图10至图12描述的语言校正系统300执行。
图14是根据本发明另一实施例的语言校正方法的流程图。此时,图14所示的根据本发明的另一实施例的学习语言校正模型的方法可以由参照图10至图12描述的根据本发明的另一实施例的语言校正系统300执行。
在描述之前,假定已经预先配置了存储由用户针对特定单词预定义的值(单词)的用户词典360。
当输入语言校正数据,即,用于校正拼写错误或文本错误的校正目标数据时S500,检查在校正对象数据中是否包括用户词典360中登记的单词S510。
若确认在校正对象数据中包括用户词典360中注册的单词,则将该单词替换为用户词典标记,例如“<<UD_NOUN>>”S520。参照上述图13中的示例,当在用户词典360中注册了<“memorial day”-“Memorial Day”>,并且输入了校正目标句子“memorial day isobserved on the last Monday”时,由于“memorial day”是在句子中的用户词典360中注册的单词,因此该单词被用户词典标记替换,即“<<UD_NOUN>>”,结果,句子校正为“<<UD_NOUN>>”。
然后,使用如图10至图13所述的通过语言校正学习生成的校正模型对要校正的数据执行拼写/文本校正S530,并且对校正结果进行语言建模S540。
然后,检查在语言建模结果的句子中是否存在用户词典标记,即“<<UD_NOUN>>”S550,若存在用户词典标记,则将与用户词典标记相对应的源句子的单词替换为在用户词典360中注册的单词S560。参考上面的示例,由于作为语言建模的结果输出的句子“<<UD_NOUN>>is observed on the last Monday”内包含用户词典标记“<<UD_NOUN>>”,因此,用户词典标记“<<UD_NOUN>>”因此,替换在用户词典360中为与用户词典标记“<<UD_NOUN>>”相对应的单词,即,在用户词典360中登记的“memorial day”单词,即,最终,完成校正后句子“Memorial Day is observed on the last Monday”。
然后,输出校正句子S570。
同时,若在上述步骤S550中由于语言建模而输出的句子中不包括用户词典标记,则立即输出校正后的句子S570。
如上所述,根据本发明的实施例,以用户的形式定义的校正信息以变量的形式存储并在运行时进行处理,从而轻松进行校正,而无需单独添加或更改校正模型。
因此,即使难于校正或故意校正的部分也不能通过在用户词典中注册而得到很好的处理,从而能够提高语言校正的效率。
上述本发明的实施例不仅仅通过装置和方法来实现,通过实现与本发明的实施方式的结构相对应的功能的程序或记录有该程序的记录介质的实施。
尽管已经在上面详细描述了本发明的实施例,但是本发明的范围不限于此,使用在所附权利要求中限定的本发明的基本概念的本领域技术人员的各种修改和改进也属于本发明的范围。
Claims (22)
1.一种语言校正系统,作为基于机器学习的语言校正系统,其中,包括:
矫正模型学习单元,对由非文本数据和分别对应所述非文本数据的无错误的文本数据组成的多个数据集执行机器学习,使得创建一个校正模型以检测与要校正的非文本数据相对应的文本数据;以及
语言校正单元,对于要校正的句子,使用由所述校正模型学习单元生成的校正模型来生成对应的校正句子,显示并输出校正后的部分以及生成的校正语句。
2.根据权利要求1所述的语言校正系统,其中,所述矫正模型学习单元包括:
预处理单元,对所述非文本数据执行语言检测,以执行对单个语言句子的过滤,数据净化和规范化;
学习处理单元,其针对由所述预处理器过滤的多个数据集执行监督学习数据标记,机器学习数据扩展和机器学习并行数据构造;
校正学习单元,其通过对由所述学习处理单元处理的多个数据集执行基于监督学习的机器学习来生成相应的所述校正模型;以及
第一后处理单元,通过在所述学习处理单元中在有监督的学习数据标记操作期间添加的标签附加信息来输出错误和错误类别信息,然后去除相应的标签附加信息。
3.根据权利要求2所述的语言校正系统,其中,所述学习处理单元中的机器学习数据扩展操作包括数据扩展操作,该数据扩展操作根据键盘的正确位置使用周围印刷字符形成的字母来键入包含在非文本数据中的字母。
4.根据权利要求2所述的语言校正系统,其中,在所述学习处理单元中构建用于机器学习的并行数据的操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
5.根据权利要求2所述的语言校正系统,其中,所述校正学习单元提供在所述监督式基于学习的机器学习中的学习结果的错误发生概率值,作为非文本数据和文本数据之间的注意力权重信息。
6.根据权利要求2所述的语言校正系统,其中,还包括针对输入的句子以预设语言执行翻译的翻译引擎,所述预处理单元在通过所述翻译引擎对所述多个数据集中的大量非文本数据执行翻译时,使用预设标记显示未注册在所述翻译引擎使用的词典中的单词,在完成大量所述非文本数据的翻译之后,进行行校正以提取由所述预设标记标记的单词,然后一起校正为没有错误的单词。
7.根据权利要求6所述的语言校正系统,其中,所述预处理单元在提取所述预设标记所指示的单词的同时,掌握频率,所述预设标记标记的单词会根据识别的频率进行排序,并统一校正为没有错误的单词。
8.根据权利要求1所述的语言校正系统,其中,所述语言校正单元包括:
预处理单元,对于要校正的句子,以句子为单位执行句子分离,并且执行对分离的句子进行标记化的预处理;
错误句子检测单元,对于已由所述预处理器预处理的要校正的句子,使用二进制分类器来区分错误句子和非错误句子;
拼写校正单元,当错误句子检测单元将句子划分为错误句子时,对所述要校正的句子执行拼写错误的校正;
文本校正单元,用于通过使用所述校正模型对通过所述拼写校正单元校正了拼写错误的句子进行文本校正的语言校正来生成校正后的句子;以及
后处理单元,对由所述文本校正单元进行的语言校正期间显示校正后的部分进行后处理,并将其与所述校正后的句子一起输出。
9.根据权利要求8所述的语言校正系统,其中,所述错误句子检测单元根据当对所述要校正的句子进行分类时识别出的可靠性信息,对所述错误句子和所述非错误句子进行分类。
10.根据权利要求8所述的语言校正系统,其中,所述拼写校正单元在校正拼写错误时提供出现拼写错误的概率值作为可靠性信息,所述文本校正单元通过针对所述拼写错误校正的句子的语言校正的关注权重来提供概率值作为可靠性信息,所述后处理单元组合由所述拼写校正单元提供的可靠性信息和所述文本校正单元提供的可靠性信息被组合起来,并作为所述校正后句子的最终可靠性信息提供。
11.根据权利要求10所述的语言校正系统,其中,在所述文本校正单元和所述后处理单元之间还包括语言建模单元,所述语言建模单元使用针对由所述文本校正单元生成的校正语句的预设推荐语句来执行语言建模,所述语言建模单元通过在语言建模过程中语言模型的困惑度和互信息(MI)值的组合来提供所述校正语句的可靠性信息,当提供所述最终的可靠性时,所述后处理单元还会合并从所述语言建模单元提供的可靠性信息。
12.根据权利要求1所述的语言校正系统,其中,进一步包括由用户注册的源单词和与其相对应的目标单词构成的用户词典,所述源单词和目标单词均为至少一个单词,当在所述用户词典中注册的单词包括在所述多个数据集中时,所述校正模型学习单元通过用预设的用户词典标记替换单词来执行机器学习,当要校正的文本中的用户词典中包括单词时,所述语言校正单元通过用用户词典标记替换要校正的文本来对所述要校正的文本进行语言校正,当用户词典标记包括在校正后的句子中时,将所述用户词典标记替换为对应于所述要校正的句子中的对应单词在所述用户词典中注册的单词。
13.一种语言校正模型学习方法,作为语言校正系统学习基于机器学习的语言校正模型的方法,其中,包括:
包括用于由非文本数据和没有错误的分别对应于所述非文本数据的文本数据组成的多个数据集的有监督的学习数据标记,机器学习数据扩展操作和用于机器学习的并行数据构建操作的执行学习处理的步骤;以及
通过对已执行所述学习处理的多个数据集执行基于监督学习的机器学习来生成相应的校正模型的步骤。
14.根据权利要求13所述的语言校正模型学习方法,其中,所述机器学习数据扩展操作包括数据扩展操作,所述数据扩展操作根据键盘的正确位置,使用由周围印刷字符形成的字母,以键入包含在所述非文本数据中的字母,所述机器学习并行数据构建操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
15.根据权利要求13所述的语言校正模型学习方法,其中,还包括在执行所述学习处理的步骤之前,对所述多个数据集执行语言检测以过滤成单个语言语句,数据净化和规范化的执行预处理的步骤,
所述执行预处理的步骤包括:
通过翻译引擎翻译所述多个数据集中的大量非文本数据的步骤;
使用预设标记显示未在所述翻译引擎使用的词典中注册的单词的步骤;
完成大量非文本数据的翻译后,提取由所述预设标记指示的单词;以及
将提取的单词统一校正为没有错误的单词的步骤。
16.根据权利要求15所述的语言校正模型学习方法,其中,所述统一校正的步骤包括:
提取所述预设标记指示的单词的步骤;
掌握提取词的频率的步骤;
根据识别出的频率排列由所述预设标记显示的单词的步骤;以及
将排序的单词统一校正为没有错误的单词的步骤。
17.根据权利要求13所述的语言校正模型学习方法,其中,所述语言校正系统还包括用户词典,用户词典包括由用户注册的源单词和与之相对应的目标单词,所述源单词和目标单词均为至少一个单词,所述生成校正模型的步骤为,当在所述用户词典中注册的单词包括在所述多个数据集中时,通过用预设的用户词典标记替换单词来执行机器学习,以生成所述校正模型。
18.一种语言校正方法,作为基于语言校正系统基于机器学习的语言校正方法,其中,包括:
对要校正的句子执行拼写错误的步骤;以及
通过对校正后的句子使用校正模型执行文本校正来生成校正后的句子的步骤,通过对分别由所述非文本数据和对应所述非文本数据的无错误的所述文本数据组成的多个数据集执行有监督的基于学习的机器学习来生成所述校正模型。
19.根据权利要求18所述的语言校正方法,其中,还包括:
在执行所述拼写错误校正的步骤之前,将要校正的句子以句子为单位划分为句子,并且执行对分离的句子进行标记化的预处理的步骤;以及
对于已经进行了上述预处理的要校正的句子使用二元分类器区分错误句子和非错误句子的步骤,在将所述错误句子和非错误句子分类的步骤中,当将所述要校正的句子分为错误句子时,执行所述拼写错误校正的步骤。
20.根据权利要求19所述的语言校正方法,其中,在区分所述错误句子和非错误句子的步骤中,根据当识别出所述要校正的句子时识别出的可靠性信息来区分所述错误句子和所述非错误句子。
21.根据权利要求18所述的语言校正方法,其中,还包括:
在所述生成校正语句的步骤之后,使用预设的建议句子作为所述校正句子进行语言建模的步骤;以及
在生成所述校正句子时对于显示校正部分进行后处理,并与所述校正后的句子一起输出的步骤。
22.根据权利要求18所述的语言校正方法,其中,所述语言校正系统还包括用户词典,所述用户词典包括由用户注册的源单词和与之相对应的目标单词,所述源单词和目标单词均为至少一个词,
还包括:
在执行所述拼写错误的校正步骤之前,确定所述用户词典中包含的单词是否包含在所述要校正的句子中的步骤;以及
当所述用户词典中包括的单词包括在所述要校正的句子中时,用预设的用户词典标记替换所述用户词典和所述要校正的句子中通常包括的单词,
还包括:
在所述生成校正语句的步骤之后,检查所生成的校正语句中是否包括所述用户词典标记的步骤;
当在所述生成的校正语句中包括所述用户词典标记时,通过替换与对应于所包括的用户词典标记的位置的所述校正句子中的单词相对应的所述用户词典中的单词,来生成最终的校正句子的步骤。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0174248 | 2018-12-31 | ||
KR20180174248 | 2018-12-31 | ||
KR1020190030688A KR102199835B1 (ko) | 2018-12-31 | 2019-03-18 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
KR10-2019-0030688 | 2019-03-18 | ||
PCT/KR2019/018384 WO2020141787A1 (ko) | 2018-12-31 | 2019-12-24 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168498A true CN113168498A (zh) | 2021-07-23 |
Family
ID=71600907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980078320.XA Pending CN113168498A (zh) | 2018-12-31 | 2019-12-24 | 语言校正系统及其方法以及系统中的语言校正模型学习方法 |
Country Status (3)
Country | Link |
---|---|
KR (1) | KR102199835B1 (zh) |
CN (1) | CN113168498A (zh) |
SG (1) | SG11202106989PA (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454906A (zh) * | 2023-12-22 | 2024-01-26 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
CN117454906B (zh) * | 2023-12-22 | 2024-05-24 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102430918B1 (ko) * | 2019-11-15 | 2022-08-10 | 고려대학교 산학협력단 | 한국어 맞춤법 교정장치 및 방법 |
KR102517971B1 (ko) | 2020-08-14 | 2023-04-05 | 부산대학교 산학협력단 | 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법 |
KR102251554B1 (ko) * | 2020-09-16 | 2021-05-13 | 주식회사 렉스퍼 | 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 |
KR102386415B1 (ko) * | 2020-11-10 | 2022-04-15 | 이희영 | 임상시험 동의서 작성 장치 및 방법 |
KR102446404B1 (ko) * | 2020-11-17 | 2022-09-21 | 넷마블 주식회사 | 번역 방법 |
KR102271810B1 (ko) * | 2020-11-23 | 2021-07-02 | 주식회사 엠로 | 기계 학습을 통한 학습 모델을 사용한 정보 제공 방법 및 장치 |
JP7429974B2 (ja) * | 2021-05-19 | 2024-02-09 | 株式会社ミラセンシズ | 検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム |
KR102388599B1 (ko) * | 2021-08-24 | 2022-04-21 | (주)제로엑스플로우 | 텍스트 및 이미지를 활용한 문장 교정 장치 및 방법 |
KR102395811B1 (ko) * | 2021-11-24 | 2022-05-09 | 주식회사 엘솔루 | 기계번역 모델을 위한 한문고서 말뭉치 증강방법 |
KR102644859B1 (ko) * | 2022-06-09 | 2024-03-07 | 김준수 | 컨텍스트 기반의 텍스트 오류 교정 방법 및 시스템 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288920A1 (en) * | 2000-06-26 | 2005-12-29 | Green Edward A | Multi-user functionality for converting data from a first form to a second form |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
KR20170014262A (ko) * | 2015-07-29 | 2017-02-08 | 서재택 | 외국어 문장을 올바른 문장으로 보정하는 작문 서비스 방법 및 장치 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
US20170220535A1 (en) * | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Enterprise writing assistance |
US20170257329A1 (en) * | 2016-03-03 | 2017-09-07 | Yahoo! Inc. | Electronic message composition support method and apparatus |
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
KR101813683B1 (ko) * | 2016-08-17 | 2017-12-29 | 창원대학교 산학협력단 | 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 |
CN108363702A (zh) * | 2017-01-26 | 2018-08-03 | 三星电子株式会社 | 翻译方法和设备以及翻译系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
-
2019
- 2019-03-18 KR KR1020190030688A patent/KR102199835B1/ko active IP Right Grant
- 2019-12-24 CN CN201980078320.XA patent/CN113168498A/zh active Pending
- 2019-12-24 SG SG11202106989PA patent/SG11202106989PA/en unknown
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288920A1 (en) * | 2000-06-26 | 2005-12-29 | Green Edward A | Multi-user functionality for converting data from a first form to a second form |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN102999483A (zh) * | 2011-09-16 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
KR20170014262A (ko) * | 2015-07-29 | 2017-02-08 | 서재택 | 외국어 문장을 올바른 문장으로 보정하는 작문 서비스 방법 및 장치 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
US20170220535A1 (en) * | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Enterprise writing assistance |
US20170257329A1 (en) * | 2016-03-03 | 2017-09-07 | Yahoo! Inc. | Electronic message composition support method and apparatus |
KR101813683B1 (ko) * | 2016-08-17 | 2017-12-29 | 창원대학교 산학협력단 | 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 |
CN108363702A (zh) * | 2017-01-26 | 2018-08-03 | 三星电子株式会社 | 翻译方法和设备以及翻译系统 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN107293296A (zh) * | 2017-06-28 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454906A (zh) * | 2023-12-22 | 2024-01-26 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
CN117454906B (zh) * | 2023-12-22 | 2024-05-24 | 创云融达信息技术(天津)股份有限公司 | 一种基于自然语言处理和机器学习的文字校对方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102199835B1 (ko) | 2021-01-07 |
SG11202106989PA (en) | 2021-08-30 |
KR20200083111A (ko) | 2020-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN113168498A (zh) | 语言校正系统及其方法以及系统中的语言校正模型学习方法 | |
US8489388B2 (en) | Data detection | |
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
JPS61502495A (ja) | 暗号解析装置 | |
CN111310447A (zh) | 语法纠错方法、装置、电子设备和存储介质 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
WO2022267353A1 (zh) | 文本纠错的方法、装置、电子设备及存储介质 | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
Zhang et al. | Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm | |
US20220019737A1 (en) | Language correction system, method therefor, and language correction model learning method of system | |
CN110705262A (zh) | 一种改进的应用于医技检查报告的智能纠错方法 | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
Kaur et al. | Hybrid approach for spell checker and grammar checker for Punjabi | |
Hladek et al. | Unsupervised spelling correction for Slovak | |
JP7222218B2 (ja) | 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム | |
Drobac | OCR and post-correction of historical newspapers and journals | |
Irani et al. | A Supervised Deep Learning-based Approach for Bilingual Arabic and Persian Spell Correction | |
US20240160839A1 (en) | Language correction system, method therefor, and language correction model learning method of system | |
Hasan et al. | SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm | |
Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
Asahiah et al. | Diacritic-aware yorùbá spell checker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |