CN114722796A - 用于中文文本错误识别与校正的架构 - Google Patents

用于中文文本错误识别与校正的架构 Download PDF

Info

Publication number
CN114722796A
CN114722796A CN202210011387.5A CN202210011387A CN114722796A CN 114722796 A CN114722796 A CN 114722796A CN 202210011387 A CN202210011387 A CN 202210011387A CN 114722796 A CN114722796 A CN 114722796A
Authority
CN
China
Prior art keywords
computer
component
text input
candidate replacement
replacement words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210011387.5A
Other languages
English (en)
Inventor
杨涛
游泽宇
涂旻
张尚卿
王旭
韩连漪
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114722796A publication Critical patent/CN114722796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供用于文本错误识别和校正的方法、计算机程序和计算机系统。接收具有音标组件和字形组分的文本输入。将与音标组件和字形组分对应的信息编码为固定长度序列。识别对应于固定长度序列的一个或多个候选替换字。用一个或多个候选替换字中的候选替换字替换文本输入的至少一部分。

Description

用于中文文本错误识别与校正的架构
技术领域
本公开一般涉及数据处理领域,更具体地,涉及自然语言处理。
背景技术
与诸如英语的许多其它语言不同,中文书写系统基于语标并且其字符不直接表示音素(phoneme)。换句话说,人们通过汉字的字形(glyph)特征来识别和理解中文文本的意义。另一方面,拼音,一种基于音标(phonetic-based) 的汉语罗马化系统,也被开发并广泛用于日常生活中。
汉语输入法可以落入以下两类之一:音标读出或字根形状。诸如拼音之类的音标类别下的方法,经由实体键盘或虚拟键盘直接从用户的输入收集拉丁字符,因此在键入过程中可能引入键入错误。在键入之后,用户必须从音标相似的字符的列表中选择字形正确的字符。
发明内容
实施例涉及用于文本错误识别和校正的方法、系统和计算机可读介质。根据一个方面,提供了一种用于文本错误识别和校正的方法。该方法可以包括接收具有音标组分和字形组分的文本输入。将与音标组分和字形组分对应的信息编码为固定长度序列。识别与固定长度序列对应的一个或多个候选替换字。用一个或多个候选替换字中的候选替换字替换文本输入的至少一部分。
根据另一方面,提供了一种用于文本错误识别和校正的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在所述一个或多个存储设备中的至少一个上的程序指令,所述程序指令由所述一个或多个处理器中的至少一个经由所述一个或多个存储器中的至少一个来执行,由此所述计算机系统能够执行方法。该方法可以包括接收具有音标组分和字形组分的文本输入。将与音标组分和字形组分对应的信息编码为固定长度序列。识别与固定长度序列对应的一个或多个候选替换字。用一个或多个候选替换字中的候选替换字替换文本输入的至少一部分。
根据又一方面,提供了一种用于文本错误识别和校正的计算机可读介质。计算机可读介质可包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个上的处理器可执行的程序指令。程序指令可由处理器执行,以执行方法,该方法相应地可包括:接收具有音标组分和字形组分的文本输入的方法。将与音标组分和字形组分对应的信息编码为固定长度序列。识别与固定长度序列对应的一个或多个候选替换字。用一个或多个候选替换字中的候选替换字替换文本输入的至少一部分。
附图说明
这些和其它目的、特征和优点将从下面结合附图阅读的说明性实施例的详细描述中变得明显。附图的各种特征不是成比例的,因为图示是为了便于本领域技术人员结合详细描述理解的清楚。在附图中:
图1示出根据至少一个实施例的联网计算机环境;
图2是根据至少一个实施例的用于文本错误识别和校正的系统的框图;
图3是示出根据至少一个实施例的自然语言处理中的由识别和校正文本错误的程序执行的步骤的操作流程图;
图4是根据至少一个实施例的图1所示的计算机和服务器的内部和外部组件的框图;
图5是根据至少一个实施例的包括图1所示的计算机系统的说明性云计算环境的框图;以及
图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解,所公开的实施例仅仅是可以以各种形式体现的所要求保护的结构和方法的图示。然而,这些结构和方法可以以许多不同的形式体现,并且不应被解释为仅限于本文阐述的示例性实施例。相反,提供这些示例性实施例使得本申请将是彻底和完整的,并且将向本领域技术人员充分传达范围。在描述中,可以省略公知特征和技术的细节以避免不必要地模糊所呈现的实施例。
如前所述,汉语输入法可以落入以下两类之一:音标读出或字根形状。诸如拼音之类的音标类别下的方法,经由实体键盘或虚拟键盘直接从用户的输入收集拉丁字符,因此在键入过程中可能引入键入错误。在键入之后,用户必须从音标相似的字符的列表中选择字形正确的字符。
然而,输入错误,例如使用不正确的同音异形异义字(homophone),是非常常见的,被有意地(例如,混淆术语的使用)或无意地引入。此外,通过ASR系统转换来的文本输入也将造成上述缺点。在内部,这些系统在其学习和预测过程期间通常利用拼音特征(例如,字符;声母、韵母和音调)。诸如手写识别和五笔之类的字根形状类别下的方法也很流行,但具有困难的学习曲线,这是因为在日常使用中有数以千计的普通汉字,并且用户需要对汉字的笔划和构成有透彻的了解。因此,输入错误经常在误解或使用混淆下被有意引入,或由于字形混淆而被无意引入。系统偏差是输入错误的另一个常见来源,因为 AI系统中的语言模型是基于一些通用的或特定领域的语料库(其中分布可能不同)建立的。
因此,使用用于中文文本错误识别和校正的架构可以是有利的,在该架构中,用于处理汉字的编码方案能够充分利用字符内的音标和字形特征。与编码策略一起还引入了灵活的相似度计算方法。
这里参考根据各种实施例的方法、装置(系统)和计算机可读介质的流程图图示和/或框图描述各方面。将理解到,流程图图示和/或框图的每个框以及流程图图示和/或框图中的多个框的组合可以由计算机可读程序指令实现。
下面描述的示例性实施例提供了自然语言处理应用中识别和替换文本错误的系统、方法和计算机程序。现在参考图1,示出用于识别(ident)的文本错误识别和校正系统100(以下称为“系统”)的联网计算机环境的功能框图。应当理解,图1仅提供了一种实施方式的图示,并不暗示关于可实施不同实施方式的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
系统100可以包括计算机102和服务器计算机114。计算机102可以经由通信网络110(以下称为“网络”)与服务器计算机114通信。计算机102 可以包括处理器104和存储在数据存储设备106上的软件程序108,并且计算机102能够与用户交互并与服务器计算机114通信。如下面参照图4讨论的,计算机102可以分别包括内部组件800A和外部组件900A,并且服务器计算机 114可以分别包括内部组件800B和外部组件900B。计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板型计算机、台式计算机、或能够运行程序、访问网络和访问数据库的任何类型的计算设备。
服务器计算机114还可以在云计算服务模型中操作,例如软件即服务 (SaaS)、平台即服务(PaaS)或基础设施即服务(laaS),如下面参照图5 和6所讨论的。服务器计算机114还可以位于云计算部署模型中,诸如私有云、社区云、公共云或混合云。
可以用于文本错误识别和校正的服务器计算机114能够运行文本错误校正程序116(以下称为“程序”),该程序可以与数据库112交互。下面结合图3更详细地说明文本错误校正程序方法。在一个实施例中,计算机102可以作为包括用户接口的输入设备操作,而程序116可以主要在服务器计算机114 上运行。在替代实施例中,程序116可主要在一个或多个计算机102上运行,而服务器计算机114可用于处理和存储程序116所使用的数据。应当注意,程序116可以是独立的程序,或者可以被集成到较大的文本错误校正程序中。
然而,应当注意,在某些情况下,程序116的处理可以在计算机102和服务器计算机114之间以任何比例共享。在另一实施例中,程序116可以在多于一台计算机、服务器计算机或计算机和服务器计算机的某种组合(例如,通过网络110与单个服务器计算机114通信的多个计算机102)上操作。在另一实施例中,例如,程序116可以在通过网络110与多个客户端计算机通信的多个服务器计算机114上操作。或者,该程序可以在通过网络与服务器和多个客户端计算机通信的网络服务器上操作。
网络110可以包括有线连接、无线连接、光纤连接或其某种组合。通常,网络110可以是支持计算机102和服务器计算机114之间的通信的连接和协议的任何组合。网络110可以包括各种类型的网络,例如局域网(LAN)、诸如因特网的广域网(WAN)、诸如公共交换电话网络(PSTN)的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、城域网(MAN)、专用网络、自组织网络、内联网、基于光纤的网络等,和/或这些网络或其他类型网络的组合。
提供图1所示的设备和网络的数量和布置作为示例。在实践中,可以有额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或与图1 中所示的设备和/或网络不同地布置的设备和/或网络。此外,图1中所示的两个或更多个装置可以在单个装置内实现,或者图1中所示的单个装置可以实现为多个分布式装置。另外,或者替选地,系统100的一组设备(例如,一个或多个设备)可以执行被描述为由系统100的另一组设备执行的一个或多个功能。
现在参考图2,描述了TEIC架构200的实际系统框图。TEIC架构200 可以包括预处理器模块202和TEIC核心模块204。预处理器模块202可包括用于在简体中文(CHS)字符和繁体中文(CHT)字符之间转换的翻译器206、用于将长且复杂的句子分割成短且简单的子句的分段器208、以及用于将字符级序列分割成字级序列的分词器210。
在TEIC核心中,检测器模块212可集成一组检测器以发现潜在的文本错误。具体地,DNN-LM检测器214基于深度神经语言模型,n-gram(N元文法)检测器216基于统计语言模型来计算潜在误差位置,混淆检测器218简单地找到给定序列内的目标预定义字,OOV检测器220也基于统计语言模型但是基于字级的。然后添加错误合并模块222以处理重复和重叠检测结果。在从检测器模块212收集所有可能的文本错误224之后,系统从可以访问字典228的近似字查找表226查询所有字形和/或音标候选字230。在校正模块232中,校正器使用一定的距离度量来检查所有候选,对它们进行排序,然后选择具有最佳分数或概率的候选。在NLP中,困惑度是评估语言模型的方式,并且理论上,具有较低困惑度得分的句子更好。在TEIC中,困惑度检验器234可单独使用或用作其它类似检验器(诸如频率检验器236)的后检验步骤。句子生成器238 将运行最终检查过程,然后决定是否接受这样的文本校正240。
根据一个或多个实施例,可以在TEIC架构200中使用GPC系统242 来根据相似度对候选字进行排序,该相似度是基于候选字的GPC码来计算出的。为了进一步优化系统性能,可以预先计算最常用汉字的GPC代码,而不是在运行时获得代码。可进一步使用GPC系统242来建立类似词查找表以链接字形上和音标上类似的词,作为对传统手动构建的混淆词典和近似词词典的补充。另外,可以将GPC系统242可以集成到检测器模块212中。一个应用可以包括域适配。例如,在医疗保健领域或法律领域中使用的词语和术语可能与普通的日常使用的术语完全不同。因此,特定领域术语可能被AI处理模型(例如,ASR、手写识别)错误地输入或转换。对于给定的特定领域字典,系统可以首先将输入与普通的日常使用术语进行比较,并建立查找表以链接字形上和音标上相似的词语。如果这种通常频繁使用的字出现在输入序列中,则可能是可以在稍后的校正阶段中验证的潜在错误。动态检测算法可用于检查是否存在与目标特定领域字的潜在匹配(不必是精确匹配)。例如,可以使用修改的克努特-莫里斯 -普拉特(Knuth-Morris-Pratt,KMP)字符串搜索算法,其中基于两个字符之间的GPC代码来计算(在KMP算法中的)匹配。在实践中,可以使用阈值来放宽匹配标准,例如,如果s(C1,C2)≥0.8,则认为两个代码匹配。
GPC系统242可以使用字形和音标编码系统来处理汉字。该字形和音标编码系统是一个灵活的编码系统,由两个主要部分组成:分别是字形码和音标码。关键思想是针对字符的每种特征采用一致映射系统。由于汉字通常是语标 (logogram),所以可以将每个汉字分解成一系列基本笔划。为了编码和易于比较的目的,可以采用固定长度的编码系统来表征字形特征。汉字可以基于其四角码、结构码和笔划数进行编码。更具体地:
位置“g0”到“g4”代表四角码(维基百科)。该系统使用每字符五个数字来表示汉字。前四位数编码在符号的四个角(从左上到右下)中发现的形状。如果需要,第五位表示右下方上面的额外部分;
位置“g5”编码字符的结构信息。该结构是将字符分成几个(通常是两个或三个)基本组分的方式。除了不可分离的结构之外,还有大约12个基本的汉字结构,包括被称为表意文字描述字符的
Figure BDA0003459261760000071
Figure BDA0003459261760000072
Figure BDA0003459261760000073
位置“g6”记录笔划数目信息,即写一个汉字需要多少个基本的汉字笔划。
除了字符的字形特征之外,还可以对GPC系统中的音标特征进行编码。有若干种转录普通话中所有可能声音的方案,包括:拼音——中国大陆普通话的官方罗马化系统,以及注音符号(Bopomofo)——最常用于中国台湾普通话的系统。对于使用拼音系统,位置“p0”编码声母信息,这是因为在普通话方案中有21个可能的符号;位置“p1”编码韵母信息,因为普通话方案中有24个可能的符号;位置“p2”是韵母的辅助,以在复杂情况下编码可能的附加韵母;位置“p3”使用五级音调标记对音调信息进行编码。可以理解的是,至少应该在字级提取音标特征,因为汉语的同形异音异义词问题可能在单独处理每个字符时产生错误的转换。还可以理解,在一个位置上的代码可以表示一系列分类情况,例如,使用数字0~9,连同字母a-z、A-Z,或者甚至其他字符编码(例如,使用UTF-8)。
通过上面引入的特征工程模块,汉字可以被转换成一组固定长度的代码。代码可用于直接描述两个字符之间的相似度。然而,替选地,可以通过定制的映射方案从字形和音标角度引入附加的先验知识。
四角法可以使用原始的四角码进行比较,这是因为该方法本身已经考虑到了字形相似度。如下表1所示,结构代码可以为每种结构分配唯一代码以与其他结构区分。代码也可以基于如下表2所示的笔划数。
Figure BDA0003459261760000081
表1:结构特征映射方案。
Figure BDA0003459261760000082
Figure BDA0003459261760000091
表2:笔划特征映射方案。
可以理解,那些最常用的简体汉字的笔划数小于30。因此,在实践中,可以使用单个代码来表示那些极大的笔划数。可以将繁体汉字转换为简体汉字。替选地,小写字母a-z可用于对较大的笔划数进行编码,或者数据结构可用于存储整个字符特征集合,然后简单地通过整数变量来记录该信息。
拼音码可以使用原始字符或模糊映射方案来减少拼音的多个相似发音音节的距离。例如,输入“ci”和“chi”作为示例,它们的声母分别是“c”和“ch”。例如,可以为“c”和“ch”设置相同的代码,因为在母语和非母语讲普通话的人中,地区口音普遍存在。一些示例编码模式如下:
声母 b p m f d t n l g k h j q x z C s r zh ch sh
代码 A B C D E F G H I J K L M N O P Q R S T U
代码_a1 A B C D E F G H I J K L M N O P Q R O P Q
表3:拼音-声母映射方案。
Figure BDA0003459261760000092
Figure BDA0003459261760000101
表4:拼音-韵母映射方案。
音调 轻声 阴平 阳平 上声 去声
代码 0 1 2 3 4
表5:拼音-音调映射方案。
在表3和表4中,“编码_a1”表示一种模糊拼音方案的方法,然而,可以添加诸如“n”=“ng"、“h”=“f”、“n”=“l”等模糊规则。替选地,两个声母可以单独编码,但是可以使用成对距离的预定义查找表来量化这种部分匹配的场景。表5示出了可用于与拼音字符的音调相关联的语调的抑扬变化的代码。
注意:在现代拼音标准中,总共有39个韵母,其中附加的韵母可以被认为是来自24个基本韵母的某些韵母的组合。例如,“黄”-->“拼音”-->“huáng”被分解为“h”、“u”、“ang”和音调-2,然后,其拼音特征可以被编码为“K, U,E,2”。(“u”是辅助韵母)
例如,通过组合所有字符特征并应用上述编码方案,“腾讯”可以被转换为“792271C FV02”和“37710 1 5NS04”。
对于每种类型的字符特征,基本上有两种测量其距离的方法——二进制测量和连续测量。二进制测量简单地检查两个代码是否相同,并分别返回“1”或“0”。在所提出的GPC系统中,从四角法、字符结构和拼音提取的代码可以使用这种二进制方式来量化距离,作为这种代码的差异,典型地展示了候选之间的某种角度之间的完全不同。
当代码差异并不意味着关键的或直接的字符差异时,连续测量适合于该场景。在本案的情况下,可以以成比例的方式测量笔划数之间的差。
形式上,用f(·,·)表示二进制测量函数,对于两个代码a和b,如果a=b,则f(a,b)=1,否则,f(a,b)=0。对于两个代码a和b,用h(·,·)表示连续测量函数。
为了在所提出的GPC系统下完成两个汉字之间的比较,可以通过加权函数将特征相似度的每个部分聚合在一起。形式上,用G=[g0,…,g6]表示字符的字形特征集,P=[p0,…,p3]表示字符的音标特征集,GPC码可以被表示为C=[G, P]。然后,两字符C1和C2之间的相似度s(C1,C2)能被计算为:
Figure BDA0003459261760000111
其中,W=[WG,WP]=[wg0,…,wg6,wp0,…,wp3],以及对于W中的wi,∑iwi= 1,0≤wi≤1。
注意,函数f(·,·)、h(·,·)和s(C1,C2)的值范围都是[0,1],且值越高越相似。在实践中,W是控制汉字的每种类型特征的影响的一组可调权重变量。更具体地,权重wg0~wg4影响四角法的相似度影响,合理的设置为wg0=wg1=wg2= wg3≥wg4,这是因为四角法中的最后一个代码是额外的结构代码;wg5影响结构的相似度影响;wg5影响笔划数的相似度影响;wp0~wp3影响拼音系统的相似度影响,推荐的设置为wp0≥wp1≥wp2≥wp3
根据一个或多个实施例,除了上述四角系统之外,一些其他编码系统也可以适用于TEIC任务。替选方案包括电报代码、CKC方法、郑码方法、五笔方法和笔划计数方法。可以理解,字符的转换代码的长度可以是相同的或至少是相近的。例如,使用五笔,可以基于最多四个代码来表示任何中文,因此我们可以将任何字符对准到最大长度。还可以理解,可以通过编码系统适当地测量相似度。一些反例例如Big5和GBK可能不合适,这是因为当它们的代码接近时字符可能彼此不接近。
根据一个或多个实施例,除了拼音系统之外,Bopomofo方法是替代解决方案。另外,值得一提的是,我们可以使用不同风格的音标注释,例如,仅考虑第一声母,仅保留韵母部分,或忽略音调。
现在参考图3,示出了自然语言处理中由识别和校正文本错误的程序执行的方法300的步骤的操作流程图。
在302,方法300可以包括接收具有音标组分和字形组分的文本输入。
在304,方法300可以包括将与音标组分和字形组分对应的信息编码为固定长度序列。
在306,方法300可以包括识别与固定长度序列对应的一个或多个候选替换字。
在308,方法300可以包括用一个或多个候选替换字中的候选替换字替换文本输入的至少一部分。
可以理解,图3仅提供了一种实现方式的图示,并不暗示关于如何实现不同实施方式的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
图4是根据说明性实施例的图1所示的计算机的内部组件和外部组件的框图400。应当理解,图4仅提供了一种实施方式的图示,并且不暗示与可实施不同实施方式的环境有关的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
计算机102(图1)和服务器计算机114(图1)可以包括相应的一组内部组件800A、800B以及外部组件900A、900B。每组内部组件800包括:一个或多个总线826上的一个或多个处理器820、一个或多个计算机可读RAM 822 和一个或多个计算机可读ROM 824,一个或多个操作系统828,以及一个或多个计算机可读有形存储设备830。
处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其它类型的处理组件。在一些实现中,处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许内部组件800A、 800B之间通信的组件。
服务器计算机114(图1)上的一个或多个操作系统828、软件程序108 (图1)和文本错误校正程序116(图1)被存储在相应的计算机可读有形存储设备830中的一个或多个上,以便由相应的处理器820中的一个或多个经由相应的RAM 822(通常包括高速缓存存储器)中的一个或多个执行。在图4所示的实施例中,每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。或者,计算机可读有形存储设备830中的每一个是半导体存储设备,诸如ROM 824、EPROM、闪存、光盘、磁光盘、固态盘、压缩光盘(CD)、数字通用光盘(DVD)、软盘、盒式磁带、磁带和/或可存储计算机程序和数字信息的另一类型的非瞬时性计算机可读有形存储设备。
每一组内部组件800A、800B还包括读/写(R/W)驱动器或接口832,用于从一个或多个便携式计算机可读有形存储设备936(诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备)读取和向一个或多个便携式计算机可读有形存储设备936写入。诸如软件程序108(图1)和文本错误校正程序116(图1)的软件程序可以被存储在相应的便携式计算机可读有形存储设备 936中的一个或多个上,经由相应的读/写驱动器或接口832读取,并加载到相应的硬盘驱动器830中。
每组内部组件800A、800B还包括网络适配器或接口836,例如TCP/IP 适配卡、无线Wi-Fi接口卡、或3G、4G或5G无线接口卡、或其它有线或无线通信链路。服务器计算机114(图1)上的软件程序108(图1)和文本错误校正程序116(图1)可以经由网络(例如,因特网、局域网或其它广域网)和相应的网络适配器或接口836,从外部计算机下载到计算机102和服务器计算机 114。从网络适配器或接口836将服务器计算机114上的软件程序108和文本错误校正程序116加载到相应的硬盘驱动器830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
每组外部组件900A、900B可以包括计算机显示监视器920、键盘930 和计算机鼠标934。外部组件900A、900B还可以包括触摸屏、虚拟键盘、触摸板、定点装置和其他人机接口装置。每一组内部组件800A、800B还包括设备驱动器840以与计算机显示监视器920、键盘930和计算机鼠标934接口。设备驱动器840、读/写驱动器或接口832、和网络适配器或接口836包括硬件和(存储在存储设备830和/或ROM 824中的)软件。
应事先理解,尽管本公开包括对云计算的详细描述,但是本文中所述教导的实现不限于云计算环境。相反,一些实施例能够结合现在已知或稍后开发的任何其他类型的计算环境来实现。
云计算是用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的便捷的按需网络访问的服务递送模型,该可配置计算资源可以以最小的管理工作或最小的与服务提供者的交互来快速提供和释放。该云模型可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征如下:
按需随选:云消费者可以根据需要自动地单方面提供计算能力,例如服务器时间和网络存储,而不需要与服务提供者进行人工交互。
广泛的网络访问:各能力是通过网络可获得的,并且通过标准机制访问各能力,该标准机制促进多样的瘦客户端或胖客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池:使用多租户模型对提供者的计算资源进行池化以服务于多个消费者,其中根据需求动态地分配和重新分配不同的实体和虚拟资源。存在位置独立性的感觉,因为消费者通常对所提供的资源的确切位置没有控制权或不了解,但是可以有能力以更高的抽象级别(例如,国家、状态或数据中心)指定位置。
快速弹性:可以快速且弹性地提供能力,在某些情况下自动地,以快速向外扩展,接着快速释放以快速缩小。对于消费者来说,可用于供应的能力通常看起来是无限制的,并且可以在任何时候以任何数量购买。
定制服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活跃用户帐户)的某个抽象级别利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户机接口从各种客户机设备可访问应用。消费者不管理或控制底层云基础设施,包括网络、服务器、操作系统、存储,或甚至个人应用能力,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的应用部署到云基础设施上,这些应用是使用由供应商支持的编程语言和工具创建的。消费者不管理或控制底层云基础设施(包括网络、服务器、操作系统或存储),而是具有对所部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件(包括操作系统和应用程序)的其他基本计算资源。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制,并且可能具有对所选择的联网组件(例如,主机防火墙) 的有限的控制。
部署模型如下:
私有云:仅为组织运行云基础设施。云基础设施可以受该组织或第三方管理,并且可以存在于内部部署或外部部署。
社区云:云基础设施由几个组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于内部部署或外部部署。
公共云:云基础设施可用于普通公众或大型工业集团,并且由销售云服务的组织所拥有。
混合云:云基础设施是两个或更多个云(私有云、社区云或公共云)的组合,这些云维护独特的实体但通过使能数据和应用可移植性(例如,用于云之间的负载平衡的云突发)的标准化或专有技术而绑定在一起。
云计算环境是着重于无国界、低耦合、模块化和语义互操作性的面向服务。云计算的核心是包括互连节点的网络的基础设施。
参照图5,描绘了说明性云计算环境500。如图所示,云计算环境500 包括一个或多个云计算节点10,云消费者使用的本地计算设备(例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可以与云计算节点10通信。多个云计算节点10可以彼此通信。它们可以在一个或多个网络中被实体地或虚拟地分组(未示出),例如如上所述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境500提供基础设施、平台和/或软件即服务作为不需要云消费者维护本地计算设备上的资源的服务。应当理解,图5中所示的计算设备54A-N的类型仅用于说明,并且云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
参照图6,示出了由云计算环境500(图5)提供的一组功能抽象层600。应当预先理解,图6中所示的组件、层和功能仅用于说明,并且实施例不限于此。如图所示,提供以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机61;基于RISC(简化指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供了抽象层,从抽象层可提供以下虚拟实体示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境中执行任务的计算资源和其他资源的动态采购。当资源在云计算环境中被利用时,计量和定价82提供成本跟踪,以及对这些资源的消耗进行计费或开清单。在一个示例中,这些资源可以包括应用软件许可证。安全为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83 为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和实现85提供了对云计算资源的预先安排和采购,对于云计算资源,根据SLA预期未来需求。
工作负载层90提供可利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:映射和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;事务处理95;和文本误差校正96。文本错误校正96可识别并校正用于自然语言处理的文本错误。
一些实施例可以涉及任何可能的技术细节级别的集成的系统、方法和/ 或计算机可读介质。计算机可读介质可以包括计算机可读非暂时性存储介质(或介质),该计算机可读非暂时性存储介质(或介质)在其上具有用于使处理器执行操作的计算机可读程序指令。
计算机可读存储介质可以是能够保留和存储指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或上述的任何适当组合。计算机可读存储介质的更具体示例的非穷尽列表包括:便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器、便携式小型圆盘只读存储器(CD-ROM)、数字多功能盘、存储棒、软盘、机械编码的装置(例如,在凹槽中具有记录在其上的指令的打孔卡或凸起结构)、以及上述各项的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为瞬时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
此处描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备或经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/ 处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发用于存储在相应计算/处理设备中的计算机可读存储介质中的计算机可读程序指令。
用于执行操作的计算机可读程序代码/指令可以是汇编程序指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路的配置数据、或以一种或多种编程语言的任何组合写成的源代码或目标代码,包括面向对象的编程语言,例如SmallTalk、C++等,和程序化程序语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上、部分在用户的计算机上,作为独立的软件包,部分在用户的计算机上、部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以与外部计算机建立连接(例如,通过使用因特网服务提供商的因特网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路,以便执行方面或操作。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得经由计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或框图框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以指导计算机、可编程数据处理设备和/或其他设备以特定方式运行,使得具有存储在其中的指令的计算机可读存储介质包括制造品,该制造品包括实现流程图和/或框图框中指定的功能/动作的方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理设备或其他设备上,以使得在计算机、其他可编程设备或其他设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机、其他可编程设备或其他设备上执行的指令实现流程图和/或框图框中指定的功能/动作。
图中的流程图和框图示出了根据各种实施例的系统、方法和计算机可读介质的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个块可以表示指令的模块、段或部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。该方法、计算机系统和计算机可读介质可包括与图中所描绘的那些块相比的附加块、更少的块、不同的块或不同布置的块。在一些可选的实施方式中,在块中注明的功能可能不按图中注明的顺序发生。例如,相继示出的两个块实际上可以同时执行或基本上同时执行,或者块有时可以相反的顺序执行,这取决于所涉及的功能。还将注意到,方框图和/或流程图图示的每个方框以及方框图和/或流程图图示的方框的组合可以由基于专用硬件的系统来实现,这些系统执行指定的功能或动作或者执行专用硬件和计算机指令的组合。
显然,这里描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现。因此,在此描述系统和/或方法的操作和行为,而不参考特定的软件代码-应理解,软件和硬件可被设计成实现基于本文描述的系统和/或方法。
除非明确描述,否则本文使用的任何元素、动作或指令不应被理解为关键的或必要的。此外,如本文所使用的,物品“一个”旨在包括一个或多个物品,并且可以与“一个或多个”互换使用。此外,如本文所使用的,术语“集合”意在包括一个或多个项目(例如,相关项目、非相关项目、相关和非相关项目的组合等),并且可以与“一个或多个”互换使用。在仅意图一项的情况下,使用术语“一”或类似的语言。此外,如本文所使用的,术语“有”或类似术语是开放式术语。此外,“基于”一词意指“至少部分基于”,除非另有明确说明。
为了说明的目的,已经给出了各个方面和实施例的描述,但并不旨在穷举或限制于所公开的实施例。即使特征的组合在权利要求书中叙述和/或在说明书中公开,这些组合并不旨在限制可能的实现方式的公开。实际上,这些特征中的许多特征可以以未在权利要求书中具体陈述和/或在说明书中公开的方式组合。虽然下面列出的每个从属权利要求可以仅直接依赖于一个权利要求,但是可能实现的公开包括每个从属权利要求与权利要求集中的每一个其它权利要求的组合。在不脱离所描述的实施例的范围的情况下,对本领域普通技术人员来说,许多修改和变化将是显而易见的。选择此处使用的术语是为了最好地解释实施例的原理、相对于市场中发现的技术的实际应用或技术改进,或使本领域普通技术人员能够理解此处公开的实施例。

Claims (20)

1.一种处理器可执行的文本错误识别和校正方法,包括:
接收具有音标组分和字形组分的文本输入;
将与所述音标组分和所述字形组分对应的信息编码为固定长度序列;以及
识别与所述固定长度序列对应的一个或多个候选替换字。
2.根据权利要求1所述的方法,还包括用所述一个或多个候选替换字中的候选替换字替换所述文本输入的至少一部分。
3.根据权利要求1所述的方法,其中,所述字形组分包括和与所述文本输入相关联的字符对应的结构和笔划数中的一个或多个。
4.根据权利要求1所述的方法,其中,所述音标组分包括和与所述文本输入相关联的字符对应的声母组分、韵母组分和音调组分中的一个或多个。
5.根据权利要求1所述的方法,其中,基于对与所述候选替换字相关联的困惑度得分进行最小化来识别所述一个或多个候选替换字。
6.根据权利要求1所述的方法,其中,所述一个或多个候选替换字对应于与所述文本输入相关联的特定领域应用。
7.根据权利要求1所述的方法,其中,所述文本输入包括繁体汉字、简体汉字和拼音输入中的一个或多个。
8.一种用于文本错误识别和校正的计算机系统,所述计算机系统包括:
一个或多个计算机可读非暂时性存储介质,被配置成存储计算机程序代码;以及
一个或多个计算机处理器,被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示进行操作,所述计算机程序代码包括:
接收代码,被配置为使得所述一个或多个计算机处理器接收具有音标组分和字形组分的文本输入;
编码代码,被配置为使得所述一个或多个计算机处理器将与所述音标组分和所述字形组分对应的信息编码为固定长度序列;以及
识别代码,被配置为使得所述一个或多个计算机处理器识别与所述固定长度序列对应的一个或多个候选替换字。
9.根据权利要求8所述的计算机系统,还包括替换代码,该替换代码被配置为使得所述一个或多个计算机处理器用所述一个或多个候选替换字中的候选替换字替换所述文本输入的至少一部分。
10.根据权利要求8所述的计算机系统,其中,所述字形组分包括和与所述文本输入相关联的字符对应的结构和笔划数中的一个或多个。
11.根据权利要求8所述的计算机系统,其中,所述音标组分包括和与所述文本输入相关联的字符对应的声母组分、韵母组分和音调组分中的一个或多个。
12.根据权利要求8所述的计算机系统,其中,基于对与所述候选替换字相关联的困惑度得分进行最小化来识别所述一个或多个候选替换字。
13.根据权利要求8所述的计算机系统,其中,所述一个或多个候选替换字对应于与所述文本输入相关联的特定领域应用。
14.根据权利要求8所述的计算机系统,其中,所述文本输入包括繁体汉字、简体汉字和拼音输入中的一个或多个。
15.一种非瞬时性计算机可读介质,其上存储有用于文本错误识别和校正的计算机程序,所述计算机程序被配置为使得一个或多个计算机处理器:
接收具有音标组分和字形组分的文本输入;
将与所述音标组分和所述字形组分对应的信息编码为固定长度序列;
识别与所述固定长度序列对应的一个或多个候选替换字。
16.根据权利要求15所述的计算机可读介质,其中,所述计算机程序还被配置为使得一个或多个计算机处理器用所述一个或多个候选替换字中的候选替换字替换所述文本输入的至少一部分。
17.根据权利要求15所述的计算机可读介质,其中,所述字形组分包括和与所述文本输入相关联的字符对应的结构和笔划数中的一个或多个。
18.根据权利要求15所述的计算机可读介质,其中,所述音标组分包括和与所述文本输入相关联的字符对应的声母组分、韵母组分和音调组分中的一个或多个。
19.根据权利要求15所述的计算机可读介质,其中,基于对与所述候选替换字相关联的困惑度得分进行最小化来识别所述一个或多个候选替换字。
20.根据权利要求15所述的计算机可读介质,其中,所述一个或多个候选替换字对应于与所述文本输入相关联的特定领域应用。
CN202210011387.5A 2021-01-06 2022-01-06 用于中文文本错误识别与校正的架构 Pending CN114722796A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/142,718 US11481547B2 (en) 2021-01-06 2021-01-06 Framework for chinese text error identification and correction
US17/142,718 2021-01-06

Publications (1)

Publication Number Publication Date
CN114722796A true CN114722796A (zh) 2022-07-08

Family

ID=82219706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210011387.5A Pending CN114722796A (zh) 2021-01-06 2022-01-06 用于中文文本错误识别与校正的架构

Country Status (2)

Country Link
US (1) US11481547B2 (zh)
CN (1) CN114722796A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769009B2 (en) * 2021-02-22 2023-09-26 International Business Machines Corporation Using domain specific vocabularies to spellcheck input strings
CN117787266A (zh) * 2023-12-26 2024-03-29 人民网股份有限公司 基于预训练知识嵌入的大语言模型文本纠错方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8629908D0 (en) * 1986-12-15 1987-01-28 Kemano Ltd Words & characters computer input device
CN1026525C (zh) * 1992-01-15 1994-11-09 汤建民 智能五笔双拼码计算机汉字输入方法
CN1484173A (zh) * 2003-08-10 2004-03-24 卢小林 基于汉字形状的中文单词拼写错误校正方法
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
US8909516B2 (en) * 2011-10-27 2014-12-09 Microsoft Corporation Functionality for normalizing linguistic items
US9442909B2 (en) * 2012-10-11 2016-09-13 International Business Machines Corporation Real time term suggestion using text analytics
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
WO2015042819A1 (en) * 2013-09-26 2015-04-02 Google Inc. Context sensitive input tools
US10402490B1 (en) * 2015-08-14 2019-09-03 Shutterstock, Inc. Edit distance based spellcheck
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法
US11106690B1 (en) * 2018-02-20 2021-08-31 A9.Com, Inc. Neural query auto-correction and completion
US11294944B2 (en) * 2018-06-03 2022-04-05 Apple Inc. Correction and completion of search queries
CN109543022B (zh) * 2018-12-17 2020-10-13 北京百度网讯科技有限公司 文本纠错方法和装置
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法

Also Published As

Publication number Publication date
US11481547B2 (en) 2022-10-25
US20220215170A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
US11269965B2 (en) Extractive query-focused multi-document summarization
US11328129B2 (en) Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US11645470B2 (en) Automated testing of dialog systems
JP5513898B2 (ja) 共有された言語モデル
KR20110043645A (ko) 기계 번역을 위한 파라미터들의 최적화
US20220092252A1 (en) Method for generating summary, electronic device and storage medium thereof
JP2010520531A (ja) 統合ピンイン及び画入力
US20220083772A1 (en) Identifying matching fonts utilizing deep learning
US11170183B2 (en) Language entity identification
CN114722796A (zh) 用于中文文本错误识别与校正的架构
US11227110B1 (en) Transliteration of text entry across scripts
US10204101B2 (en) Lexicon extraction from non-parallel data
US11875113B2 (en) Semantic matching of job titles with limited contexts
US10394960B2 (en) Transliteration decoding using a tree structure
WO2019182818A1 (en) Machine translation locking using sequence-based lock/unlock classification
CN111814493A (zh) 机器翻译方法、装置、电子设备和存储介质
US10810380B2 (en) Transliteration using machine translation pipeline
US10585986B1 (en) Entity structured representation and variant generation
WO2021152568A1 (en) Relation extraction using full dependency forests
US11270075B2 (en) Generation of natural language expression variants
US11822884B2 (en) Unified model for zero pronoun recovery and resolution
CN112463917A (zh) 经由目标探针的翻译引擎建议

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination