CN115017890A - 基于字音字形相似的文本纠错方法和装置 - Google Patents

基于字音字形相似的文本纠错方法和装置 Download PDF

Info

Publication number
CN115017890A
CN115017890A CN202210581975.2A CN202210581975A CN115017890A CN 115017890 A CN115017890 A CN 115017890A CN 202210581975 A CN202210581975 A CN 202210581975A CN 115017890 A CN115017890 A CN 115017890A
Authority
CN
China
Prior art keywords
shape
text
character
similarity
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210581975.2A
Other languages
English (en)
Inventor
赵洋
包荣鑫
刘迪
马巧巧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202210581975.2A priority Critical patent/CN115017890A/zh
Publication of CN115017890A publication Critical patent/CN115017890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于自然语言处理技术领域,提供了一种基于字音字形相似的文本纠错方法和装置,通过从音近字集合获取待纠错文本中汉字的音近相似信息、从形近字集合获取待纠错文本中汉字的形近相似信息,并通过语义纠错模型提取待纠错文本的语义信息,在通过语义信息对待纠错文本纠错中的汉字时融入待纠错文本汉字的音近相似信息、形近相似信息,并对音近相似信息、形近相似信息进行注意力机制处理,实现了对待纠错文本结合音近相似信息、形近相似信息和语义信息进行纠错,提高纠错结果的准确率。本发明能够对上市公司公告、法律文书、财务报告进行文本纠错,纠错结果准确率高。

Description

基于字音字形相似的文本纠错方法和装置
技术领域
本申请属于自然语言处理(natural language processing,NLP)技术领域,尤其涉及基于字音字形相似的文本纠错方法和装置。
背景技术
一些文本对文字内容的准确度要求极高,例如上市公司公告对文本的准确度要求就极高,如果公告中出现重大错误会影响资本市场情绪,进一步影响投资者的信心和公司股价。因此,对于上市公司披露的公告往往需要多人多次进行人工校对,耗时耗力。
自动化的校对和纠错能部分替代人工校对工作,能够节约人工校对文本所耗费的精力和时间,并能够给出可能出现的错误位置并给出纠错结果,进而避免重复的人工校对,能够提高纠错的效率和准确率。
发明内容
本申请实施例提供了一种基于字音字形相似的文本纠错方法和装置,可以解决对中文文本纠错时没有考虑字音相近、字形相近因素的问题,达到了对中文文本高准确度纠错的技术效果。
第一方面,提供了一种基于字音字形相似的文本纠错方法,获取待纠错文本;获取待纠错文本中每个汉字的语义信息;根据待纠错文本中汉字的音近相似信息、形近相似信息和语义信息对待纠错文本纠错得到纠错结果。
第一方面提供的文本纠错方法,在根据语义信息对待纠错文本进行纠错的过程中融入待纠错文本中汉字的音近相似信息、形近相似信息,使得在对文本纠错时考虑汉字的音近字因素、形近字因素,能够提高对待纠错文本纠错时的准确率。
在第一方面一种可能的实现方式中,方法还包括:获取音近字集合、形近字集合;使用图嵌入模型从音近字集合提取汉字的音近相似矩阵、从形近字集合提取汉字的形近相似矩阵;从音近相似矩阵获取待纠错文本中汉字的音近相似信息、从形近相似矩阵获取待纠错文本中汉字的形近相似信息;其中,音近相似矩阵包括音近相似向量,音近相似向量表示音近字集合中汉字的音近相似信息;形近相似矩阵包括形近相似向量,形近相似向量表示形近字集合中汉字的形近相似信息。在该实现方式中,通过图嵌入模型从音近字集合获取汉字的音近相似信息、从形近字集合获取汉字的形近相似信息,能够高效地获取汉字的音近相似信息、形近相似信息,进而在对待纠错文本纠错时考虑到汉字的音近字、形近字,进而提高纠错结果的准确度。
在第一方面另一种可能的实现方式中,从音近相似矩阵获取待纠错文本中汉字的音近相似信息,从形近相似矩阵获取待纠错文本中汉字的形近相似信息,包括:利用注意力机制从音近相似矩阵获取待纠错文本中汉字的音近相似信息,利用注意力机制从音近相似矩阵获取待纠错文本中汉字的音近相似信息。在该实现方式中,通过注意力机制从音近相似矩阵获取待纠错文本中汉字的音近相似信息的过程进行处理,也通过注意力机制对从音近相似矩阵获取待纠错文本中汉字的音近相似信息的过程进行处理,在纠错的过程中能够对音近字因素、形近字因素使用注意力机制进一步提高纠错结果的准确度。
在第一方面一种可能的实现方式中,利用注意力机制从音近相似矩阵获取待纠错文本中汉字的音近相似信息,包括:利用如下公式对音近相似矩阵进行注意力机制处理,得到注意力机制处理后的音近相似矩阵:
Figure BDA0003664281970000021
从注意力机制处理后的音近相似矩阵得到待纠错文本中汉字的音近相似信息;其中,其中w为权重向量,η为缩放变量,η可以进行设定。Softmax为损失函数,Mp为注意力机制处理前的音近相似矩阵,M′p为注意力机制处理后的音近相似矩阵。在该实现方式中,通过对注意力机制获取音近相似矩阵,提高纠错结果的准确度,并在模型训练时对模型进行不断优化,进一步提高对待纠错文本进行纠错时的准确度。
在第一方面另一种可能的实现方式中,利用注意力机制从形近相似矩阵获取待纠错文本中汉字的形近相似信息,包括:使用如下公式对形近相似矩阵进行注意力机制处理,得到注意力机制处理后的形近相似矩阵:
Figure BDA0003664281970000022
从注意力机制处理后的形近相似矩阵得到待纠错文本中汉字的形近相似信息;其中,其中w为权重向量,η为缩放变量,η可以进行设定。Softmax为损失函数,Ms为注意力机制处理前的形近相似矩阵,M′s为注意力机制处理后的形近相似矩阵。在该实现方式中,通过对注意力机制获取形近相似矩阵,提高纠错结果的准确度,并在模型训练时对模型进行不断优化,进一步提高对待纠错文本进行纠错时的准确度。
在第一方面一种可能的实现方式中,方法还包括:对音近相似矩阵、形近相似矩阵求和,得到音形纠错矩阵;根据待纠错文本中的第一汉字的语义信息判断第一汉字是否属于音近字集合和/或形近字集合;当待纠错文本中的第一汉字属于音近字集合和/或形近字集合时,使用第一汉字在音形纠错矩阵中的音近相似信息和/或形近相似信息对待纠错文本中的第一汉字进行纠错,得到纠错结果;当待纠错文本中的第一汉字不属于音近字集合和形近字集合时,使用待纠错文本中的第一汉字的语义信息对待纠错文本中的第一汉字进行纠错,得到纠错结果;其中,第一汉字为待纠错文本中的任一汉字。在该实现方式中,能够在纠错的过程中对汉字的音近字信息、形近字信息进行融合,使得纠错过程中能够综合考虑汉字的音近字信息、形近字信息,进而提高对汉字进行纠错时得到的纠错结果的准确度,提高对待纠错文本的纠错效果。
在第一方面另一种可能的实现方式中,方法还包括:当待纠错文本中的第一汉字属于音近字集合时,使用第一汉字在音形纠错矩阵中的音近相似信息对待纠错文本中的第一汉字进行纠错,得到纠错结果;当待纠错文本中的第一汉字属于形近字集合时,使用第一汉字在音形纠错矩阵中的形近相似信息对待纠错文本中的第一汉字进行纠错,得到纠错结果;当所述待纠错文本中的第一汉字既属于所述音近字集合也属于所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中纠错概率最高的音近相似信息或形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果。在该实现方式中,通过对待纠错文本中的第一汉字既属于音近字集合也属于形近字集合时,使用第一汉字在音形纠错矩阵中纠错概率最高的音近相似信息或形近相似信息中对待纠错文本中的第一汉字进行纠错,得到了更为准确的纠错结果,提高了纠错效果。
在第一方面一种可能的实现方式中,图嵌入模型为DeepWalk模型。在该实现方式中,采用DeepWalk模型作为图嵌入模型,进而在音近字集合中获取汉字的有音近相似关系的汉字信息,在形近字集合中获取汉字的有形近相似关系的汉字信息,实现对待纠错文本的高效纠错。
在第一方面另一种可能的实现方式中,通过RoBERTa模型提取语义信息。在该实现方式中,通过RoBERTa模型提取语义信息,能够对汉字的语义信息进行高效的提取,提高根据语义信息对文本纠错的准确度。
在第一方面一种可能的实现方式中,对模型进行训练时,损失函数可以通过如下公式表示:
Figure BDA0003664281970000031
其中R表示训练集中句子包含文字的个数(句子长度),T表示训练集中数据的条数;Logitstr表示模型在训练时在训练集T中第t个数据的第r个字符的输出结果,具体为一个概率数值;Labletr表示训练集T中第t个数据的第r个字符的标记值,具体为一个概率数值;loss即表示所有训练数据字级别误差的平均值。在该实现方式中,通过对模型进行训练,直至模型收敛,保证模型的纠错效果。
第二方面,本申请实施例提供了一种文本纠错装置,包括用于执行第一方面或第一方面的任一可能的实现方式中的文本纠错方法的单元。
第三方面,本申请实施例提供了一种装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面或第一方面的任一可能的实现方式中的文本纠错方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现第一方面或第一方面的任一可能的实现方式中的文本纠错方法。
第五方面,提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行第一方面或第一方面的任一可能的实现方式中的文本纠错方法。
第六方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行第一方面或第一方面的任一可能的实现方式中的文本纠错方法。
可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有的一种基于语义的纠错模型对文本纠错的过程示意图;
图2是本申请一实施例提供的获取音近相似矩阵的步骤示意图;
图3是本申请一实施例中的音近字集合的内容示意图;
图4是本申请一实施例中的形近字集合的内容示意图;
图5是本申请一实施例中的DeepWalk模型处理的流程示意图;
图6是本申请一实施例中获得音形纠错矩阵的过程示意图;
图7是本申请一实施例中利用综合纠错矩阵进行文本纠错的过程示意图;
图8是本申请一实施例提供的文本纠错设备的结构示意图;
图9是本申请一实施例提供的文本纠错装置的结构示意图;
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
文本纠错是自然语言处理中难度较大的领域之一,特别是在中文的纠错场景中。针对于中文的文本纠错近两年成为了热门的研究方向。现有的中文文本纠错方法常常通过字典进行文本纠错,即如果发现了词典中出现的错误词语就用对应的正确词语替换,但是该方法难以覆盖文本中出现错误的大部分情况,纠错方法的维护成本较高,文本纠错的误判率也较高。随着字音字形相似和预训练语言模型的兴起,有监督学习的文本纠错方法凭借着较高的准确率和较低的误判率受到了工业界的青睐。但是现有的有监督模型往往仅考虑句子的语境和错误文本的前后语义来进行纠错,忽略了中文中的字形和读音两大关键纠错因素。
例如,待纠错文本为“回购公司股份用以实施远攻吃够计划”,相应的正确文本为“回购公司股份用以实施员工持股计划”,现有纠错方法根据语义向量(语义向量包含字符的上下文语义信息)纠错得到的纠错结果往往为“回购公司股份用以实施股权激励计划”,得到了错误的纠错结果。在这个例子中,现有的纠错方法仅生成通顺合理的语句,但是忽略了待纠错语句中错误文字的读音和纠错结果的差异性,导致该文本纠错任务的结果错误。这一纠错过程可以使用如图1中所示出的文本纠错过程进行表示。图1中,对“用以实施远攻吃够计划”这句话进行纠错时,首先将“用以实施远攻吃够计划”切分成10个单独的汉字,然后将这句话的各个汉字分别表示为一个词向量Vi,例如“用”字表示为V0,“以”字表示为V1,“实”字表示为V2,其余字符的词向量表示依次类推。经过词嵌入表示,使得“用以实施远攻吃够计划”中的每一个汉字都能够通过词向量定位到字符集中的唯一位置。然后,对词向量Vi处理得到各个字符对应的语义向量V′i。最后,通过解码就能够从语义向量V′i获得对“用以实施远攻吃够计划”根据语义纠错的结果“用以实施股权激励计划”。“用以实施远攻吃够计划”能够根据语义向量V′i纠错为“用以实施股权激励计划”,该纠错结果中的“股权激励”虽然在语义上与待检测文本中的“回购公司股份”语义较为相近,但是在汉字的发音上和“远攻吃够”差异很大,与正确的结果“员工持股”差距较远,导致纠错任务失败,后续还需进行人工对纠错结果进行校对和修正。
一些重要的文本如果出现错误将影响巨大,例如上市公司的公告对于文本的准确程度要求极高,公告中细小的错误可能会影响投资者信心和资本市场情绪,进一步对公司股价产生不利影响,因此有必要提高对公告文本的纠错准确度。
有鉴于此,本申请实施例的方法提供了一种以字音字形相似为基础的文本纠错方法,首先获取汉字的音近相似信息、汉字的形近相似信息,并采用注意力机制提高考虑音近字、形近字因素纠错时的准确度,并构建基于字音字形相似的文本纠错模型,实现对文本的高准确度纠错。
本申请实施例提供的文本纠错方法可以应用于上市公司发布前公告的校对环节中,用于辅助工作人员进行公告校对。例如,应用本方法的系统具有操作界面,操作界面上具有文本输入框和文本输出框,还有启动纠错的开始按钮、清空输入框中文本的清空按钮和关闭操作界面的按钮。使用时,校对工作人员将公告文本输入文本输入框中并点击开始按钮,系统开始进行纠错并得到纠错结果,然后系统将纠错结果显示在文本输出框中,用于即可以在文本输出框中获取纠错后的文本,例如复制纠错结果文本。
应理解的是,待纠错的文本可以是一个句子,也可以是一段话,也可以是一段形成篇章的文字文本,本申请实施例对待纠错的文本的长度不作限制。
在一些场景中,本申请实施例的文本纠错方法还可以应用于自动语音识别(automatic speech recognition,ASR)装置中,用于辅助语音识别装置提高语音识别的准确度。例如,应用本方法的语音识别装置具有语音接收模块、语音识别模块、文本纠错模块和结果输出模块,语音识别装置应用本申请实施例的方法对语音识别的结果进行纠错。首先,语音接收模块接收需要识别的声音并将声音转换为语音信息(例如mp3格式的文件);然后,语音识别模块接收语音信息并对语音信息进行语音识别,得到语音识别处理得到的文本信息;再然后,文本信息输入到文本纠错模块中,文本纠错模块对文本信息考虑音近字、形近字因素进行纠错,可以得到更为准确的纠错结果文本;最后,纠错结果通过文本纠错模块输出到文本文件(例如txt格式的文件)中进行存储,或者纠错结果通过文本纠错模块输出到语音识别装置的显示界面上。
在另一些场景中,本方法可以应用于光学字符识别(optical characterrecognition,OCR)装置中,用于辅助OCR装置提高识别准确度。例如,应用本方法的OCR装置包括图像采集模块、光学字符识别模块、文本纠错模块和文本输出模块,OCR装置应用本申请实施例的方法提高OCR软件的识别准确度。首先,图像采集模块采集待识别区域的图片并将生成图片信息(例如jpg格式的文件);然后,图片信息在光学字符识别模块中进行文字识别,得到初步的文字识别结果;再然后,初步的文字识别结果传输到文本纠错模块中,文本纠错模块利用文字的音近字、形近相似信息对识别结果进行纠错,得到更加准确的文本纠错结果;最后,文本输出模块将文本纠错结果保存到文件(例如保存成txt、doc、pdf格式的文件)中,或者将文本纠错结果在OCR装置的操作界面中显示出。
本申请的方法还可以应用于网络环境中的智能问答、智能语音中,提高智能问答、智能语音环节的效率;还可以应用于搜索引擎提高对输入语句的识别准确度,实现智能搜索;还可以应用于法律文书、法律合同、财务报告和学术论文等专业性文本的检测与修改中,本申请实施例对本方法应用的场景不做限制。
下文结合具体的例子对本申请实施例的方法进行说明。
图2是本申请实施例提供的一例对音近字语料进行处理的示意图。图2中,音近字语料K的内容是k个汉字以及这k个汉字的音近字的集合,音近字语料K经过处理,得到一个能够表示这k个汉字之间的音近相似关系的k×k矩阵,然后经过图嵌入模型对表示这k个汉字之间的音近相似关系的k×k矩阵进行处理,得到音近相似矩阵Mp
如图2中对音近字语料K进行处理的流程图所示的,通过对音近字语料K处理以从音近字语料K中获取汉字的音近相似信息,进而获取到应用本申请实施例的方法对文本进行纠错时的音近字因素。
其中,音近字语料是一种音近字集合,通过音近字语料能够获取汉字的音近字。音近字语料具体可以保存在一个文本文件中,内容为汉字,具体可以为如图3所示的形式。图3中,记载了汉字“一”的同音同调字“壹”以及汉字“一”的同音异调字“漪”,也记载了汉字“乙”的同音同调字“已、亿”以及汉字“乙”的同音异调字“艺、忆”,也记载了汉字“丁”的同音同调字“盯、叮”以及汉字“丁”的同音异调字“政、正、整、钉、锭、鼎、定、郑”。图3中,用省略号代表省略的汉字以及这些汉字的同音同调字、同音异调字。
在如图3所示的音近字语料中,“股”字的同音同调汉字为“凸、古、鼓、滑、贾、骨、谷”,“股”字的同音异调字为“估、沽、辜、家、雇、咕、告、顾、姑、孤、故、固”。
在一些实施例中,音近字语料也包含存在多音字情况的汉字的多组音近字,进而获得具有多音字的汉字的音近字情形,提高纠错效果。例如,“省”字有两种读音:“反省(xǐng)”和“省(shěng)会”。对“省(xǐng)”读音,则会包括“省(xǐng)”字的“醒、形、行、星”等音近字。对“省(shěng)”读音,则会包括“生、声、升、剩”等音近字。
在一些实施例中,形近字语料具体可以保存在一个文本文件中,内容为汉字,具体可以为如图4所示的形式。其中,形近字语料也是一种形近字集合。图4中,记载了汉字“延”的同形字“诞、蜒”,也记载了汉字“奄”的同形字“掩、淹、俺”,也记载了汉字“彦”的同形字“颜、谚”。图4中,用省略号代表省略的汉字以及这些汉字的同形字。
在如图4所示的形近字语料中,“股”字的形相近字为“殳、役、投、没、般、设”。
在一些实施例中,音近字语料、形近字语料可以使用直接从网上获取的资源,网络上公开的形近字语料和音近字语料能够满足本申请实施例的方法对文本纠错的需求。
在一些实施例中,用户为了提高利用音近相似信息、形近相似信息进行文本纠错的准确度,用户可以自行构建音近字语料、形近字语料。例如,用户可以自行将具有音相近特征的汉字收集组成音近字语料,将具有形相近特征的汉字收集组成形近字语料。
在另一些实施例中,用户可以通过对音近字语料、形近字语料优化,进一步地提高模型的纠错效果。例如,从网络上获取到音近字语料之后,可以进一步地衡量各个汉字在声母、韵母、声调三方面的相似度,由此获得汉字在字音上的相似度并对音近字语料进行整理,得到更为准确的音近字语料。从网络上获取到形近字语料之后,可以进一步地衡量汉字拆解为基本笔画后的相似度,由此获得汉字在字形上的相似度并对形近字语料进行整理,得到更为准确的形近字语料。
在一些实施例中,还可以通过混淆字符集的生成算法来生成音近字语料、形近字语料。例如,通过利用混淆字符集的生成算法来生成音近字、形近字,能够从一般的字符集中构建容易在读音、字形上发生混淆的混淆字符集合,即音近字语料、形近字语料。
以上的各种实施例,均是通过在字符集或者语料中根据读音相似特征获取汉字的读音音近关系,通过结构特征在语料中获取汉字的形近相似关系,本申请实施例对汉字的读音相近关系、字形相近关系的获取方法不作限制,对音近字语料、形近字语料的具体形式也不作限制。
本申请实施例的方法中,为了利用音近字语料中的音近相似信息、形近字语料中的形近相似信息进行纠错,将音近字语料中的音近相似信息表示为音近相似矩阵,音近相似矩阵包括音近相似向量,音近相似向量表示汉字之间的音近相似度;将形近字语料中的形近相似信息表示为形近相似矩阵,形近相似矩阵包括形近相似向量,形近相似向量表示汉字之间的形近相似度。然后将音近相似矩阵、形近相似矩阵应用到文本纠错过程中,提高纠错结果的准确度。
下面结合具体的例子说明将音近字语料中的音近相似信息表示为音近相似矩阵、将形近字语料中的形近相似信息表示为形近相似矩阵的过程。
首先,构建音近字语料、形近字语料的表示矩阵。下文结合图2中所表示的具体过程进行说明,如图2中对音近字语料的处理过程所示出的,对一个音近字语料,其内容为一个有k个汉字的字符集K,可以建立一个k*k大小的表示矩阵M,矩阵中的元素Mij的值可以表示字符集中汉字的相似关系。如果字符集中两个汉字之间有音相似关系,则在矩阵M中对应元素Mij的值为1;如果字符集两个汉字之间没有音相似关系,则在矩阵M中对应元素Mij的值为0。
音近字语料的矩阵表示过程使用公式(1)表示如下:
Figure BDA0003664281970000091
公式(1)中,Ki表示字符集K中第i个汉字,Kj表示字符集K中第j个汉字,Ki相似于Kj表示符集K中第i个汉字与字符集K中第j个汉字有音相近关系;Ki不相似于Kj表示符集K中第i个汉字与符集K中第j个汉字没有音相近关系。
同样地,对于一个形近字语料也可以表示成上文所说的矩阵M的表示矩阵的形式,这里不再赘述。
在一些实施例中,表示矩阵M可以为关联矩阵或者邻接矩阵,即可以通过关联矩阵表示音近字语料和/或形近字语料,也可以通过邻接矩阵表示音近字语料和/或形近字语料,关联矩阵、邻接矩阵只是语料中的汉字以及音近相似关系、形近相似关系的两种矩阵表示形式,本申请实施例对语料进行表示矩阵的具体形式不作限制。
然后,从音近字语料、形近字语料的表示矩阵生成音近相似矩阵、形近相似矩阵。下文结合图2中所表示的具体过程进行说明。
如图2所示的,将音近字语料的表示矩阵通过图嵌入模型进行处理得到音近相似矩阵Mp。其中,图嵌入模型能够将图结构表示为向量。
图嵌入模型能够将音近字语料的表示矩阵中的音近相似信息处理成音近相似矩阵,音近相似矩阵中有各个汉字对应的音近相似向量,通过音近相似向量能够预测汉字的音近字。形近字语料的处理过程与音近字语料的处理过程相类似,这里不再赘述。
通过将音近字语料转换为表示矩阵,为了方便理解,可以将该表示矩阵视为一个图结构M(V,E),图结构M(V,E)中,E为图结构中的汉字节点,V为图结构中的两个汉字之间的连接边,代表两个汉字之间的相似关系。然后,可以将音近字语料的表示矩阵视为音近字关系图,进而通过图嵌入模型能够获取音近字关系图中的音近相似矩阵。同样地,通过类似的处理过程能够通过图嵌入模型从形近字关系图中获取形近相似矩阵。
在一些实施例中,图嵌入模型为DeepWalk模型,并通过DeepWalk模型的SkipGram算法获取音近相似矩阵、形近相似矩阵。
具体地,如图5的流程图中的S501至S506对音近字关系图的处理过程所示的,使用DeepWalk模型对音近字关系图进行处理的流程为:
S501、随机选择音近字关系图中任意一个没有选择过的汉字节点作为根节点。
这里,汉字节点指音近字关系图中的汉字对应的节点,汉字节点在音近字关系图通过边连接,边表示汉字之间的相似关系。
S502、随机访问与根节点相连的一个邻居汉字节点。
S503、继续访问邻居汉字节点相连的邻居汉字节点。
通过步骤S502、S503,能够选择汉字节点并将汉字节点作为根节点,并随机访问与根节点相连的一个邻居汉字节点,能够获取该汉字节点对应的汉字的音近字;继续访问邻居汉字节点相连的邻居汉字节点,能够获取该汉字节点对应的汉字的音近字的音相近汉字。其中,两个汉字节点直接相连,表示这两个汉字节点对应的汉字在相近关系上关系较近;两个汉字节点之间通过一个或者多个汉字节点连接,表示这两个汉字节点对应的汉字在相近关系上不如直接相连的两个汉字节点对应的汉字相近。
S504、判断当前序列长度是否达到设定的最大值x,如果当前序列长度大于等于x,则生成序列Wvi并执行步骤S505,否则执行步骤S503。
其中,最大值x可以自行设定,例如x可以设定为2、3或者4,以获取汉字的不同相近程度的音近字。
这里,生成的序列Wvi表示汉字节点的音近字组成的序列,这一序列中对应的是汉字节点的音近字坐标。序列Wvi可以作为为一个向量,通过向量Wvi能够定位汉字节点对应汉字的音近字。
S505、对序列Wvi执行SkipGram向量更新算法。
其中,SkipGram算法的目标为根据中心节点的向量值预测临近节点。具体地,在本申请实施例中SkipGram算法的目标为根据汉字预测汉字的音近字。
S506、判断是否所有节点都已经作为过根节点,如果是则执行步骤S507,否则执行步骤S501。
通过步骤S506能够判断所有的汉字节点对应的汉字是否都已经作为根节点处理过,进而能够获取所有的汉字节点对应的汉字的音近字。
如果所有的汉字节点对应的汉字都已经作为根节点处理过,则可以通过步骤S507获取返回的音近相似矩阵,如果不是所有的汉字节点对应的汉字都已经作为根节点处理过,则继续获取汉字节点对应的汉字的音近字。
S507、返回音近相似矩阵。
这里,通过DeepWalk模型以及SkipGram算法对音近字关系图进行处理得到音近相似向量,音近相似向量表示汉字之间的音近相似度,通过音近相似向量能够获取一个汉字的音近字。字符集中所有汉字的音近相似向量共同组成了音近相似矩阵。
在一些实施例中,可以使用随机梯度下降(stochastic gradient descent,SGD)算法对SkipGram算法进行优化,优化的目标为最大化邻接节点在图中同时出现的概率。
同样地,通过DeepWalk模型以及SkipGram算法对形近字关系图进行处理得到形近相似矩阵,形近相似矩阵中有形近相似向量,形近相似向量表示汉字之间的形近相似度,这里不再赘述。
通过上述过程,便得到了能够在纠错过程中使用的音近相似矩阵、形近相似矩阵,使得对文本纠错时能够考虑到音近字因素、形近字因素,提高对文本纠错的准确度。
下文具体说明利用音近相似矩阵、形近相似矩阵对待纠错文本进行纠错的实现过程。
具体地,可以在基于语义向量的纠错过程中融入音近相似矩阵、形近相似矩阵,以便于利用汉字的音近字因素、形近字因素进行文本纠错。
在一些实施例中,可以利用基于语义的纠错模型获取语义向量。首先,可以通过词嵌入(word embedding)将待纠错文本的各个字符表示进入向量空间中,即完成对待纠错文本中各个字符的数学表示,以便于后续进行数学计算处理。对待纠错文本中的字符进行词嵌入处理,得到词嵌入向量。词嵌入向量组成词嵌入矩阵,词嵌入矩阵的每一行为一个词嵌入向量,每个词嵌入向量具有固定的维度,这些维度表示每一个字符的特征。例如,一个20K个字符的字符集,每个字符使用300维的词嵌入向量表示,则对应的词嵌入矩阵的形状可以为20*1000行、300列,300维表示该字符的特征数量为300个。
字符集可以经过词嵌入处理进而表示为词嵌入矩阵,字符集中的每个字符在词嵌入矩阵中都有一个固定的表示,而不管该字符出现在什么上下文中。例如,在总字符数为21128个字符的中文字符集中,在句子“这种弹弓的弹力很强”中,“弹”这个汉字的含义是不同的,但是在词嵌入矩阵中“弹”只有一个固定的向量表示。因此,为了对句子的含义进行准确的理解,在一些实施例中,需要进一步根据字符在文本中的上下文语义来生成字符在文本中的语义向量,语义向量表示字符在上下文中的语义信息。
在一些实施例中,基于语义的纠错模型可以通过多个处理层获取待纠错文本中各字符对应的语义向量。其中,基于语义的纠错模型(语言模型)具体可以为BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征)模型。BERT模型的基础版本中隐藏状态向量的维度可以为768维,因此在一些实施例中,词嵌入矩阵的形状可以为M×768,M为BERT使用的字符集的大小。例如,中文字符集的M值大小为21128。其中,BERT模型由很多个编码器(transformer-Encoder)通过一层一层的堆叠起来形成,每个编码器(transformer-Encoder)可以理解为将输入文本中各个字符的词嵌入向量表示转化为相同长度的增强语义(包含了整个上下文语义)向量的一个黑盒。
在另一些实施例中,基于语义的纠错模型可以为RoBERTa(Robustly optimizedBERT approach,鲁棒性优化的基于转换器的双向编码表征方式)模型,RoBERTa模型属于BERT模型的强化版本,也是BERT模型更为精细的调优版本,在多个任务中RoBERTa模型的表现相比于BERT模型的表现也更好。对于中文文字或者语句的输入,RoBERTa模型也提供768维的输出向量。
另外,RoBERTa模型支持多种向量输出形式:get_sequence_output()方法可以获取最后一层网络编码层的特征向量Rs;get_pooled_output()方法获取的是RoBERTa模型中的[CLS]对应的向量Rp,Rp一般作为语句的特征向量。此外,RoBERTa模型还提供get_embedding_table()方法获取预训练字典中所有汉字的静态特征向量Re
例如:RoBERTa模型对待纠错文本处理时,首先将待纠错文本切分(tokenization)为n个字符或者词语(例如,可以将待纠错文本进行分词,得到n个字符或者词语),同时在待纠错文本的开头插入符号[CLS],结尾插入符号[SEP],然后RoBERTa模型的词嵌入层输出n×768的词向量的序列,该词向量的序列被输入到RoBERTa模型的提取层(主体部分)后,RoBERTa模型输出同样为n×768的语义向量,该语义向量相比于词向量增加了带有上下文语境的语义信息。
在另一些实施例中,也可以通过其他方式获取词嵌入矩阵,并且使用该词嵌入矩阵进行计算获得待纠错文本中各个字符对应的语义向量。例如,可以使用CBOW或者SkipGram算法训练得到词嵌入矩阵,然后可以通过词嵌入矩阵与待纠错文本中各个字符的One-hot向量相乘,得到待纠错文本中各个字符对应的语义向量,本申请实施例对语义向量的提取模型和提取方式不作限制。
在一些实施例中,也可以直接将待纠错文本中的字符在词嵌入矩阵中对应的词嵌入向量作为该字符的语义向量,本申请实施例对语义向量是否为经过模型提取获得也不作限制。
在仅仅根据语义对文本进行纠错时,获得语义向量之后,可以通过模型的全连接层获取相应的纠错字符,全连接层用于对提取模型输出的语义向量进行处理,模型在全连接层中根据语义向量将其映射为字符集中的字符,得到纠错后的字符。例如,使用RoBERTa模型生成语义向量时,在RoBERTa模型中对包括所有汉字的字符集进行词嵌入表示,通过RoBERTa模型的get_embedding_table()方法获取预训练字典中所有汉字的静态特征向量Re,静态特征向量Re包含了对字符根据语义纠错的信息(即语义向量),静态特征向量Re组成静态特征矩阵Me。同时,通过静态特征向量Re能够获取包括所有汉字的字符集中的相应字符。
在一些实施例中,本申请实施例的文本纠错方法在获取语义向量之后,为了在根据语义对文本纠错的基础上能够综合考虑音近相似因素、形近相似因素,通过在全连接层中获取一个语义向量的音近相似向量、形近相似向量在字符集中对应的字符,进而作为纠错结果字符,提高纠错结果的准确率。下面结合具体的例子进行说明。
例如,“远”“攻”“吃”“够”这个四个汉字的纠错结果中,从音近相似矩阵、形近相似矩阵获取的纠错结果中,“员”“工”“持”“股”与“远”“攻”“吃”“够”这四个汉字的读音较为相近,且从语义上与原来的句子意思相比较也较为相近。因此,如果综合语义纠错结果和音近相似因素,将“远”“攻”“吃”“够”四个汉字的纠错结果选择为“员”“工”“持”“股”,便得到了准确的纠错结果。
在一些实施例中,为了在对文本纠错时能够综合考虑到音近相似因素、形近相似因素,即对音近相似向量、形近相似向量综合考虑到文本纠错过程中,如图6中的音近相似矩阵、形近相似矩阵处理过程所示的,可以通过对音近相似矩阵、形近相似矩阵进行求和,得到音形纠错矩阵,音形纠错矩阵中有依据音近相似信息、形近相似信息对文本纠错的音形纠错向量,通过音形纠错向量即可获取汉字在语义中相对应的汉字字符。
在一些实施例中,在如图6所示的音形纠错矩阵获得过程中,在通过图嵌入模型(例如DeepWalk模型)获得音近相似矩阵、形近相似矩阵时,可以通过将音近相似矩阵、形近相似矩阵的尺寸预先设置为相同值,这样即可以直接对音近相似矩阵、形近相似矩阵进行按位求和,得到音形纠错矩阵。
在一些实施例中,可以对音近相似矩阵、形近相似矩阵进行按位求和,得到音形纠错矩阵。
得到音形纠错矩阵之后,通过将语义向量与音形纠错矩阵中的音形纠错向量进行融合得到综合纠错矩阵,综合纠错矩阵中有综合纠错向量,然后获取综合纠错向量在字符集中对应的字符作为纠错结果字符,提高纠错结果的准确率。
在一些实施例中,例如使用RoBERTa模型纠错时,可以使用静态特征矩阵Me与表示字符的音近和/或形近相似关系的音形纠错矩阵Ma融合形成所有汉字的综合纠错矩阵Mc,具体融合方式为:字符如果在音形纠错矩阵Ma中有对应的音形纠错向量的,使用音形纠错矩阵Ma中的音形纠错向量表示该字符;字符如果在在音形纠错矩阵Ma中没有对应的音形纠错向量,则使用静态特征矩阵Me中的静态特征向量Re表示该字符。
以上使用综合纠错矩阵Mc对待纠错文本进行纠错的含义是:如果待纠错文本中的一个汉字在综合纠错矩阵Mc中有音近相似信息或者形近相似信息的,或者待纠错文本中的一个汉字在综合纠错矩阵Mc中既有音近相似信息也有形近相似信息的,就使用综合纠错矩阵Mc中的音近相似信息、形近相似信息对待纠错文本中的这个汉字进行纠错,得到纠错结果。如果如果待纠错文本中的一个汉字在综合纠错矩阵Mc中既没有音近相似信息也没有形近相似信息的,就使用这个汉字在综合纠错矩阵Mc中的语义信息对这个汉字进行纠错,得到纠错结果。
应理解的是,通过综合纠错矩阵Mc对待纠错文本进行纠错不是必须经过的处理途径,在一些实施例的模型中对文本纠错时,可以直接将音形纠错矩阵与待纠错本文中汉字的语义信息在模型的全连接层中进行综合、进而直接对待纠错文本进行纠错。
在另一些实施例中,静态特征向量Re可以为RoBERT模型最后一层网络编码层的特征向量Rs
下文结合具体的例子对利用本申请实施例的方法对中文文本纠错的过程进行说明。
如图7对“用以实施远攻吃够计划”这句话进行纠错时表示的,“用以实施远攻吃够计划”这句话的文本输入到模型或者系统中,模型或者系统获得待纠错文本后进行纠错。
首先,对“用以实施远攻吃够计划”的各个字符进行词嵌入表示,得到词向量。
通过词嵌入表示能够得到待纠错文本中汉字的词向量。例如,对“用以实施远攻吃够计划”这句话进行词嵌入表示时,首先对“用以实施远攻吃够计划”切分成10个单独的汉字,然后具体在提取模型的词嵌入层将这句话的各个汉字分别表示为一个词向量Vi,例如“用”字表示为V0,“以”字表示为V1,“实”字表示为V2,其余字符的词向量表示依次类推。经过词嵌入表示,使得“用以实施远攻吃够计划”中的每一个汉字都能够通过词向量定位到字符集中的唯一位置。
在一些实施例中,如图7中的矩形框所表示的词向量表示模型,可以通过RoBERTa模型得到对待纠错文本的各个字符进行词嵌入表示得到的词向量Vi
在一些实施例中,如图7所示的,可以通过RoBERTa模型对词向量Vi处理得到各个字符对应的语义向量V′i。例如“用”字表示为V′1,“以”字表示为V′1,“实”字表示为V′2,其余字符的语义向量表示依次类推。
在一些实施例中,可以通过任意的有监督预训练的提取模型获取待纠错文本中各个字符对应的语义向量V′i。有监督学习是指使用带有标记的语料(例如标记正确答案的语料)对模型进行训练,提高模型训练完成之后的工作任务的准确度。例如在实际的文本纠错过程中,可以通过对RoBERTa模型进行预训练,然后通过预训练完成的RoBERTa模型得到能够根据语义信息对文本准确纠错的语义向量V′i
例如,可以通过RoBERTa模型对的各个处理层对词向量Vi进行计算处理,相应的词向量Vi被赋予带有上下文信息的语义向量V′i。通过RoBERTa模型中的语义向量V′i能够对待纠错文本根据上下文语义进行进行纠错,并得到根据语义进行纠错的结果。
最后,对各个字符根据综合纠错向量进行纠错,得到纠错结果。
在一些实施例中,为了在纠错时融入音近字、形近字的纠错因素,对于通过RoBERTa模型得到的每一个语义向量,可以计算其与音形纠错矩阵中各字符的音形纠错向量之间的相似度,将相似度最大的音形纠错向量对应的字符作为纠错结果字符。其中,音形纠错向量在音形纠错矩阵中。
在一些实施例中,可以通过计算语义向量和音形纠错向量之间的点乘、余弦相似度或欧氏距离等确定两者之前的相似度,本申请实施例对此不作限制。
在另一些实施例中,可以在RoBERTa模型的处理层或者整个RoBERTa模型之后构建全连接层,全连接层能够根据字符对应的语义向量V′i获取相应的字符在综合纠错向量中对应的字符,并最终将获取到的综合纠错向量中的字符作为纠错结果。
在另一些实施例中,可以在RoBERTa模型的处理层或者整个RoBERTa模型之后构建全连接层,全连接层能够获取综合纠错向量对应的字符,并将获取到的字符(例如汉字)作为纠错结果。
具体地,可以在该全连接层中利用公式(2)获取经过修正的字符,公式(2)为:
Figure BDA0003664281970000151
其中,Rs为语义向量,Mc为所有汉字的综合纠错矩阵,汉字有音近字和/或形近字的,在Mc中使用综合纠错向量表示,汉字没有音近字或形近字的,在Mc中使用语义向量表示,b为偏置项,Softmax为损失函数,将输出结果中logits数值最大的汉字作为修正的字符。
在一些实施例中,模型进行训练时,首先对偏置项b进行初始化,例如对偏置项b进行随机初始化,并在训练过程中不断对偏置项b进行优化,提高模型的训练效果。
在一些实施例中,在对模型进行训练时,可以根据有标注的训练语料进行迭代训练,在模型的最后一层(例如全连接层)将纠错修改为分类任务,将训练集中每个训练文本的每个位置的汉字在21128个词表中的位置设置为1,其余位置设置为0,生成多个独热编码(也称为一位有效编码)形式的真实标签Label。
例如,对包括21128个中文汉字的字符集,生成共21128维的向量,每一个汉字在该向量中有唯一对应的位置,如果当前位置的纠错结果为“员”,则“员”对应位置为1,其余位置为0。
在一些实施例中,对模型进行训练时,损失函数可以通过公式(3)表示,公式(3)具体如下:
Figure BDA0003664281970000161
其中R表示训练集中句子包含文字的个数(句子长度),T表示训练集中数据的条数;Logitstr表示模型在训练时在训练集T中第t个数据的第r个字符的输出结果,具体为一个概率数值;Labletr表示训练集T中第t个数据的第r个字符的标记值,具体为一个概率数值;loss即表示所有训练数据字级别误差的平均值。
这里,损失函数的定义及优化目标和分类类似,模型进行训练的优化目标为让训练集中总体损失loss缩小,对模型进行迭代训练多轮直至训练至模型收敛,模型收敛的条件为损失函数计算出的损失值在多个迭代内不再减小,则认定模型收敛训练完成,此时保存训练完成的模型。
模型训练完成后执行纠错任务时,向模型输入一条待纠错的语句,例如一条上市公告的语句,将纠错概率最高的汉字作为当前汉字的候选纠错结果,模型对输入的待纠错文本的每一个汉字都执行一遍纠错,最终返回待纠错文本的纠错结果。
例如,当待纠错文本中的第一汉字属于音近字集合时,使用第一汉字在音形纠错矩阵中的音近相似信息对待纠错文本中的第一汉字进行纠错,得到纠错结果,其中,第一汉字为待纠错文本中的任一汉字。
又例如,当待纠错文本中的第一汉字属于形近字集合时,使用第一汉字在音形纠错矩阵中的形近相似信息对待纠错文本中的第一汉字进行纠错,得到纠错结果,其中,第一汉字为待纠错文本中的任一汉字。
再例如,当所述待纠错文本中的第一汉字既属于所述音近字集合也属于所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中纠错概率最高的音近相似信息或形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果。其中,第一汉字为待纠错文本中的任一汉字。这里,纠错概率最高的汉字可以是音近字,也可以是形近字。待纠错文本中的一个汉字同时具有音近字、形近字时,从这个汉字的音近字、形近字中选择纠错概率最高的汉字作为纠错结果,进而保证纠错结果的准确。
在一些实施例中,可以利用公式(4)对音近相似矩阵、形近相似矩阵进行注意力机制处理,公式(4)为:
Figure BDA0003664281970000171
其中,其中w为权重向量,η为缩放变量,η可以进行设定。Softmax为损失函数,Mp为注意力机制处理前的音近相似矩阵,M′p为注意力机制处理后的音近相似矩阵。
在另一些实施例中,可以利用公式(5)对音近相似矩阵、形近相似矩阵进行注意力机制处理,公式(5)为:
Figure BDA0003664281970000172
其中,其中w为权重向量,η为缩放变量,η可以进行设定。Softmax为损失函数,Ms为注意力机制处理前的形近相似矩阵,M′s为注意力机制处理后的形近相似矩阵。
在一些实施例中,对模型进行训练开始时,首先对权重向量w进行初始化,例如对权重向量w进行随机初始化,并在模型训练过程中对权重向量w不断调整,训练模型直至模型收敛,得到模型训练完成的最佳权重向量w。
通过以上的注意力机制处理过程,在训练模型时对每一个字符集中在音近相似角度的注意力或者形近相似角度的注意力,在模型训练过程中不断优化,进一步提高模型的纠错效果。然后,通过对音近相似矩阵、形近相似矩阵进行按位求和,即得到了字符集中每一个字符在音近相似角度的注意力、形近相似角度的注意力之和,在后续纠错时能够同时考虑音近相似因素、形近相似因素。
本申请实施例通过在纠错过程中通过综合考虑音近相似因素、形近相似因素,并融合注意力机制对音近相似因素、形近相似因素进行处理,并在语义纠错过程中融合音近相似因素、形近相似因素,提高了纠错结果的准确率。
上述结合图1至图7描述了本申请实施例提供的文本纠错方法的实施例,下面描述本申请实施例提供的设备。
本申请实施例提供的设备,用于执行上述方法实施例提供任一种文本纠错方法,因此可以达到与上述实现方法相同的效果。图8示出了本申请实施例提供的设备示意图。如图8的设备800所示的,该设备800包括:处理器810、存储器820和收发器830。该设备800中的各个组件通过通信连接,即处理器810、存储器820和收发器830之间通过内部连接通路互相通信,传递控制和/或数据信号。存储器820中存储有程序代码8201,程序代码8201能够传输给处理器810进行执行。
本申请上述方法实施例可以应用于处理器中,或者由处理器实现上述方法实施例的步骤。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
上述的处理器可以是CPU,网络处理器NP或者CPU和NP的组合、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述文本纠错方法的步骤。
本申请实施例还提供了一种装置,该装置具有实现上述实施例中任一文本纠错方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如,处理器810可以由处理模块实现,存储器820可以由存储模块实现,收发器830可以由收发模块实现,图9示出了本申请实施例提供的装置示意图,如图9的所示的,该装置900可以包括处理模块910、存储模块920和收发模块930。各模块的功能与上述设备中的功能一致,在此不再赘述。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
本申请实施例还提供了一种计算机可读介质,用于存储计算机程序代码,该计算机程序包括用于执行上述方法中本申请实施例的文本纠错方法的指令。该可读介质可以是只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM),本申请实施例对此不做限制。
本申请还提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令被执行时,该系统分别执行对应于上述文本纠错方法中的操作。
本申请实施例还提供了一种芯片,包括处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行上述任一项所述的文本纠错方法。
其中,本实施例提供的计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的文本纠错方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于字音字形相似的文本纠错方法,其特征在于,包括:
获取待纠错文本;
获取所述待纠错文本中每个汉字的语义信息;
根据所述待纠错文本中汉字的音近相似信息、形近相似信息和所述语义信息对所述待纠错文本纠错得到纠错结果。
2.如权利要求1所述的基于字音字形相似的文本纠错方法,其特征在于,所述方法还包括:
获取音近字集合和形近字集合,所述音近字集合包括多个汉字,所述形近字集合包括多个汉字;
使用图嵌入模型从所述音近字集合提取汉字的音近相似矩阵、从所述形近字集合提取汉字的形近相似矩阵;
从所述音近相似矩阵获取所述待纠错文本中汉字的音近相似信息、从所述形近相似矩阵获取所述待纠错文本中汉字的形近相似信息;
其中,所述音近相似矩阵包括音近相似向量,所述音近相似向量表示所述音近字集合中汉字的音近相似信息;所述形近相似矩阵包括形近相似向量,所述形近相似向量表示所述形近字集合中汉字的形近相似信息。
3.如权利要求2所述的基于字音字形相似的文本纠错方法,其特征在于,所述从所述音近相似矩阵获取所述待纠错文本中汉字的音近相似信息,从所述形近相似矩阵获取所述待纠错文本中汉字的形近相似信息,包括:
利用注意力机制从所述音近相似矩阵获取所述待纠错文本中汉字的音近相似信息,利用注意力机制从所述音近相似矩阵获取所述待纠错文本中汉字的音近相似信息。
4.如权利要求3所述的基于字音字形相似的文本纠错方法,其特征在于,所述利用注意力机制从所述音近相似矩阵获取所述待纠错文本中汉字的音近相似信息,包括:
利用如下公式对所述音近相似矩阵进行注意力机制处理,得到注意力机制处理后的音近相似矩阵:
Figure FDA0003664281960000011
从所述注意力机制处理后的音近相似矩阵得到所述待纠错文本中汉字的音近相似信息;
其中,w为权重向量,η为缩放变量,η可以进行设定;Softmax为损失函数,Mp为注意力机制处理前的音近相似矩阵,M′p为注意力机制处理后的音近相似矩阵。
5.如权利要求3所述的基于字音字形相似的文本纠错方法,其特征在于,所述利用注意力机制从所述形近相似矩阵获取所述待纠错文本中汉字的形近相似信息,包括:
使用如下公式对所述形近相似矩阵进行注意力机制处理,得到注意力机制处理后的形近相似矩阵:
Figure FDA0003664281960000021
从所述注意力机制处理后的形近相似矩阵得到所述待纠错文本中汉字的形近相似信息;
其中,w为权重向量,η为缩放变量,η可以进行设定;Softmax为损失函数,Ms为注意力机制处理前的形近相似矩阵,M′s为注意力机制处理后的形近相似矩阵。
6.如权利要求2至5任一项所述的基于字音字形相似的文本纠错方法,其特征在于,所述根据所述待纠错文本中汉字的音近相似信息、形近相似信息和所述语义信息对所述待纠错文本纠错得到纠错结果,包括:
对所述音近相似矩阵和所述形近相似矩阵求和,得到音形纠错矩阵;
根据所述待纠错文本中的第一汉字对应的语义信息判断所述第一汉字是否属于所述音近字集合和/或形近字集合;
当所述待纠错文本中的第一汉字属于所述音近字集合和/或所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中的音近相似信息和/或形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果;
当所述待纠错文本中的第一汉字不属于所述音近字集合和形近字集合时,使用所述待纠错文本中的第一汉字的语义信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果;
其中,所述第一汉字为所述待纠错文本中的任意一个汉字。
7.如权利要求6所述的基于字音字形相似的文本纠错方法,其特征在于,所述当所述待纠错文本中的第一汉字属于所述音近字集合和/或所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中的音近相似信息和/或形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果,包括:
当所述待纠错文本中的第一汉字属于所述音近字集合时,使用所述第一汉字在所述音形纠错矩阵中的音近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果;
当所述待纠错文本中的第一汉字属于所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中的形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果;
当所述待纠错文本中的第一汉字属于所述音近字集合和所述形近字集合时,使用所述第一汉字在所述音形纠错矩阵中纠错概率最高的音近相似信息或形近相似信息对所述待纠错文本中的第一汉字进行纠错,得到纠错结果。
8.一种装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本纠错方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法。
10.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7中任一项所述的文本纠错方法。
CN202210581975.2A 2022-05-26 2022-05-26 基于字音字形相似的文本纠错方法和装置 Pending CN115017890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210581975.2A CN115017890A (zh) 2022-05-26 2022-05-26 基于字音字形相似的文本纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210581975.2A CN115017890A (zh) 2022-05-26 2022-05-26 基于字音字形相似的文本纠错方法和装置

Publications (1)

Publication Number Publication Date
CN115017890A true CN115017890A (zh) 2022-09-06

Family

ID=83071113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210581975.2A Pending CN115017890A (zh) 2022-05-26 2022-05-26 基于字音字形相似的文本纠错方法和装置

Country Status (1)

Country Link
CN (1) CN115017890A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备
CN115659959A (zh) * 2022-12-27 2023-01-31 苏州浪潮智能科技有限公司 图像的文本纠错方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、系统、存储介质及设备
CN115659959A (zh) * 2022-12-27 2023-01-31 苏州浪潮智能科技有限公司 图像的文本纠错方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
WO2021164310A1 (zh) 文本纠错方法、装置、终端设备及计算机存储介质
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111753545A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
CN115017890A (zh) 基于字音字形相似的文本纠错方法和装置
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN111738006A (zh) 基于商品评论命名实体识别的问题生成方法
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN111611791A (zh) 一种文本处理的方法及相关装置
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN114386399A (zh) 一种文本纠错方法及装置
CN111462734B (zh) 语义槽填充模型训练方法及系统
CN107783958B (zh) 一种目标语句识别方法及装置
CN113239694A (zh) 一种基于论元短语的论元角色识别的方法
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination