CN112560450A - 一种文本纠错方法及装置 - Google Patents
一种文本纠错方法及装置 Download PDFInfo
- Publication number
- CN112560450A CN112560450A CN202011442529.0A CN202011442529A CN112560450A CN 112560450 A CN112560450 A CN 112560450A CN 202011442529 A CN202011442529 A CN 202011442529A CN 112560450 A CN112560450 A CN 112560450A
- Authority
- CN
- China
- Prior art keywords
- corrected
- node
- text
- confusion
- confusable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 152
- 238000012937 correction Methods 0.000 title claims abstract description 98
- 230000008569 process Effects 0.000 claims description 71
- 238000000605 extraction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 description 33
- 230000002950 deficient Effects 0.000 description 26
- 230000009471 action Effects 0.000 description 22
- 238000010276 construction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000007547 defect Effects 0.000 description 7
- 235000012907 honey Nutrition 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 235000008694 Humulus lupulus Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- AGJBKFAPBKOEGA-UHFFFAOYSA-M 2-methoxyethylmercury(1+);acetate Chemical compound COCC[Hg]OC(C)=O AGJBKFAPBKOEGA-UHFFFAOYSA-M 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种文本纠错方法及装置,该方法包括:在获取到目标领域下的待纠错文本后,先从待纠错文本中确定待纠错对象,并根据该待纠错对象、通用混淆集和专用混淆集,确定该待纠错对象的候选混淆对象;再根据该待纠错文本、该待纠错对象和该待纠错对象的候选混淆对象,生成该待纠错文本对应的纠错后文本。其中,因通用混淆集用于记录通用易混淆对象对之间的对应关系,且专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系,使得基于通用混淆集和专用混淆集确定的候选混淆对象不仅包括通用易混淆对象,还包括在目标领域下特有的专用易混淆对象,如此使得该候选混淆对象更全面,从而使得基于该候选混淆对象生成的纠错后文本更准确。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本纠错方法及装置。
背景技术
文本纠错技术属于自然语言处理(Natural Language Processing,NLP)研究下的一个重要课题。其中,文本纠错技术用于对文本数据中的错误字词进行纠正,以提高该文本数据的准确性,从而使得后续基于该文本数据进行的文本处理过程(例如,语义分析、意图理解、信息提取等)更准确。
然而,因现有的文本纠错技术的纠错准确性较低,导致如何提高文本纠错准确性是一个亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种文本纠错方法及装置,能够提高文本纠错准确性。
本申请实施例提供了一种文本纠错方法,所述方法包括:
获取目标领域下的待纠错文本;
从所述待纠错文本中确定待纠错对象;
根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象;其中,所述通用混淆集用于记录通用易混淆对象对之间的对应关系;所述专用混淆集用于记录所述目标领域下专用易混淆对象对之间的对应关系;
根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本。
本申请实施例还提供了一种文本纠错装置,所述装置包括:
获取单元,用于获取目标领域下的待纠错文本;
提取单元,用于从所述待纠错文本中确定待纠错对象;
确定单元,用于根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象;其中,所述通用混淆集用于记录通用易混淆对象对之间的对应关系;所述专用混淆集用于记录所述目标领域下专用易混淆对象对之间的对应关系;
纠错单元,用于根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本。
本申请实施例还提供了一种文本纠错设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的文本纠错方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的文本纠错方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的文本纠错方法中,在获取到目标领域下的待纠错文本之后,先从待纠错文本中确定待纠错对象,并根据该待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定该待纠错对象的候选混淆对象;再根据该待纠错文本、该待纠错对象和该待纠错对象的候选混淆对象,生成该待纠错文本对应的纠错后文本。
其中,由于通用混淆集用于记录通用易混淆对象对之间的对应关系,而且专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系,使得基于通用混淆集和专用混淆集确定的候选混淆对象不仅包括通用易混淆对象,还包括在目标领域下特有的专用易混淆对象,如此使得该候选混淆对象更全面,从而使得基于该候选混淆对象生成的纠错后文本更准确,如此能够有效地提高文本纠错准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用于终端设备的文本纠错方法的应用场景示意图;
图2为本申请实施例提供的应用于服务器的文本纠错方法的应用场景示意图;
图3为本申请实施例提供的一种文本纠错方法的流程图;
图4为本申请实施例提供的人机对话示意图;
图5为本申请实施例提供的一种目标领域的知识图谱示意图;
图6为本申请实施例提供的一种候选混淆对象的确定示意图;
图7为本申请实施例提供的一种度量模型的结构示意图;
图8为本申请实施例提供的一种瑕疵样本的生成示意图;
图9为本申请实施例提供的一种文本对比结果的确定示意图;
图10为本申请实施例提供的一种确定第h个文本比对结果的示意图;
图11为本申请实施例提供的一种实体提取过程示意图;
图12为本申请实施例提供的一种第k个节点的候选路径示意图;
图13为本申请实施例提供的一种文本纠错装置的结构示意图。
具体实施方式
为了解决背景技术部分的技术问题,本申请实施例提供了一种文本纠错方法,该方法包括:获取目标领域下的待纠错文本;从该待纠错文本中确定待纠错对象;根据该待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定该待纠错对象的候选混淆对象;根据该待纠错文本、该待纠错对象和该待纠错对象的候选混淆对象,生成该待纠错文本对应的纠错后文本。其中,通用混淆集用于记录通用易混淆对象对之间的对应关系;专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系。
可见,由于通用混淆集用于记录通用易混淆对象对之间的对应关系,而且专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系,使得基于通用混淆集和专用混淆集确定的候选混淆对象不仅包括通用易混淆对象,还包括在目标领域下特有的专用易混淆对象,如此使得该候选混淆对象更全面,从而使得基于该候选混淆对象生成的纠错后文本更准确,如此能够有效地提高文本纠错准确性。
另外,本申请实施例不限定文本纠错方法的执行主体,例如,本申请实施例提供的文本纠错方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了便于理解本申请实施例提供的技术方案,下面分别结合图1和图2对本申请实施例提供的文本纠错方法的应用场景进行示例性介绍。其中,图1为本申请实施例提供的应用于终端设备的文本纠错方法的应用场景示意图;图2为本申请实施例提供的应用于服务器的文本纠错方法的应用场景示意图。
在图1所示的应用场景中,当用户101在终端设备102上触发文本纠错请求时,终端设备102接收该文本纠错请求,并通过执行本申请实施例提供的文本纠错方法的任一实施方式对待纠错文本进行文本纠错,得到该待纠错文本对应的纠错后文本,以便后续能够继续使用该纠错后文本(如,将该纠错后文本显示给用户101或者基于该纠错后文本执行语义分析、意图理解、信息提取等后续文本处理过程)。
在图2所示的应用场景中,当用户201在终端设备202上触发文本纠错请求时,终端设备202接收该文本纠错请求,并将该文本纠错请求转发给服务器203,以使服务器203通过执行本申请实施例提供的文本纠错方法的任一实施方式对待纠错文本进行文本纠错,得到该待纠错文本对应的纠错后文本,以便后续能够继续使用该纠错后文本(如,服务器203将该纠错后文本发送给终端设备202进行显示,和/或,基于该纠错后文本执行语义分析、意图理解、信息提取等后续文本处理过程)。
需要说明的是,上述文本纠错请求用于请求对待纠错文本进行纠错,而且本申请实施例不限定文本纠错请求的触发方式。
另外,因服务器203中的文本纠错过程与终端设备102中的文本纠错过程类似,故为了便于理解上述两个应用场景下的文本纠错过程,下面结合示例进行说明。
以图2所示的文本纠错过程为示例,服务器203中的文本纠错过程具体可以为:在服务器203获取到目标领域下的待纠错文本之后,服务器203先从待纠错文本中确定待纠错对象,并根据该待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定该待纠错对象的候选混淆对象;服务器203再根据待纠错文本、待纠错对象和该待纠错对象的候选混淆对象,生成待纠错文本对应的纠错后文本,以便后续服务器203能够继续使用该纠错后文本进行其他操作(如,发送给终端设备202进行显示、语义分析、意图理解、或信息提取等操作)。
需要说明的是,本申请实施例提供的文本纠错方法不仅能够应用于图1或图2所示的应用场景中,还可以应用于其他需要进行文本纠错的应用场景中,本申请实施例对此不做具体限定。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图3,该图为本申请实施例提供的一种文本纠错方法的流程图。
本申请实施例提供的文本纠错方法,包括S1-S4:
S1:获取目标领域下的待纠错文本。
其中,目标领域是指待纠错文本所属的应用领域,而且本申请实施例不限定目标领域,该目标领域可以是任一种需要进行文本纠错的应用领域(如,运营商领域、导航领域、购物领域、客服领域等应用领域)。
待纠错文本是指存在字和/或词错误的文本。例如,待纠错文本可以是“蜜码忘记了”。
另外,本申请实施例不限定待纠错文本的获取方式,可以采用现有的或未来出现的任一种能够获取到待纠错文本的方法进行实施。例如,待纠错文本可以是指由用户通过文本输入方式(如文本框)输入的文本内容。又如,待纠错文本可以是指对用户语音进行语音识别得到的文本内容。
S2:从待纠错文本中确定待纠错对象。
其中,待纠错对象是指待纠错文本中发生错误的字词。例如,若待纠错文本为“蜜码忘记了”,则待纠错对象可以为词汇“蜜码”。需要说明的是,待纠错对象可以是字,也可以是词,本申请实施例对此不做具体限定。另外,本申请实施例也不限定待纠错对象的个数。
另外,本申请实施例不限定待纠错对象的确定过程,可以采用现有的或未来出现的任一种能够从待纠错文本中提取出待纠错对象的方法进行实施。为了便于理解,下面结合三种可能的实施方式进行说明。
在一些情况下,因基于待纠错文本及其上文文本进行实施的文本重写过程具有自动纠错功能,故可以借助文本重写过程确定待纠错对象。基于此,本申请实施例提供了S2的第一种可能的实施方式,其具体可以包括S2A1-S2A2:
S2A1:根据待纠错文本和该待纠错文本的上文文本,得到该待纠错文本对应的重写文本。
其中,待纠错文本的上文文本携带有该待纠错文本的上文信息。另外,本申请实施例不限定待纠错文本的上文文本,例如,在一种可能的实施方式中,当待处理人机对话包括W个对话语句(如图4所示的人机对话),且该W个对话语句按照语句生成时间进行排序时,若待纠错文本为第w个对话语句(如图4所示的“蜜码忘记了”),则该待纠错文本的上文文本可以包括第1个对话语句至第w-1个对话语句中的至少一个对话语句(如图4所示的“您好!我想查询我的账户密码”和“您好!您遇到什么麻烦了吗”)。其中,w为正整数,w≤W,W为正整数。
重写文本是指依据待纠错文本的上文文本对待纠错文本进行重写得到的文本内容。例如,当待纠错文本为“蜜码忘记了”,且纠错文本的上文文本包括“您好!我想查询我的账户密码”时,该待纠错文本对应的重写文本可以为“我的账户密码忘记了”。
本申请实施例不限定文本重写过程的实施方式,可以采用现有的或未来出现的任一种能够实现文本重写的方法进行实施。例如,在一种可能的实施方式中,S2A1具体可以为:将待纠错文本和待纠错文本的上文文本输入预先构建的文本重写模型,得到该文本重写模型输出的该待纠错文本对应的重写文本。
其中,文本重写模型用于根据待纠错文本及其上文文本,对该待纠错文本进行重写。需要说明的是,本申请实施例不限定重写模型的模型结构及构建方式,可以采用现有的或未来出现的任一种文本重写模型的模型结构及构建方法进行实施。
基于上述S2A1的相关内容可知,在获取到待纠错文本之后,可以依据该待纠错文本的上文文本对该待纠错文本进行重写,得到该待纠错文本对应的重写文本,以便后续能够基于该重写文本与待纠错文本之间的差异性,确定该待纠错文本中的待纠错对象。
S2A2:在确定待纠错文本对应的重写文本不包括待纠错文本时,根据该重写文本和待纠错文本,确定待纠错对象。
实际上,若待纠错文本对应的重写文本(如“我的账户密码忘记了”)不包括该待纠错文本(如“蜜码忘记了”),则表示在待纠错文本的重写过程中对该待纠错文本中的错误字词进行了自动纠正(如,将“蜜码”纠正为“密码”),使得该待纠错文本对应的重写文本不再包括错误字词,故可以依据该重写文本与该待纠错文本之间的差异性,确定待纠错对象。
另外,本申请实施例不限定S2A2的具体实施方式,例如,在一种可能的实施方式中,S2A2具体可以为:先将待纠错文本对应的重写文本和该待纠错文本进行比对,得到语句比对结果;再根据该语句比对结果和预设差错条件,确定待纠错对象。
其中,语句对比文结果用于描述待纠错文本对应的重写文本与该待纠错文本之间的相同之处和不同之处。
预设差错条件用于描述待纠错对象满足的约束条件;而且该预设差错条件可以预先根据应用场景设定。
基于上述S2的第一种可能的实施方式的相关内容可知,在获取到待纠错文本之后,可以先依据该待纠错文本的上文文本对该待纠错文本进行重写,得到该待纠错文本对应的重写文本,以便在确定该重写文本不包括该待纠错文本时,基于该重写文本与待纠错文本之间的差异性,确定该待纠错文本中的待纠错对象。
在一些情况下,因文本重写过程的自身局限性,导致该文本重写过程可能无法对待纠错文本中的错误字词进行自动纠错(例如,重写文本为“我的账户蜜码忘记了”),此时为了能够提高错误字词的识别准确性,本申请实施例还提供了S2的第二种可能的实施方式,其具体可以包括S2B1-S2B6:
S2B1:根据待纠错文本和待纠错文本的上文文本,得到待纠错文本对应的重写文本。
需要说明的是,S2B1的相关内容可以参见上文S2A1。
S2B2:判断待纠错文本对应的重写文本是否包括该待纠错文本,若是,则执行S2B3-S2B5;若否,则执行S2B6。
本申请实施例中,在获取到待纠错文本对应的重写文本之后,可以先判断该重写文本是否包括该待纠错文本,若包括该待纠错文本,则表示在该待纠错文本的重写过程中未对该待纠错文本中的错误字词进行自动纠正,导致后续无法根据该重写文本和该待纠错文本进行待纠错对象的确定,故可以采用S2B3-S2B5实现待纠错对象的确定过程;若不包括该待纠错文本,则表示在该待纠错文本的重写过程中已对该待纠错文本中的错误字词进行自动纠正,使得后续能够依据该重写文本与该待纠错文本之间的差异性确定待纠错对象。
S2B3:从待纠错文本中提取至少一个待处理对象。
其中,待处理对象是指待纠错文本中的字和/或词。需要说明的是,待处理对象可以是字,也可以是词汇,本申请实施例对此不做具体限定。另外,本申请实施例也不限定待处理对象的个数,例如,待处理对象的个数可以为M。其中,M为正整数。
另外,本申请实施例不限定待处理对象的提取过程,可以采用现有的或未来出现的任一种能够从待纠错文本中提取出待处理对象的方法进行实施。例如,在一种可能的实施方式下,S2B3具体可以为:先将待纠错文本进行分词得到待纠错文本中的各个分词;再从该各个分词中删除预设词汇,得到待处理对象。其中,预设词汇是指预先根据应用场景设定的无用词汇;而且本申请不限定预设词汇,例如,预设词汇可以包括停用词。
S2B4:根据待纠错文本,确定至少一个待处理对象的出现合理度。
其中,待处理对象的出现合理度表征该待处理对象在待纠错文本中出现的合理程度。
本申请实施例不限定该出现合理度的获取过程。另外,因各个待处理对象的出现合理度的获取过程类似,故为了便于理解,下面以第m个待处理对象的出现合理度进行说明。其中,m为正整数,m≤M,M为待处理对象的个数。
在一种可能的实施方式下,第m个待处理对象的出现合理度的获取过程可以包括步骤11-步骤14:
步骤11:获取第一语料。
第一语料可以预先根据应用场景设定;而且本申请实施例不限定第一语料。例如,第一语料可以包括通用文本样本和专用文本样本。其中,通用文本样本是指普遍使用的文本内容(也就是没有应用领域限制的文本内容)。专用文本样本是指在目标领域中使用的文本内容。需要说明的是,本申请实施例不限定第一语料的获取方式。
步骤12:根据第一语料,确定第m个待处理对象的出现概率。
其中,第m个待处理对象的出现概率表征该第m个待处理对象在第一语料中的出现频率。
需要说明的是,本申请实施例不限定第m个待处理对象的出现概率的获取方式,例如,可以利用汉语语言模型(也就是,N-gram模型)进行获取,其具体为:若将N-gram模型中的参数N设定为1,则该N-gram模型(也就是,一元模型)可以用于计算第m个待处理对象的出现概率。
基于上述步骤12的相关内容可知,在获取到第一语料之后,可以将第m个待处理对象在第一语料中的出现概率,确定为第m个待处理对象的出现概率,以便后续能够基于该第m个待处理对象的出现概率,确定第m个待处理对象的出现合理度。
步骤13:根据所述第一语料和所述待纠错文本,确定第m个待处理对象的预设条件概率。
其中,第m个待处理对象的预设条件概率表征该第m个待处理对象按照预设出现条件在第一语料中的出现频率;而且该预设出现条件可以根据待纠错文本进行设定(例如,预设出现条件可以为第m个待处理对象与待纠错文本中的至少一个字词同时出现在一个文本样本中)。
另外,本申请实施例不限定第m个待处理对象的预设条件概率,例如,第m个待处理对象的预设条件概率可以包括第m个待处理对象在第m-1个待处理对象出现的前提下出现的频率、第m个待处理对象在第m-1个待处理对象至第m-2个待处理对象出现的前提下出现的频率、……(依次类推)、第m个待处理对象在第m-1个待处理对象至第m-h个待处理对象出现的前提下出现的频率。其中,h为正整数,且m-h≥1。需要说明的是,本申请实施例不限定h,而且h可以预先设定。例如,h可以为3。
此外,本申请实施例也不限定第m个待处理对象的预设条件概率的获取方式,例如,可以利用汉语语言模型(可以是,N-gram模型)进行获取,其具体为:若N-gram模型中的参数N设定为2,则该N-gram模型(也就是,二元模型)可以用于计算第m个待处理对象在第m-1个待处理对象出现的前提下出现的频率;若N-gram模型中的参数N设定为3,则该N-gram模型(也就是三元模型)可以用于计算第m个待处理对象在第m-1个待处理对象至第m-2个待处理对象出现的前提下出现的频率;……(依次类推);若N-gram模型中的参数N设定为h+1,则该N-gram模型可以用于计算第m个待处理对象在第m-1个待处理对象至第m-h个待处理对象出现的前提下出现的频率。
基于上述步骤13的相关内容可知,在获取到第一语料和待纠错文本之后,可以利用N-gram模型计算第m个待处理对象的预设条件概率,以便后续能够基于该预设条件概率,确定该第m个待处理对象的出现合理度。
步骤14:根据第m个待处理对象的出现概率和第m个待处理对象的预设条件概率,确定第m个待处理对象的出现合理度。
本申请实施例中,在获取到第m个待处理对象的出现概率及其预设条件概率之后,可以将第m个待处理对象的出现概率及其预设条件概率的平均值(如公式(1)所示),确定为该第m个待处理对象的出现合理度。
式中,pWm为第m个待处理对象Wm的出现合理度;p(Wm)为第m个待处理对象Wm的出现概率;p(Wm|Wm-1)为第m个待处理对象Wm在第m-1个待处理对象Wm-1出现的前提下出现的频率;p(Wm|Wm-1,…,Wm-h)为第m个待处理对象Wm在第m-1个待处理对象Wm-1至第m-h个待处理对象Wm-h出现的前提下出现的频率;p(Wm|Wm-1,…,W1)为第m个待处理对象Wm在第m-1个待处理对象Wm-1至第1个待处理对象W1出现的前提下出现的频率;h为正整数;m为正整数,且m≤M;M为正整数,M为待处理对象的个数。
基于上述步骤11至步骤14的相关内容可知,在获取到第一语料和待纠错文本之后,可以根据第m个待处理对象的出现概率及其预设条件概率,确定该第m个待处理对象的出现合理度,以使该出现合理度能够准确地表征该第m个待处理对象在待纠错文本中出现的合理程度,以便后续能够基于该出现合理度衡量出该第m个待处理对象是否为错误字词。其中,m为正整数,且m≤M;M为正整数,M为待处理对象的个数。
当然在其它实施例中,在获取到第m个待处理对象的出现概率及其预设条件概率之后,也可以将第m个待处理对象的出现概率及其预设条件概率的加权平均值,确定为该第m个待处理对象的出现合理度。权重可以预先设置,第m个待处理对象的出现概率的权重可以大于预设条件概率的权重。
S2B5:根据至少一个待处理对象的出现合理度,从该至少一个待处理对象中确定待纠错对象。
本申请实施例不限定S2B5的实施方式,例如,在一种可能的实施方式下,S2B5具体可以为:将出现合理度低于第一阈值的待处理对象确定为待纠错对象。其中,第一阈值可以预先根据应用场景设定。
可见,在从待纠错文本中提取出M个待处理对象之后,可以根据该M个待处理对象的出现合理度,从该M个待处理对象中确定出待纠错对象;而且该确定过程具体可以为:判断第m个待处理对象的出现合理度是否低于第一阈值,若是,则将该第m个待处理对象确定为待纠错对象;若否,则舍弃该第m个待处理对象。其中,m为正整数,m≤M。
S2B6:根据重写文本和待纠错文本,确定待纠错对象。
需要说明的是,S2B6的相关内容可以参见上文S2A2。
基于上述S2的第二种可能的实施方式的相关内容可知,在获取到待纠错文本之后,可以先依据该待纠错文本的上文文本对该待纠错文本进行重写,得到该待纠错文本对应的重写文本,以便在确定该重写文本包括该待纠错文本时,可以根据该待纠错文本中各个待处理对象的出现合理度,确定出该待纠错文本中的错误字词,并将该错误字词确定为待纠错对象。
在一些情况下,因文本重写过程可能只对待纠错文本中的部分错误字词进行自动纠错,使得该待纠错文本的重写文本仍然存在错误字词,此时为了能够提高错误字词的识别准确性,本申请实施例还提供了S2的第三种可能的实施方式,其具体可以包括S2C1-S2C8:
S2C1:根据待纠错文本和待纠错文本的上文文本,得到待纠错文本对应的重写文本。
S2C2:判断待纠错文本对应的重写文本是否包括该待纠错文本,若是,则执行S2C3-S2C5;若否,则执行S2C6-S2C8。
S2C3:从待纠错文本中提取至少一个待处理对象。
S2C4:根据待纠错文本,确定至少一个待处理对象的出现合理度。
S2C5:根据至少一个待处理对象的出现合理度,从该至少一个待处理对象中确定待纠错对象。
需要说明的是,S2C1至S2C5分别可以采用上文S2B1至S2B5的实施方式进行实施。
S2C6:根据重写文本和待纠错文本,确定第一对象集。
其中,第一对象集用于记录依据重写文本和待纠错文本之间的相同之处以及不同之处确定的待纠错对象。另外,第一对象集包括至少一个待纠错对象。
需要说明的是,S2C6可以采用上文S2A2的实施方式进行实施。
S2C7:从待纠错文本中提取至少一个待处理对象;根据待纠错文本,确定至少一个待处理对象的出现合理度;根据至少一个待处理对象和该至少一个待处理对象的出现合理度,确定第二对象集。
其中,第二对象集用于记录依据待纠错文本中各个待处理对象的出现合理度确定的待纠错对象。另外,第二对象集包括至少一个待纠错对象。
需要说明的是,S2C7中的相关步骤分别可以采用上文S2B3和S2B5的实施方式进行实施。
S2C8:根据第一对象集和第二对象集,确定待纠错对象。
本申请实施例中,在获取到第一对象集和第二对象集之后,可以将第一对象集中的待纠错对象与第二对象集中的待纠错对象进行整合去重处理,得到待纠错文本中的待纠错对象。例如,当第一对象集包括第1个对象,且第二对象集包括第1个对象和第2个对象时,则可以先将第一对象集和第二对象集进行整合,得到包括第1个对象、第1个对象和第2个对象的整合结果;再将该整合结果进行去重,得到包括第1个对象和第2个对象的去重结果,并将去重结果中的第1个对象和第2个对象均确定为待纠错对象。
基于上述S2的第三种可能的实施方式的相关内容可知,在获取到待纠错文本之后,可以依据该待纠错文本的上文文本对该待纠错文本进行重写,得到该待纠错文本对应的重写文本,以便在确定该重写文本不包括该待纠错文本时,先基于该重写文本与待纠错文本之间的差异性,确定包括至少一个待纠错对象的第一对象集;再根据该待纠错文本中各个待处理对象的出现合理度,确定包括至少一个待纠错对象的第二对象集,并根据第一对象集和第二对象集确定待纠错对象。
基于上述S2的相关内容可知,在获取到待纠错文本之后,可以从该待纠错文本中进行错误字词识别,并将这些识别出来的错误字词确定为待处理对象,以便后续能够基于该待处理对象进行待纠错文本的错误纠正过程。
S3:根据待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定待纠错对象的候选混淆对象。
其中,通用混淆集用于记录通用易混淆对象对之间的对应关系;而且通用易混淆对象对是指普遍使用的易混淆字词对。
另外,本申请实施例不限定通用混淆集,例如,通用混淆集可以包括字形混淆集和发音混淆集。其中,字形混淆集用于记录字形易混淆对象对之间的对应关系;而且字形易混淆对象对是指具有相似字形的字词对(如,刅和办)。发音混淆集用于记录发音易混淆对象对之间的对象关系;而且发音易混淆对象对是指具有相似发音的字词对(如,密码和米玛)。需要说明的是,本申请实施例不限定字形混淆集和发音混淆集,例如,可以直接采用现有的或未来出现的字形混淆集和发音混淆集。
专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系;而且专用易混淆对象对是指在目标领域下使用的易混淆字词对。
另外,本申请实施例不限定专用混淆集,例如,专用混淆集可以包括词汇混淆集和图谱混淆集。其中,词汇混淆集用于记录目标领域下词汇易混淆对象对之间的对应关系;且词汇易混淆对象对是指在目标领域下易被混淆的词汇对(例如,其他和其它)。图谱混淆集用于记录目标领域下节点易混淆对象对之间的对应关系;且节点易混淆对象对是指在目标领域的知识图谱中易被混淆的节点对(例如,图5中用于表示流量的节点和用于表示话费的节点可以构成一个节点易混淆对象对)。其中,目标领域的知识图谱用于记录目标领域中不同实体(例如,业务名称、业务属性、业务操作等实体)之间的关联关系以及关联程度。
需要说明的是,本申请实施例也不限定词汇混淆集的构建方式,例如,可以采用方 法实施例二提供的词汇混淆集的构建过程进行实施。另外,本申请实施例不限定目标领域的知识图谱的构建过程,例如,可以采用方法实施例三中步骤41提供的目标领域的知识图谱的构建过程进行实施。此外,本申请实施例也不限定图谱混淆集的构建方式,例如,可以采用方法实施例三提供的图谱混淆集的构建过程进行实施。
待纠错对象的候选混淆对象是指与待纠错对象容易发生混淆的字词;而且,本申请实施例不限定待纠错对象的候选混淆对象的确定过程,为了便于理解,下面结合S3的一种可能的实施方式进行说明。
在一种可能的实施方式中,当通用混淆集包括待纠错对象与该待纠错对象的通用易混淆对象之间的对应关系,且专用混淆集包括待纠错对象与该待纠错对象的专用易混淆对象之间的对应关系时,S3具体可以包括S31-S3:
S31:根据待纠错对象和通用混淆集,确定待纠错对象的通用易混淆对象。
其中,待纠错对象的通用易混淆对象是指普遍使用的易与该待纠错对象发生混淆的字词。另外,本申请实施例不限定待纠错对象的通用易混淆对象的确定过程,为了便于理解,下面结合示例进行说明。
作为示例,当通用混淆集包括字形混淆集和发音混淆集,字形混淆集包括待纠错对象与该待纠错对象的字形易混淆对象之间的对应关系,且发音混淆集包括待纠错对象与该待纠错对象的发音易混淆对象之间的对应关系时,S31具体可以包括S311-S313:
S311:根据待纠错对象和字形混淆集,确定该待纠错对象的字形易混淆对象。
其中,待纠错对象的字形易混淆对象是指普遍使用的在字形上易与该待纠错对象发生混淆的字词。
另外,本申请实施例不限定字形易混淆对象的确定方式,例如,当字形混淆集还用于记录字形易混淆对象对之间的有向发生概率时,S311具体可以为:先从字形混淆集查询该待纠错对象对应的字形易混淆字词,再在确定待纠错对象与该待纠错对象对应的字形易混淆字词之间的有向发生概率高于预设字形相似阈值时,将该待纠错对象对应的字形易混淆字词,确定为该待纠错对象的字形易混淆对象。其中,待纠错对象与该待纠错对象对应的字形易混淆字词之间的有向发生概率用于表征错将待纠错对象当作该待纠错对象对应的字形易混淆字词进行使用的发生概率。
需要说明的是的,“有向发生概率”是指具有方向性的发生概率,例如,若一个字形易混淆对象对包括第一对象和第二对象,则该字形易混淆对象对之间的有向发生概率可以包括第一对象与第二对象之间的有向发生概率(也就是,错将第一对象当作第二对象进行使用的发生概率)、以及第二对象与第一对象之间的有向发生概率(也就是,错将第二对象当作第一对象进行使用的发生概率)。
基于上述S311的相关内容可知,本申请实施例中,在获取到待纠错对象之后,可以根据在字形混淆集中查询到的该待纠错对象对应的字形易混淆字词,确定该待纠错对象的字形易混淆对象,以使该字形易混淆对象能够表示出普遍使用的在字形上易与该待纠错对象发生混淆的字词。
S312:根据待纠错对象和发音混淆集,确定该待纠错对象的发音易混淆对象。
其中,待纠错对象的发音易混淆对象是指普遍使用的在发音上易与该待纠错对象发生混淆的字词。
另外,本申请实施例不限定发音易混淆对象的确定方式,例如,当发音混淆集还用于记录发音易混淆对象对之间的有向发生概率时,S312具体可以为:先从发音混淆集查询该待纠错对象对应的发音易混淆字词,再在确定待纠错对象与该待纠错对象对应的发音易混淆字词之间的有向发生概率高于预设发音相似阈值时,将该待纠错对象对应的发音易混淆字词,确定为该待纠错对象的发音易混淆对象。其中,待纠错对象与该待纠错对象对应的发音易混淆字词之间的有向发生概率用于表征错将待纠错对象当作该待纠错对象对应的发音易混淆字词进行使用的发生概率。
需要说明的是,“发音易混淆对象对之间的有向发生概率”类似于上文“字形易混淆对象对之间的有向发生概率”,相关内容请参见上文。
基于上述S312的相关内容可知,本申请实施例中,在获取到待纠错对象之后,可以根据在发音混淆集中查询到的该待纠错对象对应的发音易混淆字词,确定该待纠错对象的发音易混淆对象,以使该发音易混淆对象能够表示出普遍使用的在发音上易与该待纠错对象发生混淆的字词。
S313:将待纠错对象的字形易混淆对象和该待纠错对象的发音易混淆对象均确定为该待纠错对象的通用易混淆对象。
本申请实施例中,在获取到待纠错对象的字形易混淆对象及其发音易混淆对象之后,可以将该待纠错对象的字形易混淆对象及其发音易混淆对象均作为该待纠错对象的通用易混淆对象,以使该通用易混淆对象能够表示出普遍使用的在字形/发音上易与该待纠错对象发生混淆的字词。
基于上述S31的相关内容可知,在获取到待纠错对象之后,可以根据利用通用混淆集(例如,字形混淆集和/或发音混淆集)查询到的对应于该待纠错对象的通用易混淆字词(例如,字形易混淆字词和/或发音易混淆字词),确定该待纠错对象的通用易混淆对象,以使该通用易混淆对象能够表示出普遍使用的易与该待纠错对象发生混淆的字词。
S32:根据待纠错对象和专用混淆集,确定待纠错对象的专用易混淆对象。
其中,待纠错对象的专用易混淆对象是指在目标领域下易与该待纠错对象发生混淆的字词。另外,本申请实施例不限定待纠错对象的专用易混淆对象的确定过程,为了便于理解,下面结合示例进行说明。
作为示例,当专用混淆集包括词汇混淆集和图谱混淆集,词汇混淆集包括待纠错对象与该待纠错对象的词汇易混淆对象之间的对应关系,且图谱混淆集包括待纠错对象与该待纠错对象的节点易混淆对象之间的对应关系时,S32具体可以包括S321-S323:
S321:根据待纠错对象和词汇混淆集,确定待纠错对象的词汇易混淆对象。
其中,待纠错对象的词汇易混淆对象是指在目标领域下易与该待纠错对象发生混淆的词汇。
另外,本申请实施例不限定词汇易混淆对象的确定方式,例如,当词汇混淆集还用于记录词汇易混淆对象对之间的有向发生概率时,S321具体可以为:先从词汇混淆集查询该待纠错对象对应的专用易混淆词汇,再在确定待纠错对象与该待纠错对象对应的专用易混淆词汇之间的有向发生概率高于预设词汇相似阈值时,将该待纠错对象对应的专用易混淆词汇,确定为该待纠错对象的词汇易混淆对象。其中,待纠错对象与该待纠错对象对应的专用易混淆词汇之间的有向发生概率用于表征错将待纠错对象当作该待纠错对象对应的专用易混淆词汇进行使用的发生概率。
需要说明的是,“词汇易混淆对象对之间的有向发生概率”类似于上文“字形易混淆对象对之间的有向发生概率”,相关内容请参见上文。
基于上述S321的相关内容可知,本申请实施例中,在获取到待纠错对象之后,可以根据在词汇混淆集中查询到的该待纠错对象对应的专用易混淆词汇,确定该待纠错对象的词汇易混淆对象,以使该词汇易混淆对象能够表示出在目标领域中易与该待纠错对象发生混淆的词汇。
S322:根据待纠错对象和图谱混淆集,确定待纠错对象的节点易混淆对象。
其中,待纠错对象的节点易混淆对象是指在目标领域的知识图谱中易与该待纠错对象发生混淆的节点。
另外,本申请实施例不限定节点易混淆对象的确定方式,例如,当节点混淆集还用于记录节点易混淆对象对之间的混淆程度时,S322具体可以为:先从节点混淆集查询该待纠错对象对应的易混淆节点,再在确定待纠错对象和该待纠错对象对应的易混淆节点之间的混淆程度高于预设节点相似阈值时,将该待纠错对象对应的易混淆节点,确定为该待纠错对象的节点易混淆对象。
需要说明的是的,节点易混淆对象对之间的混淆程度用于表征错将该节点易混淆对象对中的一个对象当作另一个对象进行使用的发生概率,而且该混淆程度是无向的。另外,本申请实施例不限定节点易混淆对象对之间的混淆程度的获取过程,例如,可以采用方 法实施例三提供的用于获取节点易混淆对象对之间的混淆程度的方法进行实施。
基于上述S322的相关内容可知,本申请实施例中,在获取到待纠错对象之后,可以根据在节点混淆集中查询到的该待纠错对象对应的易混淆节点,确定该待纠错对象的节点易混淆对象,以使该节点易混淆对象能够表示出在目标领域的知识图谱中易与该待纠错对象发生混淆的节点。
S323:根据待纠错对象的词汇易混淆对象和该待纠错对象的节点易混淆对象,确定待纠错对象的专用易混淆对象。
本申请实施例中,在获取到待纠错对象的词汇易混淆对象及其节点易混淆对象之后,可以将该待纠错对象的词汇易混淆对象及其节点易混淆对象均作为该待纠错对象的专用易混淆对象,以使该专用易混淆对象能够表示出在目标领域的词汇/图谱上易与该待纠错对象发生混淆的字词。
基于上述S32的相关内容可知,在获取到待纠错对象之后,可以根据利用专用混淆集(例如,词汇混淆集和/或图谱混淆集)查询到的对应于该待纠错对象的专用易混淆字词(例如,词汇易混淆对象和/或节点易混淆对象),确定该待纠错对象的专用易混淆对象,以使该专用易混淆对象能够表示出在目标领域下易与该待纠错对象发生混淆的字词。
S33:根据待纠错对象的通用易混淆对象和待纠错对象的专用易混淆对象,确定待纠错对象的候选混淆对象。
本申请实施例中,在获取到待纠错对象的通用易混淆对象及其专用易混淆对象之后,可以直接将该待纠错对象的通用易混淆对象及其专用易混淆对象均作为该待纠错对象的候选混淆对象,以使该候选混淆对象能够更全面地表示出易与该待纠错对象发生混淆使用的字词。
基于上述S31至S33的相关内容可知,在获取到待纠错对象之后,可以利用通用混淆集和专用混淆集分别查询对应于该待纠错对象的易混淆字词,并根据该易混淆字词确定该待纠错对象的候选混淆对象,以使该候选混淆对象能够更准确全面地表示出易与该待纠错对象发生混淆使用的字词。例如,如图6所示,当通用混淆集包括字形混淆集Setchar_confuse和发音混淆集Setpron_confuse,且专用混淆集包括词汇混淆集Setword_confuse和节点混淆集Setglyph_confuse时,利用Setchar_confuse、Setpron_confuse、Setword_confuse和Setglyph_confuse分别查询对应于该该待纠错对象的易混淆字词,得到字形易混淆对象candidatechar、发音易混淆对象candidatepron、词汇易混淆对象candidateword和节点易混淆对象candidateglyph,并根据candidatechar、candidatepron、candidateword和candidateglyph,确定该待纠错对象的候选混淆对象,以使该候选混淆对象能够全面覆盖普遍使用的以及在目标领域下使用的易与该待纠错对象发生混淆的字词。
S4:根据待纠错文本、待纠错对象和待纠错对象的候选混淆对象,生成待纠错文本对应的纠错后文本。
其中,待纠错文本对应的纠错后文本是指对该待纠错文本进行纠错后得到的文本,而且该待纠错文本对应的纠错后文本不包括错误字词。另外,本申请实施例不限定纠错后文本的生成过程,例如,在一种可能的实施方式中,S4具体可以包括S41-S43:
S41:获取待纠错对象与该待纠错对象的候选混淆对象之间的相似程度。
其中,待纠错对象与该待纠错对象的候选混淆对象之间的相似程度可以表征错将待纠错对象当作该待纠错对象的候选混淆对象进行使用的发生概率。
另外,本申请实施例不限定S41的实施方式,例如,在一种可能的实施方式中,S41具体可以为:将待纠错对象的候选混淆对象作为预先训练的度量模型的标签数据,并将待纠错对象输入该度量模型,得到该度量模型中预设层输出的待纠错对象与待纠错对象的候选混淆对象之间的相似程度。
其中,度量模型用于对文本中的错误字词进行纠错,而且该度量模型中的预测层用于计算模型输入数据与标签数据之间的相似度。另外,本申请实施例不限定度量模型的模型结构,例如,度量模型可以采用图7所示的模型结构进行实施,而且该度量模型中的预测层可以是指图7中的相似度计算层。需要说明的是,本申请实施例不限定图7中的相似度计算层,例如,该相似度计算层可以采用softmax或者其它可以计算相似度的网络层进行实施。
另外,度量模型是利用瑕疵样本和标签样本进行训练的。其中,标签样本是指不具有错误字词的文本样本;而且该标签样本在度量模型的训练过程是作为标签信息存在的。瑕疵样本是指具有错误字词的文本样本;而且该瑕疵样本在度量模型的训练过程是作为训练数据存在的。此外,一个瑕疵样本对应于一个标签样本。
需要说明的是,本申请实施例不限定度量模型的训练过程。另外,本申请实施例也不限定瑕疵样本的获取方式,例如,瑕疵样本可以根据标签样本、通用混淆集和专用混淆集生成,而且该生成过程具体可以包括步骤21-步骤23:
步骤21:根据标签样本、通用混淆集和专用混淆集,确定标签样本中的待替换对象。
其中,待替换对象是指标签样本中的字和/或词,而且在通用混淆集和/或专用混淆集中存在该待替换对象对应的易混淆字词。例如,当标签样本为“密码查询”,而且通用混淆集和/或专用混淆集中存在“密码”对应的易混淆字词时,可以将“密码”确定为待替换对象。
基于上述步骤21的相关内容可知,本申请实施例中,在获取到标签样本之后,可以利用通用混淆集和专用混淆集,从该标签样本中的确定待替换对象,以使在通用混淆集记录有该待替换对象的通用易混淆对象和/或在专用混淆集中记录有该替换对象的专用易混淆对象,以便后续能够基于该待替换对象的通用易混淆对象和/或专用易混淆对象,生成该标签样本对应的瑕疵样本。
步骤22:根据待替换对象、通用混淆集和专用混淆集,确定该待替换对象的备选易混淆对象。其中,待替换对象的备选易混淆对象是指易与该待替换对象进行混淆使用的字词。
本申请实施例中,在从标签样本中获取到待替换对象之后,可以先从通用混淆集查询该待替换对象对应的通用易混淆对象,并从专用混淆集查询该待替换对象对应的专用易混淆对象;再将该待替换对象对应的通用易混淆对象和专用易混淆对象均确定为待替换对象的备选易混淆对象,以使该备选易混淆对象能够全面覆盖普遍使用的和/或在目标领域中使用的易与该待替换对象进行混淆使用的字词。
步骤23:利用待替换对象的备选易混淆对象替换标签样本中的待替换对象,得到瑕疵样本。
本申请实施例中,在获取到待替换对象的备选易混淆对象之后,可以直接利用待替换对象的备选易混淆对象替换标签样本中的待替换对象,得到该标签样本对应的瑕疵样本。
基于上述步骤21至步骤23的相关内容可知,在获取到标签样本(如图8所示的“密码查询”)之后,先依据通用混淆集和专用混淆集,从该标签样本中确定出待替换对象(如图8中的“密码”);再从通用混淆集和专用混淆集(如,Setchar_confuse、Setpron_confuse、Setword_confuse和Setglyph_confuse)中查询该待替换对象对应的易混淆对象(如图8中的“蜜码”、“秘码”、“密玛”、“流量”等);最后,利用该待替换对象对应的易混淆对象替换标签样本中的待替换对象,得到该标签样本对应的瑕疵样本(如图8中的“蜜码查询”、“秘码查询”、“密玛查询”、“流量查询”等)。
基于上述S41的相关内容可知,在获取到待纠错对象的候选混淆对象之后,可以获取待纠错对象与该待纠错对象的候选混淆对象之间的相似程度,而且该获取过程具体可以为:利用预先训练好的度量模型,得到待纠错对象与待纠错对象的候选混淆对象之间的相似程度。
S42:根据待纠错对象与待纠错对象的候选混淆对象之间的相似程度,从待纠错对象的候选混淆对象中确定待纠错对象的候选更换对象。
其中,候选更换对象是指在替换待纠错文本中的待纠错对象时可以使用的字词。另外,本申请实施例不限定候选更换对象的个数。
可见,若待纠错对象的候选混淆对象的个数为V个,则S42具体可以为:判断待纠错对象与该待纠错对象的第v个候选混淆对象之间的相似度是否高于预设相似阈值,若是,则将该待纠错对象的第v个候选混淆对象确定为该待纠错对象的候选更换对象;若否,则舍弃该待纠错对象的第v个候选混淆对象。其中,v为正整数,且v≤V,V为正整数。
S43:根据待纠错文本、待纠错对象和待纠错对象的候选更换对象,确定待纠错文本对应的纠错后文本。
本申请实施例不限定S43的实施方式,例如,在一种可能的实施方式下,S43具体可以包括S431-S433:
S431:利用待纠错对象的候选更换对象替换待纠错文本中的待纠错对象,得到候选纠正文本。
本申请实施例中,若待纠错对象的候选更换对象为R个,则在获取到待纠错对象的第r个候选更换对象之后,直接利用该待纠错对象的第r个候选更换对象替换该待纠错文本中的待纠错对象,得到该待纠错文本对应的第r个候选纠正文本,以便后续能够从该待纠错文本对应的R个候选纠正文本中筛选出该待纠错文本对应的纠错后文本。其中,r为正整数,r≤R,R为正整数。
S432:获取待纠错文本的语句合理度和候选纠正文本的语句合理度。
其中,语句合理度用于表征文本中字词使用的合理程度。
另外,本申请实施例不限定语句合理度的确定过程,例如,在一种可能的实施方式中,待确定文本的语句合理度的确定过程具体可以为:将待确定文本输入到预先构建的语言模型中,得到该语言模型输出的该待确定文本的语句合理度。其中,语言模型用于衡量模型输入数据的语句合理度;而且本申请实施例不限定语言模型的模型结构(例如,该语言模型可以是N-gram模型)。需要说明的是,上述待确定文本可以是待纠错文本,也可以是候选纠正文本。
基于S432的相关内容可知,在获取到待纠错文本对应的R个候选纠正文本之后,可以分别将该待纠错文本和该R个候选纠正文本输入到预先构建的语言模型中,得到该语言模型输出的该待纠错文本的语句合理度和各个候选纠正文本的语句合理度,以便后续能够利用该待纠错文本的语句合理度和各个候选纠正文本的语句合理度,确定该待纠错文本对应的纠错后文本。
S43:根据待纠错文本的语句合理度和候选纠正文本的语句合理度,确定待纠错文本对应的纠错后文本。
本申请实施例不限定S43的实施方式,例如,在一种可能的实施方式下,若候选纠正文本为R个,则S43具体可以包括S431-S432:
S431:根据待纠错文本的语句合理度和R个候选纠正文本的语句合理度,从该R个候选纠正文本中筛选出满足预设筛选条件的至少一个目标纠正文本。
其中,预设筛选条件可以预先设定。例如,预设筛选条件为目标纠正文本的语句合理度与待纠错文本的语句合理度之间的差值高于预设差值阈值。需要说明的是,预设差值阈值可以预先根据应用场景设定,而且预设差值阈值为正数。
基于S431的相关内容可知,在获取到待纠错文本的语句合理度和R个候选纠正文本的语句合理度之后,可以判断第r个候选纠正文本的语句合理度与待纠错文本的语句合理度之间的差值是否高于预设差值阈值,若是,则确定该第r个候选纠正文本为目标纠正文本;若否,则舍弃该第r个候选纠正文本。其中,r为正整数,r≤R,R为正整数。
S432:将至少一个目标纠正文本中具有最高语句合理度的目标纠正文本,确定为待纠错文本对应的纠错后文本。
本申请实施例中,在获取到至少一个目标纠正文本之后,可以将该至少一个目标纠正文本按照语句合理度从大到小进行排序,并将排序第一的目标纠正文本确定为该待纠错文本对应的纠错后文本。
基于上述S431至S432的相关内容可知,在获取到待纠错文本的语句合理度和候选纠正文本的语句合理度之后,可以先根据待纠错文本的语句合理度和候选纠正文本的语句合理度,确定纠错效果最好的候选纠正文本;再将该纠错效果最好的候选纠正文本确定为待纠错文本对应的纠错后文本。
基于上述S1至S4的相关内容可知,在本申请提供的文本纠错方法中,在获取到目标领域下的待纠错文本之后,先从待纠错文本中确定待纠错对象,并根据该待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定该待纠错对象的候选混淆对象;再根据该待纠错文本、该待纠错对象和该待纠错对象的候选混淆对象,生成该待纠错文本对应的纠错后文本。
其中,由于通用混淆集用于记录通用易混淆对象对之间的对应关系,而且专用混淆集用于记录目标领域下专用易混淆对象对之间的对应关系,使得基于通用混淆集和专用混淆集确定的候选混淆对象不仅包括通用易混淆对象,还包括在目标领域下特有的专用易混淆对象,如此使得该候选混淆对象更全面,从而使得基于该候选混淆对象生成的纠错后文本更准确,如此能够有效地提高文本纠错准确性。
方法实施例二
另外,为了进一步提高文本纠错准确性,本申请实施例还提供了一种词汇混淆集的构建过程,其具体可以包括步骤31-步骤34:
步骤31:获取目标领域下的瑕疵文本和瑕疵文本对应的标准文本。
其中,瑕疵文本是指目标领域下具有错误字词的文本内容。标准文本是指目标领域下不具有错误字词的文本内容。另外,每个瑕疵文本均对应于一个标准文本。例如,若瑕疵文本为“对工理财”,则该瑕疵文本对应的标准文本为“对公理财”。
需要说明的是,本申请实施例不限定瑕疵文本和该瑕疵文本对应的标准文本的获取方式。例如,在一些情况下,瑕疵文本可以根据专用于目标领域的人机交互设备中存储的历史对话确定;而且该瑕疵文本对应的标准文本可以根据已存储的目标领域下不同用户之间的聊天对话内容确定。
还需要说明的是,本申请实施例也不限定瑕疵文本的个数,例如,如图9所示,瑕疵文本的个数为H。其中,H为正整数。
步骤32:将瑕疵文本和瑕疵文本对应的标准文本进行比对,得到文本比对结果。
其中,文本比对结果用于表示瑕疵文本和该瑕疵文本对应的标准文本之间的相同之处和/或不同之处。
另外,本申请实施例不限定步骤32的实施方式,例如,步骤32具体可以包括步骤321-步骤323:
步骤321:将瑕疵文本进行分词,得到第一分词集。其中,第一分词集用于记录瑕疵文本中的各个分词。
步骤322:将瑕疵文本对应的标准文本进行分词,得到第二分词集。其中,第二分词集用于记录瑕疵文本对应的标准文本中的各个分词;而且第二分词集中的分词个数与第二分词集中的分词个数相同。
步骤323:将第一分词集和第二分词集进行比对,得到文本比对结果。
假设,第一分词集包括Y个第一分词,且第y个第一分词在瑕疵文本中的位置比第y+1个第一分词在瑕疵文本中的位置靠前,y为正整数,y+1≤Y;第二分词集包括Y个第二分词,且第y个第二分词在标准文本中的位置比第y+1个第二分词在标准文本中的位置靠前,y为正整数,y+1≤Y。
作为示例,基于上述假设可知,步骤323具体可以包括步骤3231-步骤3232:
步骤3231:将第q个第一分词与第q个第二分词进行比对,得到第q个分词比对结果。其中,q为正整数,q≤Y。
其中,第q个分词比对结果用于表示第q个第一分词与第q个第二分词是否相同,也就是用于表示位于瑕疵文本中第q个分词位置上的分词与位于该瑕疵文本对应的标准文本中第q个分词位置上的分词是否相同。
步骤3232:将第1个分词比对结果至第Y个分词比对结果的集合,确定为文本比对结果。
本申请实施例中,在获取到第1个分词比对结果至第Y个分词比对结果之后,可以将第1个分词比对结果至第Y个分词比对结果的集合,确定为瑕疵文本及其标准文本之间的文本比对结果,以使该文本比对结果能够准确地表示出该瑕疵文本及其标准文本之间的相同之处及其不同之处。
基于上述步骤3231至步骤3232的相关内容可知,在获取到第一分词集和第二分词集之后,可以将第一分词集中的各个分词与第二分词集中的各个分词进行比对,以得到瑕疵文本及其标准文本之间的文本比对结果,以使该文本比对结果能够准确地表示出该瑕疵文本及其标准文本之间的相同之处及其不同之处。
基于上述步骤32的相关内容可知,如图9所示,当瑕疵文本的个数为H时,可以将第h个瑕疵文本与该第h个瑕疵文本对应的标准文本进行比对,得到第h个文本比对结果,以使该第h个文本比对结果能够准确地表示第h个瑕疵文本与该第h个瑕疵文本对应的标准文本之间的相同之处和不同之处;而且如图10所示,当第h个瑕疵文本包括L个分词位置时,该第h个文本对比结果的获取过程为:首先,将第h个瑕疵文本中第g个分词位置上的分词whg_B与该第h个瑕疵文本对应的标准文本中第g个分词位置上的分词whg_S进行比对,得到第h个文本比对组中第g个分词位置上的比对结果rhg;其中,g为正整数,g≤L。然后,将第h个文本比对组中第1个分词位置上的比对结果rh1至第L个分词位置上的比对结果rhL的集合,确定为第h个文本对比结果。需要说明的是,上文第h个文本比对组是指第h个瑕疵文本与该第h个瑕疵文本对应的标准文本。
步骤33:根据文本比对结果,确定有向易混淆词汇对和有向易混淆词汇对的出现概率。
其中,有向易混淆词汇对是指容易错将一个词汇当作另一个词汇进行使用;而且该有向易混淆词汇对是具有方向性的,例如,当有向易混淆词汇对为时,则该有向易混淆词汇对可以表示容易错将词汇Wwrong当作词汇Wright进行使用。
另外,有向易混淆词汇对的出现概率用于表示错把该有向易混淆词汇对中一个词汇当作另一个词汇进行使用的发生概率。例如,当有向易混淆词汇对为且该有向易混淆词汇对的出现概率为Pwwrong→wright时,则该有向易混淆词汇对的出现概率Pwwrong→wright表示错将词汇wwrong当作词汇wright进行使用的发生概率。
本申请实施例中,在获取到H个文本比对结果之后,可以先从该H个文本对比结果中,确定出各个有向易混淆词汇对并统计各个有向易混淆词汇对在该H个文本对比结果中的出现频次,再基于各个有向易混淆词汇对在该H个文本对比结果中的出现频次,确定各个有向易混淆词汇对的出现概率。
需要说明的是,本申请实施例不限定各个有向易混淆词汇对及其出现频率的确定过程,例如,该确定过程具体可以为:在获取到第h个文本对比结果之后,判断rhg是否表示whg_B=whg_S,以便在确定whg_B≠whg_S时,确定有向易混淆词汇对并将该有向易混淆词汇对的出现频次加1;其中,g为正整数,g≤L,h为正整数,h≤H。
还需要说明的是,本申请实施例也不限定各个有向易混淆词汇对的出现概率的计算方式,例如,可以利用公式(2)进行计算。
步骤34:根据有向易混淆词汇对和有向易混淆词汇对的出现概率,生成词汇混淆集。
基于上述步骤31至步骤34的相关内容可知,在获取到目标领域下的H个瑕疵文本和该H个瑕疵文本对应的标准文本之后,可以先从该H个瑕疵文本及其对应的标准文本中,确定出各个有向易混淆词汇对及其出现频次;再根据各个有向易混淆词汇对的出现频次,确定出各个有向易混淆词汇对的出现概率,以使该出现概率能够准确地表示出在目标领域下有向易混淆词汇对的发生可能性;最后,根据该各个有向易混淆词汇对及其出现概率,构建目标领域下的词汇混淆集,以使该词汇混淆集能够准确地表示出在目标领域下易混淆词汇对之间的对应关系以及有向发生概率,以便后续能够从该词汇混淆集中查询到各个易混淆词汇对之间的对应关系以及有向发生概率。
方法实施例三
另外,为了进一步提高文本纠错准确性,本申请实施例还提供了一种图谱混淆集的构建过程,其具体可以包括步骤41-步骤43:
步骤41:根据第二语料构建所述目标领域的知识图谱。
其中,第二语料是指构建目标领域的知识图谱所需使用的语料。另外,本申请实施例不限定第二语料,例如,为了提高目标领域的知识图谱的精确性,第二语料可以包括通用语料和专用语料。其中,通用语料是指普遍使用的对话数据(也就是没有领域限制的对话数据)。专用语料是指在目标领域中使用的对话数据。
目标领域的知识图谱用于描述目标领域中不同实体之间的关联关系。例如,若目标领域为运营商领域,则因运营商领域中可以包括业务类实体(如,流量、套餐、明细、使用情况等实体)和操作类实体(如,查询、变更等实体),使得该目标领域的知识图谱可以用于表1所示的关联关系。其中,业务类实体用于表示运营商业务描述信息(例如,业务名称、业务属性等)。操作类实体用于表示运营商业务操作信息(例如,查询、变更等)。
实体1 | 实体2 | 关联关系 |
查询 | 流量 | 技能 |
查询 | 套餐 | 技能 |
查询 | 明细 | 约束 |
查询 | 使用情况 | 约束 |
变更 | 套餐 | 技能 |
查询 | 查一下 | 同类 |
变更 | 变成 | 同类 |
… | … | … |
表1运营商领域下不同实体之间的关联关系
需要说明的是,不用应用领域具有不同的词性区分规则。例如,因运营商领域可以包括业务名称、业务属性和业务操作等词性,故可以将运营商领域中的实体标注为业务名称、业务属性或业务操作等词性。可见,在运营商领域中,实体“查询”的词性和实体“变更”的词性均为业务操作,实体“流量”的词性和“话费”的词性均为业务名称,实体“套餐”的词性、实体“明细”的词性和实体“使用情况”的词性均为业务属性。
基于上述表1中内容可知,对于运营商领域来说,属于同一词性的两个实体之间的关联关系可以标注为“同类”;而且属于不同词性的两个实体之间的关联关系可以基于该两个实体之间的实际关系进行标注(例如,因业务名称“流量”与业务操作“查询”之间的实际关系为技能,则该业务名称“流量”与业务操作“查询”之间的关联关系可以标注为“技能”)。
另外,目标领域的知识图谱不仅记录有目标领域下不同实体之间的关联关系,还可以记录有目标领域下不同实体之间的关联度,以使该关联度用于描述目标领域下不同实体之间的关联程度。例如,若目标领域的知识图谱为图5所示的知识图谱,则实体“流量”与实体“查询”之间的关联度可以为0.2174。
此外,本申请实施例不限定知识图谱的构建过程,可以采用现有的或未来出现的任一种知识图谱构建方法进行实施。为了便于理解,下面结合步骤41的一种可能的实施方式进行说明。
在一种可能的实施方式中,步骤41具体可以包括步骤411-步骤412:
步骤4111:根据第二语料,确定待使用节点对和该待使用节点对的关联度。
其中,待使用节点对是指目标领域下的实体对。另外,本申请实施例不限定待使用节点对的确定方式,例如,在一种可能的实施方式下,待使用节点对的确定过程具体可以包括步骤51-步骤52:
步骤51:根据第二语料,确定待使用实体。其中,待使用实体是指目标领域中的实体(如,“流量”、“查询”等实体)。
实际上,因名词类实体(如业务名称、业务属性等业务类实体)与动作类实体(如业务操作等操作类实体)之间的差距较大,故为了提高实体的识别准确率,可以针对名词类实体和动作类实体采用不同的实体识别模型进行识别。基于此,本申请实施例提供了步骤51的一种可能的实施方式,其具体可以包括步骤511-步骤513:
步骤511:将第二语料输入到预先构建的名词类实体识别模型,得到该名词类实体识别模型输出的待使用名词类实体。
其中,名词类实体识别模型用于对第二语料中的名词类实体进行识别。另外,本申请实施例不限定名词类实体识别模型,例如,该名词类实体识别模型可以是基于BERT(Bidirectional Encoder Representations from Transformers)和条件随机场(conditional random field,CRF)的模型(又称,bert_crg模型)。
另外,待使用名词类实体是指第二语料中的名词类实体。
基于上述步骤511的相关内容可知,如图11所示,在获取到第二语料之后,可以将第二语料输入到预先构建的名词类实体识别模型(如,bert_crg模型),以使该名词类实体识别模型对第二语料中的名词类实体进行标注并输出,以便后续能够将该名词类实体识别模型输出的名词类实体确定为待使用名词类实体。
步骤512:将第二语料输入到预先构建的动作类实体识别模型,得到该操作类实体识别模型输出的待使用动作类实体。
其中,动作类实体识别模型用于对第二语料中的动作类实体进行识别。另外,本申请实施例不限定动作类实体识别模型,例如,该动作类实体识别模型可以是基于BERT(Bidirectional Encoder Representations from Transformers)和注意力机制(Attention Mechanism,AM)的模型(又称,bert_am模型)。
另外,待使用动作类实体是指第二语料中的动作类实体。
基于上述步骤512的相关内容可知,如图11所示,在获取到第二语料之后,可以将第二语料输入到预先构建的的动作类实体识别模型(如bert_am模型),以使该动作类实体识别模型对第二语料中的动作类实体进行标注并输出,以便后续能够将该动作类实体识别模型输出的动作类实体确定为待使用动作类实体。
步骤513:将待使用名词类实体和待使用动作类实体均确定为待使用实体。
本申请实施例中,在获取到待使用名词类实体和待使用动作类实体之后,可以将该待使用名词类实体和该待使用动作类实体均作为待使用实体,以使该待使用实体用于表示第二语料中的实体。
基于上述步骤51的相关内容可知,在获取到第二语料之后,可以从该第二语料中进行实体提取得到待使用实体(如图11所示),以便后续能够基于该待使用实体生成知识图谱。
步骤52:根据待使用实体,生成待使用节点对。其中,待使用节点对包括两个待使用实体。
本申请实施例中,在获取到第二语料中的待使用实体之后,可以将不同待使用实体进行组合,得到包括两个待使用实体的待使用节点对,以便后续能够基于该待使用节点对进行知识图谱的构建。
基于上述步骤51至步骤52的相关内容可知,在获取到第二语料之后,可以利用第二语料中的实体生成待使用节点对,以便后续能够基于该待使用节点对进行知识图谱的构建。
待使用节点对的关联度用于表示待使用节点对中一个实体节点与另一个实体节点之间的关联程度。另外,本申请实施例不限定待使用节点对的关联度的确定方式,例如,在一种可能的实施方式下,若待使用节点对包括第一节点和第二节点,则该待使用节点对的关联度的确定过程具体可以包括步骤61-步骤62:
步骤61:根据第二语料,确定第一节点的出现概率、第二节点的出现概率和待使用节点对的出现概率。
其中,第一节点的出现概率是指第一节点在第二语料中的出现概率。第二节点的出现概率是指第二节点在第二语料中的出现概率。待使用节点对的出现概率是指待使用节点对在第二语料中的出现概率。
需要说明的是,本申请实施例不限定待使用节点对的出现概率,例如,待使用节点对的出现概率可以表示第一节点和第二节点在第二语料中的共现概率。又如,在一些情况下,知识图谱中还可以包括待使用节点对的关联关系(也就是,第一节点和第二节点之间的关联关系),使得待使用节点对及其关联关系以三元组(第一节点,第二节点,第一节点和第二节点之间的关联关系)形式出现,故待使用节点对的出现概率也可以表示三元组(第一节点,第二节点,第一节点和第二节点之间的关联关系)在第二语料中的共现概率(也就是,第一节点、第二节点、以及第一节点和第二节点之间的关联关系在第二语料中的共现概率)。
在一些情况下,当第二语料包括通用语料和专用语料时,因第一节点在通用语料中的出现概率与该第一节点在专用语料中的出现概率不同,故为了提高第一节点的出现概率的准确性,第一节点的出现概率可以包括第一节点在通用语料中的出现概率和第一节点在专用语料中的出现概率。
同理,为了提高第二节点的出现概率的准确性,第二节点的出现概率可以包括第二节点在通用语料中的出现概率和第二节点在专用语料中的出现概率。
同理,为了提高待使用节点对的出现概率,待使用节点对的出现概率可以包括待使用节点对在通用语料中的出现概率、以及待使用节点对在专用语料中的出现概率。可见,若第二语料包括通用语料和专用语料,则该待使用节点对的出现概率可以包括三元组(第一节点,第二节点,第一节点和第二节点之间的关联关系)在通用语料中的共现概率和三元组(第一节点,第二节点,第一节点和第二节点之间的关联关系)在专用语料中的共现概率。
基于上述步骤61的相关内容可知,若待使用节点对包括第一节点和第二节点,则在获取到待使用节点对之后,可以从第二语料中统计第一节点的出现概率、第二节点的出现概率以及该待使用节点对的出现概率,以便后续能够基于该第一节点的出现概率、第二节点的出现概率以及该待使用节点对的出现概率,确定该待使用节点对的关联度。需要说明的是,本申请实施例不限定出现概率与共现概率的计算过程。
步骤62:根据第一节点的出现概率、第二节点的出现概率和待使用节点对的出现概率,确定待使用节点对的关联度。
本申请实施例不限定待使用节点对的关联度的确定过程,例如,在一种可能的实施方式,步骤62具体可以为:如公式(2)所示,将第一节点的出现概率、第二节点的出现概率和待使用节点对的出现概率的乘积,确定为待使用节点对的关联度。
式中,Ce为第e个待使用节点对的关联度;为第e个待使用节点对中第一节点的出现概率;为第e个待使用节点对中第二节点的出现概率;为第e个待使用节点对的出现概率;e为正整数,e≤E,E为正整数,E为第二语料中的待使用节点对的个数。
需要说明的是,若第二语料包括通用语料和专用语料,则 其中,为第e个待使用节点对中第一节点在通用语料中的出现频次;为第e个待使用节点对中第一节点在专用语料中的出现频次;为通用语料中的实体总数;为专用语料中的实体总数;为第e个待使用节点对中第二节点在通用语料中的出现频次;为第e个待使用节点对中第二节点在专用语料中的出现频次;为第e个待使用节点对在通用语料中的出现频次(例如,第一节点和第二节点在通用语料中的共现频次;或者,第一节点,第二节点,第一节点和第二节点之间的关联关系在通用语料中的共现频次);为第e个待使用节点对在专用语料中的出现频次(例如,第一节点和第二节点在专用语料中的共现频次;或者,第一节点,第二节点,第一节点和第二节点之间的关联关系在专用语料中的共现频次);为通用语料中的实体对总数;为专用语料中的实体对总数。
实际上,因词性搭配(例如,业务名称-业务操作、业务名称-业务属性等搭配)也能够对待使用节点对的关联度产生影响,故为了进一步提高待使用节点对的关联度的准确性,本申请实施例还提供了步骤62的另一种可能的实施方式,其具体可以为:根据第一节点的出现概率、第二节点的出现概率、待使用节点对的出现概率和待使用节点对的搭配合理度,确定待使用节点对的关联度。其中,待使用节点对的搭配合理度表征第一节点的词性与第二节点的词性之间的搭配合理程度。
需要说明的是,本申请实施例不限定待使用节点对的搭配合理度的获取方式,可以预先根据应用场景确定。例如,当运营商领域包括“业务名称-业务操作”、“业务名称-业务名称”、“业务操作-业务操作”、“业务名称-业务属性”、“业务操作-业务属性”、以及“业务属性-业务属性”的六种词性搭配类型,而且该六种词性搭配类型的先验概率为4:2:2:1:1:1时,该六种词性搭配类型的出现概率可以为0.3636:0.1818:0.1818:0.0909:0.0909:0.0909。基于此可知,若待使用节点对包括第一节点和第二节点,则该待使用节点对的搭配合理度的确定过程具体可以为:根据第一节点的词性和第二节点的词性,确定待使用节点对的词性搭配类型;将该待使用节点对的词性搭配类型的出现概率,确定为该待使用节点对的搭配合理度。
基于上述步骤62的另一种可能的实施方式的相关内容可知,可以根据第一节点的出现概率、第二节点的出现概率、待使用节点对的出现概率和待使用节点对的搭配合理度,确定待使用节点对的关联度;而且该确定过程具体可以为:如公式(3)所示,可以直接将第一节点的出现概率、第二节点的出现概率、待使用节点对的出现概率和待使用节点对的搭配合理度的乘积,确定为待使用节点对的关联度。
式中,Ce为第e个待使用节点对的关联度;为第e个待使用节点对中第一节点的出现概率;为第e个待使用节点对中第二节点的出现概率;为第e个待使用节点对的出现概率;ρe为第e个待使用节点对的搭配合理度;e为正整数,e≤E,E为正整数,E为第二语料中的待使用节点对的个数。
基于上述步骤61至步骤62的相关内容可知,若待使用节点对包括第一节点和第二节点,则在获取到待使用节点对之后,可以先根据第二语料确定第一节点的出现概率、第二节点的出现概率和待使用节点对的出现概率,再基于第一节点的出现概率、第二节点的出现概率和待使用节点对的出现概率,确定该待使用节点对的关联度,以使该待使用节点对的关联度能够准确地表示出第一节点与第二节点之间的关联程度。
步骤412:根据待使用节点对和待使用节点对的关联度,构建目标领域的知识图谱。
本申请实施例中,在获取到待使用节点对及其关联度之后,可以直接根据该待使用节点对及其关联度构建目标领域的知识图谱(如图5所示的知识图谱),以使该知识图谱能够准确地表示出目标领域下具有关联关系的实体对以及该实体对之间的关联程度(例如,若目标领域的知识图谱为图5所示的知识图谱,则从该知识图谱中能够获得实体“流量”与实体“查询”之间具有关联关系,而且实体“流量”与实体“查询”之间的关联度为0.2174)。
基于上述步骤411至步骤412的相关内容可知,在获取到第二语料之后,可以先从该第二语料中确定出待使用节点对及其关联度,再基于该待使用节点对及其关联度构建目标领域的知识图谱,以使该知识图谱能够准确地表示出目标领域下具有关联关系的实体对以及该实体对之间的关联程度,以便后续能够基于该目标领域的知识图谱构建目标领域的图谱混淆集。
步骤42:根据目标领域的知识图谱、第k个节点和预设混淆参数,确定第k个节点的易混淆节点、以及第k个节点与该第k个节点的易混淆节点之间的混淆程度,并建立第k个节点与该第k个节点对应的易混淆节点之间的对应关系。其中,k为正整数,k≤K,K为目标领域的知识图谱中的节点个数。
其中,预设混淆参数用于限定一个节点的易混淆节点的分布区域,而且预设混淆参数可以预先设定。例如,若预设混淆参数预先设定为I次节点跳转,则该预设混淆参数表示应当在以当前节点为起点经过I次节点跳转能够达到的区域内查找该当前节点的易混淆节点。
第k个节点的易混淆节点是指在目标领域的知识图谱中易与第k个节点发生混淆的节点。另外,本申请实施例不限定第k个节点的易混淆节点的确定过程,例如,在一种可能的实施方式中,第k个节点的易混淆节点的确定过程具体可以包括步骤71-步骤74:
步骤71:根据预设混淆参数、第k个节点和目标领域的知识图谱,确定第k个节点的混淆区域。
其中,第k个节点的混淆区域是指确定第k个节点的易混淆节点所需使用的知识图谱区域(也就是,第k个节点的易混淆节点在知识图谱中的分布区域)。
本申请实施例中,当预设混淆参数预先设定为I次节点跳转时,可以依据预设混淆参数从目标领域的知识图谱中确定该第k个节点的混淆区域,以使该第k个节点的混淆区域包括以第k个节点为中心且以I次节点跳转为半径的区域(也就是,以第k个节点为起点经过I次节点跳转能够达到的区域),从而使得该第k个节点的混淆区域囊括了该第k个节点的所有易混淆节点。
步骤72:根据第k个节点的混淆区域,确定第k个节点的候选节点和第k个节点的候选路径。
其中,第k个节点的候选节点位于第k个节点的混淆区域中,而且该第k个节点的候选节点的词性与第k个节点的词性相同。需要说明的是,第k个节点的词性是指第k个节点在目标领域中所具有的词性,例如,若目标领域为运营商领域,则第k个节点的词性可以为业务名称、业务属性或业务操作等。
另外,本申请实施例不限定第k个节点的候选节点的确定过程,例如,在一种可能的实施方式中,第k个节点的候选节点的确定过程具体可以为:先将第k个节点的混淆区域中各个节点的词性分别与第k个节点的词性进行比对,得到词性比对结果;再根据词性比对结果,确定第k个节点的候选节点。其中,词性比对结果用于记录第k个节点的混淆区域中各个节点的词性与第k个节点的词性是否相同。
可见,对于第k个节点来说,在获取到第k个节点的混淆区域之后,可以判断该混淆区域中各个节点的词性与第k个节点的词性是否相同,以便将该混淆区域中与第k个节点的词性相同的节点确定为该第k个节点的候选节点。
另外,第k个节点的候选路径是指以第k个节点和第k个节点的候选节点为端点的路径。也就是,第k个节点的候选路径用于连接第k个节点和第k个节点的候选节点(如图12所示)。
基于上述步骤72的相关内容可知,在获取到第k个节点的混淆区域之后,先从该混淆区域中筛选出该第k个节点的候选节点,并将第k个节点与该第k个节点的候选节点之间的连接路径,确定为第k个节点的候选路径,以便后续能够基于该第k个节点的候选路径,确定第k个节点与该第k个节点的候选节点之间的混淆程度。
步骤73:根据第k个节点的候选路径,确定第k个节点与该第k个节点的候选节点之间的混淆程度。
其中,第k个节点与该第k个节点的候选节点之间的混淆程度表征第k个节点与该第k个节点的候选节点被混淆使用的发生概率。另外,本申请实施例不限定混淆程度的确定过程,例如,在一种可能的实施方式中,如图10所示,当第k个节点的候选路径包括N个相邻节点对时,步骤73具体可以为:根据第1个相邻节点对的关联度Cpair1至第N个相邻节点对的关联度CpairN,确定第k个节点与该第k个节点的候选节点之间的混淆程度。
需要说明的是,本申请实施例不限定第k个节点与该第k个节点的候选节点之间的混淆程度的计算过程,例如,在一种可能的实施方式,可以将第1个相邻节点对的关联度Cpair1至第N个相邻节点对的关联度CpairN的乘积,确定为第k个节点与该第k个节点的候选节点之间的混淆程度。
基于上述步骤73的相关内容可知,在获取到第k个节点的候选路径之后,可以根据该第k个节点的候选路径中所有相邻节点对的关联度,计算第k个节点与该第k个节点的候选节点之间的混淆程度,以使该混淆程度能够准确地表示出第k个节点与该第k个节点的候选节点被混淆使用的可能性。
步骤74:根据第k个节点与该第k个节点的候选节点之间的混淆程度,从第k个节点的候选节点中确定该第k个节点的易混淆节点。
本申请实施例中,在获取到第k个节点与该第k个节点的候选节点之间的混淆程度之后,可以判断第k个节点与该第k个节点的候选节点之间的混淆程度是否达到预设混淆阈值,以便在确定第k个节点与第k个节点的候选节点之间的混淆程度达到预设混淆阈值时,将该第k个节点的候选节点确定为该第k个节点的易混淆节点。其中,预设混淆阈值可以预先设定。
基于上述步骤71至步骤74的相关内容可知,可以先基于预设混淆参数在目标领域的知识图谱中确定第k个节点的混淆区域,再从该第k个节点的混淆区域中筛选出第k个节点的易混淆节点,以使该第k个节点的易混淆节点能够准确地表示出在目标领域的知识图谱中易与第k个节点发生混淆的其他节点。
另外,第k个节点与第k个节点的易混淆节点之间的混淆程度用于表示第k个节点与该第k个节点的易混淆节点被混淆使用的发生概率。需要说明的是,“第k个节点与第k个节点的易混淆节点之间的混淆程度”类似于上文“第k个节点与该第k个节点的候选节点之间的混淆程度”,故在此不再赘述。
基于上述步骤42的相关内容可知,在获取到目标领域的知识图谱之后,可以先依据预设混淆参数,从该知识图谱中确定出第k个节点的易混淆节点、以及第k个节点与该第k个节点的易混淆节点之间的混淆程度;再建立第k个节点与所述第k个节点对应的易混淆节点之间的对应关系,以便后续能够基于第k个节点与该第k个节点的易混淆节点之间对应关系及其混淆程度,构建图谱混淆集。其中,k为正整数,k≤K。
步骤43:根据第1个节点与该第1个节点对应的易混淆节点之间的对应关系及其混淆程度至第K个节点与该第K个节点对应的易混淆节点之间的对应关系及其混淆程度,生成图谱混淆集。
本申请实施例中,在获取到第1个节点与该第1个节点对应的易混淆节点之间的对应关系及其混淆程度、……、第K个节点与该第K个节点对应的易混淆节点之间的对应关系及其混淆程度之后,可以根据第1个节点与该第1个节点对应的易混淆节点之间的对应关系及其混淆程度、……、第K个节点与该第K个节点对应的易混淆节点之间的对应关系及其混淆程度,生成图谱混淆集,以使该图谱混淆集能够记录有第1个节点与该第1个节点对应的易混淆节点之间的对应关系及其混淆程度至第K个节点与该第K个节点对应的易混淆节点之间的对应关系及其混淆程度,以便后续能够从该图谱混淆集中查询出各个节点对应的易混淆节点之间的对应关系及其混淆程度。
基于上述方法实施例提供的文本纠错方法,本申请实施例还提供了一种文本纠错装置,下面结合附图进行解释和说明。
装置实施例
装置实施例对文本纠错装置进行介绍,相关内容请参见上述方法实施例。
参见图13,该图为本申请实施例提供的一种文本纠错装置的结构示意图。
本申请实施例提供的文本纠错装置1300,包括:
获取单元1301,用于获取目标领域下的待纠错文本;
提取单元1302,用于从所述待纠错文本中确定待纠错对象;
确定单元1303,用于根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象;其中,所述通用混淆集用于记录通用易混淆对象对之间的对应关系;所述专用混淆集用于记录所述目标领域下专用易混淆对象对之间的对应关系;
纠错单元1304,用于根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本。
在一种可能的实施方式中,所述提取单元1302,具体用于:根据所述待纠错文本和所述待纠错文本的上文文本,得到所述待纠错文本对应的重写文本;在确定所述重写文本不包括所述待纠错文本时,根据所述重写文本和所述待纠错文本,确定待纠错对象。
在一种可能的实施方式中,所述提取单元1302,还用于:在确定所述重写文本包括所述待纠错文本时,从所述待纠错文本中提取至少一个待处理对象;根据所述待纠错文本,确定所述至少一个待处理对象的出现合理度;其中,所述待处理对象的出现合理度表征所述待处理对象在所述待纠错文本中出现的合理程度;根据所述至少一个待处理对象的出现合理度,从所述至少一个待处理对象中确定待纠错对象。
在一种可能的实施方式中,当所述待处理对象的个数为M,且m为正整数,m≤M时,第m个待处理对象的出现合理度的获取过程为:获取第一语料;根据所述第一语料,确定所述第m个待处理对象的出现概率;根据所述第一语料和所述待纠错文本,确定所述第m个待处理对象的预设条件概率;根据所述第m个待处理对象的出现概率和所述第m个待处理对象的预设条件概率,确定所述第m个待处理对象的出现合理度。
在一种可能的实施方式中,所述确定单元1303,包括:
第一确定子单元,用于根据所述待纠错对象和所述通用混淆集,确定所述待纠错对象的通用易混淆对象;其中,所述通用混淆集包括所述待纠错对象与所述待纠错对象的通用易混淆对象之间的对应关系;
第二确定子单元,用于根据所述待纠错对象和所述专用混淆集,确定所述待纠错对象的专用易混淆对象;其中,所述专用混淆集包括所述待纠错对象与所述待纠错对象的专用易混淆对象之间的对应关系;
第三确定子单元,用于根据所述待纠错对象的通用易混淆对象和所述待纠错对象的专用易混淆对象,确定所述待纠错对象的候选混淆对象。
在一种可能的实施方式中,所述专用混淆集包括词汇混淆集和图谱混淆集;其中,所述词汇混淆集包括所述待纠错对象与所述待纠错对象的词汇易混淆对象之间的对应关系;所述图谱混淆集包括所述待纠错对象与所述待纠错对象的节点易混淆对象之间的对应关系;
所述第二确定子单元,具体用于:根据所述待纠错对象和所述词汇混淆集,确定所述待纠错对象的词汇易混淆对象;根据所述待纠错对象和所述图谱混淆集,确定所述待纠错对象的节点易混淆对象;根据所述待纠错对象的词汇易混淆对象和所述待纠错对象的节点易混淆对象,确定所述待纠错对象的专用易混淆对象。
在一种可能的实施方式中,所述词汇混淆集的构建过程为:获取目标领域下的瑕疵文本和所述瑕疵文本对应的标准文本;将所述瑕疵文本和所述瑕疵文本对应的标准文本进行比对,得到文本比对结果;根据所述文本比对结果,确定有向易混淆词汇对和所述有向易混淆词汇对的出现概率;根据所述有向易混淆词汇对和所述有向易混淆词汇对的出现概率,生成词汇混淆集。
在一种可能的实施方式中,所述图谱混淆集的构建过程为:根据第二语料构建所述目标领域的知识图谱;其中,所述知识图谱包括K个节点;根据所述知识图谱、第k个节点和预设混淆参数,确定所述第k个节点的易混淆节点、以及所述第k个节点与所述第k个节点的易混淆节点之间的混淆程度,并建立所述第k个节点与所述第k个节点对应的易混淆节点之间的对应关系;其中,k为正整数,k≤K;根据第1个节点与所述第1个节点对应的易混淆节点之间的对应关系及其混淆程度至第K个节点与所述第K个节点对应的易混淆节点之间的对应关系及其混淆程度,生成图谱混淆集。
在一种可能的实施方式中,所述根据第二语料构建所述目标领域的知识图谱,包括:根据第二语料,确定待使用节点对和所述待使用节点对的关联度;根据所述待使用节点对和所述待使用节点对的关联度,构建所述目标领域的知识图谱。
在一种可能的实施方式中,若所述待使用节点对包括第一节点和第二节点,则所述待使用节点对的关联度的确定过程为:根据所述第二语料,确定所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率;根据所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率,确定所述待使用节点对的关联度。
在一种可能的实施方式中,所述根据所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率,确定所述待使用节点对的关联度,包括:根据所述第一节点的出现概率、所述第二节点的出现概率、所述待使用节点对的出现概率和所述待使用节点对的搭配合理度,确定所述待使用节点对的关联度;其中,所述待使用节点对的搭配合理度表征所述第一节点的词性与所述第二节点的词性之间的搭配合理程度。
在一种可能的实施方式中,所述第k个节点的易混淆节点的确定过程为:根据所述预设混淆参数、所述第k个节点和所述知识图谱,确定所述第k个节点的混淆区域;根据所述第k个节点的混淆区域,确定所述第k个节点的候选节点和所述第k个节点的候选路径;其中,所述第k个节点的候选路径以所述第k个节点和所述第k个节点的候选节点为端点;根据所述第k个节点的候选路径,确定所述第k个节点与所述第k个节点的候选节点之间的混淆程度;根据所述第k个节点与所述第k个节点的候选节点之间的混淆程度,从所述第k个节点的候选节点中确定所述第k个节点的易混淆节点。
在一种可能的实施方式中,所述第k个节点的候选节点确定过程为:将所述第k个节点的混淆区域中各个节点的词性分别与所述第k个节点的词性进行比对,得到词性比对结果;根据所述词性比对结果,确定所述第k个节点的候选节点。
在一种可能的实施方式中,当所述第k个节点的候选路径包括N个相邻节点对时,所述根据所述第k个节点的候选路径,确定所述第k个节点与所述第k个节点的候选节点之间的混淆程度,包括:根据第1个相邻节点对的关联度至第N个相邻节点对的关联度,确定所述第k个节点与所述第k个节点的候选节点之间的混淆程度。
在一种可能的实施方式中,所述纠错单元1304,包括:
第一获取子单元,用于获取所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度;
第四确定子单元,用于根据所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度,从所述待纠错对象的候选混淆对象中确定所述待纠错对象的候选更换对象;
第五确定子单元,用于根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选更换对象,确定所述待纠错文本对应的纠错后文本。
在一种可能的实施方式中,所述第一获取子单元,具体用于:将所述待纠错对象的候选混淆对象作为预先训练的度量模型的标签数据,并将所述待纠错对象输入所述度量模型,得到所述度量模型中预设层输出的所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度;其中,所述度量模型是利用瑕疵样本和标签样本进行训练的,且所述瑕疵样本是根据所述标签样本、所述通用混淆集和所述专用混淆集生成的。
在一种可能的实施方式中,所述瑕疵样本的生成过程为:根据所述标签样本、所述通用混淆集和所述专用混淆集,确定所述标签样本中的待替换对象;根据所述待替换对象、所述通用混淆集和所述专用混淆集,确定所述待替换对象的备选易混淆对象;利用所述待替换对象的备选易混淆对象替换所述标签样本中的待替换对象,得到所述瑕疵样本。
在一种可能的实施方式中,所述第五确定子单元,具体用于:利用所述待纠错对象的候选更换对象替换所述待纠错文本中的所述待纠错对象,得到候选纠正文本;获取所述待纠错文本的语句合理度和所述候选纠正文本的语句合理度;根据所述待纠错文本的语句合理度和所述候选纠正文本的语句合理度,确定所述待纠错文本对应的纠错后文本。
进一步地,本申请实施例还提供了一种文本纠错设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本纠错方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本纠错方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本纠错方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (17)
1.一种文本纠错方法,其特征在于,所述方法包括:
获取目标领域下的待纠错文本;
从所述待纠错文本中确定待纠错对象;
根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象;其中,所述通用混淆集用于记录通用易混淆对象对之间的对应关系;所述专用混淆集用于记录所述目标领域下专用易混淆对象对之间的对应关系;
根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本。
2.根据权利要求1所述的方法,其特征在于,所述从所述待纠错文本中确定待纠错对象,包括:
根据所述待纠错文本和所述待纠错文本的上文文本,得到所述待纠错文本对应的重写文本;
在确定所述重写文本不包括所述待纠错文本时,根据所述重写文本和所述待纠错文本,确定待纠错对象。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在确定所述重写文本包括所述待纠错文本时,从所述待纠错文本中提取至少一个待处理对象;
根据所述待纠错文本,确定所述至少一个待处理对象的出现合理度;其中,所述待处理对象的出现合理度表征所述待处理对象在所述待纠错文本中出现的合理程度;
根据所述至少一个待处理对象的出现合理度,从所述至少一个待处理对象中确定待纠错对象。
4.根据权利要求3所述的方法,其特征在于,当所述待处理对象的个数为M,且m为正整数,m≤M时,第m个待处理对象的出现合理度的获取过程为:
获取第一语料;
根据所述第一语料,确定所述第m个待处理对象的出现概率;
根据所述第一语料和所述待纠错文本,确定所述第m个待处理对象的预设条件概率;
根据所述第m个待处理对象的出现概率和所述第m个待处理对象的预设条件概率,确定所述第m个待处理对象的出现合理度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象,包括:
根据所述待纠错对象和所述通用混淆集,确定所述待纠错对象的通用易混淆对象;其中,所述通用混淆集包括所述待纠错对象与所述待纠错对象的通用易混淆对象之间的对应关系;
根据所述待纠错对象和所述专用混淆集,确定所述待纠错对象的专用易混淆对象;其中,所述专用混淆集包括所述待纠错对象与所述待纠错对象的专用易混淆对象之间的对应关系;
根据所述待纠错对象的通用易混淆对象和所述待纠错对象的专用易混淆对象,确定所述待纠错对象的候选混淆对象。
6.根据权利要求5所述的方法,其特征在于,所述专用混淆集包括词汇混淆集和图谱混淆集;其中,所述词汇混淆集包括所述待纠错对象与所述待纠错对象的词汇易混淆对象之间的对应关系;所述图谱混淆集包括所述待纠错对象与所述待纠错对象的节点易混淆对象之间的对应关系;
所述根据所述待纠错对象和所述专用混淆集,确定所述待纠错对象的专用易混淆对象,包括:
根据所述待纠错对象和所述词汇混淆集,确定所述待纠错对象的词汇易混淆对象;
根据所述待纠错对象和所述图谱混淆集,确定所述待纠错对象的节点易混淆对象;
根据所述待纠错对象的词汇易混淆对象和所述待纠错对象的节点易混淆对象,确定所述待纠错对象的专用易混淆对象。
7.根据权利要求6所述的方法,其特征在于,所述词汇混淆集的构建过程为:
获取目标领域下的瑕疵文本和所述瑕疵文本对应的标准文本;
将所述瑕疵文本和所述瑕疵文本对应的标准文本进行比对,得到文本比对结果;
根据所述文本比对结果,确定有向易混淆词汇对和所述有向易混淆词汇对的出现概率;
根据所述有向易混淆词汇对和所述有向易混淆词汇对的出现概率,生成词汇混淆集。
8.根据权利要求6所述的方法,其特征在于,所述图谱混淆集的构建过程为:
根据第二语料构建所述目标领域的知识图谱;其中,所述知识图谱包括K个节点;
根据所述知识图谱、第k个节点和预设混淆参数,确定所述第k个节点的易混淆节点、以及所述第k个节点与所述第k个节点的易混淆节点之间的混淆程度,并建立所述第k个节点与所述第k个节点对应的易混淆节点之间的对应关系;其中,k为正整数,k≤K;
根据第1个节点与所述第1个节点对应的易混淆节点之间的对应关系及其混淆程度至第K个节点与所述第K个节点对应的易混淆节点之间的对应关系及其混淆程度,生成图谱混淆集。
9.根据权利要求8所述的方法,其特征在于,所述根据第二语料构建所述目标领域的知识图谱,包括:
根据第二语料,确定待使用节点对和所述待使用节点对的关联度;
根据所述待使用节点对和所述待使用节点对的关联度,构建所述目标领域的知识图谱。
10.根据权利要求9所述的方法,其特征在于,若所述待使用节点对包括第一节点和第二节点,则所述待使用节点对的关联度的确定过程为:
根据所述第二语料,确定所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率;
根据所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率,确定所述待使用节点对的关联度。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一节点的出现概率、所述第二节点的出现概率和所述待使用节点对的出现概率,确定所述待使用节点对的关联度,包括:
根据所述第一节点的出现概率、所述第二节点的出现概率、所述待使用节点对的出现概率和所述待使用节点对的搭配合理度,确定所述待使用节点对的关联度;其中,所述待使用节点对的搭配合理度表征所述第一节点的词性与所述第二节点的词性之间的搭配合理程度。
12.根据权利要求8所述的方法,其特征在于,所述第k个节点的易混淆节点的确定过程为:
根据所述预设混淆参数、所述第k个节点和所述知识图谱,确定所述第k个节点的混淆区域;
根据所述第k个节点的混淆区域,确定所述第k个节点的候选节点和所述第k个节点的候选路径;其中,所述第k个节点的候选路径以所述第k个节点和所述第k个节点的候选节点为端点;
根据所述第k个节点的候选路径,确定所述第k个节点与所述第k个节点的候选节点之间的混淆程度;
根据所述第k个节点与所述第k个节点的候选节点之间的混淆程度,从所述第k个节点的候选节点中确定所述第k个节点的易混淆节点。
13.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本,包括:
获取所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度;
根据所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度,从所述待纠错对象的候选混淆对象中确定所述待纠错对象的候选更换对象;
根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选更换对象,确定所述待纠错文本对应的纠错后文本。
14.根据权利要求13所述的方法,其特征在于,所述获取所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度,包括:
将所述待纠错对象的候选混淆对象作为预先训练的度量模型的标签数据,并将所述待纠错对象输入所述度量模型,得到所述度量模型中预设层输出的所述待纠错对象与所述待纠错对象的候选混淆对象之间的相似程度;其中,所述度量模型是利用瑕疵样本和标签样本进行训练的,且所述瑕疵样本是根据所述标签样本、所述通用混淆集和所述专用混淆集生成的。
15.一种文本纠错装置,其特征在于,所述装置包括:
获取单元,用于获取目标领域下的待纠错文本;
提取单元,用于从所述待纠错文本中确定待纠错对象;
确定单元,用于根据所述待纠错对象、预先构建的通用混淆集和预先构建的专用混淆集,确定所述待纠错对象的候选混淆对象;其中,所述通用混淆集用于记录通用易混淆对象对之间的对应关系;所述专用混淆集用于记录所述目标领域下专用易混淆对象对之间的对应关系;
纠错单元,用于根据所述待纠错文本、所述待纠错对象和所述待纠错对象的候选混淆对象,生成所述待纠错文本对应的纠错后文本。
16.一种文本纠错设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-14任一项所述的文本纠错方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至14任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442529.0A CN112560450B (zh) | 2020-12-11 | 2020-12-11 | 一种文本纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442529.0A CN112560450B (zh) | 2020-12-11 | 2020-12-11 | 一种文本纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560450A true CN112560450A (zh) | 2021-03-26 |
CN112560450B CN112560450B (zh) | 2024-02-13 |
Family
ID=75062596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011442529.0A Active CN112560450B (zh) | 2020-12-11 | 2020-12-11 | 一种文本纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560450B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128221A (zh) * | 2021-05-08 | 2021-07-16 | 聚好看科技股份有限公司 | 一种保存发言内容的方法、显示设备及服务器 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
WO2022267353A1 (zh) * | 2021-06-25 | 2022-12-29 | 北京市商汤科技开发有限公司 | 文本纠错的方法、装置、电子设备及存储介质 |
CN116108857A (zh) * | 2022-05-30 | 2023-05-12 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930866A (zh) * | 2012-11-05 | 2013-02-13 | 广州市神骥营销策划有限公司 | 一种用于口语练习的学生朗读作业的评判方法 |
US20170235721A1 (en) * | 2016-02-17 | 2017-08-17 | The King Abdulaziz City For Science And Technology | Method and system for detecting semantic errors in a text using artificial neural networks |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
US20180309577A1 (en) * | 2017-04-24 | 2018-10-25 | Baker Group, LLP | Systems and methods for hashing obfuscation |
US20180349327A1 (en) * | 2017-06-05 | 2018-12-06 | Baidu Online Network Technology (Beijing)Co., Ltd. | Text error correction method and apparatus based on recurrent neural network of artificial intelligence |
CN109598124A (zh) * | 2018-12-11 | 2019-04-09 | 厦门服云信息科技有限公司 | 一种webshell检测方法以及装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN111460795A (zh) * | 2020-03-26 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种文本纠错方法及系统 |
CN111539309A (zh) * | 2020-04-21 | 2020-08-14 | 广州云从鼎望科技有限公司 | 一种基于ocr的数据处理方法、系统、平台、设备及介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
-
2020
- 2020-12-11 CN CN202011442529.0A patent/CN112560450B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930866A (zh) * | 2012-11-05 | 2013-02-13 | 广州市神骥营销策划有限公司 | 一种用于口语练习的学生朗读作业的评判方法 |
US20170235721A1 (en) * | 2016-02-17 | 2017-08-17 | The King Abdulaziz City For Science And Technology | Method and system for detecting semantic errors in a text using artificial neural networks |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
US20180309577A1 (en) * | 2017-04-24 | 2018-10-25 | Baker Group, LLP | Systems and methods for hashing obfuscation |
US20180349327A1 (en) * | 2017-06-05 | 2018-12-06 | Baidu Online Network Technology (Beijing)Co., Ltd. | Text error correction method and apparatus based on recurrent neural network of artificial intelligence |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN109598124A (zh) * | 2018-12-11 | 2019-04-09 | 厦门服云信息科技有限公司 | 一种webshell检测方法以及装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111460795A (zh) * | 2020-03-26 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种文本纠错方法及系统 |
CN111539309A (zh) * | 2020-04-21 | 2020-08-14 | 广州云从鼎望科技有限公司 | 一种基于ocr的数据处理方法、系统、平台、设备及介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
XU SONG等: "Research on Text Error Detection and Repair Method Based on Online Learning Community", PROCEDIA COMPUTER SCIENCE, pages 13 - 19 * |
唐晨;李勇华;饶梦妮;胡钢俊: "动态需求跟踪中多义关键词的语义判断方法", 计算机应用, no. 05 * |
徐健锋;苗夺谦;张远健: "基于混淆矩阵的多目标优化三支决策模型", 模式识别与人工智能, no. 09 * |
段建勇;关晓龙: "基于统计和特征相结合的查询纠错方法研究", 现代图书情报技术, no. 02 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128221A (zh) * | 2021-05-08 | 2021-07-16 | 聚好看科技股份有限公司 | 一种保存发言内容的方法、显示设备及服务器 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
WO2022267353A1 (zh) * | 2021-06-25 | 2022-12-29 | 北京市商汤科技开发有限公司 | 文本纠错的方法、装置、电子设备及存储介质 |
CN114328798A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN114328798B (zh) * | 2021-11-09 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 搜索文本的处理方法、装置、设备、存储介质和程序产品 |
CN116108857A (zh) * | 2022-05-30 | 2023-05-12 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
CN116108857B (zh) * | 2022-05-30 | 2024-04-05 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112560450B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN112560450A (zh) | 一种文本纠错方法及装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110807102B (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
WO2014002776A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110929498A (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN107958068B (zh) | 一种基于实体知识库的语言模型平滑方法 | |
CN114219337A (zh) | 一种服务质量评价方法、系统、设备及可读存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
JP2011008784A (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
CN109684357A (zh) | 信息处理方法及装置、存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |