CN113204966A - 语料增广方法、装置、设备及存储介质 - Google Patents

语料增广方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113204966A
CN113204966A CN202110638816.7A CN202110638816A CN113204966A CN 113204966 A CN113204966 A CN 113204966A CN 202110638816 A CN202110638816 A CN 202110638816A CN 113204966 A CN113204966 A CN 113204966A
Authority
CN
China
Prior art keywords
corpus
correct
word
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110638816.7A
Other languages
English (en)
Other versions
CN113204966B (zh
Inventor
赵芳煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Duxiaoman Youyang Technology Co ltd
Original Assignee
Chongqing Duxiaoman Youyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Duxiaoman Youyang Technology Co ltd filed Critical Chongqing Duxiaoman Youyang Technology Co ltd
Priority to CN202110638816.7A priority Critical patent/CN113204966B/zh
Publication of CN113204966A publication Critical patent/CN113204966A/zh
Application granted granted Critical
Publication of CN113204966B publication Critical patent/CN113204966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语料增广方法、装置、设备及存储介质,该方法包括:获取原始语料;确定原始语料中的正确语料和错误语料;确定错误语料中错误字词出现的频率;按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料;将第一语料添加至原始语料中。该方法解决了现有技术中可能引入大量生僻字的问题,使得训练数据能够更好地模拟真实场景下的错误,提高了语料质量,有助于后续模型的学习。

Description

语料增广方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域中的语言处理技术,尤其涉及一种语料增广方法、装置、设备及存储介质。
背景技术
语言是复杂的,中文相对于其他语言更加复杂,例如中文中容易出现同音、谐音、混淆音、形似等的字,这将导致在搜索引擎、人机对话、语音识别、内容审核等场景中需要提供强大的语料,以包括各种纠错语句等,如该语料中包括:同音、谐音、混淆音、形似等的字。
目前最常见的方法还是采用了构建同音、同形字表对语料中对应的字进行替换,以此来生成纠错语料。然而,由于中文同音同形字较多,对于特定场景,如金融领域的人机对话场景,这种无目标的替换字的方法,会引入较多无用的生僻字,使得训练数据无法较好地模拟真实场景下的错误,降低了语料的质量,不利于后续模型的学习。
发明内容
本申请提供一种语料增广方法、装置、设备及存储介质,使得训练数据能够更好地模拟真实场景下的错误,提高了语料质量,有助于后续模型的学习。
第一方面,提供一种语料增广方法,包括:获取原始语料;确定原始语料中的正确语料和错误语料;确定错误语料中错误字词出现的频率;按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料;将第一语料添加至原始语料中。
第二方面,提供一种语料增广装置,包括:获取模块、第一确定模块、第二确定模块、第一生成模块和第一添加模块,其中,获取模块用于获取原始语料;第一确定模块用于确定原始语料中的正确语料和错误语料;第二确定模块用于确定错误语料中错误字词出现的频率;第一生成模块用于按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料;第一添加模块用于将第一语料添加至原始语料中。
第三方面,提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或其各实现方式中的方法。
第四方面,提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
第五方面,提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。
第六方面,提供一种计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
通过本申请提供的技术方案,电子设备可以按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料,即模拟真实的错误语料,解决了上述现有技术中可能引入大量生僻字的问题,使得训练数据能够更好地模拟真实场景下的错误,提高了语料质量,有助于后续模型的学习。进一步地,本申请利用连续滑动分词和/或语言模型,从有限原始语料基础上快速提取了正确语料和错误语料,并且本申请通过语料增广模型可以生成与正确语料相似的语料,用于扩充正确语料,从而提高了语料的丰富性,并且如果该语料增广模型是Simbert模型,该模型得到的语料更加通顺且符合人类语言形式。并且可以利用目标音形编码得到与真实语料字词相似度最高的字词,有目标的替换真实正确语料中的字词,由于目标音形编码同时与同音、形似、谐音与方言、九宫格与全键盘错误等有关,使得基于该编码方式而进行的语料扩充能更好的模拟真实聊天场景中的输入错误。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语料增广方法的交互流程图;
图2为本申请实施例提供的通过滑动窗口对语句进行连续划分分词的示意图;
图3为本申请实施例提供的音形码的示意图;
图4为本申请实施例提供的音形码的示意图;
图5为本申请实施例提供的另一种语料增广方法的交互流程图;
图6为本申请实施例提供的一种语料增广装置600的示意图;
图7是本申请实施例提供的电子设备700的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
对于中文而言,容易出现同音、谐音、混淆音、形似等的字。例如:“蓝”和“篮”是同音,这两个字经常被用错。“四”和“事”是谐音关系,这两个音也经常被读错。常见的易混淆音标包括:“AN”–“ANG”,“Z”–“ZH”,“C”–“CH”,“EN”–“ENG”、“L”-“N”等,有些用户常常会将这“L”和“N”两个音混淆,例如:将“篮球”读作“南球”,而“刘”读作“牛”等,将“琅”读作“娘”。“贷”和“货”是形似的字,也容易被用错。因此,需要提供强大的语料,以包括各种纠错语句等,如该语料中包括:同音、谐音、混淆音、形似等的字。例如:该语料中包括:“贷”以及“贷”的形似字“货”。
如上所述,目前最常见的方法还是采用了构建同音、同形字表对语料中对应的字进行替换,以此来生成纠错语料。然而,由于中文同音同形字较多,对于特定场景,如金融领域的人机对话场景,这种无目标的替换字的方法,会引入较多无用的生僻字,使得客服机器人无法较好地模拟真实场景下的错误,降低了语料的质量。
为了解决上述技术问题,在本申请中,电子设备可以按照错误语料中错误字词出现的频率将正确语料中所述错误字词对应的正确字词替换为错误字词,以扩充或者增广原始语料。
可选的,本申请的应用场景是中文文本纠错,在使用深度学习模型来进行中文文本纠错时,首先需要大量的语料数据来进行模型的训练,这些用来训练的语料中需要同时有正确的句子和包含错别字的句子两种。一般在我们需要训练某个专业领域的模型时,这种专业领域的语料通常是十分有限的,可能需要大量的人工标注才能得到需要的语料,因此首要的问题就是解决数据的问题。本申请的目的就是,利用较少的原始语料来生成更多的语料,最后生成的语料可能是其中有30%的句子包含错别字的这种形式。
本申请技术方案可以由电子设备执行,该电子设备可以是人机对话中的“机”,如机器人或者其他智能设备,也可以是终端设备或者服务器等,本申请对此不做限制。
应理解的是,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、可穿戴设备等,但并不限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,但并不限于此。
下面将对本申请技术方案进行详细阐述:
图1为本申请实施例提供的一种语料增广方法的交互流程图,该方法的执行主体可以是上述电子设备,但不限于此,如图1所示,该方法包括如下步骤:
S110:电子设备获取原始语料。
S120:电子设备确定原始语料中的正确语料和错误语料。
S130:电子设备确定错误语料中错误字词出现的频率。
S140:电子设备按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料。
S150:电子设备将第一语料添加至原始语料中。
可选的,原始语料可以是未经处理的历史聊天记录,例如:在金融领域的人机交互场景中,该原始语料可以是未经处理的用户与机器人的历史聊天记录,包括:业务查询记录、业务响应记录等。
应理解的是,本申请技术方案目的在于扩充即增广原始语料中的语料,因此,该原始语料是相对于增广后的语料而言的。
应理解的是,语料也被称为语料库,通常,在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),也就是说,一个语料或者语料库包括至少一条语句。
可选的,电子设备可以通过如下任一可实现方式确定原始语料中的正确语料和错误语料,但不限于此:
可实现方式一:电子设备可以针对原始语料中任一个语句,对语句进行词频统计,得到语句的词频统计结果,根据原始语料中每个语句的词频统计结果确定原始语料中的正确语料和错误语料。
可实现方式二:电子设备可以针对原始语料中任一个语句,对语句进行打分,得到语句的打分结果,根据原始语料中每个语句的打分结果,确定原始语料中的正确语料和错误语料。
可实现方式三:电子设备可以针对原始语料中任一个语句,对语句进行词频统计,得到语句的词频统计结果,并且对该语句进行打分,得到语句的打分结果,根据原始语料中每个语句的词频统计结果和打分结果,确定原始语料中的正确语料和错误语料。
针对可实现方式一进行说明:
可选的,电子设备可以通过滑动窗口对语句进行连续划分分词,并确定语句中每个分词在原始语料中的词频。其中,该滑动窗口的大小和滑动步长可以根据实际情况设置,本申请对此不做限制。
示例性的,图2为本申请实施例提供的通过滑动窗口对语句进行连续划分分词的示意图,如图2所示,假设待处理语句是“您的贷款金额是五万”,滑动窗口的大小是2,即滑动窗口可以覆盖到2个字。滑动窗口的滑动步长是1,即滑动窗口每次的滑动距离是1个字。基于此,该语句被划分后的分词包括:“您的”、“的贷”、“贷款”、“款金”、“金额”、“额是”、“是五”、“五万”。
需要说明的是,电子设备也可以其他的分词方法对语句进行分词,本申请对此不做限制。
应理解的是,通常在原始语料中,包含错字的词较少,因此电子设备可以设置合适的预设词频,以将包含低于预设词频的词的语句确定为错误语句,否则将该语句确定为正确语句。由于用户的语言习惯不标准且不统一,可能会出现不常见的句式,导致某些正确的字词在经过滑动窗口分词后也成为低频词,因此可考虑若一个语句中出现连续多个,如两个低于预设词频的词,则将该语句确定为错误语句,否则将该语句确定为正确语句。基于此,本申请提供了如下两种可实现方式来根据原始语料中每个语句的词频统计结果,确定原始语料中的正确语料和错误语料,但不限于此:
一种可实现方式:针对每个语句,若语句中存在低于预设词频的词,则将语句确定为错误语句;将所有错误语句构成错误语料,并将原始语料中的其他语句构成正确语料。
另一种可实现方式:针对每个语句,若该语句中存在连续多个低于预设词频的词,则将语句确定为错误语句;将所有错误语句构成错误语料,并将原始语料中的其他语句构成正确语料。
应理解的是,在本申请中,电子设备可以将预设词频设置为0.05、0.1等,本申请对此不做限制。
需要说明的是,上述两种可实现方式还存在如下两种替换方案:
一种可实现方式:针对每个语句,若语句中存在低于或等于预设词频的词,则将语句确定为错误语句;将所有错误语句构成错误语料,并将原始语料中的其他语句构成正确语料。
另一种可实现方式:针对每个语句,若该语句中存在连续多个低于或等于预设词频的词,则将语句确定为错误语句;将所有错误语句构成错误语料,并将原始语料中的其他语句构成正确语料。
示例性的,由于“贷”和“货”是形似的字,因此,在人机交互的手写场景下,用户可能会将“贷款”写成“货款”,假设一个原始语料包括100个词,但是“货款”出现了5次,即该“货款”在原始语料中的词频是0.05,假设电子设备设置的预设词频为0.1,那么该“货款”被确定为错误的词,包括该“货款”的语句即为错误语句,例如:“您的货款金额是五万”是错误语句。
示例性的,由于“贷”和“货”是形似的字,因此,在人机交互的手写场景下,用户可能会将“贷款”写成“货款”,同时,由于“金”和“全”是形似的字,因此,在人机交互的手写场景下,用户可能会将“金额”写成“全额”。假设一个原始语料包括100个词,但是“货款”出现了5次,即该“货款”在原始语料中的词频是0.05,但是“全额”出现了3次,即该“全额”在原始语料中的词频是0.03,假设电子设备设置的预设词频为0.1,那么该“货款”和“全额”均被确定为错误的词,包括连续的“货款”和“货款”的语句即为错误语句,例如:“您的货款全额是五万”是错误语句。
针对可实现方式二进行说明:
可选的,针对原始语料中的任一个语句,电子设备可以将该语句输入语句打分模型中,以得到该语句的打分结果。
应理解的是,该语句打分模型用于给语句打分,其输入是语句,输出是语句的打分结果,其中,语句的打分越高,表示该语句是正确语句的概率越大,相反,语句的打分越低,表示该语句是错误语句的概率越大,总之,本申请对该语句打分模型不做限制。
应理解的是,通过语句打分模型得到的打分结果可以是十份制或者百分制的打分结果,本申请对此不做限制。
可选的,若语句中的打分结果小于预设打分,则电子设备将该语句确定为错误语句。或者,若语句中的打分结果小于或等于预设打分,则电子设备将该语句确定为错误语句。
应理解的是,在本申请中,假设采用的十份制的打分制度,那么电子设备可以将预设打分设置为0.1、0.2等,本申请对此不做限制。假设采用的百分制的打分制度,那么电子设备可以将预设打分设置为10、20等,本申请对此不做限制。
示例性的,假设电子设备将“您的货款金额是五万”输入至语句打分模型,该语句的得分是0.1,假设电子设备设置的预设打分是0.2,基于此,电子设备将该语句确定为错误语句。
针对可实现方式三进行说明:
应理解的是,可实现方式三是可实现方式一和二的结合,基于此,可实现方式三的解释说明可参考可实现方式一和二的解释说明。
示例性的,由于“贷”和“货”是形似的字,因此,在人机交互的手写场景下,用户可能会将“贷款”写成“货款”,假设一个原始语料包括100个词,但是“货款”出现了5次,即该“货款”在原始语料中的词频是0.05,假设电子设备设置的预设词频为0.1,0.05小于0.1。并且假设电子设备将“您的货款金额是五万”输入至语句打分模型,该语句的得分是0.1,假设电子设备设置的预设打分是0.2,0.1小于0.2。综上,该语句中包括低于预设词频的词,并且该语句的打分也低于预设打分,基于此,电子设备将该语句确定为错误语句。
示例性的,由于“贷”和“货”是形似的字,因此,在人机交互的手写场景下,用户可能会将“贷款”写成“货款”,同时,由于“金”和“全”是形似的字,因此,在人机交互的手写场景下,用户可能会将“金额”写成“全额”。假设一个原始语料包括100个词,但是“货款”出现了5次,即该“货款”在原始语料中的词频是0.05,但是“全额”出现了3次,即该“全额”在原始语料中的词频是0.03,假设电子设备设置的预设词频为0.1,那么该“货款”和“全额”均被确定为错误的词。并且假设电子设备将“您的货款全额是五万”输入至语句打分模型,该语句的得分是0.05,假设电子设备设置的预设打分是0.2,0.05小于0.2。综上,该语句中包括低于预设词频的词,并且该语句的打分也低于预设打分,基于此,电子设备将该语句确定为错误语句。
可选的,电子设备在确定了原始语料中的正确语料和错误语料之后,还可以进一步地扩充正确语料。
可选的,电子设备可以将正确语料输入至语料增广模型中,以得到更多数量的正确语料。
可选的,该语料增广模型可以是深度学习模型,例如是Simbert模型,但不限于此。其中,Simbert模型针对输入的正确语料,可自动生成自定义数量的新的正确语料。
应理解的是,为了根据正确语料尽可能模拟生成真实的错误语料,从上述原始语料区分得到的错误语料中统计错误字词出现的频率,按照该频率对正确语料中对应的字词进行一定比例的替换。
可选的,电子设备可以将正确语料中错误字词对应的正确字词中第一比例的正确字词替换为错误字词,以生成第一语料。其中,第一比例为错误语料中错误字词出现的频率。或者,电子设备可以将正确语料中错误字词对应的正确字词中第二比例的正确字词替换为错误字词,以生成第一语料。其中,第二比例与上述第一比例有关,例如:第二比例等于第一比例与0.01之和。总之,本申请对如何按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,不做限制。
示例性的,假设“贷”在上述原始语料区分得到的错误语料中有5%的概率被错误输入为“货”,则相应的在正确语料中按5%的比例将“贷”替换为“货”,经过该步骤处理后的数据基本模拟了真实错误。
综上,在本申请中,电子设备按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料,即模拟真实的错误语料,该步骤解决了上述现有技术中可能引入大量生僻字的问题,使得训练数据能够更好地模拟真实场景下的错误,提高了语料质量,有助于后续模型的学习。进一步地,本申请利用连续滑动分词和/或语言模型,从有限原始语料基础上快速提取了正确语料和错误语料,并且本申请通过语料增广模型可以生成与正确语料相似的语料,用于扩充正确语料,从而提高了语料的丰富性,并且如果该语料增广模型是Simbert模型,该模型得到的语料更加通顺且符合人类语言形式。
应理解的是,为了解决中文中的同音、谐音、混淆音、形似字导致的错误问题,目前还提供了音形码(Sound Shape Code,SSC)的概念,音形码是一种汉字的编码方式,该编码将一个汉字转化成一个十位字母数字序列,并在一定程度上保留了该汉字的发音及字形的特征。
图3为本申请实施例提供的音形码的示意图,如图3所示,该音形码包括两部分:音码部分和字形码。
第一部分是音码部分,主要覆盖了韵母,声母,补码以及声调的内容。
如图3所示,音码部分的第一位是韵母位,通过简单的替代规则,将汉字的韵母部分映射到一个字符位。汉字的拼音中一共有24种韵母,其中部分为了后期计算目的,采用相同的字符来替代,表1是一张完整的匹配表:
表1
Figure BDA0003106873810000091
Figure BDA0003106873810000101
如图3所示,音码部分的第一位是声母位,同样的,也是利用一张替换表,即表2来将声母转换成字符:
表2
b 1 p 2 m 3 f 4
d 5 t 6 n 7 l 7
g 8 k 9 h A j B
q C x D zh E ch F
sh G r H z E c F
s G y l w J
如图3所示,第三位则是补码,通常用于当声母和韵母之间还有一个辅音的时候,采用的是韵母表相同的替代规则。
如图3所示,第四位是声调位,分别用1,2,3,4来替代汉字中的四声。
如图3所示,第二部分是字形码。
如图3所示,第二部分的第一位被称为结构位,根据中文的不同结构,用一个字符来表示该汉字的结构,如图表3所示。
表3
Figure BDA0003106873810000102
Figure BDA0003106873810000111
接下来的四位,则依然是借用了四角编码,来描述该汉字的形态。其中,四角编码方式根据汉字所含的单笔或复笔对汉字进行编号,取汉字的左上角,右上角,左下角以及右下角四个角的笔形,将汉字转化成最多五位的阿拉伯数字。例如:量用6010表示。
如图3所示,第二部分的最后一位,是汉字的笔画数位,从一到九,分别代表该汉字的笔画为一到九,接下来是A代表10位,B代表11位,并依次类推,Z代表35位,以及任何超过35位的都用Z表示。
例如:图4为本申请实施例提供的音形码的示意图,如图4所示,该音形码是“琅”字的音形码。
然而,目标的音形编码未考虑到当用户所使用的输入法,例如:九宫格键盘和全键盘输入法,导致用户本来要点击的键,却误操作点击了该键周围的某个键,从而造成输入错误,这种错误形式通常不具有音似或形似的特性,因此在原有音形编码的基础上,本申请加入了可代表汉字的九宫格和全键盘位置的信息,表4所示的是九宫格中各个字母所对应的字符:
表4
Figure BDA0003106873810000112
表5所示的是全键盘中各个字母所对应的字符:
表5
Figure BDA0003106873810000113
Figure BDA0003106873810000121
通常确定声母和韵母就可确定某个汉字的音,因此可依据表4和表5得到汉字拼音中声母第一个字母和韵母第一个字母的四位编码,再与原音形编码组合,得到最终的音形编码,即目标音形编码。
示例性的,假设目标音形编码是音形九宫格编码,那么“琅”的音形九宫格编码为“F70211313B2232”,其中,后四位22和32分别是表4中声母第一个字母L对应的(2,2)和韵母第一个字母A对应的(3,2)。假设目标音形编码是音形全键盘编码,那么“琅”的音形九宫格编码为“F70211313B3I32”,其中,后四位3I和32分别是表5中声母第一个字母L对应的(3,I)和韵母第一个字母A对应的(3,2)。
进一步地,针对上述得到的正确语料中的任一个正确语句,电子设备在该正确语句中选择至少一个字。其中,该正确语料可以是通过原始语料区分得到的正确语料,也可以是经过扩充后得到的正确语料,本申请对此不做限制。
可选的,电子设备可以在该正确语句中随机选取至少一个字,也可以采用其他的选取方式来选取至少一个字,本申请对此不做限制。
应理解的是,本申请对在正确语句中选择的字的数量不做限制,例如可以选取1至3个字。
进一步地,电子设备可以针对至少一个字中的每个字,根据字的编码序列确定字对应的相似字,并将字替换为相似字,待电子设备中的部分或者全部正确语句中都进行了相似字替换之后,这些正确语句构成的正确语料便是第二语料。例如:如上所述,原始音形编码包括音形码、字形码两部分,而本申请提供的目标音形编码在原始音形编码的基础上还增加了输入码,即九宫格或者全键盘输入法对应的字符,因此,电子设备在计算两个字的相似度时,可以分别计算两个字的音形码的相似度、字形码的相似度以及输入码的相似度,并对三者进行加权平均求和,最终得到两个字的相似度。
可选的,电子设备在根据字的编码序列确定字对应的相似字时,可以选择相似度最高的字作为该字对应的相似字,本申请对此不做限制。
应理解的是,本申请对如何计算两个字的音形码的相似度、字形码的相似度以及输入码的相似度不做限制,并且对如何根据两个字的音形码的相似度、字形码的相似度以及输入码的相似度,计算两个字的相似度不做限制。
综上,在本申请中,利用目标音形编码得到与真实语料字词相似度最高的字词,有目标的替换真实正确语料中的字词,由于目标音形编码同时与同音、形似、谐音与方言、九宫格与全键盘错误等有关,使得基于该编码方式而进行的语料扩充能更好的模拟真实聊天场景中的输入错误。
图5为本申请实施例提供的另一种语料增广方法的交互流程图,该方法的执行主体可以是上述电子设备,但不限于此,如图5所示,该方法包括如下步骤:
S501:电子设备获取原始语料。
S502:电子设备确定原始语料中的正确语料和错误语料。
S503:电子设备将正确语料输入至语料增广模型中,以得到更多数量的正确语料。
S504:电子设备确定错误语料中错误字词出现的频率。
S505:电子设备按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料。
S506:电子设备将第一语料添加至原始语料中。
S507:电子设备针对正确语料的任一个字,采用目标音形编码方式对字进行编码,得到字的编码序列,目标音形编码方式与字的输入方式有关。
S508:电子设备针对正确语料中的任一个正确语句,在正确语句中选择至少一个字。
S509:电子设备针对至少一个字中的每个字,根据字的编码序列确定字对应的相似字,并将字替换为相似字,以生成第二语料。
S510:电子设备将第二语料添加至原始语料中。
需要说明的是,本实施例是对上述所有实施例的结合,其各个步骤的解释说明可参考上文,本申请对此不再赘述。
图6为本申请实施例提供的一种语料增广装置600的示意图,如图6所示,该装置600包括:
获取模块601,用于获取原始语料。
第一确定模块602,用于确定原始语料中的正确语料和错误语料。
第二确定模块603,用于确定错误语料中错误字词出现的频率。
第一生成模块604,用于按照错误语料中错误字词出现的频率将正确语料中错误字词对应的正确字词替换为错误字词,以生成第一语料。
第一添加模块605,用于将第一语料添加至原始语料中。
可选的,第一生成模块604具体用于:将正确语料中错误字词对应的正确字词中第一比例的正确字词替换为错误字词,以生成第一语料。其中,第一比例为错误语料中错误字词出现的频率。
可选的,该装置600还包括:
编码模块606,用于针对正确语料的任一个字,采用目标音形编码方式对字进行编码,得到字的编码序列,目标音形编码方式与字的输入方式有关。
选择模块607,用于针对正确语料中的任一个正确语句,在正确语句中选择至少一个字。
第三确定模块608,用于针对至少一个字中的每个字,根据字的编码序列确定字对应的相似字,并将字替换为相似字,以生成第二语料。
第二添加模块609,用于将第二语料添加至原始语料中。
可选的,第一确定模块602具体用于:针对原始语料中任一个语句,对语句进行词频统计,得到语句的词频统计结果,和/或,对语句进行打分,得到语句的打分结果。根据原始语料中每个语句的词频统计结果和/或每个语句的打分结果,确定原始语料中的正确语料和错误语料。
可选的,第一确定模块602具体用于:对语句进行词频统计,得到语句的词频统计结果,包括:通过滑动窗口对语句进行连续划分分词。确定语句中每个分词在原始语料中的词频。
可选的,第一确定模块602具体用于:将语句输入语句打分模型中,以得到语句的打分结果。
可选的,第一确定模块602具体用于:针对每个语句,若语句中存在低于预设词频的词,则将语句确定为错误语句。或者,若语句中的打分结果小于预设打分,则将语句确定为错误语句。或者,若语句中存在低于预设词频的词,且语句中的打分结果小于预设打分,则将语句确定为错误语句。将所有错误语句构成错误语料,并将原始语料中的其他语句构成正确语料。
可选的,第一确定模块602具体用于:针对每个语句,若语句中存在连续多个低于预设词频的词,则将语句确定为错误语句。或者,若语句中的打分结果小于预设打分,则将语句确定为错误语句。或者,若语句中存在连续多个低于预设词频的词,且语句中的打分结果小于预设打分,则将语句确定为错误语句。将所有错误语句都成错误语料,并将原始语料中的其他语句构成正确语料。
可选的,该装置600还包括:处理模块610,用于将正确语料输入至语料增广模型中,以得到更多数量的正确语料。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图6所示的装置600可以执行上述方法实施例,并且装置600中的各个模块的前述和其它操作和/或功能分别为了实现各个方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置600。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图7是本申请实施例提供的电子设备700的示意性框图。
如图7所示,该电子设备700可包括:
存储器710和处理器720,该存储器710用于存储计算机程序,并将该程序代码传输给该处理器720。换言之,该处理器720可以从存储器710中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器720可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器720可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器710包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器710中,并由该处理器720执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图7所示,该电子设备还可包括:
收发器730,该收发器730可连接至该处理器720或存储器710。
其中,处理器720可以控制该收发器730与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器730还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上该,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (12)

1.一种语料增广方法,其特征在于,包括:
获取原始语料;
确定所述原始语料中的正确语料和错误语料;
确定所述错误语料中错误字词出现的频率;
按照所述错误语料中错误字词出现的频率将所述正确语料中所述错误字词对应的正确字词替换为所述错误字词,以生成第一语料;
将所述第一语料添加至所述原始语料中。
2.根据权利要求1所述的方法,其特征在于,所述按照所述错误语料中错误字词出现的频率将所述正确语料中所述错误字词对应的正确字词替换为所述错误字词,以生成第一语料,包括:
将所述正确语料中所述错误字词对应的正确字词中第一比例的正确字词替换为所述错误字词,以生成所述第一语料;
其中,所述第一比例为所述错误语料中错误字词出现的频率。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
针对所述正确语料的任一个字,采用目标音形编码方式对所述字进行编码,得到所述字的编码序列,所述目标音形编码方式与所述字的输入方式有关;
针对所述正确语料中的任一个正确语句,在所述正确语句中选择至少一个字;
针对所述至少一个字中的每个字,根据所述字的编码序列确定所述字对应的相似字,并将所述字替换为所述相似字,以生成第二语料;
将所述第二语料添加至所述原始语料中。
4.根据权利要求1或2所述的方法,其特征在于,所述确定所述原始语料中的正确语料和错误语料,包括:
针对所述原始语料中任一个语句,对所述语句进行词频统计,得到所述语句的词频统计结果,和/或,对所述语句进行打分,得到所述语句的打分结果;
根据所述原始语料中每个语句的词频统计结果和/或所述每个语句的打分结果,确定所述原始语料中的正确语料和错误语料。
5.根据权利要求4所述的方法,其特征在于,所述对所述语句进行词频统计,得到所述语句的词频统计结果,包括:
通过滑动窗口对所述语句进行连续划分分词;
确定所述语句中每个分词在所述原始语料中的词频。
6.根据权利要求4所述的方法,其特征在于,对所述语句进行打分,得到所述语句的打分结果,包括:
将所述语句输入语句打分模型中,以得到所述语句的打分结果。
7.根据权利要求4所述的方法,其特征在于,所述根据所述原始语料中每个语句的词频统计结果和/或所述每个语句的打分结果,确定所述原始语料中的正确语料和错误语料,包括:
针对所述每个语句,若所述语句中存在低于预设词频的词,则将所述语句确定为错误语句;或者,
若所述语句中的打分结果小于预设打分,则将所述语句确定为错误语句;或者,
若所述语句中存在低于预设词频的词,且所述语句中的打分结果小于预设打分,则将所述语句确定为错误语句;
将所有所述错误语句构成所述错误语料,并将所述原始语料中的其他语句构成所述正确语料。
8.根据权利要求4所述的方法,其特征在于,所述根据所述原始语料中每个语句的词频统计结果和/或所述每个语句的打分结果,确定所述原始语料中的正确语料和错误语料,包括:
针对所述每个语句,若所述语句中存在连续多个低于预设词频的词,则将所述语句确定为错误语句;或者,
若所述语句中的打分结果小于预设打分,则将所述语句确定为错误语句;或者,
若所述语句中存在连续多个低于预设词频的词,且所述语句中的打分结果小于预设打分,则将所述语句确定为错误语句;
将所有所述错误语句都成所述错误语料,并将所述原始语料中的其他语句构成所述正确语料。
9.根据权利要求1或2所述的方法,其特征在于,所述确定所述原始语料中的正确语料和错误语料之后,还包括:
将所述正确语料输入至语料增广模型中,以得到更多数量的正确语料。
10.一种语料增广装置,其特征在于,包括:
获取模块,用于获取原始语料;
第一确定模块,用于确定所述原始语料中的正确语料和错误语料;
第二确定模块,用于确定所述错误语料中错误字词出现的频率;
第一生成模块,用于按照所述错误语料中错误字词出现的频率将所述正确语料中所述错误字词对应的正确字词替换为所述错误字词,以生成第一语料;
第一添加模块,用于将所述第一语料添加至所述原始语料中。
11.一种电子设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至9中任一项所述的方法。
CN202110638816.7A 2021-06-08 2021-06-08 语料增广方法、装置、设备及存储介质 Active CN113204966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110638816.7A CN113204966B (zh) 2021-06-08 2021-06-08 语料增广方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110638816.7A CN113204966B (zh) 2021-06-08 2021-06-08 语料增广方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113204966A true CN113204966A (zh) 2021-08-03
CN113204966B CN113204966B (zh) 2023-03-28

Family

ID=77024576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110638816.7A Active CN113204966B (zh) 2021-06-08 2021-06-08 语料增广方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113204966B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225374A1 (en) * 2017-02-07 2018-08-09 International Business Machines Corporation Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN111026884A (zh) * 2019-12-12 2020-04-17 南昌众荟智盈信息技术有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN111125323A (zh) * 2019-11-21 2020-05-08 腾讯科技(深圳)有限公司 一种聊天语料标注方法、装置、电子设备及存储介质
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN111639495A (zh) * 2020-04-28 2020-09-08 深圳壹账通智能科技有限公司 平行语料生成方法、装置、设备及存储介质
CN112417848A (zh) * 2019-08-19 2021-02-26 阿里巴巴集团控股有限公司 语料生成方法、装置及计算机设备
CN112560451A (zh) * 2021-02-20 2021-03-26 京华信息科技股份有限公司 一种自动生成训练数据的错别字校对方法及装置
US20210142789A1 (en) * 2019-11-08 2021-05-13 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225374A1 (en) * 2017-02-07 2018-08-09 International Business Machines Corporation Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion
CN111353025A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 平行语料处理方法、装置、存储介质及计算机设备
CN112417848A (zh) * 2019-08-19 2021-02-26 阿里巴巴集团控股有限公司 语料生成方法、装置及计算机设备
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
US20210142789A1 (en) * 2019-11-08 2021-05-13 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
CN111125323A (zh) * 2019-11-21 2020-05-08 腾讯科技(深圳)有限公司 一种聊天语料标注方法、装置、电子设备及存储介质
CN111026884A (zh) * 2019-12-12 2020-04-17 南昌众荟智盈信息技术有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN111639495A (zh) * 2020-04-28 2020-09-08 深圳壹账通智能科技有限公司 平行语料生成方法、装置、设备及存储介质
CN112560451A (zh) * 2021-02-20 2021-03-26 京华信息科技股份有限公司 一种自动生成训练数据的错别字校对方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈健: "基于统计模型的搜索引擎查询纠错系统", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN113204966B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US20210397780A1 (en) Method, device, and storage medium for correcting error in text
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
US11106879B2 (en) Multilingual translation device and method
CN108287858B (zh) 自然语言的语义提取方法及装置
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
CN110286778B (zh) 一种中文深度学习输入法、装置及电子设备
CN111914825B (zh) 文字识别方法、装置及电子设备
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
KR102220894B1 (ko) 통계 데이터베이스의 데이터를 대화형으로 제공하는 질의 답변 시스템
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN113204966B (zh) 语料增广方法、装置、设备及存储介质
CN110287483B (zh) 一种利用五笔字根深度学习的未登录词识别方法及系统
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN116910218A (zh) 知识库中扩展问自动挖掘方法及其装置
Dilawari et al. Neural attention model for abstractive text summarization using linguistic feature space
CN107423293A (zh) 数据翻译的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant