CN111523305A - 文本的纠错方法、装置和系统 - Google Patents
文本的纠错方法、装置和系统 Download PDFInfo
- Publication number
- CN111523305A CN111523305A CN201910044837.9A CN201910044837A CN111523305A CN 111523305 A CN111523305 A CN 111523305A CN 201910044837 A CN201910044837 A CN 201910044837A CN 111523305 A CN111523305 A CN 111523305A
- Authority
- CN
- China
- Prior art keywords
- error correction
- words
- text
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 310
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 180
- 238000012545 processing Methods 0.000 claims abstract description 104
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005057 refrigeration Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本的纠错方法、装置和系统。其中,该方法包括:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。本发明解决了现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的技术问题。
Description
技术领域
本发明涉及文本处理领域,具体而言,涉及一种文本的纠错方法、装置和系统。
背景技术
随着互联网的发展,与用户沟通的工作通常可以通过机器实现,例如,在电商场景中,卖家通常会询问客户一些常用的问题,例如,什么时候发货,有没有优惠,身高xx体重xx需要选择什么码,退货地址是什么等,对于这些涉及售前、售后等一些列流程,卖家会通过智能客服与用户沟通,从而节省了客服人员的人力,也提高对用户提问的响应速度。但存在的问题是,用户在提问时所使用的语言包含大量的口语、缩略词,甚至错别字等不标准的语句,因此在响应用户回答的问题之前,需要对用户输入的语句进行纠错处理。
目前常用的纠错方法是通过seq2seq进行纠错,可以很好的融合各种纠错策略。但基于神经网络的模型训练方法通常需要大量的训练语料,从而通过训练语料学习拟合输入到输出的关系。在某些场景中,训练语料易于获取,例如关键词或商品搜索,通过对检索词和点击结果的匹配可以构造出大量训练语料。但在对话场景中,因为无法获得直接的反馈,且错误的语句比例较低,因此难以获得大量的语料,进而难以对神经网络进行充分的训练。
针对现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本的纠错方法、装置和系统,以至少解决现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的技术问题。
根据本发明实施例的一个方面,提供了一种文本的纠错方法,包括:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
根据本发明实施例的另一方面,还提供了一种文本的纠错装置,包括:获取模块,用于获取待纠错的语句;处理模块,用于使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;确定模块,用于根据文本纠错模型的处理结果确定语句的纠错结果。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时如下步骤:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
根据本发明实施例的另一方面,还提供了一种文本的纠错系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
在本发明实施例中,获取出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语中的任意一种或多种,并通过对获取的词语进行变型来构建训练语料,从而能够快速的获得用于训练文本纠错模型的训练语料,进而无需人为的进行训练语料的标记,不仅提高文本纠错模型的训练效率,还减少了训练文本纠错模型所浪费的人力,且可以大量扩充训练数据,并且有效的覆盖对话中出现的各种错误类型,以而提高文本纠错模型的准确度。
由此,本申请上述实施例解决了现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例1的一种文本的纠错方法的流程图;
图3是根据本申请实施例1的一种即时通信软件的界面示意图;
图4是根据本申请实施例1的一种与机器人客服对话的界面示意图;
图5是根据本申请实施例1的一种对对话文本进行纠错的流程图;
图6是根据本申请实施例1的一种可选的构建文本纠错模型的流程图;
图7是根据本申请实施例2的一种文本的纠错装置的示意图;以及
图8是根据本发明实施例4的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,还提供了一种文本的纠错方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本的纠错方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的纠错装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本的纠错方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的纠错方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的文本的纠错方法。图2是根据本发明实施例1的一种文本的纠错方法的流程图。
步骤S21,获取待纠错的语句。
具体的,上述带纠错的语句可以是用户输入的文本信息,或根据用户的语音信息识别得到的文本信息,还可以是从用户输入的图像信息中识别得到的文本信息。
在一种可选的实施例中,以智能客服的场景为例,用户在与智能客服的对话框中输入对话信息:请问我的订单什么时候发货,此时,用户输入的文本信息“请问我的订单什么时候发货”即为上述待纠错的语句。
在另一种可选的实施例中,以语音控制的场景为例,用户向智能空调发出语音信息:天气真热,开始制冷吧,此时,对用户发出的语音信息“天气真热,开启制冷吧”进行语音转文字的处理后得到文本信息为上述语句。
步骤S23,使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语。
在上述步骤中,文本纠错模型为通过训练得到的神经网络模型,训练语料可以从历史对话记录中获得。上述历史对话记录可以是用户与对话系统之间的历史对话记录,也可是用户在其他应用程序中,与其他用户或系统之间的历史对话记录。
在一种可选的实施例中,客户端可以获取用户在终端中授权可以获取的对话记录,例如,用户在即时通信软件中的对话记录,或用户与机器人客服之间的对话记录。从对话记录中获取正确的语句后,并通过对正确的语句进行变形,得到正确语句对应的错误语句。得到的每个错误语句与正确语句都能够构成一个训练语料。例如,对于正确语句“谢谢”,经过变形,可以得到“蟹蟹”以及“鞋鞋”,因此<蟹蟹,谢谢>,<鞋鞋,谢谢>均可以作为训练语料。
需要说明的是,上述文本纠错模型可以运行在对话系统的服务器端,但由于每个用户输入的习惯不同,因此上述记错模型还可以对每个用户建立其对应的文本纠错模型。如果由对话系统的服务器维护所有用户的文本纠错模型,则服务器的负载较大,容易影响运行的速度和稳定性,因此用户的文本纠错模型可以运行在用户终端的客户端上。
上述出现频率高于预设频率的错误词语可以是在历史对话记录中出现的频率高于预设频率的错误词语,对上述错误词语进行纠正处理,即可得到如<错误词语,正确词语>结构的训练语料。
上述缩写词语可以是根据业务场景所选择的缩写词语,对于商品来说,即可以为在商品的销售过程中对商品约定成俗的称呼,例如,对于化妆品卖家,选择的缩写词语可以是化妆品品牌的缩写词语。获取上述缩写词语的全称,即可得到如<缩写词语,全称词语>结构的训练语料。
上述正确词语也可以是根据业务场景选择的缩写词语,例如,用户经常输入的正确词语,对上述正确词语进行变型处理,得到正确词语对应的错误词语,从而即可得到如<错误词语,正确词语>结构的训练语料。
步骤S25,根据输出结果确定语句的纠错结果。
在一种可选的实施例中,仍以智能客服的场景为例,用户在与智能客服的对话框中输入对话信息:请问我的定单什么时候发货。此时,用户输入的文本信息“请问我的定单什么时候发货”即为上述待纠错的语句。其中,“定单”实际应为“订单”,该用户由于个人输入习惯导致待纠错的语句中存在错别字。纠错系统获取该待纠错的语句,基于纠错模型对该待纠错的语句进行纠错,得到该待纠错的语句的纠错结果“请问我的订单什么时候发货”,然后基于纠错结果查找该问题对应的答案。
在另一种可选的实施例中,再以语音控制的场景为例,用户向智能空调发出语音信息:天气真热,开始智能(制冷)吧。对该语音信息进行处理后得到文本“天气真热,开始智能吧”,其中的“智能”用于表示“制冷”,该用户由于个人语音习惯导致语句中存在错误的词语。纠错系统获取该待纠错的语句,基于纠错模型对该待纠错的语句进行纠错,得到该待纠错的语句的纠错结果“天气真热,开始制冷吧”,然后基于纠错结果对空调进行控制。
需要说明的是,上述方案用于在对目标用户发出的语句进行响应之前进行。例如,目标向智能客服系统发出语句,用于向智能客户提问,智能客服系统会根据用户的提问查找对应的答案,再将答案返回给用户,在本申请的方案中,在智能客服系统根据用户的提问查找答案之前,通过文本纠错模型对语句进行纠错,得到纠错结果,智能客服系统使用纠错结果查找答案。由于纠错结果有效的将用户输入的文本信息中的错误信息进行了纠正,从而使得智能客服系统能够对非标准的提问信息做出准确的回答。
本申请上述实施例获取出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语中的任意一种或多种,并通过对获取的词语进行变型来构建训练语料,从而能够快速的获得用于训练文本纠错模型的训练语料,进而无需人为的进行训练语料的标记,不仅提高文本纠错模型的训练效率,还减少了训练文本纠错模型所浪费的人力,且可以大量扩充训练数据,并且有效的覆盖对话中出现的各种错误类型,以而提高文本纠错模型的准确度。
由此,本申请上述实施例解决了现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的技术问题。
作为一种可选的实施例,上述方法还包括:接收语句,其中,语句包括如下至少之一:文本输入的语句和语音输入的语句;对语句进行初始处理,其中,初始处理包括如下至少一项:分词处理、繁体转简体处理以及数字转汉字处理。
上述步骤可以在获取待纠错的语句之前执行,上述待纠错的语句为用户向对话系统输入的内容,可以为用户输入的文本内容,也可以为根据用户输入的语音内容所转化的文本内容。
在一种可选的实施例中,以即时通信软件为例,用户在即时通信软件中录制语音信息,并发送至好友,接收到该语音信息的好友选择“语音转文本”将用户的语音信息转换为文本信息读取。经过“语音转文本”转换后的文本信息即为待纠错的语句。由于用于口音或环境干扰等问题,导致语音转文本处理得到的文本信息并不准确,因此其好友的终端在将语音信息转换为文本信息后,还对文本信息进行纠错,并将纠错前和纠错后的文本信息均返回给终端。
上述分词处理用于将目标文字切割成一个个单独的词,繁体转简体处理用于将待纠错的语句中的繁体文本转换为简体文本,数字转汉字处理用于将待纠错的语句中的数据转换为文字。
此处需要说明的是,虽然繁体以及数据并非错误文本,但会纠错模型纠错的难度,或对话系统识别的难度,因此,上述步骤将待纠错的语句中的词语进行标准化处理,从而降低纠错模型和对话系统的处理难度。
作为一种可选的实施例,文本纠错模型的处理结果包括:预测纠错结果和预测纠错结果对应的置信度,其中,根据输出结果确定语句的处理结果,包括:获取置信度阈值;将预测纠错结果的置信度和置信度阈值进行比对;如果预测纠错结果的置信度大于置信度阈值,将预测纠错结果作为语句的纠错结果;如果预测纠错结果的置信度小于或等于置信度阈值,将语句本身作为纠错结果。
由于纠错模型输出的预测纠错结果也并非完全准确,因此在纠错模型输出预测纠错结果后,需要对预测纠错结果的准确度进行判断。上述方案通过预测纠错结果的置信度对其准确程度进行判断。
上述置信度阈值用于判断当前纠错模型输出的预测结果是否可信。纠错模型输出了预测纠错结果和预测纠错结果对应的置信度,并根据该置信度,对预测纠错结果是否可用,进行判断。
具体的,上述置信度可以为属于(0,1)这一区间,用于表示预测纠错结果的可信程度。在一种可选的实施例中,可以设置上述置信度阈值为0.9。如果纠错模型对一个待纠错的语句的预测纠错结果的置信度为0.97,大于预设置信度阈值0.9,则确定该预测纠错结果可信,可以将该预测纠错结果作为语句的纠错结果。
在上述步骤中,如果预测纠错结果的置信度小于置信度阈值,则说明该预测纠错结果不可信,因此确定原待纠错的语句为正确的文本,无需纠正。
在一种可选的实施例中,可以设置上述置信度阈值为0.9。如果纠错模型对一个待纠错的语句的预测纠错结果的置信度为0.87,小于预设置信度阈值0.9,则确定该预测纠错结果不可信,因此可以将原待纠错的语句作为纠错结果输出,或反馈给下游处理模块。
作为一种可选的实施例,上述方法还包括:确定语句对应的任务,其中,任务用于表征语句在不同的应用场景下的处理模型,应用场景包括如下至少之一:问答场景、翻译场景和搜索场景;将语句的纠错结果和置信度作为处理模型的输入特征,得到任务的处理结果。
上述步骤可以在根据文本纠错模型的处理结果确定语句的纠错结果之后执行。具体的,上述语句对应的任务即为下游任务,指的是在对语句进行纠错之后需要还需要执行的任务。如果语句是对话场景收到的文本,在语句进行纠错后,需要根据计算与语句相匹配的答案,则计算答案即为下游任务,计算答案的对话模型即为下游任务的处理模型;如果语句是需要翻译的文本,在语句进行纠错后,需要对语句进行翻译,则翻译即为下游任务,翻译模型即为下游任务的处理模块。
在一种可选的实施例中,以下游任务为翻译进行说明,可以仅将语句发送至目标模型。例如,在预测纠错结果的置信度大于预设置信度阈值时,认为预设纠错结果为语句对应的正确文本,因此直接将预测纠错结果输入至翻译模型进行翻译。
还在一种可选的实施例中,仍以下游任务为翻译进行说明,可以将语句、预测纠错结果和预测纠错结果的置信度均输入至翻译模型,用于将原语句的信息也进行传递,预测纠错结果的置信度可以作为翻译模型的输入特征。
图3是根据本申请实施例1的一种即时通信软件的界面示意图,在一种可选的实施例中,仍以即时通信软件为例,用户在即时通信软件中录制语音信息“王杰的电话是多少”,并发送至好友,接收到该语音信息的好友选择“语音转文本”,经过“语音转文本”后得到语句“王姐的电话是多少”。再对语句进行纠错后得到就纠错结果“王杰的电话是多少”,因此向用户显示语句和纠错结果。
图4是根据本申请实施例1的一种与机器人客服对话的界面示意图,在一种可选的实施例中,以电商平台的机器人客服为例,用户输入语句“我的定单什么时候发货”,对该语句进行纠错的结果是“我的订单什么时候发货”,因此可以将该纠错结果返回给用户,在对话界面显示“请问您的问题是否为:我的订单什么时候发货”。如果用户选择确定,则机器人客服根据纠错后的文本为用户查找答案。
作为一种可选的实施例,上述方法还包括:显示纠错结果;或输出纠错结果对应的语音信息。
上述步骤可以在根据输出结果确定语句的纠错结果之后执行。在上述方案中,如果此次任务仅为对语句纠错,也即在对语句进行纠错后,没有其他的下游任务,则显示纠错结果,或将纠错结果通过TTS输出对应的语音。
图5是根据本申请实施例1的一种对对话文本进行纠错的流程图,结合图5所示,对对话文本进行纠错包括如下步骤:
S51,获取用户输入的文本。
具体的,用户输入的文本即为上述语句。用户输入文本可以包括用户输入的文字信息,还可以包括对用户输入的语音信息进行语音文字转换得到的文字信息。
在上述步骤中,用户将对话文本输入至对话框内,以向对话系统输入对话文本。
S52,对用户输入的文本进行初始处理。
上述初始处理可以是去噪声处理、向量化处理等,用于提高文本纠错模型的纠错准确度。
S53,获取线上文本纠错模型。
上述文本纠错模型可以文本纠错模型通过对训练语料训练得到,训练语料可以包括:从历史对话记录中获取的正确文本和根据正确文本生成的错误文本。获取线上文本纠错模型可以是直接调用线上的文本纠错模型对用户输入的文本进行纠错。
S54,判断模型输出结果的置信度是否高于阈值。在判断结果为是的情况下,进入步骤S56,在判断结果为否的情况下,进入步骤S55。
文本纠错模型对文本进行纠错的结果包括:模型预测的预测纠错结果和预测纠错结果对应的置信度,该置信度用于表示预测纠错结果的可信程度。系统还可以获取阈值,该阈值为置信度阈值,并将预测纠错结果的置信度与置信度阈值进行比对,当预测纠错结果的置信度小于或等于置信度阈值的情况下,认为该预测纠错结果不可信,当预测纠错结果的置信度大于置信度阈值的情况下,认为该预测纠错结果可信。
S55,返回原文本。
在认为该预测纠错结果不可信的情况下,认为用户输入的文本为正确的文本,因此返回原文本。
S56,是否有下游任务。在判断结果为是的情况下,进入步骤S58,否则进入步骤S57。
S57,返回纠错结果和置信度。
在没有下游任务的情况下,向用户返回文本纠错模型输出的纠错结果和置信度。
S58,输出纠错结果和置信度至下游任务模型。
上述下游任务模型用于执行下游任务,可以是对话任务或翻译任务,如果存在下游任务,则将纠错结果发送至下游任务,由下游任务模型根据纠错结果执行下游任务,还可以用户输入的原文本也输入至下游任务模型,并将纠错结果的置信度作为特征输入至下游任务模型。
作为一种可选的实施例,获取文本纠错模型的步骤包括:根据目标对象的历史对话记录构建训练语料;基于训练语料对网络模型进行训练,得到文本纠错模型。
上述步骤在通过文本纠错模型对语句进行纠错之前,构建文本纠错模型。
在一种可选的实施例中,由于每个用户的输入习惯或语音习惯不同,基于此可以分别训练对每个用户的文本纠错模型,因此上述历史对话记录可以是输入语句的目标用户在预设应用平台上的所有对话记录。例如,目标用户通过自己的账号登录购物平台,与机器人客户对话时输入语句,则可以获取目标用户的账号在购物平台上的所有对话记录,从中构建训练语料。
在另一种可选的实施例中,由于同一地域的用户的输入习惯和语音习惯具有较多相似点,而不同地域的用户的输入习惯和语音习惯具有加大差别,基于此可以训练不同地域的文本纠错模型,因此上述历史对话记录还可以是预设应用平台上,指定地域的部分或全部用户在指定时间段内的对话记录。例如,可以根据账号的IP地址所属区域,获取指定区域内所有用户在指定时间段内的对话记录,从中构建训练语料。
训练语料包括多组类似于<错误文本,正确文本>这种数据结果的数据,通过对初始网络模型进行训练,使初始网络模型能够通过学习训练语料来调整网络参数,进而能够根据错误文本预测出其对应的正确文本,得到文本纠错模型。
上神经网络模型可以为长短期记忆网络模型,基于所述训练语料对神经网络模型进行训练,得到所述文本纠错模型,可以是:将训练语料的文本特征信息输入至长短期记忆网络模型,进行反向传播得到文本纠错模型。
在一种可选的实施例中,可以使用基于Seq2Seq的NMT神经网络机器翻译模型进行训练,模型训练输入训练语料,该模型可以使用Encoder-Decoder架构,Encoder和Decoder分别使用多层的Bi-LSTM(Long Short-Term Memory,长短期记忆网络模型),并可以在Decoder中加入对Encoder的Attention注意力机制。模型训练涉及word embedding和hidden layer的调参,通过BP方式(Back Propagation,反向传播)训练。对训练语料进行切分,获取一份验证集。在模型训练中,验证集上指标停止下降时,完成模型训练。
作为一种可选的实施例,获取文本纠错模型的步骤还包括:获取测试语料;通过测试语料验证训练得到的文本纠错模型的评估参数,其中,评估参数包括如下一个或多个:准确率、召回率和调和平均值;如果评估参数高于预设参数阈值,则允许使用训练得到的文本纠错模型对语句进行纠错。
在上述步骤中,可以将测试语料中的错误文本输入至训练结果,使用训练结果对错误文本进行纠错,并根据训练结果对错误文本的纠错结果,确定训练结果的准确率、召回率和调和平均值。
上述测试语料用于对训练得到的模型的准确度进行测试,如果训练得到的模型的评估参数超过预设阈值,则说明该模型训练成功,可以作为文本纠错模型使用,如果训练得到的模型的评估参数未超过预设阈值,则说明该模型的准确度较低,即使作为纠错模型使用,也难以得到准确的纠错结果,因此还需要继续进行训练,以进一步修正网络参数,提高模型的准确程度。
在上述方案中,测试语料可以通过人工标注的方式获取,例如,可以人工对错误文本和错误文本对应的正确文本进行标注,得到<错误文本,正确文本>的测试语料;测试语料也可以从训练语料中获取,例如,可以从训练语料中进行采样,生成如<“你的威信是多少”,“你的微信是多少”>所示的测试数据,用于训练完的模型评估。
上述评估参数包括准确率、召回率和调和平均值中的一个或多个,如果仅包括一个,例如,评估参数即为准确率,则评估参数阈值即为准确率阈值,并将准确率与准确率阈值进行比对,如果准确率大于准确率阈值,则确定训练结果即为文本纠错模型,可以用于对语句进行纠错处理。
如果评估参数包括准确率、召回率和调和平均值,则可以设置准确率、召回率和调和平均值对应的权重,并根据训练结果的准确率、召回率和调和平均值和准确率、召回率和调和平均值的权重值计算加权,得到的加权结果即为评估参数。然后将训练结果的评估参数与评估参数阈值进行比对,如果评估参数小于或等于评估参数阈值,则需要继续对训练结果进行训练。
作为一种可选的实施例,在目标词语为出现频率高于预设频率的错误词语的情况下,获取根据目标词语构建的训练语料,包括:对历史对话记录中出现频率高于预设频率的错误词语进行标记;根据预设的纠错词表对错误词语进行纠错,得到错误词语对应的正确词语;构建错误词语与正确词语的对应关系,得到训练语料。
具体的,上述历史对话记录可以从日志中获取,例如,可以通过账号获取,错误词语即为对话系统无法识别的词语,纠错词表可以为预设的表单,包括错误词语与正确文本的对应关系,通过在纠错此表中查找错误词语,从而找到其所对应的正确文本,进而可以组成训练语料。
在一种可选的实施例中,查找到日志中次数大于第一预设值的语句“蟹蟹”,通过查找纠错词表,得到对应的正确文本为“谢谢”,因此可以构建训练语料<蟹蟹,谢谢>。
作为一种可选的实施例,在目标词语为选择的缩写词语的情况下,获取根据目标词语构建的训练语料,包括:获取选择的缩写词语对应的全称词语;构建缩写词语与全称词语的对应关系,得到训练语料。
上述选择的缩写词语可以是历史对话记录中出现次数大于第二预设值的词语缩写。
在一种可选的实施例中,查找到日志中次数大于第二预设值的词语“阿迪”,通过查找纠错词表,得到对应的正确文本为“阿迪达斯”,因此可以构建训练语料<阿迪,阿迪达斯>。
作为一种可选的实施例,在目标词语为设置的正确词语的情况下,获取根据目标词语构建的训练语料,包括:对设置的正确词语进行变型,得到正确词语对应的至少一个错误词语;构建正确词语与正确词语对应的至少一个错误词语的对应关系,得到训练语料。
具体的,上述正确文本可以是历史对话记录中的正确文本,对正确文本进行变型,可以是对正确文本进行加、删、改(同音字、音近字、形近字)等方式构造一批错误文本,从而与正确文本构成训练语料。
例如:将“微信”中的微进行同音字变型,得到“威信”,从而得到一组训练语料<威信,微信>。
图6是根据本申请实施例1的一种可选的构建文本纠错模型的流程图,下面结合图6对构建文本纠错模型的步骤进行说明。
步骤S61,获取用户的对话日志。
获取的对话数据,可以包括通过设备获取对话系统的日志,或者使用公开的对话数据集。对话通常在双方或者多方进行,获取的对话数据可以保存为<timestamp,user,content>形式。
步骤S62,获取用于纠错的纠错词表。
通常对话系统上线之后可以根据日志标注出一批纠错词语,包括高频的词语,如“谢谢”输入为“蟹蟹”。除此之外,业务可能存在一批缩略词表,如“阿迪达斯”缩写为“阿迪“。另外通过加、删、改(同音字、音近字、形近字)等方式构造一批词表,如“微信”错误输入为“威信”。
步骤S63,构建文本纠错模型训练语料。
通过获取的纠错词表,可以在原始数据中进行关键字替换,得到一批<错误输入,正确输入>的训练伪语料,如<“你的威信是多少”,“你的微信是多少”>,用于模型训练。在中文数据上,可以使用分词的词粒度或者未分词的字粒度作为训练输入。
步骤S64,构建测试数据。
基于用户历史日志,使用人工标注数据或者和从伪语料中采样并进行标注的方式,生成一批高质量的测试数据:如<“你的威信是多少”,“你的微信是多少”>,用于训练完的模型评估。
步骤S65,神经网络模型训练。
可以使用Seq2Seq的NMT神经网络机器翻译模型进行训练,模型训练输入为步骤3构建的训练伪语料,模型可以使用Encoder-Decoder架构,Encoder和Decoder分别使用多层的Bi-LSTM模型,并且在Decoder中加入对Encoder的Attention注意力机制。模型训练涉及word embedding和hidden layer的调参,通过BP方式训练。对训练语料进行切分,获取一份验证集。在模型训练中,验证集上指标停止下降时,完成模型训练。
步骤S66,离线模型测试。
基于步骤S64构建的测试集评估文本纠错模型效果,评估方式是对模型预测的输出,与测试集结果进行匹配度计算,根据模型使用的训练语料粒度,计算字粒度或者词粒度的准确率、召回率和F值。
步骤S67,判断测试结果是否高于目标。如果测试结果高于目标,则进入步骤S68,否则进入步骤S63继续进行训练。
在上述步骤中,可以根据不同业务的需要确定不同的准确度,并基于确定的准确率判断模型是否达到要求,如果在测试集上效果优于目标,则说明训练的模型可以使用。
步骤S68,产出文本纠错模型。
将测试效果打标的模型保存,后续使用模型预测模块用于线上纠错。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本的纠错方法的文本的纠错装置,图7是根据本申请实施例2的一种文本的纠错装置的示意图,如图7所示,该装置700包括:
获取模块702,用于获取待纠错的语句。
处理模块704,用于使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语。
确定模块706,用于根据文本纠错模型的处理结果确定语句的纠错结果。
此处需要说明的是,上述获取模块702、处理模块704和确定模块706对应于实施例1中的步骤S21至步骤S25,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
作为一种可选的实施例,上述装置还包括:接收模块,用于接收语句,其中,语句包括如下至少之一:文本输入的语句和语音输入的语句;初始处理模块,用于对语句进行初始处理,其中,初始处理包括如下至少一项:分词处理、繁体转简体处理以及数字转汉字处理。
作为一种可选的实施例,文本纠错模型的处理结果包括:预测纠错结果和预测纠错结果对应的置信度,其中,确定模块包括:第一获取子模块,用于获取置信度阈值;比对子模块,用于将预测纠错结果的置信度和置信度阈值进行比对;第一确定子模块,用于如果预测纠错结果的置信度大于置信度阈值,将预测纠错结果作为语句的纠错结果;第二确定子模块,用于如果预测纠错结果的置信度小于或等于置信度阈值,将语句本身作为纠错结果。
作为一种可选的实施例,上述装置还包括:确定模块,用于确定语句对应的任务,其中,任务用于表征语句在不同的应用场景下的处理模型,应用场景包括如下至少之一:问答场景、翻译场景和搜索场景;输入模块,用于将语句的纠错结果和置信度作为处理模型的输入特征,得到任务的处理结果。
作为一种可选的实施例,上述装置还包括:显示模块,用于显示纠错结果;或输出模块,用于输出纠错结果对应的语音信息。
作为一种可选的实施例,上述装置还包括:模型获取模块,用于在获取待纠错的语句之前,获取文本纠错模型,其中,模型获取模块包括:第二获取子模块,用于获取根据目标词语构建的训练语料;训练子模块,用于基于训练语料对神经网络模型进行训练,得到文本纠错模型。
作为一种可选的实施例,模型获取模块还包括:第三获取子模块,用于获取测试语料;得到子模块,用于通过测试语料验证训练得到的文本纠错模型的评估参数,其中,评估参数包括如下一个或多个:准确率、召回率和调和平均值;允许子模块,用于如果评估参数高于预设参数阈值,则允许使用训练得到的文本纠错模型对语句进行纠错。
作为一种可选的实施例,神经网络模型为长短期记忆网络模型,训练子模块包括:输入单元,用于将错误文本的文本特征信息输入至长短期记忆网络模型,进行反向传播得到文本纠错模型。
作为一种可选的实施例,在目标词语为出现频率高于预设频率的错误词语的情况下,第二获取子模块包括:标记单元,用于对历史对话记录中出现频率高于预设频率的错误词语进行标记;纠错单元,用于根据预设的纠错词表对错误词语进行纠错,得到错误词语对应的正确词语;第一构建单元,用于构建错误词语与正确词语的对应关系,得到训练语料。
作为一种可选的实施例,在目标词语为选择的缩写词语的情况下,第二获取子模块包括:获取单元,用于获取选择的缩写词语对应的全称词语;第二构建单元,用于构建缩写词语与全称词语的对应关系,得到训练语料。
作为一种可选的实施例,在目标词语为设置的正确词语的情况下,第二获取子模块包括:变型单元,用于对设置的正确词语进行变型,得到正确词语对应的至少一个错误词语;第三构建单元,用于构建正确词语与正确词语对应的至少一个错误词语的对应关系,得到训练语料。
实施例3
本发明的实施例可以提供一种文本的纠错系统,包括:
处理器;以及
存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:
获取待纠错的语句;
使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;
根据文本纠错模型的处理结果确定语句的纠错结果。
上述系统中的存储器还为处理器提供处理实施例1中其他步骤的指令,此处不再赘述。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行文本的纠错方法中以下步骤的程序代码:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
可选地,图8是根据本发明实施例4的一种计算机终端的结构框图。如图8所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器802、存储器804、以及外设接口806。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本的纠错方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的纠错方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
可选的,上述处理器还可以执行如下步骤的程序代码:接收语句,其中,语句包括如下至少之一:文本输入的语句和语音输入的语句;对语句进行初始处理,其中,初始处理包括如下至少一项:分词处理、繁体转简体处理以及数字转汉字处理。
可选的,上述处理器还可以执行如下步骤的程序代码:文本纠错模型的处理结果包括:预测纠错结果和预测纠错结果对应的置信度,其中,获取置信度阈值;将预测纠错结果的置信度和置信度阈值进行比对;如果预测纠错结果的置信度大于置信度阈值,将预测纠错结果作为语句的纠错结果;如果预测纠错结果的置信度小于或等于置信度阈值,将语句本身作为纠错结果。
可选的,上述处理器还可以执行如下步骤的程序代码:确定语句对应的任务,其中,任务用于表征语句在不同的应用场景下的处理模型,应用场景包括如下至少之一:问答场景、翻译场景和搜索场景;将语句的纠错结果和置信度作为处理模型的输入特征,得到任务的处理结果。
可选的,上述处理器还可以执行如下步骤的程序代码:显示纠错结果;或输出纠错结果对应的语音信息。
可选的,上述处理器还可以执行如下步骤的程序代码:获取根据目标词语构建的训练语料;基于训练语料对神经网络模型进行训练,得到文本纠错模型。
可选的,上述处理器还可以执行如下步骤的程序代码:构建文本纠错模型的步骤还包括:获取测试语料;通过测试语料验证训练得到的文本纠错模型的评估参数,其中,评估参数包括如下一个或多个:准确率、召回率和调和平均值;如果评估参数高于预设参数阈值,则允许使用训练得到的文本纠错模型对语句进行纠错。
可选的,上述处理器还可以执行如下步骤的程序代码:神经网络模型为长短期记忆网络模型,将训练语料的文本特征信息输入至长短期记忆网络模型,进行反向传播得到文本纠错模型。
可选的,上述处理器还可以执行如下步骤的程序代码:对历史对话记录中出现频率高于预设频率的错误词语进行标记;根据预设的纠错词表对错误词语进行纠错,得到错误词语对应的正确词语;构建错误词语与正确词语的对应关系,得到训练语料。
可选的,上述处理器还可以执行如下步骤的程序代码:在目标词语为选择的缩写词语的情况下,获取选择的缩写词语对应的全称词语;构建缩写词语与全称词语的对应关系,得到训练语料。
可选的,上述处理器还可以执行如下步骤的程序代码:在目标词语为设置的正确词语的情况下,对设置的正确词语进行变型,得到正确词语对应的至少一个错误词语;构建正确词语与正确词语对应的至少一个错误词语的对应关系,得到训练语料。
采用本发明实施例,提供了一种文本的纠错方法。获取出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语中的任意一种或多种,并通过对获取的词语进行变型来构建训练语料,从而能够快速的获得用于训练文本纠错模型的训练语料,进而无需人为的进行训练语料的标记,不仅提高文本纠错模型的训练效率,还减少了训练文本纠错模型所浪费的人力,且可以大量扩充训练数据,并且有效的覆盖对话中出现的各种错误类型,以而提高文本纠错模型的准确度。
由此,本申请上述实施例解决了现有技术中在训练对话所使用的文本纠错模型时,由于训练语料难以获取,导致对文本纠错模型的训练不充分的技术问题。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端80还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本的纠错方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待纠错的语句;使用文本纠错模型对语句进行处理,其中,基于训练语料训练神经网络模型得到文本纠错模型,训练语料通过对目标词语进行预处理得到,目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据文本纠错模型的处理结果确定语句的纠错结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种文本的纠错方法,包括:
获取待纠错的语句;
使用文本纠错模型对所述语句进行处理,其中,基于训练语料训练神经网络模型得到所述文本纠错模型,所述训练语料通过对目标词语进行预处理得到,所述目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;
根据所述文本纠错模型的处理结果确定所述语句的纠错结果。
2.根据权利要求1所述的方法,其中,所述方法还包括:
接收所述语句,其中,所述语句包括如下至少之一:文本输入的语句和语音输入的语句;
对所述语句进行初始处理,其中,所述初始处理包括如下至少一项:分词处理、繁体转简体处理以及数字转汉字处理。
3.根据权利要求1所述的方法,其中,所述文本纠错模型的处理结果包括:预测纠错结果和所述预测纠错结果对应的置信度,其中,
根据所述文本纠错模型的处理结果确定所述语句的纠错结果,包括:
获取置信度阈值;
将所述预测纠错结果的置信度和所述置信度阈值进行比对;
如果所述预测纠错结果的置信度大于所述置信度阈值,将所述预测纠错结果作为所述语句的纠错结果;
如果所述预测纠错结果的置信度小于或等于所述置信度阈值,将所述语句本身作为所述纠错结果。
4.根据权利要求3所述的方法,其中,所述方法还包括:
确定所述语句对应的任务,其中,所述任务用于表征所述语句在不同的应用场景下的处理模型,所述应用场景包括如下至少之一:问答场景、翻译场景和搜索场景;
将所述语句的纠错结果和所述置信度作为所述处理模型的输入特征,得到所述任务的处理结果。
5.根据权利要求1所述的方法,还包括:
显示所述纠错结果;或
输出所述纠错结果对应的语音信息。
6.根据权利要求1至5中任意一项所述的方法,其中,
获取所述文本纠错模型的步骤包括:
获取根据所述目标词语构建的训练语料;
基于所述训练语料对神经网络模型进行训练,得到所述文本纠错模型。
7.根据权利要求6所述的方法,其中,获取所述文本纠错模型的步骤还包括:
获取测试语料;
通过所述测试语料验证训练得到的所述文本纠错模型的评估参数,其中,所述评估参数包括如下一个或多个:准确率、召回率和调和平均值;
如果所述评估参数高于预设参数阈值,则允许使用训练得到的所述文本纠错模型对语句进行纠错。
8.根据权利要求6所述的方法,其中,所述神经网络模型为长短期记忆网络模型,基于所述训练语料对神经网络模型进行训练,得到所述文本纠错模型,包括:
将所述训练语料的文本特征信息输入至所述长短期记忆网络模型,进行反向传播得到所述文本纠错模型。
9.根据权利要求6所述的方法,其中,在目标词语为出现频率高于预设频率的错误词语的情况下,获取根据所述目标词语构建的训练语料,包括:
对历史对话记录中出现频率高于所述预设频率的错误词语进行标记;
根据预设的纠错词表对所述错误词语进行纠错,得到所述错误词语对应的正确词语;
构建所述错误词语与所述正确词语的对应关系,得到所述训练语料。
10.根据权利要求6所述的方法,其中,在所述目标词语为选择的缩写词语的情况下,获取根据所述目标词语构建的训练语料,包括:
获取所述选择的缩写词语对应的全称词语;
构建所述缩写词语与所述全称词语的对应关系,得到所述训练语料。
11.根据权利要求6所述的方法,其中,在所述目标词语为设置的正确词语的情况下,获取根据所述目标词语构建的训练语料,包括:
对所述设置的正确词语进行变型,得到所述正确词语对应的至少一个错误词语;
构建所述正确词语与所述正确词语对应的至少一个错误词语的对应关系,得到所述训练语料。
12.一种文本的纠错装置,包括:
获取模块,用于获取待纠错的语句;
处理模块,用于使用文本纠错模型对所述语句进行处理,其中,基于训练语料训练神经网络模型得到所述文本纠错模型,所述训练语料通过对目标词语进行预处理得到,所述目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;
确定模块,用于根据所述文本纠错模型的处理结果确定所述语句的纠错结果。
13.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下步骤:获取待纠错的语句;使用文本纠错模型对所述语句进行处理,其中,基于训练语料训练神经网络模型得到所述文本纠错模型,所述训练语料通过对目标词语进行预处理得到,所述目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据所述文本纠错模型的处理结果确定所述语句的纠错结果。
14.一种处理器,所述处理器用于运行程序,其中,所述程序运行时如下步骤:获取待纠错的语句;使用文本纠错模型对所述语句进行处理,其中,基于训练语料训练神经网络模型得到所述文本纠错模型,所述训练语料通过对目标词语进行预处理得到,所述目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;根据所述文本纠错模型的处理结果确定所述语句的纠错结果。
15.一种文本的纠错系统,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取待纠错的语句;
使用文本纠错模型对所述语句进行处理,其中,基于训练语料训练神经网络模型得到所述文本纠错模型,所述训练语料通过对目标词语进行预处理得到,所述目标词语包括如下至少一种:出现频率高于预设频率的错误词语、选择的缩写词语以及设置的正确词语;
根据所述文本纠错模型的处理结果确定所述语句的纠错结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044837.9A CN111523305A (zh) | 2019-01-17 | 2019-01-17 | 文本的纠错方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044837.9A CN111523305A (zh) | 2019-01-17 | 2019-01-17 | 文本的纠错方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523305A true CN111523305A (zh) | 2020-08-11 |
Family
ID=71900062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910044837.9A Pending CN111523305A (zh) | 2019-01-17 | 2019-01-17 | 文本的纠错方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523305A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112700763A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112784611A (zh) * | 2021-01-21 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机存储介质 |
CN112905775A (zh) * | 2021-02-24 | 2021-06-04 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN113035175A (zh) * | 2021-03-02 | 2021-06-25 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN113160805A (zh) * | 2021-04-27 | 2021-07-23 | 中国建设银行股份有限公司深圳市分行 | 一种消息识别方法、装置、电子设备及存储介质 |
CN113221545A (zh) * | 2021-05-10 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质、程序产品 |
CN113239707A (zh) * | 2021-03-01 | 2021-08-10 | 北京小米移动软件有限公司 | 文本翻译方法、文本翻译装置及存储介质 |
CN113822054A (zh) * | 2021-07-05 | 2021-12-21 | 国网冀北电力有限公司 | 基于数据增强的中文语法纠错方法及装置 |
CN115455948A (zh) * | 2022-11-11 | 2022-12-09 | 北京澜舟科技有限公司 | 一种拼写纠错模型训练方法、拼写纠错方法及存储介质 |
CN115881108A (zh) * | 2022-09-02 | 2023-03-31 | 北京中关村科金技术有限公司 | 语音识别方法、装置、设备及存储介质 |
CN115983242A (zh) * | 2023-02-16 | 2023-04-18 | 北京有竹居网络技术有限公司 | 文本纠错方法、系统、电子设备以及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN108376129A (zh) * | 2018-01-24 | 2018-08-07 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
-
2019
- 2019-01-17 CN CN201910044837.9A patent/CN111523305A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106325537A (zh) * | 2015-06-23 | 2017-01-11 | 腾讯科技(深圳)有限公司 | 信息输入方法及装置 |
CN106610930A (zh) * | 2015-10-22 | 2017-05-03 | 科大讯飞股份有限公司 | 外语写作自动纠错方法及系统 |
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
CN108376129A (zh) * | 2018-01-24 | 2018-08-07 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
Non-Patent Citations (1)
Title |
---|
李德毅 等: "中国科协新一代信息技术系列丛书 人工智能导论", 30 April 2014, 北京:科学技术文献出版社, pages: 114 - 167 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036162A (zh) * | 2020-11-06 | 2020-12-04 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112036162B (zh) * | 2020-11-06 | 2021-02-12 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
WO2022095563A1 (zh) * | 2020-11-06 | 2022-05-12 | 北京世纪好未来教育科技有限公司 | 文本纠错的适配方法、装置、电子设备及存储介质 |
CN112700763A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112700763B (zh) * | 2020-12-26 | 2024-04-16 | 中国科学技术大学 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112784611A (zh) * | 2021-01-21 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机存储介质 |
CN112905775A (zh) * | 2021-02-24 | 2021-06-04 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN113239707A (zh) * | 2021-03-01 | 2021-08-10 | 北京小米移动软件有限公司 | 文本翻译方法、文本翻译装置及存储介质 |
CN113035175B (zh) * | 2021-03-02 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN113035175A (zh) * | 2021-03-02 | 2021-06-25 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN113160805A (zh) * | 2021-04-27 | 2021-07-23 | 中国建设银行股份有限公司深圳市分行 | 一种消息识别方法、装置、电子设备及存储介质 |
CN113221545A (zh) * | 2021-05-10 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质、程序产品 |
CN113221545B (zh) * | 2021-05-10 | 2023-08-08 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质、程序产品 |
CN113822054A (zh) * | 2021-07-05 | 2021-12-21 | 国网冀北电力有限公司 | 基于数据增强的中文语法纠错方法及装置 |
CN115881108A (zh) * | 2022-09-02 | 2023-03-31 | 北京中关村科金技术有限公司 | 语音识别方法、装置、设备及存储介质 |
CN115455948A (zh) * | 2022-11-11 | 2022-12-09 | 北京澜舟科技有限公司 | 一种拼写纠错模型训练方法、拼写纠错方法及存储介质 |
CN115983242A (zh) * | 2023-02-16 | 2023-04-18 | 北京有竹居网络技术有限公司 | 文本纠错方法、系统、电子设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523305A (zh) | 文本的纠错方法、装置和系统 | |
US11551007B2 (en) | Determining intent from a historical vector of a to-be-analyzed statement | |
CN111523306A (zh) | 文本的纠错方法、装置和系统 | |
CN109308357B (zh) | 一种用于获得答案信息的方法、装置和设备 | |
US10395646B2 (en) | Two-stage training of a spoken dialogue system | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN114254750A (zh) | 准确度损失确定方法以及装置 | |
CN107844470B (zh) | 一种语音数据处理方法及其设备 | |
CN111178537B (zh) | 一种特征提取模型训练方法及设备 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN115481229A (zh) | 一种应答话术推送方法、装置、电子设备及存储介质 | |
CN112447168A (zh) | 语音识别系统、方法、音箱、显示设备和交互平台 | |
CN113076403A (zh) | 一种用户消息处理方法及相关设备 | |
KR102391447B1 (ko) | 하이브리드 지능형 고객 상담장치 및 방법 | |
CN115905496B (zh) | 对话数据生成方法、模型训练方法、装置、设备及介质 | |
CN112559732A (zh) | 文本处理方法、装置和系统 | |
CN112906994B (zh) | 订单出餐时间预测方法、装置、电子设备及存储介质 | |
CN116189663A (zh) | 韵律预测模型的训练方法和装置、人机交互方法和装置 | |
WO2023050669A1 (zh) | 基于神经网络的信息推送方法、系统、设备及介质 | |
CN111046149A (zh) | 内容推荐方法及装置、电子设备及存储介质 | |
CN107967641A (zh) | 商品推荐方法、装置及计算机可读存储介质 | |
CN113157878A (zh) | 一种信息处理方法及装置 | |
CN112445898A (zh) | 对话情感分析方法及装置、存储介质及处理器 | |
CN113609266B (zh) | 资源处理方法以及装置 | |
CN114005439A (zh) | 确定话术的方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |