CN111475619A - 文本信息修正方法、装置、电子设备及存储介质 - Google Patents

文本信息修正方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111475619A
CN111475619A CN202010247416.9A CN202010247416A CN111475619A CN 111475619 A CN111475619 A CN 111475619A CN 202010247416 A CN202010247416 A CN 202010247416A CN 111475619 A CN111475619 A CN 111475619A
Authority
CN
China
Prior art keywords
text information
text
piece
information
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010247416.9A
Other languages
English (en)
Inventor
张子健
李世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010247416.9A priority Critical patent/CN111475619A/zh
Publication of CN111475619A publication Critical patent/CN111475619A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本申请公开了一种文本信息修正方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息;通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息;通过评分模型,分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分;根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取第一文本信息修正后的目标文本信息,提高了修正后的文本信息的准确率,扩大了应用范围,降低了修正错误率和修正失败率。

Description

文本信息修正方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种文本信息修正方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的迅速发展,文本信息广泛应用于人们日常生活的多个方面。在语音识别、文本发布等很多场景下都提供了文本修正功能,能够实现对文本信息的修正,提升文本信息的准确度。
然而,目前的文本修正方式通常是识别出文本信息中的错别字,将错别字替换成正确的字,准确率低下。
发明内容
本申请实施例提供了一种文本信息修正方法、装置、电子设备及存储介质,能够提高修正文本信息时的准确率,使得修正后的文本信息更为准确。该技术方案如下:
一方面,提供了一种文本信息修正方法,该方法包括:根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,所述预设数据库中包括文本信息与修正文本信息之间的对应关系;通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息;通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分;根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息。
在一种可能实现方式中,所述预设数据库中包括文本信息、所述文本信息的拼音信息以及修正文本信息之间的对应关系,所述根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,包括:对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;根据所述第一文本信息和所述第一拼音信息检索所述预设数据库,得到与所述第一文本信息和所述第一拼音信息对应的至少一条修正文本信息,作为第二文本信息。
在另一种可能实现方式中,所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息,包括:对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;通过所述文本生成模型对所述第一文本信息和所述第一拼音信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,所述通过所述文本生成模型对所述第一文本信息和所述第一拼音信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息;根据所述每条第一样本文本信息以及所述每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述预设数据库中的文本信息和修正文本信息均为词汇,所述根据所述第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,包括:对所述第一文本信息进行分词处理,得到至少一个第一词汇;根据所述至少一个第一词汇检索所述预设数据库,得到每个第一词汇对应的修正词汇;分别将获取到的至少一个修正词汇替换所述第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
在另一种可能实现方式中,所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息;根据所述每条第二样本文本信息和所述每条第二样本文本信息修正后的文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息,包括:从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分最高的文本信息,作为所述目标文本信息;或者,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分大于第一预设阈值的任一文本信息,作为所述目标文本信息;或者,按照评分从大到小的顺序,对所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息进行排序,选取序号小于第二预设阈值的任一文本信息,作为所述目标文本信息。
在另一种可能实现方式中,所述通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分之前,所述方法还包括:获取多条第三样本文本信息以及每条第三样本文本信息的评分;根据所述每条第三样本文本信息和所述每条第三样本文本信息的评分进行训练,得到所述评分模型。
在另一种可能实现方式中,所述方法还包括:获取所述第一文本信息以及所述第一文本信息的上下文文本信息;所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息,包括:通过所述文本生成模型对所述第一文本信息以及所述第一文本信息的上下文文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,所述通过所述文本生成模型对所述第一文本信息以及所述第一文本信息的上下文文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息;根据所述每条第四样本文本信息以及所述每条第四样本文本信息的上下文文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述根据第一文本信息检索预设数据库之前,所述方法还包括:获取原始文本信息;对所述原始文本信息进行预处理,得到所述第一文本信息。
在另一种可能实现方式中,所述预处理包括以下至少一项:小写转换处理;符号筛选处理;停用词筛选处理;频现词筛选处理;分词处理。
一方面,提供了一种文本信息修正装置,所述装置包括:检索模块,用于根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,所述预设数据库中包括文本信息与修正文本信息之间的对应关系;生成模块,用于通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息;评分模块,用于通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分;修正模块,用于根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息。
在一种可能实现方式中,所述预设数据库中包括文本信息、所述文本信息的拼音信息以及修正文本信息之间的对应关系,所述检索模块,包括:拼音转换单元,用于对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;检索单元,用于根据所述第一文本信息和所述第一拼音信息检索所述预设数据库,得到与所述第一文本信息和所述第一拼音信息对应的至少一条修正文本信息,作为第二文本信息。
在另一种可能实现方式中,所述生成模块,包括:拼音转换单元,用于对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;生成单元,用于通过所述文本生成模型对所述第一文本信息和所述第一拼音信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,所述装置还包括:生成样本获取模块,用于获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息;生成模型训练模块,用于根据所述每条第一样本文本信息以及所述每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述预设数据库中的文本信息和修正文本信息均为词汇,所述检索模块,包括:分词单元,用于对所述第一文本信息进行分词处理,得到至少一个第一词汇;检索单元,用于根据所述至少一个第一词汇检索所述预设数据库,得到每个第一词汇对应的修正词汇;替换单元,用于分别将获取到的至少一个修正词汇替换所述第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
在另一种可能实现方式中,所述装置还包括:生成样本获取模块,用于获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息;生成模型训练模块,用于根据所述每条第二样本文本信息和所述每条第二样本文本信息修正后的文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述修正模块,包括:选取单元,用于从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分最高的文本信息,作为所述目标文本信息;或者,所述选取单元,还用于从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分大于第一预设阈值的任一文本信息,作为所述目标文本信息;或者,所述选取单元,还用于按照评分从大到小的顺序,对所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息进行排序,选取序号小于第二预设阈值的任一文本信息,作为所述目标文本信息。
在另一种可能实现方式中,所述装置还包括:评分样本获取模块,用于获取多条第三样本文本信息以及每条第三样本文本信息的评分;评分模型训练模块,用于根据所述每条第三样本文本信息和所述每条第三样本文本信息的评分进行训练,得到所述评分模型。
在另一种可能实现方式中,所述装置还包括:上下文获取模块,用于获取所述第一文本信息以及所述第一文本信息的上下文文本信息;所述生成模块,包括:生成单元,用于通过所述文本生成模型对所述第一文本信息以及所述第一文本信息的上下文文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,所述装置还包括:生成样本获取模块,用于获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息;生成模型训练模块,用于根据所述每条第四样本文本信息以及所述每条第四样本文本信息的上下文文本信息进行训练,得到所述文本生成模型。
在另一种可能实现方式中,所述装置还包括:原始文本获取模块,用于获取原始文本信息;预处理模块,用于对所述原始文本信息进行预处理,得到所述第一文本信息。
在另一种可能实现方式中,所述预处理包括以下至少一项:小写转换处理;符号筛选处理;停用词筛选处理;频现词筛选处理;分词处理。
一方面,提供了一种电子设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的文本信息修正方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的文本信息修正方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的文本信息修正方法、装置、电子设备及存储介质,根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,通过文本生成模型对该第一文本信息进行处理,生成该第一文本信息修正后的至少一条第三文本信息,分别获取该第一文本信息、每条第二文本信息和每条第三文本信息的评分,根据该第一文本信息、该至少一条第二文本信息和该至少一条第三文本信息的评分,从该第一文本信息、该至少一条第二文本信息和该至少一条第三文本信息中选取该第一文本信息修正后的目标文本信息。其中,预设数据库中包括文本信息与修正文本信息之间的对应关系。本申请实施例将通过检索预设数据库修正文本信息的方式和通过文本生成模型修正文本信息的方式结合,增加了候选的修正文本信息的数量,在通过评分模型获取到的每个修正文本信息的评分后,根据评分选取目标文本信息,提高了目标文本信息的准确率。并且,对于任一文本信息,无论该文本信息是否在当前时刻之前出现过,均可以对该文本信息进行修正,得到该文本信息的修正文本信息,扩大了应用范围,降低了修正错误率和修正失败率。
并且,通过对第一文本信息进行拼音转换得到第一拼音信息,综合考虑第一文本信息和第一拼音信息对第一文本信息进行修正的方式,可以进一步提高修正文本信息时的准确率,获取更为准确的修正后的文本信息。
并且,综合考虑第一文本信息及对应的上下文文本信息进行修正的方式,获取到的修正后的文本信息与上下文文本信息之间的关联密切,具有承接关系,进一步提高了修正后的文本信息的准确率。
并且,通过对第一文本信息进行分词处理,以词汇为单位对第一文本信息进行修正的方式,修正过程更为精准,减少了修正幅度,能够有效提高文本信息的修正效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本信息修正方法的流程图;
图2是本申请实施例提供的另一种文本信息修正方法的流程图;
图3是本申请实施例提供的另一种文本信息修正方法的流程图;
图4是本申请实施例提供的另一种文本信息修正方法的流程图;
图5是本申请实施例提供的一种第二文本信息获取方法的流程图;
图6是本申请实施例提供的一种第三文本信息获取方法的流程图;
图7是本申请实施例提供的一种根据评分获取目标文本信息的方法流程图;
图8是本申请实施例提供的另一种文本信息修正方法的流程图;
图9是本申请实施例提供的另一种文本信息修正方法的流程图;
图10是本申请实施例提供的另一种第三文本信息获取方法的流程图
图11是本申请实施例提供的文本信息和拼音信息获取方法的流程图;
图12是本申请实施例提供的一种文本信息修正装置的结构示意图;
图13是本申请实施例提供的另一种文本信息修正装置的结构示意图;
图14是本申请实施例提供的终端的结构示意图;
图15是本申请实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种文本信息修正方法的流程图,应用于电子设备中,参见图1,该实施例包括:
在步骤101中,电子设备根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,预设数据库中包括文本信息与修正文本信息之间的对应关系。
在步骤102中,电子设备通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
在步骤103中,电子设备分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分。
在步骤104中,电子设备根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取第一文本信息修正后的目标文本信息。
本申请实施例提供的文本信息修正方法,电子设备根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息,分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分,根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取第一文本信息修正后的目标文本信息。其中,预设数据库中包括文本信息与修正文本信息之间的对应关系。本申请实施例将通过检索预设数据库修正文本信息的方式和通过文本生成模型修正文本信息的方式结合,增加了候选的修正文本信息的数量,在通过评分模型获取到的每个修正文本信息的评分后,根据评分选取目标文本信息,提高了目标文本信息的准确率。并且,对于任一文本信息,无论该文本信息是否在当前时刻之前出现过,均可以对该文本信息进行修正,得到该文本信息的修正文本信息,扩大了应用范围,降低了修正错误率和修正失败率。
在一种可能实现方式中,预设数据库中包括文本信息、文本信息的拼音信息以及修正文本信息之间的对应关系,根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,包括:
对第一文本信息进行拼音转换处理,得到第一文本信息的第一拼音信息;
根据第一文本信息和第一拼音信息检索预设数据库,得到与第一文本信息和第一拼音信息对应的至少一条修正文本信息,作为第二文本信息。
在另一种可能实现方式中,通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息,包括:
对第一文本信息进行拼音转换处理,得到第一文本信息的第一拼音信息;
通过文本生成模型对第一文本信息和第一拼音信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,通过文本生成模型对第一文本信息和第一拼音信息进行处理,生成第一文本信息修正后的至少一条第三文本信息之前,方法还包括:
获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息;
根据每条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,预设数据库中的文本信息和修正文本信息均为词汇,根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,包括:
对第一文本信息进行分词处理,得到至少一个第一词汇;
根据至少一个第一词汇检索预设数据库,得到每个第一词汇对应的修正词汇;
分别将获取到的至少一个修正词汇替换第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
在另一种可能实现方式中,通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息之前,方法还包括:
获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息;
根据每条第二样本文本信息和每条第二样本文本信息修正后的文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取第一文本信息修正后的目标文本信息,包括:
从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分最高的文本信息,作为目标文本信息;或者,
从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分大于第一预设阈值的任一文本信息,作为目标文本信息;或者,
按照评分从大到小的顺序,对第一文本信息、至少一条第二文本信息和至少一条第三文本信息进行排序,选取序号小于第二预设阈值的任一文本信息,作为目标文本信息。
在另一种可能实现方式中,通过评分模型,分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分之前,方法还包括:
获取多条第三样本文本信息以及每条第三样本文本信息的评分;
根据每条第三样本文本信息和每条第三样本文本信息的评分进行训练,得到评分模型。
在另一种可能实现方式中,方法还包括:
获取第一文本信息以及第一文本信息的上下文文本信息;
通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息,包括:
通过文本生成模型对第一文本信息以及第一文本信息的上下文文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,通过文本生成模型对第一文本信息以及第一文本信息的上下文文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息之前,方法还包括:
获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息;
根据每条第四样本文本信息以及每条第四样本文本信息的上下文文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,根据第一文本信息检索预设数据库之前,方法还包括:
获取原始文本信息;
对原始文本信息进行预处理,得到第一文本信息。
在另一种可能实现方式中,预处理包括以下至少一项:
小写转换处理;
符号筛选处理;
停用词筛选处理;
频现词筛选处理;
分词处理。
图2是本申请实施例提供的一种文本信息修正方法的流程图,参见图2,该实施例包括:
201、获取第一文本信息。
随着计算机技术的发展,文本信息在人们的日常生活中广泛应用。由于文本信息的表达形式多种多样,因此可能会存在文本信息有误的问题或者文本信息存在更为准确的表达形式的情况。为此,本申请实施例提供了一种文本信息修正方法,能够对文本信息进行修正,得到修正后的文本信息,以使修正后的文本信息的准确率不低于修正前的文本信息的准确率。
首先,电子设备获取待修正的文本信息,本申请实施例以第一文本信息为待修正的文本信息为例,对电子设备获取第一文本信息修正后的目标文本信息的过程进行说明。
其中,本申请实施例中的电子设备可以是终端,也可以是服务器。终端可以为手机、个人电脑、平板电脑等多种类型的设备。服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务器中心,本申请实施例对此不做具体限定。
在电子设备为终端的情况下,终端获取第一文本信息的方式可以为,终端从本地获取已存储的任一文本信息,作为第一文本信息,也可以为终端从其他设备中获取文本信息,作为第一文本信息,该其他设备可以为其他终端或服务器。
其中,服务器中的文本信息是一个或多个终端上传的。终端向服务器上传文本信息时,可以实时发送,也可以每隔第一预设时长发送一次,可以主动在获取到文本信息时发送,也可以是在接收到服务器发送的获取请求时发送,在此不做具体限定。
在一种可能实现方式中,电子设备获取原始文本信息,通过对该原始文本信息进行预处理,得到第一文本信息。该原始文本信息为直接从本地获取到的文本信息,或者为其他设备直接发送的文本信息。
其中,对原始文本信息执行的预处理包括以下至少一项:
(1)小写转换处理,即将原始文本信息中出现的大写字母转换为对应的小写字母。
(2)符号筛选处理,即将原始文本信息中出现的符号删除,该符号可以为标点符号、数学符号、数学序号、英文音标、特殊符号等中的至少一个。
(3)停用词筛选处理,即将原始文本信息中出现的停用词删除,该停用词可以是没有实际含义的功能词,也可以是含义多变、单独使用没有实际含义的词汇,还可以为预先设置的词汇等,在此不做具体限制。
(4)频现词筛选处理,即将原始文本信息中出现的频现词删除,该频现词为出现频率较高的词汇,例如出现频率高于预设频率的词汇。频现词可以通过已获取到的文本信息统计得到,也可以为预先设置的词汇,还可以为其他方式获取到的词汇,在此不做具体限制。
(5)分词处理,即将原始文本信息拆分为多个词汇,以后后续对每个词汇分别进行处理。该多个词汇中的每个词汇具有单独的含义,该多个词汇的含义整合后可以推断出原始文本信息的含义。
例如,电子设备获取到原始文本信息后,依次对该原始文本信息执行符号筛选处理和停用词筛选处理,得到去除符号和停用词后的文本信息,该文本信息即为预处理后得到的第一文本信息。
后续,电子设备可以对预处理后得到的第一文本信息进行修正,得到修正后的文本信息。
考虑到文本信息具有上下文文本信息,且与该上下文文本信息之间具有承接关系,因此,在另一种可能实现方式中,电子设备不仅获取第一文本信息,还获取了该第一文本信息的上下文文本信息。该上下文文本信息包括位于该第一文本信息之前的文本信息和位于该第一文本信息之后的文本信息中的至少一种。
后续,电子设备可以根据第一文本信息以及该第一文本信息的上下文文本信息进行修正,得到修正后的文本信息。
根据第一文本信息及对应的上下文文本信息进行修正的方式,不仅考虑到第一文本信息本身的含义,还考虑到了第一文本信息与上下文信息之间的合理性和一致性,可以更为准确地修正该第一文本信息。
202、根据第一文本信息检索预设数据库,得到该第一文本信息修正后的至少一条第二文本信息。
电子设备获取到第一文本信息后,可以根据该第一文本信息检索预设数据库,得到第一文本信息修正后的第二文本信息。其中,预设数据库中包括文本信息与修正文本信息之间的对应关系。
其中,预设数据库可以为技术人员根据经验编写后存储在电子设备上的,也可以是电子设备根据当前已获取到的多个语料信息建立的,还可以是通过其他方式得到的,在此不做具体限定。
在一种可能实现方式中,获取预设数据库的过程,包括:电子设备获取包括多个文本信息的语料库,根据该语料库中多个文本信息之间的关联关系,建立预设数据库。
由于第一文本信息在预设数据库中可能存在至少一条对应的修正文本信息,因此根据该第一文本信息检索预设数据库,可以得到至少一条第二文本信息,每条第二文本信息均可以作为第一文本信息的候选修正信息,后续可以从该至少一条第二文本信息中选取第一文本信息修正后的目标文本信息。
根据电子设备的不同,根据第一文本信息检索预设数据库,得到至少一条第二文本信息的过程至少包括以下情况:
(1)在一种可能实现方式中,电子设备包括终端,预设数据库存储在该终端中。当终端获取到第一文本信息时,根据该第一文本信息查询本端存储的预设数据库,得到该第一文本信息修正后的至少一条第二文本信息。
(2)在另一种可能实现方式中,电子设备包括终端和服务器,预设数据库存储在服务器中。当终端获取到第一文本信息时,终端向服务器发送文本获取请求,该文本获取请求携带终端标识和该第一文本信息,当服务器接收到终端发送的文本获取请求后,根据该第一文本信息检索预设数据库,得到该第一文本信息修正后的至少一条第二文本信息,然后将该至少一条第二文本信息发送至终端标识对应的终端。
其中,终端标识可以为唯一确定该终端的标识,该终端标识可以为终端的序列号、出厂编号、登录的用户账号等。本申请实施例对终端标识的具体形式不做限定。
本申请实施例中的第一文本信息,可以为一个词汇,也可以为包括多个词汇的语句或段落。当第一文本信息包括多个词汇时,针对每个词汇,均可能存在与该词汇对应的修正词汇。对该第一文本信息进行修正时,可以对整个第一文本信息进行修正,也可以以词汇为单位对该第一文本信息进行修正。
因此,在一种可能实现方式中,预设数据库中的文本信息和修正文本信息均为词汇,根据该第一文本信息检索预设数据库,得到该第一文本信息修正后的至少一条第二文本信息的过程,包括:电子设备对该第一文本信息进行分词处理,得到至少一个第一词汇,分别根据该至少一个第一词汇中的每个词汇检索预设数据库,得到每个第一词汇对应的修正词汇。分别将获取到的至少一个修正词汇替换第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
为了尽可能获取到准确率高的修正后的文本信息,在一种可能实现方式中,本申请实施例在获取到每个第一词汇对应的修正词汇后,首先每次仅对一个第一词汇进行替换,将替换后的修正词汇与其他第一词汇组合,构成一条第二文本信息,从而根据该多个第一词汇对应的修正词汇,获取第一数量条第二文本信息。然后,每次对两个第一词汇进行替换,将替换后的修正词汇与其他第一词汇组合,构成一条第二文本信息,从而获取第二数量条第二文本信息。依次类推,逐次增加替换的词汇数量,按照该词汇数量对该多个第一词汇进行替换,共获取到多条第二文本信息,最终获取到的第二文本信息的总数量不小于第一数量与第二数量之和。
采用该方式获取到的第二文本信息较为全面,可以避免第二文本信息的遗漏,能够为后续选取目标文本信息提供足够的依据。
在另一种可能实现方式中,本申请实施例还可以采用其他替换方式对该多个第一词汇进行替换,得到至少一条第二文本信息,在此不做具体限制。
以词汇为单位对该第一文本信息进行修正的方式,更为精准,修正幅度也较小,能够有效提高文本信息的修正效率。
考虑到预设数据库中的词汇不够全面,会存在预设数据库不包含通过分词处理得到的第一词汇的情况,因此,对于任一不在预设数据库中的第一词汇,该第一词汇无需被替换,可以与其他被替换的词汇组合,构成第二文本信息。
例如,对第一文本信息进行分词处理后,得到5个第一词汇,分别为词汇1、词汇2、词汇3、词汇4和词汇5。其中,词汇1、词汇3和词汇5未存储在预设数据库中,因此分别根据这5个第一词汇检索预设数据库后,仅得到了词汇2对应的修正词汇1以及词汇4对应的修正词汇2。将修正词汇1替换词汇2后,可以得到第一条第二文本信息,将修正词汇2替换词汇4后可以得到第二条第二文本信息,将修正词汇1替换词汇2且将修正词汇2替换词汇4后,可以得到第三条第二文本信息。
在另一种可能实现方式中,对于任一第一词汇,该第一词汇可能存在多个对应的修正词汇,根据该第一词汇检索预设数据库,可以得到该第一词汇对应的多个修正词汇。分别将该多个修正词汇中的每个修正词汇替换该第一词汇后,可以得到多条第二文本信息。
例如,对第一文本信息进行分词处理后,得到3个第一词汇,分别为词汇1、词汇2和词汇3。其中,词汇2具有2个对应的修正词汇,分别为修正词汇1和修正词汇2。将修正词汇1替换词汇2后,可以得到第一条第二文本信息,将修正词汇2替换词汇2后可以得到第二条第二文本信息。
由于文本信息具有对应的拼音信息,而同一拼音信息可以对应至少一条文本信息,为了获取更为准确的修正文本信息,本申请实施例还可以将拼音信息作为检索依据。
因此,在另一种可能实现方式中,预设数据库中还可以包括拼音信息,也即是包括文本信息、文本信息的拼音信息以及修正文本信息之间的对应关系。根据该第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息的过程,包括:电子设备首先对该第一文本信息进行拼音转换处理,得到该第一文本信息的第一拼音信息,然后根据该第一文本信息和该第一拼音信息共同检索预设数据库,得到与该第一文本信息和该第一拼音信息均对应的至少一条修正文本信息,作为第二文本信息。
通过对文本信息进行拼音转换处理,可以得到文本信息对应的拼音信息,综合考虑文本信息和拼音信息对文本信息进行修正的方式,能够提高修正后的文本信息的准确率。
203、通过文本生成模型对该第一文本信息进行处理,生成该第一文本信息修正后的至少一条第三文本信息。
根据步骤201可知,获取到的待处理的文本信息至少包括以下情况:
(1)仅获取到第一文本信息;
(2)获取到第一文本信息以及该第一文本信息的拼音信息;
(3)获取到第一文本信息以及该第一文本信息的上下文文本信息。
另外,获取到的待处理的文本信息还可以为上述多种情况的组合,例如待处理的文本信息还可以为第一文本信息、第一文本信息的拼音信息和上下文信息的组合,或者待处理的文本信息还可以为第一文本信息以及与第一文本信息关联的其他信息,本申请实施例对此不作具体限制。
根据待处理的文本信息的情况不同,通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息的过程也不同,该过程至少包括以下情况:
(1)待处理的文本信息为第一文本信息:
在该情况下,电子设备获取到第一文本信息后,将该第一文本信息输入至已训练的文本生成模型中,通过该文本生成模型对输入的第一文本信息进行处理,输出至少一条文本信息,该至少一条文本信息即为该第一文本信息修正后的至少一条第三文本信息。
在一种可能实现方式中,该文本生成模型包括编码子模型和解码子模型,编码子模型用于生成输入的文本信息的语义信息,解码子模型用于对生成的语义信息进行解码处理,得到与输入的文本信息语义相同的其他文本信息。
电子设备将获取到的第一文本信息输入至编码子模型后,通过该编码子模型进行处理,生成该第一文本信息的语义信息。然后,将该语义信息输入至解码子模型中,由该解码子模型对该语义信息进行分析和解码,输出与该语义信息对应的至少一条文本信息,该至少一条文本信息即为该第一文本信息修正后的第三文本信息。其中,每条第三文本信息的语义信息均与该第一文本信息的语义信息相同。也即是,每条第三文本信息表示的含义均与该第一文本信息表示的含义相同。
在通过该文本生成模型生成第一文本信息修正后的至少一条第三文本信息之前,电子设备预先获取了已训练的文本生成模型,该文本生成模型可以是电子设备通过训练得到的,也可以是其他设备通过训练得到后发送至电子设备的,还可以是电子设备通过其他方式获取的,本申请实施例对此不作具体限制。
关于训练文本生成模型的过程,在一种可能实现方式中,获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息,根据每条第二样本文本信息和每条第二样本文本信息修正后的文本信息进行训练,得到训练后的文本生成模型。
(2)待处理的文本信息包括第一文本信息以及该第一文本信息的第一拼音信息:
在该情况下,电子设备通过文本生成模型对第一文本信息进行处理,生成该第一文本信息修正后的至少一条第三文本信息的过程,包括:首先,对该第一文本信息进行拼音转换处理,得到该第一文本信息的第一拼音信息,然后,通过文本生成模型对该第一文本信息和该第一拼音信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
通过文本生成模型对第一文本信息和第一拼音信息进行处理,生成第一文本信息修正后的至少一条第三文本信息的过程,包括:将获取到的第一文本信息以及该第一文本信息的第一拼音信息输入至已训练的文本生成模型中,通过该文本生成模型对该第一文本信息和该第一拼音信息进行处理,输出至少一条文本信息,该至少一条文本信息即为该第一文本信息修正后的至少一条第三文本信息。
在一种可能实现方式中,该文本生成模型包括编码子模型和解码子模型,编码子模型用于生成输入的文本信息的语义信息,解码子模型用于对生成的语义信息进行解码处理,得到与输入的文本信息语义相同的其他文本信息。
电子设备将获取到的第一文本信息以及该第一文本信息的第一拼音信息输入至编码子模型后,通过该编码子模型进行处理,生成该第一文本信息的语义信息,该语义信息是综合考虑第一文本信息以及第一拼音信息后得到的语义信息。然后,将该语义信息输入至解码子模型中,由该解码子模型对该语义信息进行分析和解码,输出与该语义信息对应的至少一条文本信息,该至少一条文本信息即为该第一文本信息修正后的第三文本信息。其中,每条第三文本信息的语义信息均与该第一文本信息的语义信息相同,且每条第三文本信息的语义信息均与该第一拼音信息相匹配。
在使用该文本生成模型生成第一文本信息修正后的至少一条第三文本信息之前,电子设备预先获取了已训练的文本生成模型,该文本生成模型可以是电子设备通过训练得到的,也可以是其他设备通过训练得到后发送至电子设备的,还可以是电子设备通过其他方式获取的,本申请实施例对此不作具体限制。
关于训练文本生成模型的过程,在一种可能实现方式中,获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息,根据每条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到训练后的文本生成模型。
(3)待处理的文本信息包括第一文本信息以及该第一文本信息的上下文文本信息:
在该情况下,电子设备通过文本生成模型对第一文本信息进行处理,生成该第一文本信息修正后的至少一条第三文本信息的过程,包括:通过文本生成模型对该第一文本信息以及该第一文本信息的上下文文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
通过文本生成模型对第一文本信息和该第一文本信息的上下文文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息的过程,包括:将获取到的第一文本信息和该第一文本信息的上下文文本信息输入至已训练的文本生成模型中,通过该文本生成模型对该第一文本信息和该上下文文本信息进行处理,输出至少一条文本信息,该至少一条文本信息即为该第一文本信息修正后的至少一条第三文本信息。
在一种可能实现方式中,该文本生成模型包括编码子模型和解码子模型,编码子模型用于生成输入的文本信息的语义信息,解码子模型用于对生成的语义信息进行解码处理,得到与输入的文本信息语义相同的其他文本信息。
电子设备将获取到的第一文本信息以及该第一文本信息的语义信息输入至编码子模型后,通过该编码子模型进行处理,生成与该第一文本信息对应的语义信息,该语音信息为综合考虑第一文本信息以及该第一文本信息的上下文文本信息后,得到的用于表示该第一文本信息的含义的信息。将该语义信息输入至解码子模型中,由该解码子模型对该语义信息进行分析和解码,输出与该语义信息对应的至少一条文本信息,该至少一条文本信息即为该第一文本信息的第三文本信息。其中,每条第三文本信息的语义信息均与该第一文本信息的语义信息相同,且每条第三文本信息的语义信息与第一文本信息的上下文之间具有承接关系。
由于获取到的语义信息是根据第一文本信息以及该第一文本信息的上下文文本信息得到的,该语义信息综合考虑了该第一文本信息的含义以及该第一文本信息在对应的上下文文本信息中的含义,更能够准确表示该第一文本信息的含义,准确率更高。
在使用该文本生成模型生成第一文本信息修正后的至少一条第三文本信息之前,电子设备预先获取了已训练的文本生成模型,该文本生成模型可以是电子设备通过训练得到的,也可以是其他设备通过训练得到后发送至电子设备的,还可以是电子设备通过其他方式获取的,本申请实施例对此不作具体限制。
关于训练文本生成模型的过程,在一种可能实现方式中,获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息,根据每条第四样本文本信息以及每条第四样本文本信息的上下文文本信息进行训练,得到训练后的文本生成模型。
本申请实施例可以根据上述任一种情况获取第一文本信息修正后的至少一条第三文本信息,还可以综合考虑上述多种情况后获取该第一文本信息修正后的至少一条第三文本信息,或者还可以考虑该第一文本信息以及与该第一文本信息关联的其他信息后获取该第一文本信息修正后的至少一条第三文本信息,本申请实施例对此不作具体限制。
需要说明的是,本申请实施例中可以采用预设算法训练文本生成模型,该预设算法可以为卷积神经网络算法、循环神经网络算法、深度学习算法或者SVM(Support VectorMachine,支持向量机)算法等,采用不同的预设算法可以训练得到不同的模型,如卷积神经网络模型、循环神经网络模型、深度学习模型或者SVM模型等。
考虑到输入至文本生成模型的文本信息与从该文本生成模型中输出的文本信息的长度可能不同,在一种可能实现方式中,本申请实施例采用了Seq2Seq(Sequence-to-sequence,序列对序列)模型,通过该模型,无需考虑文本信息序列的长度,即可对输入的文本信息序列进行处理,生成对应的修正后的文本信息序列。
在待修正的文本信息不仅包括第一文本信息,还包括第一拼音信息、上下文文本信息或其他信息中的至少一种的情况下,增加了训练文本生成模型时的训练样本,提高了文本生成模型的准确度,通过该文本生成模型生成的修正后的文本信息,也考虑到了其他信息的影响,获取到的文本信息的准确率也提高了。
204、通过评分模型,分别获取该第一文本信息、每条第二文本信息和每条第三文本信息的评分。
获取到的至少一条第二文本信息以及至少一条第三文本信息,均为第一文本信息候选的修正文本信息,第一文本信息最终修正后的目标文本信息可以从中选取。然而,考虑到可能存在获取到的第二文本信息和第三文本信息的准确率均低于第一文本信息的准确率的情况,本申请实施例将第一文本信息也作为其中一个候选文本信息。
因此,在获取到的至少一条第二文本信息以及至少一条第三文本信息后,电子设备可以从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取目标文本信息,该目标文本信息即为第一文本信息的修正文本信息。
由于不同的候选文本信息的准确率不同,因此为了能够获取到准确率较高的目标文本信息,电子设备获取了已训练的评分模型,通过该评分模型,分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分。其中,通过该评分模型获取到的文本信息的评分,用于表示对应文本信息的准确率高低。
在使用该评分模型获取每个文本信息的评分之前,电子设备预先获取了已训练的评分模型,该评分模型可以是电子设备通过训练得到的,也可以是其他设备通过训练得到后发送至电子设备的,还可以是电子设备通过其他方式获取的,本申请实施例对此不作具体限制。
关于训练评分模型的过程,在一种可能实现方式中,获取多条第三样本文本信息以及每条第三样本文本信息的评分,根据每条第三样本文本信息和每条第三样本文本信息的评分进行训练,得到训练后的评分模型。
需要说明的是,本申请实施例中可以采用预设算法训练评分模型,该预设算法可以为卷积神经网络算法、循环神经网络算法、深度学习算法或者SVM(Support VectorMachine,支持向量机)算法等,采用不同的预设算法可以训练得到不同的模型,如卷积神经网络模型、循环神经网络模型、深度学习模型或者SVM模型等。
205、根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从该第一文本信息、该至少一条第二文本信息和该至少一条第三文本信息中选取该第一文本信息修正后的目标文本信息。
获取到第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分后,电子设备可以根据获取到的多个评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取目标文本信息。
在一种可能实现方式中,电子设备从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分最高的文本信息,将该评分最高的文本信息作为目标文本信息。
在另一种可能实现方式中,电子设备从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分大于第一预设阈值的至少一条文本信息,将该至少一条文本信息中的任一文本信息,作为目标文本信息。
在另一种可能实现方式中,电子设备首先按照评分从大到小的顺序,对第一文本信息、至少一条第二文本信息和至少一条第三文本信息进行排序,然后电子设备从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中,选取序号小于第二预设阈值的至少一条文本信息,将该至少一条文本信息中的任一文本信息,作为目标文本信息。
当目标文本信息为第一文本信息时,表示第一文本信息的准确率足够高,未获取到准确率高于该第一文本信息的准确率的文本信息,因此将该第一文本信息本身作为修正后的目标文本信息。
当目标文本信息为第二文本信息或第三文本信息时,表示第一文本信息的准确率较低,存在准确率高于该第一文本信息的文本信息,因此,可以将该目标文本信息替换该第一文本信息,提高了文本信息的准确率。
例如,获取目标段落,该目标段落中包括第一文本信息以及第一文本信息的上下文信息,本申请实施例获取到不同于第一文本信息的目标文本信息后,将该目标文本信息替换该第一文本信息,得到修正后的目标段落。该修正后的目标段落的准确率高于修正前的目标段落的准确率。
本申请实施例提供的方法,获取第一文本信息,根据该第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,通过文本生成模型对该第一文本信息进行处理,生成该第一文本信息修正后的至少一条第三文本信息,分别获取该第一文本信息、每条第二文本信息和每条第三文本信息的评分,根据该第一文本信息、该至少一条第二文本信息和该至少一条第三文本信息的评分,从该第一文本信息、该至少一条第二文本信息和该至少一条第三文本信息中选取该第一文本信息修正后的目标文本信息。其中,预设数据库中包括文本信息与修正文本信息之间的对应关系。本申请实施例提供将通过检索预设数据库修正文本信息的方式和通过文本生成模型修正文本信息的方式结合,增加了候选的修正文本信息的数量,在通过评分模型获取到的每个修正文本信息的评分后,根据评分选取目标文本信息,提高了目标文本信息的准确率。并且,对于任一文本信息,无论该文本信息是否在当前时刻之前出现过,均可以对该文本信息进行修正,得到该文本信息的修正文本信息,扩大了应用范围,降低了修正错误率和修正失败率。
并且,通过对第一文本信息进行拼音转换得到第一拼音信息,综合考虑第一文本信息和第一拼音信息对第一文本信息进行修正的方式,可以进一步提高修正文本信息时的准确率,获取更为准确的修正后的文本信息。
并且,综合考虑第一文本信息及对应的上下文文本信息进行修正的方式,获取到的修正后的文本信息与上下文文本信息之间的关联密切,具有承接关系,进一步提高了修正后的文本信息的准确率。
并且,通过对第一文本信息进行分词处理,以词汇为单位对第一文本信息进行修正的方式,修正过程更为精准,减少了修正幅度,能够有效提高文本信息的修正效率。
本申请实施例提供的方法可以应用于语音信息转换为文本信息、文本信息纠错、文本信息错误自查等多个场景中,例如,在语音信息转换为文本信息的场景中,获取到语音信息后,根据该语音信息转换为文本信息,考虑到用户发音不标准或者周围有其他噪声等因素的影响,可能会导致转换后的文本信息与用户所表达的内容不一致,因此,可以根据本申请实施例提供的方法,对转换后的文本信息进行修正,得到修正后的文本信息,将该修正后的文本信息确定为根据语音信息转换而成的文本信息,以便降低后续为文本信息的分析、理解或响应等带来的不利影响。
根据上述实施例提供的方法,对修正第一文本信息的过程进行说明,该过程应用于电子设备中,参见图3和图4,包括:
1、获取原始文本信息,将该原始文本信息输入至预处理模块中。
2、通过预处理模块对原始文本信息进行预处理,得到第一文本信息。
3、将第一文本信息输入至拼音转换模块中,通过拼音转换模块对第一文本信息进行拼音转换处理,得到第一文本信息的第一拼音信息。
4、根据该第一文本信息以及该第一拼音信息检索预设数据库,得到该第一文本信息修正后的至少一条第二文本信息。
其中,每条第二文本信息均与第一文本信息和第一拼音信息对应,该预设数据库是根据预先获取到的语料库建立而成的,检索预设数据库得到第二文本信息的过程如图5所示。
5、将第一文本信息和第一拼音信息输入至已训练的文本生成模型中,通过该文本生成模型进行处理,输出第一文本信息修正后的至少一条第三文本信息。
其中,根据文本生成模型生成第三文本信息的过程如图6所示,文本生成模型包括编码子模型和解码子模型,编码子模型用于提取输入的文本信息的语义信息,解码子模型用于根据输入的语义信息生成对应的至少一条第三文本信息。
6、根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息,建立候选文本信息集合。
7、对于该候选文本信息集合中的每条文本信息,通过已训练的评分模型进行处理,得到每条文本信息的评分。
8、根据每条文本信息的评分,从候选文本信息集合中选取评分最高的文本信息,作为第一文本信息修正后的目标文本信息。
获取目标文本信息的过程如图7所示,若候选文本信息集合中不存在评分高于第一文本信息的评分的文本信息,也即是候选文本信息集合中评分最高的文本信息为第一文本信息,则输出第一文本信息,该第一文本信息即为目标文本信息。此时,无需对第一文本信息进行修正。
若候选文本信息集合中存在评分高于第一文本信息的评分的文本信息,也即是候选文本信息集合中评分最高的文本信息不是第一文本信息,则输出该评分最高的文本信息,该文本信息即为目标文本信息。后续可以将该目标文本信息替换第一文本信息,完成第一文本信息的修正。
根据上述实施例提供的方法,在另一修正第一文本信息的过程中,获取了第一文本信息以及该第一文本信息的上下文文本信息,根据第一文本信息以及该第一文本信息的上下文文本信息,对第一文本信息进行修正,得到目标修正信息,该过程应用于电子设备中,参见图8和图9,包括:
1、获取第一文本信息以及该第一文本信息的上下文文本信息。
2、根据该第一文本信息和该上下文文本信息检索预设数据库,得到该第一文本信息修正后的至少一条第二文本信息。
其中,每条第二文本信息均与第一文本信息对应,且与该上下文文本信息之间具有承接关系,该预设数据库是根据预先获取到的语料库建立而成的。
3、将第一文本信息和该上下文文本信息输入至已训练的文本生成模型中,通过该文本生成模型进行处理,输出第一文本信息修正后的至少一条第三文本信息。
其中,根据文本生成模型生成第三文本信息的过程如图10所示,文本生成模型包括编码子模型和解码子模型,编码子模型用于提取输入的文本信息的语义信息,解码子模型用于根据输入的语义信息生成对应的至少一条第三文本信息。
4、根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息,建立候选文本信息集合。
5、对于该候选文本信息集合中的每条文本信息,通过已训练的评分模型进行处理,得到每条文本信息的评分。
6、根据每条文本信息的评分,从候选文本信息集合中选取评分最高的文本信息,作为第一文本信息修正后的目标文本信息。
在另一种可能实现方式中,还可以将上述两个过程进行组合,即综合考虑第一文本信息、第一文本信息的第一拼音信息以及上下文文本信息,根据第一文本信息、第一文本信息的第一拼音信息以及上下文文本信息,对第一文本信息进行修正的过程与上述两个过程类似,在此不再赘述。
参见图11,需要说明的是,在该情况下,获取到原始文本信息以及该原始文本信息的上下文文本信息后,通过对原始文本信息以及该原始文本信息的上下文文本信息进行预处理,得到第一文本信息以及第一文本信息的上下文文本信息,而第一拼音信息则是通过对第一文本信息以及该第一文本信息的上下文文本信息进行处理后得到的。
图12是本申请实施例提供的一种文本信息修正装置的结构图。参见图12,该装置包括:检索模块1201、生成模块1202、评分模块1203和修正模块1204。
检索模块1201,用于根据第一文本信息检索预设数据库,得到第一文本信息修正后的至少一条第二文本信息,预设数据库中包括文本信息与修正文本信息之间的对应关系;
生成模块1202,用于通过文本生成模型对第一文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息;
评分模块1203,用于通过评分模型,分别获取第一文本信息、每条第二文本信息和每条第三文本信息的评分;
修正模块1204,用于根据第一文本信息、至少一条第二文本信息和至少一条第三文本信息的评分,从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取第一文本信息修正后的目标文本信息。
在一种可能实现方式中,参见图13,预设数据库中包括文本信息、文本信息的拼音信息以及修正文本信息之间的对应关系,检索模块1201,包括:
拼音转换单元12011,用于对第一文本信息进行拼音转换处理,得到第一文本信息的第一拼音信息;
检索单元12012,用于根据第一文本信息和第一拼音信息检索预设数据库,得到与第一文本信息和第一拼音信息对应的至少一条修正文本信息,作为第二文本信息。
在另一种可能实现方式中,参见图13,生成模块1202,包括:
拼音转换单元12021,用于对第一文本信息进行拼音转换处理,得到第一文本信息的第一拼音信息;
生成单元12022,用于通过文本生成模型对第一文本信息和第一拼音信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,参见图13,装置还包括:
生成样本获取模块1205,用于获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息;
生成模型训练模块1206,用于根据每条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,参见图13,预设数据库中的文本信息和修正文本信息均为词汇,检索模块1201,包括:
分词单元12013,用于对第一文本信息进行分词处理,得到至少一个第一词汇;
检索单元12012,用于根据至少一个第一词汇检索预设数据库,得到每个第一词汇对应的修正词汇;
替换单元12014,用于分别将获取到的至少一个修正词汇替换第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
在另一种可能实现方式中,参见图13,装置还包括:
生成样本获取模块1205,用于获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息;
生成模型训练模块1206,用于根据每条第二样本文本信息和每条第二样本文本信息修正后的文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,参见图13,修正模块1204,包括:
选取单元12041,用于从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分最高的文本信息,作为目标文本信息;或者,
选取单元12041,还用于从第一文本信息、至少一条第二文本信息和至少一条第三文本信息中选取评分大于第一预设阈值的任一文本信息,作为目标文本信息;或者,
选取单元12041,还用于按照评分从大到小的顺序,对第一文本信息、至少一条第二文本信息和至少一条第三文本信息进行排序,选取序号小于第二预设阈值的任一文本信息,作为目标文本信息。
在另一种可能实现方式中,参见图13,装置还包括:
评分样本获取模块1207,用于获取多条第三样本文本信息以及每条第三样本文本信息的评分;
评分模型训练模块1208,用于根据每条第三样本文本信息和每条第三样本文本信息的评分进行训练,得到评分模型。
在另一种可能实现方式中,参见图13,装置还包括:
上下文获取模块1209,用于获取第一文本信息以及第一文本信息的上下文文本信息;
生成模块1202,包括:
生成单元12022,用于通过文本生成模型对第一文本信息以及第一文本信息的上下文文本信息进行处理,生成第一文本信息修正后的至少一条第三文本信息。
在另一种可能实现方式中,参见图13,装置还包括:
生成样本获取模块1205,用于获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息;
生成模型训练模块1206,用于根据每条第四样本文本信息以及每条第四样本文本信息的上下文文本信息进行训练,得到文本生成模型。
在另一种可能实现方式中,参见图13,装置还包括:
原始文本获取模块1210,用于获取原始文本信息;
预处理模块1211,用于对原始文本信息进行预处理,得到第一文本信息。
在另一种可能实现方式中,参见图13,预处理包括以下至少一项:
小写转换处理;
符号筛选处理;
停用词筛选处理;
频现词筛选处理;
分词处理。
需要说明的是:上述实施例提供的文本信息修正装置在修正文本信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本信息修正装置与文本信息修正方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的终端1400的结构框图。该终端1400可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1400包括有:处理器1401和存储器1402。
处理器1401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1401所执行以实现本申请中方法实施例提供的文本信息修正方法。
在一些实施例中,终端1400还可选包括有:外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地,外围设备包括:射频电路1404、触摸显示屏1405、摄像头1406、音频电路1407、定位组件1408和电源1409中的至少一种。
外围设备接口1403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中,处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上;在一些其他实施例中,处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时,显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时,显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1405可以为一个,设置终端1400的前面板;在另一些实施例中,显示屏1405可以为至少两个,分别设置在终端1400的不同表面或呈折叠设计;在再一些实施例中,显示屏1405可以是柔性显示屏,设置在终端1400的弯曲表面上或折叠面上。甚至,显示屏1405还可以设置成非矩形的不规则图形,也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1406用于采集图像或视频。可选地,摄像头组件1406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1401进行处理,或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1407还可以包括耳机插孔。
定位组件1408用于定位终端1400的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1408可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于:加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。
加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号,控制触摸显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1412可以检测终端1400的机体方向及转动角度,陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1413可以设置在终端1400的侧边框和/或触摸显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时,可以检测用户对终端1400的握持信号,由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在触摸显示屏1405的下层时,由处理器1401根据用户对触摸显示屏1405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1414用于采集用户的指纹,由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份,或者,由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、资源转移及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商Logo时,指纹传感器1414可以与物理按键或厂商Logo集成在一起。
光学传感器1415用于采集环境光强度。在一个实施例中,处理器1401可以根据光学传感器1415采集的环境光强度,控制触摸显示屏1405的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1405的显示亮度;当环境光强度较低时,调低触摸显示屏1405的显示亮度。在另一个实施例中,处理器1401还可以根据光学传感器1415采集的环境光强度,动态调整摄像头组件1406的拍摄参数。
接近传感器1416,也称距离传感器,通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中,当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时,由处理器1401控制触摸显示屏1405从亮屏状态切换为息屏状态;当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时,由处理器1401控制触摸显示屏1405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图14中示出的结构并不构成对终端1400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图15是本申请实施例提供的一种服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1501和一个或一个以上的存储器1502,其中,该存储器1502中存储有至少一条指令,该至少一条指令由该处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备中的处理器执行以完成上述实施例中文本信息修正方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序,该计算机程序包括至少一条指令,该指令由处理器加载并执行以实现如上述实施例中文本信息修正方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种文本信息修正方法,其特征在于,所述方法包括:
根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,所述预设数据库中包括文本信息与修正文本信息之间的对应关系;
通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息;
通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分;
根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息。
2.根据权利要求1所述的方法,其特征在于,所述预设数据库中包括文本信息、所述文本信息的拼音信息以及修正文本信息之间的对应关系,所述根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,包括:
对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;
根据所述第一文本信息和所述第一拼音信息检索所述预设数据库,得到与所述第一文本信息和所述第一拼音信息对应的至少一条修正文本信息,作为第二文本信息。
3.根据权利要求1所述的方法,其特征在于,所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息,包括:
对所述第一文本信息进行拼音转换处理,得到所述第一文本信息的第一拼音信息;
通过所述文本生成模型对所述第一文本信息和所述第一拼音信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
4.根据权利要求3所述的方法,其特征在于,所述通过所述文本生成模型对所述第一文本信息和所述第一拼音信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:
获取多条第一样本文本信息以及每条第一样本文本信息的拼音信息和修正文本信息;
根据所述每条第一样本文本信息以及所述每条第一样本文本信息的拼音信息和修正文本信息进行训练,得到所述文本生成模型。
5.根据权利要求1所述的方法,其特征在于,所述预设数据库中的文本信息和修正文本信息均为词汇,所述根据所述第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,包括:
对所述第一文本信息进行分词处理,得到至少一个第一词汇;
根据所述至少一个第一词汇检索所述预设数据库,得到每个第一词汇对应的修正词汇;
分别将获取到的至少一个修正词汇替换所述第一文本信息中对应的第一词汇,得到至少一条第二文本信息。
6.根据权利要求1所述的方法,其特征在于,所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:
获取多条第二样本文本信息以及每条第二样本文本信息修正后的文本信息;
根据所述每条第二样本文本信息和所述每条第二样本文本信息修正后的文本信息进行训练,得到所述文本生成模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息,包括:
从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分最高的文本信息,作为所述目标文本信息;或者,
从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取评分大于第一预设阈值的任一文本信息,作为所述目标文本信息;或者,
按照评分从大到小的顺序,对所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息进行排序,选取序号小于第二预设阈值的任一文本信息,作为所述目标文本信息。
8.根据权利要求1所述的方法,其特征在于,所述通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分之前,所述方法还包括:
获取多条第三样本文本信息以及每条第三样本文本信息的评分;
根据所述每条第三样本文本信息和所述每条第三样本文本信息的评分进行训练,得到所述评分模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一文本信息以及所述第一文本信息的上下文文本信息;
所述通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息,包括:
通过所述文本生成模型对所述第一文本信息以及所述第一文本信息的上下文文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息。
10.根据权利要求9所述的方法,其特征在于,所述通过所述文本生成模型对所述第一文本信息以及所述第一文本信息的上下文文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息之前,所述方法还包括:
获取多条第四样本文本信息以及每条第四样本文本信息的上下文文本信息;
根据所述每条第四样本文本信息以及所述每条第四样本文本信息的上下文文本信息进行训练,得到所述文本生成模型。
11.根据权利要求1所述的方法,其特征在于,所述根据第一文本信息检索预设数据库之前,所述方法还包括:
获取原始文本信息;
对所述原始文本信息进行预处理,得到所述第一文本信息。
12.根据权利要求11所述的方法,其特征在于,所述预处理包括以下至少一项:
小写转换处理;
符号筛选处理;
停用词筛选处理;
频现词筛选处理;
分词处理。
13.一种文本信息修正装置,其特征在于,所述装置包括:
检索模块,用于根据第一文本信息检索预设数据库,得到所述第一文本信息修正后的至少一条第二文本信息,所述预设数据库中包括文本信息与修正文本信息之间的对应关系;
生成模块,用于通过文本生成模型对所述第一文本信息进行处理,生成所述第一文本信息修正后的至少一条第三文本信息;
评分模块,用于通过评分模型,分别获取所述第一文本信息、每条第二文本信息和每条第三文本信息的评分;
修正模块,用于根据所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息的评分,从所述第一文本信息、所述至少一条第二文本信息和所述至少一条第三文本信息中选取所述第一文本信息修正后的目标文本信息。
14.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本信息修正方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本信息修正方法所执行的操作。
CN202010247416.9A 2020-03-31 2020-03-31 文本信息修正方法、装置、电子设备及存储介质 Withdrawn CN111475619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247416.9A CN111475619A (zh) 2020-03-31 2020-03-31 文本信息修正方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247416.9A CN111475619A (zh) 2020-03-31 2020-03-31 文本信息修正方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111475619A true CN111475619A (zh) 2020-07-31

Family

ID=71750392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247416.9A Withdrawn CN111475619A (zh) 2020-03-31 2020-03-31 文本信息修正方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111475619A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372441A (zh) * 2022-03-23 2022-04-19 中电云数智科技有限公司 一种中文文本自动纠错方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459884A (zh) * 2008-12-29 2009-06-17 中国移动通信集团北京有限公司 一种业务处理方法及装置
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN104216906A (zh) * 2013-05-31 2014-12-17 大陆汽车投资(上海)有限公司 语音搜索方法和设备
CN105489220A (zh) * 2015-11-26 2016-04-13 小米科技有限责任公司 语音识别方法及装置
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN106325537A (zh) * 2015-06-23 2017-01-11 腾讯科技(深圳)有限公司 信息输入方法及装置
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN110008471A (zh) * 2019-03-26 2019-07-12 北京博瑞彤芸文化传播股份有限公司 一种基于拼音转换的智能语义匹配方法
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101459884A (zh) * 2008-12-29 2009-06-17 中国移动通信集团北京有限公司 一种业务处理方法及装置
CN104216906A (zh) * 2013-05-31 2014-12-17 大陆汽车投资(上海)有限公司 语音搜索方法和设备
CN106325537A (zh) * 2015-06-23 2017-01-11 腾讯科技(深圳)有限公司 信息输入方法及装置
CN105489220A (zh) * 2015-11-26 2016-04-13 小米科技有限责任公司 语音识别方法及装置
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107977357A (zh) * 2017-11-22 2018-05-01 北京百度网讯科技有限公司 基于用户反馈的纠错方法、装置及其设备
CN110008471A (zh) * 2019-03-26 2019-07-12 北京博瑞彤芸文化传播股份有限公司 一种基于拼音转换的智能语义匹配方法
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372441A (zh) * 2022-03-23 2022-04-19 中电云数智科技有限公司 一种中文文本自动纠错方法及装置

Similar Documents

Publication Publication Date Title
CN109086709B (zh) 特征提取模型训练方法、装置及存储介质
CN110059685B (zh) 文字区域检测方法、装置及存储介质
CN108922531B (zh) 槽位识别方法、装置、电子设备及存储介质
CN110572716B (zh) 多媒体数据播放方法、装置及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN112261491B (zh) 视频时序标注方法、装置、电子设备及存储介质
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN111027490A (zh) 人脸属性识别方法及装置、存储介质
CN111209377A (zh) 基于深度学习的文本处理方法、装置、设备及介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN110377914B (zh) 字符识别方法、装置及存储介质
CN112764600A (zh) 资源处理方法、装置、存储介质及计算机设备
CN111475619A (zh) 文本信息修正方法、装置、电子设备及存储介质
CN113836946B (zh) 训练评分模型的方法、装置、终端及存储介质
CN113032560B (zh) 语句分类模型训练方法、语句处理方法及设备
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN110852093A (zh) 文本信息生成方法、装置、计算机设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN111145723B (zh) 转换音频的方法、装置、设备以及存储介质
CN113744736A (zh) 命令词识别方法、装置、电子设备及存储介质
CN115221888A (zh) 实体提及的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200731

WW01 Invention patent application withdrawn after publication