CN112905775A - 文本处理方法、装置、电子设备及可读存储介质 - Google Patents

文本处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112905775A
CN112905775A CN202110205899.0A CN202110205899A CN112905775A CN 112905775 A CN112905775 A CN 112905775A CN 202110205899 A CN202110205899 A CN 202110205899A CN 112905775 A CN112905775 A CN 112905775A
Authority
CN
China
Prior art keywords
text
dialog text
current
dialog
current dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110205899.0A
Other languages
English (en)
Inventor
汪建
冯康
袁春阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110205899.0A priority Critical patent/CN112905775A/zh
Publication of CN112905775A publication Critical patent/CN112905775A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本申请提供了一种文本处理方法、装置、电子设备及可读存储介质。所述方法包括:获得当前对话文本,并获得所述当前对话文本的历史对话文本;根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。通过本申请的文本处理方法,可在检测到用户输入的语音后,结合当前语音和当前语音的上下文信息,准确地识别出语音中的错误,有助于后续顺利实现对错误词语的纠正,进而提升后续任务的成功率。

Description

文本处理方法、装置、电子设备及可读存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着语音及自然语言处理技术的发展,越来越多的场景利用语音方式进行交互。语音识别模块(ASR,Automatic Speech Recognition)负责将语音转换为对话文本,转换结果中很可能会出现错误。对于较长的对话文本,片段错误影响着最终的应用,对于较短的对话文本,如仅包含一个词语时,可能出现整句错误的情况。因此,在语音交互场景中,语音识别结果纠错尤为重要。
语音识别纠错过程大致可分为两个阶段:发现错误和纠正错误。在发现错误阶段,相关技术中可以利用纠错库直接处理对话文本发现错误词语,或者利用语言模型判断对话文本的流畅度,或者利用后续的交互信息做澄清。然而这些方式对于较短的对话文本或者较长的对话文本则很难准确发现错误,例如较短的对话文本为9吧时,识别成酒吧,再例如较长的对话文本为如我考了100分时,识别成我烤了100份,因此相关技术中的语音识别纠错方式在发现错误时能力极其有限。
发明内容
本申请提供一种文本处理方法、装置、电子设备及可读存储介质,可准确地识别出语音中的错误。
本申请第一方面提供了一种文本处理方法,所述方法包括:
获得当前对话文本,并获得所述当前对话文本的历史对话文本;
根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
可选地,获得当前对话文本,包括:
获得本轮对话中的用户对话文本;
获得所述当前对话文本的历史对话文本,包括:
获得针对上一轮对话中用户对话文本的应答对话文本;或
获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
可选地,根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率,包括:
将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率;
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
可选地,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
可选地,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本;
将所述拼接文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本、该对话文本样本中各个词语的候选纠正词语,以及拼接文本样本为训练样本,对第三预设模型进行训练得到的,所述拼接文本样本为将对话文本样本和该对话文本样本的历史对话文本进行拼接而得到的文本。
可选地,一个词语的候选纠正词语是按照以下步骤得到的:
根据每两个词语之间的关联度,构建预设词表;
从所述预设词表中查询所述词语的候选纠正词语。
可选地,在得到所述当前对话文本的第一类候选纠正文本之后,所述方法还包括:
从预设文本库中获取所述当前对话文本的第二类候选纠正文本;
根据所述当前对话文本的第一类候选纠正文本和第二类候选纠正文本,对所述当前对话文本进行纠错,得到纠错后文本。
本申请第二方面提供一种文本处理装置,所述装置包括:
获得模块,用于获得当前对话文本,并获得所述当前对话文本的历史对话文本;
第一确定模块,用于根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
第二确定模块,用于在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
可选地,所述获得模块包括:
第一获得子模块,用于获得本轮对话中的用户对话文本;
所述获得模块包括:
第二获得子模块,用于获得针对上一轮对话中用户对话文本的应答对话文本;或
第三获得子模块,用于获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
可选地,所述第一确定模块包括:
输入子模块,用于将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率;
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
可选地,所述装置还包括:
第一输入模块,用于将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
可选地,所述装置还包括:
拼接模块,用于将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本;
第二输入模块,用于将所述拼接文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本、该对话文本样本中各个词语的候选纠正词语,以及拼接文本样本为训练样本,对第三预设模型进行训练得到的,所述拼接文本样本为将对话文本样本和该对话文本样本的历史对话文本进行拼接而得到的文本。
可选地,一个词语的候选纠正词语是按照以下步骤得到的:
根据每两个词语之间的关联度,构建预设词表;
从所述预设词表中查询所述词语的候选纠正词语。
可选地,所述装置还包括:
获取模块,用于从预设文本库中获取所述当前对话文本的第二类候选纠正文本;
纠错模块,用于根据所述当前对话文本的第一类候选纠正文本和第二类候选纠正文本,对所述当前对话文本进行纠错,得到纠错后文本。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的文本处理方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的文本处理方法中的步骤。
采用本申请提供的文本处理方法,首先获得当前对话文本和当前对话文本的历史对话文本。接着根据当前对话文本的语素特征和流畅度,以及当前对话文本的历史对话文本与当前对话文本之间的关联度,确定当前对话文本的正确概率,如果正确概率小于预设阈值,可确定当前对话文本包含错误词语。通过该方法,可在检测到用户输入的语音后,结合当前语音和当前语音的上下文信息,准确地识别出语音中的错误,有助于后续顺利实现对错误词语的纠正,进而提升后续任务的成功率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例示出的一种文本处理方法的流程图;
图2是本申请一实施例示出的一种对话结果示意图;
图3是本申请一实施例示出的另一种对话结果示意图;
图4是本申请一实施例示出的另一种对话结果示意图;
图5是本申请一实施例示出的另一种对话结果示意图;
图6是本申请一实施例示出的一种语音纠正的整体流程示意图;
图7是本申请一实施例提供的一种文本处理装置的结构框图;
图8是本申请一实施例示出的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本申请的文本处理方法进行详细说明之前,下面首先对相关技术中的语音识别纠错方法进行简单介绍。
在发现错误阶段,相关技术利用了当前对话文本的信息、纠错库中的信息和后续的交互信息,主要有两个缺点:
一、对于很短的对话文本处理能力有限,例如用户说9吧时,识别成酒吧,因此仅依据上述信息很难发现错误。
二、对于较长的对话文本也很可能语音识别结果不准确,但是语义很通顺的情况,例如用户说我考了100分,结果识别成我烤了100份。因此仅依据上述信息很难发现错误。
在纠正错误阶段,相关技术中多直接利用纠错库生成候选纠正词语并进行纠错,而该种方式准确识别出候选纠正词语的概率较低,如果候选纠正词语确定错误,纠正结果就会错误,还会影响后续任务,即存在错误传递。
图1是本申请一实施例示出的一种文本处理方法的流程图。参照图1,本申请的文本处理方法可以包括如下步骤:
步骤S11:获得当前对话文本,并获得所述当前对话文本的历史对话文本。
本申请的执行主体为语音纠错装置。语音纠错装置对用户输入的语音进行纠错的步骤主要包括两个阶段:发现错误阶段和纠正错误阶段。其中,步骤S11-步骤S13对应发现错误阶段。
当前对话文本是指对用户输入的语音进行识别后得到的对话文本。历史对话文本可以是全部历史对话文本,也可以是部分历史对话文本。图2是本申请一实施例示出的一种对话结果示意图。参照图2,当前对话文本是第四句话时,历史对话文本可以是第一句话至第三句话中的任意一句或多句话。
步骤S12:根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率。
在本实施例中,可以按照预先给定的方法获得当前对话文本的语素特征、流畅程度,以及当前对话文本的历史对话文本与当前对话文本之间的关联程度。并结合语素特征、流畅程度以及关联程度,按照预先给定的确定当前对话文本的正确概率的规则,确定当前对话文本的正确概率。
其中,语素是最小的语法单位,也即最小的语音、语义结合体。语素不是独立运用的语言单位,其主要功能是作为构成词语的材料。对于流畅程度,如果无法确定当前对话文本的具体含义,可能是因为当前对话文本的流畅性太低,使得整体上无法准确推测其所表达的意思。对于关联程度,如果历史对话文本中涉及“烤肉”的词汇较多,那么当前对话文本“我烤了一百份”与历史对话文本的关联程度,显然比当前对话文本“我考了一百分”与历史对话文本的关联程度高。因此,通过对语素特征、流畅程度以及关联程度的综合分析,能较为准确地发现当前对话文本中的错误文本。
步骤S13:在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
在本实施例中,当确定的正确概率小于预设阈值时,表示当前对话文本包含需要纠正的错误词语。
通过本实施例的文本处理方法,首先获得当前对话文本和当前对话文本的历史对话文本。接着根据当前对话文本的语素特征和流畅度,以及当前对话文本的历史对话文本与当前对话文本之间的关联度,确定当前对话文本的正确概率,如果正确概率小于预设阈值,可确定当前对话文本包含错误词语。通过该方法,可在检测到用户输入的语音后,结合当前语音和当前语音的上下文信息,准确地识别出语音中的错误,克服相关技术中对于较短的对话文本和较长的对话文本纠错能力有限的问题,进而有助于顺利实现对错误词语的纠正以及提升后续任务的成功率。
结合以上实施例,在一种实施方式中,本申请还提供了一种获得当前对话文本的方法。具体地,该方法可以包括:
对用户当前输入的语音进行识别,将识别到的文本作为当前对话文本。
相应地,获得当前对话文本的历史对话文本,可以包括:
将当前对话文本之前的部分或全部对话文本作为历史对话文本。
本申请中的语音纠错识别至少可应用于下述两种场景中,下面将对下述两个场景中的当前对话文本和历史对话文本进行说明。
一、对多个用户对话过程中的语音进行纠错识别
图3是本申请一实施例示出的另一种对话结果示意图。在图3中,圆圈内的A、B以及C分别表示用户A、用户B以及用户C,用户A、用户B以及用户C进行语音对话,此时可将最新的对话7作为当前对话文本,将对话1-对话6中的全部或部分对话作为历史对话文本,在获得部分对话作为历史对话文本时,可以将与对话7发送时间间隔小于预设阈值的连续多条对话作为历史对话文本,例如将对话4-对话6作为历史对话文本,或者将对话5-对话6作为历史对话文本。
二、对单个用户输入的语音进行纠错识别
在该场景下,语音纠错装置可安装于语音转文本装置中。图4是本申请一实施例示出的另一种对话结果示意图。在图4中,用户通过语音转文本装置输入多条语音,此时可将最新的语音7作为当前对话文本,将语音1-语音6中的全部或部分对话作为历史对话文本。
针对第一种场景,在一种实施方式中,还包括一问一答场景,此时对话可以包括多个轮次,获得当前对话文本的方法可以包括:
获得本轮对话中的用户对话文本;
相应地,获得所述当前对话文本的历史对话文本,包括:
获得针对上一轮对话中用户对话文本的应答对话文本;或
获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
图5是本申请一实施例示出的另一种对话结果示意图。图5中第一用户和第二用户对话,第一用户为黑色圆圈表示的用户,第二用户为白色圆圈表示的用户,有3轮对话,每一轮对话包括一问一答。用户对话文本是指针对某个用户的对话文本,以识别出第二用户语音中的错误为例,本轮对话中的用户对话文本指的是图5中第3轮对话中的对话6,针对上一轮对话中用户对话文本的应答对话文本指的是第3轮对话中的对话5。
概括来讲,在图5中,历史对话文本可以是以下任意一种:
一、第1轮对话中的对话2和第2轮对话中的对话4;
二、第2轮对话中的对话3和第3轮对话中的对话5;
三、第1轮对话中的对话2、第2轮对话中的对话4、第2轮对话中的对话3以及第3轮对话中的对话5。
针对上述第二种和第三种,还可以根据实际情况加入第一用户发起对话的文本,即第1轮对话中的对话1。
本实施例中提供了多种场景下灵活选择历史对话文本作为当前对话文本的上下文信息的方法,进一步提升了识别语音中的错误文本的准确率。
结合以上实施例,在一种实施方式中,本申请还提供了一种确定当前对话文本的正确概率的方法。具体地,根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率,可以包括如下步骤:
将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率。
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
本实施例对应发现错误阶段。在本实施例中,可以预先对多条对话文本样本进行标注,使得每一条对话文本样本携带错误标识,错误标识用于表示该对话文本样本是否包含错误词语。例如可以规定携带的错误标识为1时,表示包含错误词语,规定携带的错误标识为0时,表示不包含错误词语。接着,利用标注后的对话文本样本和该对话文本样本的历史对话文本样本对第一预设模型进行训练,直到训练得到具有预测当前对话文本的正确概率的功能的模型,并将此时的模型作为正确概率预测模型。
其中,第一预设模型中包含语素特征提取子模型、关联度预测子模型、流畅度预测子模型以及二分类子模型。语素特征提取子模型用于提取当前对话文本的语素特征,关联度预测子模型用于获得当前对话文本的历史对话文本与当前对话文本之间的关联度,流畅度预测子模型用于获得当前对话文本的流畅度,二分类子模型用于对语素特征、关联度以及流畅度进行分析,获得当前对话文本的正确概率。
在本实施例中,也可以单独训练语素特征提取模型、关联度预测模型、流畅度预测模型以及二分类模型这四个模型。语音纠错装置将当前对话文本输入语素特征提取模型可获得当前对话文本的语素特征,将当前对话文本输入流畅度预测模型可获得当前对话文本的流畅度,将当前对话文本的历史对话文本与当前对话文本输入关联度预测模型,可获得当前对话文本的历史对话文本与当前对话文本之间的关联度。接着,语音纠错装置将当前对话文本的语素特征、当前对话文本的流畅度以及当前对话文本的历史对话文本与当前对话文本之间的关联度输入二分类模型,可获得当前对话文本的正确概率。
在训练语素特征提取模型时,可以预先对多条对话文本样本进行语素标注,使得每一条对话文本样本携带语素特征,然后利用标注后的多条对话文本样本训练得到语素特征提取模型。
在训练流畅度预测模型时,可以预先对多条对话文本样本进行流畅性标注,使得每一条对话文本样本携带流畅度标识,然后利用标注后的多条对话文本样本训练得到流畅度预测模型。
在训练关联度预测模型时,可以预先对多条对话文本样本进行关联度标注,使得每一条对话文本样本携带关联度标识,用于表示该对话文本样本的历史对话文本样本与该对话文本样本之间的关联性的高低,关联度标识的值越大,表示关联性越高,反之,关联度标识的值越小,表示关联性越低。然后利用标注后的多条对话文本样本和该对话文本样本的历史对话文本样本训练得到关联度预测模型。其中,关联度预测模型可以是BERT(Bidirectional Encoder Representations from Transformers)类模型、交互式匹配模型或者双塔结构的模型,本实施例对此不作具体限制。
在训练二分类模型时,可以直接利用携带语素特征、流畅度标识以及关联度标识的当前对话文本样本,及该当前对话文本样本的历史对话文本样本进行训练,得到二分类模型。
本实施例中,可通过多种模型对当前对话文本的正确概率进行推测,进一步提升了识别语音中的错误文本的准确率。
结合以上实施例,在一种实施方式中,本申请还提供了一种确定候选纠正文本的方法。具体地,在确定所述当前对话文本包含错误词语之后,本申请的方法还包括:
将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
本实施例对应纠正错误阶段。在本实施例中,可以利用对话文本样本和该对话文本样本中各个词语的候选纠正词语对第二预设模型进行训练,得到可输出候选纠正文本的纠错模型。
具体地,可以预先对对话文本样本进行标注,为每个需要纠正的词语标注上候选纠正词语,然后将标注后携带候选纠正词语的对话文本样本输入第二预设模型,以对第二预设模型进行训练,得到纠错模型。在使用纠错模型时,将确定的包含错误词语的对话文本输入纠错模型,即可输出对应的候选纠正文本,该候选纠正文本包含各个错误词语对应的候选纠正词语。
在本实施例中,第二预设模型可以采用神经网络的end-to-end模型,如此可扩展候选纠正词语的候选集,有助于获得正确的候选纠正词语,解决了候选纠正词语识别错误时带来的错误传递问题(错误传递是指候选纠正词语确定错误时,导致纠正结果错误,进而导致后续任务出错)。
通过本实施例,可在确定对话文本包含错误词语后,快速确定出错误词语的候选纠正词语,使得后续可顺利实现对错误词语的纠正,进而提升后续任务的成功率。
结合以上实施例,在一种实施方式中,本申请还提供了另一种确定候选纠正文本的方法。具体地,在确定所述当前对话文本包含错误词语之后,本申请的方法还包括:
将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本;
将所述拼接文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本、该对话文本样本中各个词语的候选纠正词语,以及拼接文本样本为训练样本,对第三预设模型进行训练得到的,所述拼接文本样本为将对话文本样本和该对话文本样本的历史对话文本进行拼接而得到的文本。
本实施例对应纠正错误阶段。在本实施例中,还可以利用对话文本样本、该对话文本样本中各个词语的候选纠正词语以及历史对话文本对第三预设模型进行训练,得到可输出候选纠正文本的纠错模型。
具体地,可以预先将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本,接着,对对话文本样本进行标注,为每个需要纠正的词语标注上候选纠正词语,然后将标注后携带候选纠正词语的对话文本样本,以及拼接文本输入第三预设模型,以对第三预设模型进行训练,得到纠错模型。在使用纠错模型时,将确定的包含错误词语的对话文本及其历史对话文本输入纠错模型,即可输出对应的候选纠正文本,该候选纠正文本包含各个错误词语对应的候选纠正词语。
在本实施例中,第三预设模型也可以采用神经网络的end-to-end模型,以扩展候选纠正词语的候选集,解决候选纠正词语识别错误带来的错误传递问题。
通过本实施例,可在确定对话文本包含错误词语后,快速确定出错误词语的候选纠正词语,使得后续可顺利实现对错误词语的纠正,进而提升后续任务的成功率。
结合以上实施例,在一种实施方式中,一个词语的候选纠正词语可以按照以下步骤得到:
根据每两个词语之间的关联度,构建预设词表;
从所述预设词表中查询所述词语的候选纠正词语。
在本实施例中,关联度可以采用相似度,例如发音相似、字形相似等,本实施例对此不作限制。两个词语之间的关联度可通过预先训练的模型获得,或者通过任意可实现的算法获得,本实施例对此不作具体限制。
在获得每两个词语之间的关联度后,可构建预设词表。在将包含错误词语的对话文本输入纠错模型后,纠错模型通过查询预设词表可获得错误词语的候选纠正词语。
结合以上实施例,在一种实施方式中,本申请还提供了对错误的对话文本进行纠错的方法,具体地,在得到所述当前对话文本的第一类候选纠正文本之后,本申请的方法还可以包括:
从预设文本库中获取所述当前对话文本的第二类候选纠正文本;
根据所述当前对话文本的第一类候选纠正文本和第二类候选纠正文本,对所述当前对话文本进行纠错,得到纠错后文本。
在本实施例中,候选纠正文本有两种来源,一种为前述实施例中通过纠错模型获得的候选纠正文本,称为第一类候选纠正文本;第二种为从预设文本库中获得的候选纠正文本,第二类候选纠正文本。其中,预设文本库中包含多个错误词语的候选纠正词语,预设文本库可以为已有技术中任意一种可获得候选纠正词语的语料库,本实施例对此不作具体限制。
在本实施例中,既可以使用第一类候选纠正文本对错误纠正词语进行纠正,也可以使用第二类候选纠正文本对错误纠正词语进行纠正,还可以结合使用第一类候选纠正文本和第二类候选纠正文本对错误纠正词语进行纠正,本实施例对此不作具体限制。
在结合使用第一类候选纠正文本和第二类候选纠正文本对错误纠正词语进行纠正时,可以按照预设排序算法对第一类候选纠正文本中的各个候选纠正词语和第二类候选纠正文本中的各个候选纠正词语进行排序,得到概率最高的候选纠正词语,概率越高,表示为正确的纠正词语的可能性越高,概率越低,表示为正确的纠正词语的可能性越低。因此利用概率最高的候选纠正词语对错误词语进行纠正,可有效提高错误词语的纠正率。
在本实施例中,一方面从纠错模型获得第一类候选纠正文本,另一方面从预设文本库中获得第二类候选纠正文本,然后对两种来源得到的候选纠正词语进行排序,获得最有可能的正确纠正词语,最后利用最有可能的正确纠正词语对错误词语进行纠正,可有效提高错误词语的纠正率。
图6是本申请一实施例示出的一种语音纠正的整体流程示意图。下面将结合图6以一个具体实施例对本申请的文本处理方法进行详细说明。
在图6中,粗的虚线框表示语音纠错装置,粗的实线框表示正确概率预测模型,正确概率预测模型中集成有流畅度预测子模型、语素特征提取子模型、关联度预测子模型以及二分类子模型。在发现错误阶段,将语音识别得到的当前对话文本输入流畅度预测子模型,输出当前对话文本的流畅度,将当前对话文本输入语素特征提取子模型,输出当前对话文本的语素特征,将当前对话文本和历史对话文本输入关联度预测子模型,输出当前对话文本的历史对话文本与当前对话文本之间的关联度,将流畅度、语素特征以及关联度输入二分类子模型,输出当前对话文本的正确概率。
如果当前对话文本的正确概率小于预设阈值,表示当前对话文本包含错误词语,进入纠正错误阶段。一方面将当前对话文本及其历史对话文本输入纠错模型,输出第一类候选纠正文本,另一方面查询预设词表,获得第二类候选纠正文本。接着,按照预设排序算法对第一类候选纠正文本中的各个候选纠正词语和第二类候选纠正文本中的各个候选纠正词语进行排序,得到概率最高的候选纠正词语,即图6中的TOP1候选纠正词语,也即最有可能的正确纠正词语,最后利用最有可能的正确纠正词语对错误词语进行纠正。
本申请在语音识别纠错中引入了上下文信息,结合多模型(语素特征提取子模型、关联度预测子模型、流畅度预测子模型、二分类子模型以及纠错模型)使用的技术手段解决了相关技术中语音识别错误发现能力不足的问题。其中,纠错模型采用神经网络的end-to-end模型,扩展了候选纠正文本的候选集,解决了候选纠正词语识别错误带来的错误传递问题,能够提高纠错的准确率,提升下游任务的成功率。
基于同一发明构思,本申请一实施例还提供了一种文本处理装置700。图7是本申请一实施例提供的一种文本处理装置的结构框图。如图7所示,该装置700包括:
获得模块701,用于获得当前对话文本,并获得所述当前对话文本的历史对话文本;
第一确定模块702,用于根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
第二确定模块703,用于在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
可选地,所述获得模块701包括:
第一获得子模块,用于获得本轮对话中的用户对话文本;
所述获得模块701还包括:
第二获得子模块,用于获得针对上一轮对话中用户对话文本的应答对话文本;或
第三获得子模块,用于获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
可选地,所述第一确定模块702包括:
输入子模块,用于将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率;
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
可选地,所述装置700还包括:
第一输入模块,用于将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
可选地,所述装置700还包括:
拼接模块,用于将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本;
第二输入模块,用于将所述拼接文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本、该对话文本样本中各个词语的候选纠正词语,以及拼接文本样本为训练样本,对第三预设模型进行训练得到的,所述拼接文本样本为将对话文本样本和该对话文本样本的历史对话文本进行拼接而得到的文本。
可选地,一个词语的候选纠正词语是按照以下步骤得到的:
根据每两个词语之间的关联度,构建预设词表;
从所述预设词表中查询所述词语的候选纠正词语。
可选地,所述装置700还包括:
获取模块,用于从预设文本库中获取所述当前对话文本的第二类候选纠正文本;
纠错模块,用于根据所述当前对话文本的第一类候选纠正文本和第二类候选纠正文本,对所述当前对话文本进行纠错,得到纠错后文本。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例还提供了一种电子设备800,如图8所示。图8是本申请一实施例示出的一种电子设备的示意图。该电子设备包括存储器802、处理器801及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本处理方法、装置、存储介质和电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获得当前对话文本,并获得所述当前对话文本的历史对话文本;
根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
2.根据权利要求1所述的方法,其特征在于,获得当前对话文本,包括:
获得本轮对话中的用户对话文本;
获得所述当前对话文本的历史对话文本,包括:
获得针对上一轮对话中用户对话文本的应答对话文本;或
获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
3.根据权利要求1所述的方法,其特征在于,根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率,包括:
将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率;
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
4.根据权利要求1所述的方法,其特征在于,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
5.根据权利要求1所述的方法,其特征在于,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
将所述当前对话文本和所述当前对话文本的历史对话文本进行拼接,得到拼接文本;
将所述拼接文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本、该对话文本样本中各个词语的候选纠正词语,以及拼接文本样本为训练样本,对第三预设模型进行训练得到的,所述拼接文本样本为将对话文本样本和该对话文本样本的历史对话文本进行拼接而得到的文本。
6.根据权利要求4或5所述的方法,其特征在于,一个词语的候选纠正词语是按照以下步骤得到的:
根据每两个词语之间的关联度,构建预设词表;
从所述预设词表中查询所述词语的候选纠正词语。
7.根据权利要求4或5所述的方法,其特征在于,在得到所述当前对话文本的第一类候选纠正文本之后,所述方法还包括:
从预设文本库中获取所述当前对话文本的第二类候选纠正文本;
根据所述当前对话文本的第一类候选纠正文本和第二类候选纠正文本,对所述当前对话文本进行纠错,得到纠错后文本。
8.一种文本处理装置,其特征在于,所述装置包括:
获得模块,用于获得当前对话文本,并获得所述当前对话文本的历史对话文本;
第一确定模块,用于根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
第二确定模块,用于在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的文本处理方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-7任一所述的文本处理方法中的步骤。
CN202110205899.0A 2021-02-24 2021-02-24 文本处理方法、装置、电子设备及可读存储介质 Withdrawn CN112905775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110205899.0A CN112905775A (zh) 2021-02-24 2021-02-24 文本处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110205899.0A CN112905775A (zh) 2021-02-24 2021-02-24 文本处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112905775A true CN112905775A (zh) 2021-06-04

Family

ID=76106751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110205899.0A Withdrawn CN112905775A (zh) 2021-02-24 2021-02-24 文本处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112905775A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN111523305A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111797614A (zh) * 2019-04-03 2020-10-20 阿里巴巴集团控股有限公司 文本处理方法及装置
CN112257437A (zh) * 2020-10-20 2021-01-22 科大讯飞股份有限公司 语音识别纠错方法、装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN111523305A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111797614A (zh) * 2019-04-03 2020-10-20 阿里巴巴集团控股有限公司 文本处理方法及装置
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN112257437A (zh) * 2020-10-20 2021-01-22 科大讯飞股份有限公司 语音识别纠错方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108536654B (zh) 识别文本展示方法及装置
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN106528694B (zh) 基于人工智能的语义判定处理方法和装置
CN111192570B (zh) 语言模型训练方法、系统、移动终端及存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN111414745A (zh) 文本标点确定方法与装置、存储介质、电子设备
CN111369974A (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN112364658A (zh) 翻译以及语音识别方法、装置、设备
CN109166569B (zh) 音素误标注的检测方法和装置
CN111554276A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN112700769A (zh) 一种语义理解方法、装置、设备以及计算机可读存储介质
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
KR20210059995A (ko) 학습 기반의 외국어 말하기 평가 방법 및 그 시스템
CN113792166B (zh) 信息获取方法、装置、电子设备及存储介质
CN112905775A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN109582971B (zh) 一种基于句法分析的批改方法及批改系统
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
CN114519357B (zh) 基于机器学习的自然语言处理方法和系统
CN111737988B (zh) 一种复述句识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210604

WW01 Invention patent application withdrawn after publication