CN112749531A

CN112749531A - 文本处理方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN112749531A
Application number: CN202110044354.6A
Authority: CN
Inventors: 陈孝良; 赵昂; 叶森; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-04
Anticipated expiration: 2041-01-13

Abstract

本申请提供了一种文本处理方法、装置、计算机设备及计算机可读存储介质，属于自然语言处理技术领域。本申请首先从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

Description

文本处理方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种文本处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

由于语音数据的特殊性，语音数据经过语音识别得到的文本通常可读性和连贯性较差，需要再进行处理、规整。比如，受说话人的语言习惯或者说话人所处环境的影响，说话人的语音数据中可能会存在一些冗余、重复或者词序颠倒的词语等，而基于这样的语音数据进行语音识别，得到的文本中也会包含这些冗余、重复或者词序颠倒的词语，这会严重影响用户的阅读体验。因而，亟需一种文本处理方法，来对经过语音识别得到的文本进行规整。

发明内容

本申请实施例提供了一种文本处理方法、装置、计算机设备及计算机可读存储介质，能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率，并降低了文本规整处理的计算量。本申请提供的技术方案如下：

一方面，提供了一种文本处理方法，该方法包括：

获取第一文本数据；从该第一文本数据中，确定待进行文本规整的第一文本片段；

提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息；

基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段；

将该第一文本片段替换为该第二文本片段，得到第二文本数据。

在一种可能的实现方式中，该基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段包括：

将该第一文本片段的语义特征输入文本规整模型的编码器网络，通过该编码器网络对该语义特征进行特征映射处理，输出该语义特征的编码特征；

将该编码特征输入该文本规整模型的解码器网络，通过该解码器网络，确定该编码特征对应的第一概率分布特征；

将该第一概率分布特征输入该文本规整模型的线性全连接层，通过该线性全连接层，对该第一概率分布特征进行拼接，得到拼接后的第一概率分布特征；

将该拼接后的第一概率分布特征输入该文本规整模型的归一化层，通过该归一化层，输出该第二文本片段。

在一种可能的实现方式中，该通过该编码器网络对该语义特征进行特征映射处理，输出该语义特征的编码特征包括：

将该语义特征输入该编码器网络的多头注意力层，通过该多头注意力层，获取该语义特征在多个层面的特征；

将该语义特征在多个层面的特征输入该编码器网络的第一标准化层，通过该第一标准化层对第一叠加特征进行标准化处理，得到第一类标准化特征；其中，该第一叠加特征为该语义特征和该语义特征在多个层面的特征进行叠加的结果；

将该第一类标准化特征输入该编码器网络的前向全连接层，通过该前向全连接层，对该第一类标准化特征进行拼接，得到拼接后的第一类标准化特征；

将该拼接后的第一类标准化特征输入该编码器网络的第二标准化层，通过该第二标准化层，对该第一类标准化特征和该拼接后的第一类标准化特征进行标准化处理，得到该编码特征。

在一种可能的实现方式中，该通过该解码器网络，确定该编码特征对应的第一概率分布特征包括：

将该编码特征输入该解码器网络的多头注意力层，通过该多头注意力层，获取该编码特征在多个层面的特征；

将该多个层面的特征输入该解码器网络的第一标准化层，通过该第一标准化层对第二叠加特征进行标准化处理，得到第二类标准化特征；其中，该第二叠加特征为该编码特征和该编码特征在多个层面的特征进行叠加的结果；

将该第二类标准化特征输入该解码器网络的前向全连接层，通过该前向全连接层，对该第二类标准化特征进行拼接，得到拼接后的第二类标准化特征；

将该拼接后的第二类标准化特征输入该解码器网络的第二标准化层，通过该第二标准化层，对该第二类标准化特征和该拼接后的第二类标准化特征进行标准化处理，得到该第一概率分布特征。

在一种可能的实现方式中，该从该第一文本数据中，确定待进行文本规整的第一文本片段包括：

对该第一文本数据进行分字处理；

将分字处理后得到的字符输入文本检测模型，通过该文本检测模型，从该第一文本数据中确定该第一文本片段。

在一种可能的实现方式中，该将分字处理后得到的字符输入该文本检测模型，通过该文本检测模型，从该第一文本数据中确定该第一文本片段包括：

将该字符输入该文本检测模型的输入层，通过该输入层获取该字符的文本表示特征，该文本表示特征用于指示该字符在字典中的字索引；

将该文本表示特征输入该文本检测模型的字嵌入层，通过该字嵌入层对该文本表示特征进行特征映射处理，输出嵌入特征；

将该嵌入特征输入该文本检测模型的双向循环神经网络层，通过该双向循环神经网络层，确定该字符标注为各类标签的概率分布特征，该标签用于指示该字符的类型；

将该概率分布特征输入该文本检测模型的全连接层，通过该全连接层，对该概率分布特征进行拼接，得到拼接后的概率分布特征；

将该拼接后的概率分布特征输入该文本检测模型的条件随机场输出层，通过该条件随机场输出层，确定该字符的标签；

基于该字符的标签，从该第一文本数据中确定该第一文本片段。

在一种可能的实现方式中，该提取该第一文本片段的语义特征包括：

将该第一文本片段输入文本规整模型的输入嵌入层，通过该输入嵌入层获取该第一文本片段的编码向量，作为该第一文本片段的语义特征。

在一种可能的实现方式中，该文本检测模型的训练过程包括：

获取第一样本文本数据和该第一样本文本数据的样本标签，该样本标签用于指示该样本文本数据中待规整的样本文本片段的类型；

基于该第一样本文本数据和该第一样本文本数据的样本标签，训练该文本检测模型。

在一种可能的实现方式中，该文本规整模型的训练过程包括：

获取第二样本文本数据和该第二样本文本数据对应的规整后的文本数据；

基于该第二样本文本数据和该规整后的文本数据，训练该文本规整模型。

一方面，提供了一种文本处理方法，该方法包括：

获取语音数据；基于该语音数据进行语音识别，得到第一文本数据；

从该第一文本数据中，确定待进行文本规整的第一文本片段；

一方面，提供了一种文本处理装置，该装置包括：

获取模块，用于获取第一文本数据；

确定模块，用于从该第一文本数据中，确定待进行文本规整的第一文本片段；

提取模块，用于提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息；

规整处理模块，用于基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段；

替换模块，用于将该第一文本片段替换为该第二文本片段，得到第二文本数据。

在一种可能的实现方式中，该规整处理模块，包括第一处理单元、第二处理单元、第三处理单元和第四处理单元；

该第一处理单元，用于将该第一文本片段的语义特征输入文本规整模型的编码器网络，通过该编码器网络对该语义特征进行特征映射处理，输出该语义特征的编码特征；

该第二处理单元，用于将该编码特征输入该文本规整模型的解码器网络，通过该解码器网络，确定该编码特征对应的第一概率分布特征；

该第三处理单元，用于将该第一概率分布特征输入该文本规整模型的线性全连接层，通过该线性全连接层，对该第一概率分布特征进行拼接，得到拼接后的第一概率分布特征；

该第四处理单元，用于将该拼接后的第一概率分布特征输入该文本规整模型的归一化层，通过该归一化层，输出该第二文本片段。

在一种可能的实现方式中，该第一处理单元，用于将该语义特征输入该编码器网络的多头注意力层，通过该多头注意力层，获取该语义特征在多个层面的特征；将该语义特征在多个层面的特征输入该编码器网络的第一标准化层，通过该第一标准化层对第一叠加特征进行标准化处理，得到第一类标准化特征；其中，该第一叠加特征为该语义特征和该语义特征在多个层面的特征进行叠加的结果；将该第一类标准化特征输入该编码器网络的前向全连接层，通过该前向全连接层，对该第一类标准化特征进行拼接，得到拼接后的第一类标准化特征；将该拼接后的第一类标准化特征输入该编码器网络的第二标准化层，通过该第二标准化层，对该第一类标准化特征和该拼接后的第一类标准化特征进行标准化处理，得到该编码特征。

在一种可能的实现方式中，第二处理单元，用于将该编码特征输入该解码器网络的多头注意力层，通过该多头注意力层，获取该编码特征在多个层面的特征；

将该多个层面的特征输入该解码器网络的第一标准化层，通过该第一标准化层对第二叠加特征进行标准化处理，得到第二类标准化特征；其中，该第二叠加特征为该编码特征和该编码特征在多个层面的特征进行叠加的结果；将该第二类标准化特征输入该解码器网络的前向全连接层，通过该前向全连接层，对该第二类标准化特征进行拼接，得到拼接后的第二类标准化特征；将该拼接后的第二类标准化特征输入该解码器网络的第二标准化层，通过该第二标准化层，对该第二类标准化特征和该拼接后的第二类标准化特征进行标准化处理，得到该第一概率分布特征。

在一种可能的实现方式中，该确定模块，包括分字处理单元和确定单元；

该分字处理单元，用于对该第一文本数据进行分字处理；

该确定单元，用于将分字处理后得到的字符输入文本检测模型，通过该文本检测模型，从该第一文本数据中确定该第一文本片段。

在一种可能的实现方式中，该确定单元，用于将该字符输入该文本检测模型的输入层，通过该输入层获取该字符的文本表示特征，该文本表示特征用于指示该字符在字典中的字索引；将该文本表示特征输入该文本检测模型的字嵌入层，通过该字嵌入层对该文本表示特征进行特征映射处理，输出嵌入特征；将该嵌入特征输入该文本检测模型的双向循环神经网络层，通过该双向循环神经网络层，确定该字符标注为各类标签的概率分布特征，该标签用于指示该字符的类型；将该概率分布特征输入该文本检测模型的全连接层，通过该全连接层，对该概率分布特征进行拼接，得到拼接后的概率分布特征；将该拼接后的概率分布特征输入该文本检测模型的条件随机场输出层，通过该条件随机场输出层，确定该字符的标签；基于该字符的标签，从该第一文本数据中确定该第一文本片段。

在一种可能的实现方式中，该提取模块，用于将该第一文本片段输入文本规整模型的输入嵌入层，通过该输入嵌入层获取该第一文本片段的编码向量，作为该第一文本片段的语义特征。

一方面，提供了一种文本处理装置，该装置包括：

获取模块，用于获取语音数据；

语音识别模块，用于基于该语音数据进行语音识别，得到第一文本数据；

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该文本处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该文本处理方法所执行的操作。

一方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码由处理器加载并执行以实现该文本处理方法所执行的操作。

本申请提供的方案，首先从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本处理方法的实施环境示意图；

图2是本申请实施例提供的一种文本处理方法的流程图；

图3是本申请实施例提供的一种文本处理方法的流程图；

图4是本申请实施例提供的一种文本处理方法的流程图；

图5是本申请实施例提供的一种文本检测模型的处理过程示意图；

图6是本申请实施例提供的一种文本规整模型的处理过程示意图；

图7是本申请实施例提供的一种文本处理方法的流程图；

图8是本申请实施例提供的一种文本处理装置的结构示意图；

图9是本申请实施例提供的一种文本处理装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种文本处理方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101可以为智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101和服务器102通过有线或无线通信方式进行连接，本申请实施例对此不加以限定。终端101通过麦克风组件获取用户的语音数据，进而将获取到的语音数据发送给服务器102，以通过服务器102将语音数据发送给相应的其他终端。其中，该麦克风组件内置或外接于终端101，本申请实施例对此不加以限定。终端101还可以在获取到语音数据后，对获取到的语音数据进行语音识别，再对语音识别得到的文本数据进行文本规整处理，得到经过文本规整处理的文本数据，进而将经过文本规整处理的文本数据发送给服务器102，以通过服务器102将经过文本规整处理的文本数据发送给相应的其他终端。

终端101还可以接收其他终端通过服务器102发送的语音数据，并响应于用户对语音数据对应的文本转换控件的触发操作，向服务器102发送文本转换请求，并接收服务器102基于该文本转换请求返回的该语音数据对应的文本数据；或者，终端101响应于用户对语音数据对应的文本转换控件的触发操作，对接收到的语音数据进行语音识别，再对语音识别得到的文本数据进行文本规整处理，得到经过文本规整处理的文本数据，进而对经过文本规整处理的文本数据进行展示。

终端101可以泛指多个终端中的一个，本申请实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端101的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102和终端101通过有线或无线通信方式进行连接，本申请实施例对此不加以限定。服务器102接收终端101发送的语音数据，并将接收到的语音数据发送给相应的终端；或者，服务器102接收终端101发送的经过文本规整处理的文本数据，并将接收到的文本数据发送给相应的终端。服务器102还可以接收终端101发送的文本转换请求，进而对该文本转换请求对应的语音数据进行语音识别，再对语音识别得到的文本数据进行文本规整处理，得到经过文本规整处理的文本数据，进而将经过文本规整处理的文本数据发送给终端101。可选地，上述服务器的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本申请实施例提供的一种文本处理方法的流程图，参见图2，该方法包括：

201、计算机设备获取第一文本数据；从该第一文本数据中，确定待进行文本规整的第一文本片段。

202、计算机设备提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息。

203、计算机设备基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段。

204、计算机设备将该第一文本片段替换为该第二文本片段，得到第二文本数据。

本申请实施例提供的方案，首先从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

对该第一文本数据进行分字处理；

图3是本申请实施例提供的一种文本处理方法的流程图，参见图3，该方法包括：

301、计算机设备获取语音数据；基于该语音数据进行语音识别，得到第一文本数据。

302、计算机设备从该第一文本数据中，确定待进行文本规整的第一文本片段。

303、计算机设备提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息。

304、计算机设备基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段。

305、计算机设备将该第一文本片段替换为该第二文本片段，得到第二文本数据。

本申请实施例提供的方案，首先对获取到的语音数据进行语音识别，得到待规整的文本数据，进而从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

图4是本申请实施例提供的一种文本处理方法的流程图，参见图4，该方法包括：

401、服务器获取第一文本数据。

在一种可能的实现方式中，终端获取用户输入的文本数据，进而将获取到的文本数据作为第一文本数据，发送给服务器，以便服务器获取到该第一文本数据。

402、服务器对该第一文本数据进行分字处理。

在一种可能的实现方式中，服务器将第一文本数据中的字符与字符之间以空格隔开，以实现对第一文本数据的分字处理，以便后续处理时，基于分字处理的结果，对第一文本数据中的字符进行处理。

以该第一文本数据为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”为例，经过分字处理后的第一文本数据为“发放《上海市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”。

需要说明的是，上述过程仅为对文本数据进行分字处理的一种示例性方式，在更多可能的实现方式中，采用其他方式来对文本数据进行分字处理，本申请实施例对此不加以限定。

403、服务器将分字处理后得到的字符输入文本检测模型，通过该文本检测模型，从该第一文本数据中确定该第一文本片段。

需要说明的是，该文本检测模型包括输入层、字嵌入层、双向循环神经网络(Bi-Recurrent Neural Network，Bi-RNN)层、线性全连接层、条件随机场(Conditional RandomField，CRF)输出层。可选地，采用卷积层或者翻译(Transformer)模型，来对该双向循环神经网络层进行替换，本申请实施例对此不加以限定。

在一种可能的实现方式中，服务器先将该字符输入该文本检测模型的输入层，通过该输入层获取该字符的文本表示特征，该文本表示特征用于指示该字符在字典中的字索引，其中，字典中存储有多个字符，每个字符对应有相应的字索引，该字索引用于指示字符在字典中的存储位置，以便根据字索引从字典中确定出相应的字符；接着将该文本表示特征输入该文本检测模型的字嵌入层，通过该字嵌入层对该文本表示特征进行特征映射处理，输出嵌入特征；再将该嵌入特征输入该文本检测模型的双向循环神经网络层，通过该双向循环神经网络层，确定该字符标注为各类标签的概率分布特征，该标签用于指示该字符的类型；然后将该概率分布特征输入该文本检测模型的全连接层，通过该全连接层，对该概率分布特征进行拼接，得到拼接后的概率分布特征；再然后将该拼接后的概率分布特征输入该文本检测模型的条件随机场输出层，通过该条件随机场输出层，确定该字符的标签；最后基于该字符的标签，从该第一文本数据中确定该第一文本片段。

参见图5，图5是本申请实施例提供的一种文本检测模型的处理过程示意图，仍以第一文本数据为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”为例，服务器将分字处理得到的第一文本数据的各个字符输入文本检测模型，每个字符输入文本检测模型的输入层后，通过输入层的查找表(Lookup Table)，将输入的字符转变为向量X＝(x1,x2,x3,…,xn)，作为字符的文本表示特征；将作为文本表示特征的向量X输入文本检测模型的字嵌入层，通过字嵌入层，将向量X映射为一个固定长度的向量E＝(e1,e2,e3,…,en)，作为嵌入特征；将作为嵌入特征的向量E输入文本检测模型的双向循环神经网络层，通过双向循环神经网络层，确定各个字符标注为各类标签的概率分布，进而通过文本检测模型的全连接层，将各个字符标注为各类标签的概率分布拼接后得到的结果，输出至文本检测模型的条件随机场层，通过该条件随机场层，将各个字符对应的各类标签中概率最大的标签，确定为该字符的标签，进而基于第一文本数据中各个字符的标签，进行第一文本片段的确定。可选地，服务器在确定出待进行文本规整的第一文本片段后，标记该第一文本片段在第一文本数据中的位置，以便后续进行第一文本片段的替换时，按照第一文本片段在第一文本数据中的位置来进行替换。

其中，由于双向循环神经网络层在确定任一字符被标注为各类标签的概率分布时，输入的除了该任一字符的嵌入特征，还有该任一字符在第一文本数据中的上一个字符标注为各类标签的概率分布，以及该任一字符在第一文本数据中的下一个字符标注为各类标签的概率分布，也即是，考虑到了字符在文本数据中的上下文，提高了确定出的概率分布结果的准确性。

而对于条件随机场层，条件随机场层输入的是拼接后的概率分布特征，也即是n×k的矩阵，其中n表示输入长度，k为标签数，条件随机场的输入的是一个观测序列，记为D＝(d1,d2,d3,…,dn)，输出是一个标记序列，记为Y＝(y1,y2,y3,…,yn)，条件随机场层的目标是构建条件概率模型P(y|x)，参见如下公式(1)：

其中，

t_j(y_i-1，y_i，x，i)是定义在观测序列的两个相邻标记位置上的转移函数，用于表示相邻标记变量之间的相关关系以及观测序列对相邻标记变量的影响，s_k(y_i，x，i)是定义在观测序列的标记位置i上的状态特征函数，用于表示观测序列对标记序列的影响，λ_j，μ_k是预设参数，Z是归一化因子。

对于预测标签序列，也即是，标记序列Y＝(y1,y2,y3,…,yn)，其得分计算公式参见如下公式(2)：

其中，

为第i个位置的输入输出的标签为y_i的概率，

为从y_i-1到y_i的转移概率。

需要说明的是，该文本检测模型由服务器预先训练得到。在一种可能的实现方式中，服务器获取第一样本文本数据和该第一样本文本数据的样本标签，该样本标签用于指示该样本文本数据中待规整的样本文本片段的类型；基于该第一样本文本数据和该第一样本文本数据的样本标签，训练该文本检测模型。

在基于该第一样本文本数据和该第一样本文本数据的样本标签，训练该文本检测模型时，服务器先将第一样本文本数据中的第一个第一样本文本数据输入至初始文本检测模型，通过该初始文本检测模型，确定第一个第一样本文本数据的标签，进而基于第一个第一样本文本数据的标签以及第一个第一样本文本数据的样本标签，确定该初始文本检测模型的损失函数值，根据该损失函数值，利用梯度修正网络，对初始文本检测模型的参数进行调整，得到经过第一次参数调整的文本检测模型。

再将第一样本文本数据中的第二个第一样本文本数据输入至经过第一次参数调整的文本检测模型，通过该经过第一次参数调整的文本检测模型，确定第二个第一样本文本数据的标签，进而基于第二个第一样本文本数据的标签以及第二个第一样本文本数据的样本标签，确定该经过第一次参数调整的文本检测模型的损失函数值，根据该损失函数值，利用梯度修正网络，对经过第一次参数调整的文本检测模型的参数进行进一步调整，得到经过第二次参数调整的文本检测模型。以此类推，继续基于该第一样本文本数据中的各个样本文本数据，对经过参数调整的文本检测模型的参数进行进一步调整，最终得到满足目标条件的文本检测模型。该目标条件为模型输出的标签与样本标签的相似度满足迭代截止条件，或者，模型的损失函数值满足迭代截止条件，或者，迭代次数达到预设次数，本申请实施例对具体采用哪种条件不加以限定。

其中，该第一样本文本数据的样本标签由相关技术人员预先标注得到，相关技术人员按照预先设定好的标记规则，对属于预设规整类型的文本片段进行标记，以得到第一样本文本数据的样本标签。其中，该预设规整类型包括数字类规整类型、日期类规整类型、口语词类规整类型、公式类规整等，可选地，该预设规整类型还包括其他类型，本申请实施例对此不加以限定。不同的规整类型可定义为相应的标签，例如，数字类规整类型定义为“num”标签，日期类规整类型定义为“date”标签，时间类规整类型定义为“time”标签，口语词类规整类型(包括重复语气词和口语词等)定义为“redup”标签，公式类规整类型定义为“formula”标签，等等，以便相关技术人员根据预设规整类型，标注第一样本文本数据中待进行文本规整的文本片段的位置，以及待进行文本规整的文本片段对应的样本标签。以第一样本文本数据为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”为例，其中，“二零一三至二零一四”和“三千”为待进行文本规整的样本文本片段，且这两个待规整的文本片段对应的预设规整类型为数字类规整类型，则将第一样本文本数据中的这两个样本文本片段的样本标签标注为“num”标签。

此外，如果有新增的预设规整类型，添加对应的标签即可。对于新增的预设规整类型，可通过定量补充该类型的标注数据，来对文本检测模型进行迭代训练，以使文本规整模型适配相应的规整任务，提升方案解决规整问题的鲁棒性。

在更多可能的实现方式中，设置默认标签，将所有的预设规整类型均标记为默认标签，来对预设规整类型进行统一标识，以降低标注的成本和工作量。例如，以用于标记待规整的文本片段的起始字符的标签为B，用于标记待规整的文本片段的中间字符的标签为I，用于标记待规整的文本片段的结束字符的标签为E为例，第一文本数据“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”对应的标签为“OOOOOOOOOOOOOOOOOOOBIIIIIIIEOOBEO”。

通过对属于预设规整类型的文本片段进行标注，无需对文本数据中的各个文本片段都进行标注，降低模型训练时所需标注的数据量，降低模型训练时所需的标注成本。

需要说明的是，上述仅为一种确定待进行文本规整的第一文本片段的示例性方法，在更多可能的实现方式中，采用其他方式来进行第一文本片段的确定，本申请实施例对此不加以限定。

404、服务器提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息。

需要说明的是，该步骤404中提取第一文本片段的语义特征的过程，通过文本规整模型实现，该文本规整模型采用Transformer的编码-解码(Encoder-Decoder)模型框架，包括输入嵌入层、编码器网络、解码器网络、线性全连接层和归一化层。可选地，该文本规整模型采用循环神经网络(Recurrent Neural Network，RNN)框架，本申请实施例对此不加以限定。

在一种可能的实现方式中，服务器将该第一文本片段输入文本规整模型的输入嵌入层，通过该输入嵌入层获取该第一文本片段的编码向量，作为该第一文本片段的语义特征。

其中，第二类语义特征为包括第一文本片段在内的上下文窗口文本的语义特征，其窗口长度大小为第一文本片段的字数与左右边界步长之和，窗口长度大小一般是大于或等于第一文本片段的字数的；第三类语义特征为把包括第一文本片段在内的上下文窗口文本转换为拼音得到的结果，非中文字符保持与原字符相同。

仍以该第一文本数据为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”为例，其中，第一文本片段为“二零一三至二零一四”和“三千”，以第一文本片段为“二零一三至二零一四”为例，该第一文本片段的第一类语义特征为第一文本片段“二零一三至二零一四”的自身文本信息，即“二零一三至二零一四”。以窗口的左右边界步长为4为例，则第一文本片段所在窗口的窗口文本为“务索引(二千零一十三至二千零一十四)》三千”，若左右边界步长不足4，则无需获取该第二类语义特征，可选地，该窗口的左右边界步长为其他取值，本申请实施例对此不加以限定。该第一文本片段的第三类文本特征为窗口文本的文本转换为拼音得到的拼音信息，如“务索引(二千零一十三至二千零一十四)》三千”的拼音为['wu','suo','yin','(','er','qian','ling','yi','shi','san','zhi','er','qian','ling','yi','shi','si',')》','san','qian']，也即是该第一文本片段的第三类文本特征，其中，非汉字字符以源字符表示，如上述示例中的符号字符。

在一种可能的实现方式中，服务器提出这三类语义特征后，将这三类语义特征拼接到一起，得到拼接后的语义特征，作为后续要输入文本规整模型的编码器网络的语义特征。在进行特征拼接时，通过自定义符号对这三类语义特征进行拼接。例如，对规整目标文本及窗口文本进行按字分词，对窗口拼音进行按空格分词处理，通过自定义符号“&&”对这三类语义特征进行拼接，得到拼接后的语义特征['二','千','零','一','十','三','至','二','千','零','一','十','四','&','&','务','索','引','(','二','千','零','一','十','三','至','二','千','零','一','十','四',')','》','三','千','&','&','wu','suo','yin','(','er','qian','ling','yi','shi','san','zhi','er','qian','ling','yi','shi','si',')》','san','qian']。可选地，该自定义符号为其他类型，本申请实施例对此不加以限定。

405、服务器将该第一文本片段的语义特征输入文本规整模型的编码器网络，通过该编码器网络对该语义特征进行特征映射处理，输出该语义特征的编码特征。

需要说明的是，编码器(Encoder)网络由N个相同的层(Layer)组成，每个Layer由两个子层(Sub-Layer)组成，分别是多头注意力(Multi-Head Attention)层和前向全连接(FC Feed Forward)层，每个子层都增加了标准化(Add&Norm)层，包括残差连接(ResidualConnection)层和归一化层(Layer Normalization)，也即是，该编码器网络包括多头注意力层、第一标准化层、前向全连接层和第二标准化层，各个子层的输出为：Sub_Layer_output＝LayerNorm(x+SubLayer(x))。

在一种可能的实现方式中，服务器将该语义特征输入该编码器网络的多头注意力层，通过该多头注意力层，获取该语义特征在多个层面的特征；将该语义特征在多个层面的特征输入该编码器网络的第一标准化层，通过该第一标准化层对第一叠加特征进行标准化处理，得到第一类标准化特征；其中，该第一叠加特征为该语义特征和该语义特征在多个层面的特征进行叠加的结果；将该第一类标准化特征输入该编码器网络的前向全连接层，通过该前向全连接层，对该第一类标准化特征进行拼接，得到拼接后的第一类标准化特征；将该拼接后的第一类标准化特征输入该编码器网络的第二标准化层，通过该第二标准化层，对该第一类标准化特征和该拼接后的第一类标准化特征进行标准化处理，得到该编码特征。

406、服务器将该编码特征输入该文本规整模型的解码器网络，通过该解码器网络，确定该编码特征对应的第一概率分布特征。

需要说明的是，解码器(Decoder)网络的结构和编码器网络的结构类似，包括多头注意力层、第一标准化层、前向全连接层和第二标准化层，解码器网络的输入为编码器网络的输出，输出为文本数据中待规整的文本片段进行文本规整处理后的各个可能结果对应的概率分布。

在一种可能的实现方式中，服务器将该编码特征输入该解码器网络的多头注意力层，通过该多头注意力层，获取该编码特征在多个层面的特征；将该多个层面的特征输入该解码器网络的第一标准化层，通过该第一标准化层对第二叠加特征进行标准化处理，得到第二类标准化特征；其中，该第二叠加特征为该编码特征和该编码特征在多个层面的特征进行叠加的结果；将该第二类标准化特征输入该解码器网络的前向全连接层，通过该前向全连接层，对该第二类标准化特征进行拼接，得到拼接后的第二类标准化特征；将该拼接后的第二类标准化特征输入该解码器网络的第二标准化层，通过该第二标准化层，对该第二类标准化特征和该拼接后的第二类标准化特征进行标准化处理，得到该第一概率分布特征。

407、服务器将该第一概率分布特征输入该文本规整模型的线性全连接层，通过该线性全连接层，对该第一概率分布特征进行拼接，得到拼接后的第一概率分布特征。

408、服务器将该拼接后的第一概率分布特征输入该文本规整模型的归一化层，通过该归一化层，输出第二文本片段。

需要说明的是，上述步骤404至步骤408所使用的文本规整模型由服务器预先训练得到。与实际使用过程中的文本规整模型有所不同的是，用于训练的文本规整模型在解码器网络中的多头注意力层之前，设置有基于掩模的多头注意力(Maskd Multi-HeadAttention)层和第三标准化层。通过在解码器网络中的多头注意力层之间设置基于掩模的多头注意力层，确保在训练过程中，预测任一位置的词语时，接触不到后续位置的词语的信息，提高模型训练的准确性。

其中，解码器网络中多头注意力层的输入为编码器网络的输出，以及基于掩模的多头注意力层经过第三标准化处的输出，编码层计算出来后，解码层利用编码层计算出的结果作为多头注意力层的输入，循环解码当前位置的输出词概率。

在一种可能的实现方式中，服务器获取第二样本文本数据和该第二样本文本数据对应的规整后的文本数据；基于该第二样本文本数据和该规整后的文本数据，训练该文本规整模型。

在基于该第二样本文本数据和该规整后的文本数据，训练该文本规整模型时，服务器先将第二样本文本数据中的第一个第二样本文本数据输入至初始文本规整模型，通过该初始文本规整模型，确定第一个第二样本文本数据经过文本规整模型处理得到的文本数据，进而基于第一个第二样本文本数据经过文本规整模型处理得到的文本数据，以及第一个第二样本文本数据对应的规整后的文本数据，确定该初始文本规整模型的损失函数值，根据该损失函数值，利用梯度修正网络，对初始文本规整模型的参数进行调整，得到经过第一次参数调整的文本规整模型。

再将第二样本文本数据中的第二个第二样本文本数据输入至经过第一次参数调整的文本规整模型，通过该经过第一次参数调整的文本规整模型，确定第二个第二样本文本数据经过文本规整模型处理得到的文本数据，进而基于第二个第二样本文本数据经过文本规整模型处理得到的文本数据，以及第二个第二样本文本数据对应的规整后的文本数据，确定该经过第一次参数调整的文本规整模型的损失函数值，根据该损失函数值，利用梯度修正网络，对经过第一次参数调整的文本规整模型的参数进行进一步调整，得到经过第二次参数调整的文本规整模型。

以此类推，继续基于该第二样本文本数据中的各个样本文本数据，对经过参数调整的文本规整模型的参数进行进一步调整，最终得到满足目标条件的文本规整模型。该目标条件经过文本规整模型处理得到的文本数据，与样本文本数据对应的规整后的文本数据的相似度满足迭代截止条件，或者，模型的损失函数值满足迭代截止条件，或者，迭代次数达到预设次数，本申请实施例对具体采用哪种条件不加以限定。

以第二样本文本数据为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四)》三千份”为例，其中，“二零一三至二零一四”和“三千”为待进行文本规整的样本文本片段，对第二样本文本数据进行标注后的结果为“发放《S市中小企业发展志愿服务索引(二零一三至二零一四/<2013—2014>)》三千/<3000>份”，“/<2013—2014>”、“/<3000>”为相应的样本标签，用“/<XX>”标记，用于表示待进行文本规整的样本文本片段规整后的结果，“XX”为规整结果内容。可选地，该样本文本片段用空格符号作为边界与前后字符分开标识，以便服务器能够快速定位到该样本文本片段。

在更多可能的实现方式中，采用预训练模型对文本规整模型中的编码器网络进行替换，然后对解码器网络采用微调训练参数的方式，来进行训练。

上述步骤404至步骤408所示的过程参见图6，图6是本申请实施例提供的一种文本规整模型的处理过程示意图，该图6中包括文本规整模型在训练和实际使用过程中的两种结构，该图6中的完整结构即为用于训练的文本规整模型的结构，在对文本规整模型进行训练时，将作为输入的第二样本文本数据输入输入嵌入层，经过输入嵌入层处理后，得到第二样本文本数据的向量表示，作为第二样本文本数据的语义特征，并对第二样本文本数据的语义特征进行位置编码，将经过位置编码的语义特征输入编码器网络，通过编码器网络中的多头注意力层、第一标准化层、前向全连接层、第二标准化层，输出第二样本文本数据的编码特征。

将作为校准标准的第二样本文本数据对应的规整后的文本数据输入输出嵌入层，经过输出嵌入层处理后，得到第二样本文本数据对应的规整后的文本数据的向量表示，作为规整后的文本数据的语义特征，并对规整后的文本数据的语义特征进行位置编码，将经过位置编码的语义特征输入解码器网络，通过解码器网络中的基于掩模的多头注意力层、第三标准化层，输入规整后的文本数据的监督特征，进而将第二样本文本数据的编码特征以及规整后的文本数据的监督特征输入解码器网络中的多头注意力层、第一标准化层、前向全连接层、第二标准化层，输出该第二样本文本数据对应的第一概率分布特征，进而通过线性全连接层和归一化层，输出第二样本文本数据经过文本规整处理得到的文本数据。

需要说明的是，在实际使用过程中，文本规整模型的处理过程与上述过程同理，此处不再赘述，有所不同的是，实际使用过程中，文本规整模型不包括输出嵌入层以及解码器网络中的基于掩模的多头注意力层和第三标准化层。

409、服务器将该第一文本片段替换为该第二文本片段，得到第二文本数据。

在一种可能的实现方式中，服务器根据第一文本片段的位置，用第二文本片段来对相应位置处的第一文本片段进行替换，以得到经过文本规整处理的第二文本数据。

需要说明的是，上述步骤401至步骤409是以服务器对获取到的第一文本数据进行文本规整处理的过程为例来进行说明的，在更多可能的实现方式中，终端在获取到第一文本数据，通过与上述步骤402至步骤409同理的步骤，来对该第一文本数据进行处理，得到经过文本规整处理的第二文本数据，具体过程参见上述步骤402至步骤409，此处不再赘述。

本申请实施例提供的方案，首先从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。通过将文本规整任务划分为文本片段的文本检测任务，以及针对该文本片段的文本规整任务，实现了对文本规整的任务分解，进而通过各子任务的优化提升任务最终效果，降低总体任务难度，提升文本规整效率，而且，分步进行文本片段的检测、规整，还能降低文本规整过程的计算量，提高文本规整速度。

本申请实施例提供的方案，能够应用于语音识别、语音转写等多种场景，以本申请实施例在语音转写场景的应用为例，参见图7，图7是本申请实施例提供的一种文本处理方法的流程图，应用于语音转写场景中，该方法包括：

701、服务器获取语音数据。

在一种可能的实现方式中，终端获取用户输入的语音数据，并将获取到的语音数据发送给服务器，服务器对接收到的语音数据进行语音识别，得到该第一文本数据。

需要说明的是，在对语音数据进行语音识别时，提取获取到的语音数据的语音特征，将提取到的语音特征输入语音识别模型，通过语音识别模型的隐层，提取该语音特征的隐层特征，通过该语音识别模型的特征分类层，对提取出的隐层特征进行分类，得到该隐层特征对应于各个音素的概率值，进而基于该隐层特征对应于各个音素的概率值、发音词典以及语言模型，确定该语音数据对应的文本数据。该发音词典用于指示音素与发音之间的映射关系，该语言模型用于确定组成文本数据的各个词对应的概率值。

其中，该语音特征为频谱特征，该频谱特征用于指示语音数据在频域的变化信息。可选地，该语音特征为其他特征，本申请实施例对此不加以限定。以该语音特征为频谱特征为例，对语音数据进行傅里叶变换，得到语音数据在频域上的幅值信息，也即是，得到该语音数据中各个频率对应的振幅，即得到该语音数据的频谱特征。可选地，在对语音数据进行傅里叶变换之前，先对语音数据进行预处理，如预加重、分帧、加窗等处理，以降低由于发声器官、采集语音数据的设备所带来的混叠、高次谐波失真等问题的影响，提高语音数据的质量，进而保证语音特征提取的准确性。

需要说明的是，上述仅为一种对语音数据进行语音识别，得到第一文本数据的示例性方式，在更多可能的实现方式中，采用其他方式来对语音数据进行语音识别，本申请实施例对此不加以限定。

702、服务器基于该语音数据进行语音识别，得到第一文本数据。

需要说明的是，上述步骤301至步骤302是以终端获取到语音数据后发送给服务器，由服务器来对语音数据进行语音识别，得到第一文本数据为例来进行说明的，在更多可能的实现方式中，终端获取用户输入的语音数据，并对获取到的语音数据进行语音识别，得到第一文本数据，进而将该第一文本数据发送给服务器，以便服务器获取到该第一文本数据。其中，对语音数据进行语音识别与上述步骤301同理，此处不再赘述。

通过该步骤302，能够实现对获取到的语音数据的语音转写，得到第一文本数据，进而通过下述步骤303至步骤310来对语音转写得到的第一文本数据进行文本规整，具体过程参见下述步骤303至步骤310。此外，除上述这种语音转写场景外，本申请实施例提供的方案，还能应用在其他场景中，本申请实施例对此不加以限定。

703、服务器对该第一文本数据进行分字处理。

704、服务器将分字处理后得到的字符输入文本检测模型，通过该文本检测模型，从该第一文本数据中确定该第一文本片段。

705、服务器提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息。

706、服务器将该第一文本片段的语义特征输入文本规整模型的编码器网络，通过该编码器网络对该语义特征进行特征映射处理，输出该语义特征的编码特征。

707、服务器将该编码特征输入该文本规整模型的解码器网络，通过该解码器网络，确定该编码特征对应的第一概率分布特征。

708、服务器将该第一概率分布特征输入该文本规整模型的线性全连接层，通过该线性全连接层，对该第一概率分布特征进行拼接，得到拼接后的第一概率分布特征。

709、服务器将该拼接后的第一概率分布特征输入该文本规整模型的归一化层，通过该归一化层，输出第二文本片段。

710、服务器将该第一文本片段替换为该第二文本片段，得到第二文本数据。

上述步骤703至步骤710的过程，与上述步骤402至步骤409的过程同理，此处不再赘述。

需要说明的是，上述步骤701至步骤710是以服务器对语音数据识别得到的文本数据进行文本规程处理的过程为例来进行说明的，在更多可能的实现方式中，终端在获取到语音数据后，对该语音数据进行语音识别，得到该语音数据对应的第一文本数据，进而通过与上述步骤703至步骤710同理的步骤，来对该第一文本数据进行处理，得到经过文本规整处理的第二文本数据，具体过程参见上述步骤703至步骤710，此处不再赘述。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图8是本申请实施例提供的一种文本处理装置的结构示意图，参见图8，该装置包括：

获取模块801，用于获取第一文本数据；

确定模块802，用于从该第一文本数据中，确定待进行文本规整的第一文本片段；

提取模块803，用于提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息；

规整处理模块804，用于基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段；

替换模块805，用于将该第一文本片段替换为该第二文本片段，得到第二文本数据。

本申请实施例提供的装置，首先从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

在一种可能的实现方式中，该规整处理模块804，包括第一处理单元、第二处理单元、第三处理单元和第四处理单元；

在一种可能的实现方式中，该确定模块802，包括分字处理单元和确定单元；

该分字处理单元，用于对该第一文本数据进行分字处理；

在一种可能的实现方式中，该提取模块803，用于将该第一文本片段输入文本规整模型的输入嵌入层，通过该输入嵌入层获取该第一文本片段的编码向量，作为该第一文本片段的语义特征。

图9是本申请实施例提供的一种文本处理装置的结构示意图，参见图9，该装置包括：

获取模块901，用于获取语音数据；

语音识别模块902，用于基于该语音数据进行语音识别，得到第一文本数据；

确定模块903，用于从该第一文本数据中，确定待进行文本规整的第一文本片段；

提取模块904，用于提取该第一文本片段的语义特征，该语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；该第一类语义特征用于指示该第一文本片段的语义信息，该第二类语义特征用于指示该第一文本片段的上下文文本片段的语义信息，该第三类语义特征用于指示该第一文本片段的上下文文本片段的拼音信息；

规整处理模块905，用于基于该第一文本片段的语义特征，对该第一文本片段进行文本规整处理，得到第二文本片段；

替换模块906，用于将该第一文本片段替换为该第二文本片段，得到第二文本数据。

本申请实施例提供的装置，首先对获取到的语音数据进行语音识别，得到待规整的文本数据，进而从待进行文本规整的文本数据中，确定出待进行文本规整的文本片段，并仅对该文本片段进行文本规整处理，降低了计算量；另外，本申请实施例基于该文本片段的语义特征，来对该文本片段进行文本规整处理，再以处理后的文本片段替换原始的文本片段，得到新的文本数据，这种文本规整方式能够对经过语音识别得到的文本进行有效规整，提高了文本数据的可读性和连贯性，进而确保了用户的阅读体验，提高了文本处理效率。

需要说明的是：上述实施例提供的文本处理装置在对经过语音识别得到的文本进行文本规整处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本处理装置与文本处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机设备。可选地，该计算机设备被提供为一种终端，或者，该计算机设备被提供为一种服务器，本申请实施例对此不加以限定。下面分别对终端和服务器的结构进行介绍。

图10是本申请实施例提供的一种终端的结构示意图。通常，终端1000包括有：一个或多个处理器1001和一个或多个存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1001所执行以实现本申请中方法实施例提供的文本处理方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制显示屏1005的显示亮度。具体地，当环境光强度较高时，调高显示屏1005的显示亮度；当环境光强度较低时，调低显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1101和一个或多个的存储器1102，其中，该一个或多个存储器1102中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的文本处理方法。当然，该服务器1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的文本处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，该计算机程序代码由计算机设备的处理器加载并执行，以完成上述实施例中提供的文本处理方法的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取第一文本数据；从所述第一文本数据中，确定待进行文本规整的第一文本片段；

提取所述第一文本片段的语义特征，所述语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；所述第一类语义特征用于指示所述第一文本片段的语义信息，所述第二类语义特征用于指示所述第一文本片段的上下文文本片段的语义信息，所述第三类语义特征用于指示所述第一文本片段的上下文文本片段的拼音信息；

基于所述第一文本片段的语义特征，对所述第一文本片段进行文本规整处理，得到第二文本片段；

将所述第一文本片段替换为所述第二文本片段，得到第二文本数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本片段的语义特征，对所述第一文本片段进行文本规整处理，得到第二文本片段包括：

将所述第一文本片段的语义特征输入文本规整模型的编码器网络，通过所述编码器网络对所述语义特征进行特征映射处理，输出所述语义特征的编码特征；

将所述编码特征输入所述文本规整模型的解码器网络，通过所述解码器网络，确定所述编码特征对应的第一概率分布特征；

将所述第一概率分布特征输入所述文本规整模型的线性全连接层，通过所述线性全连接层，对所述第一概率分布特征进行拼接，得到拼接后的第一概率分布特征；

将所述拼接后的第一概率分布特征输入所述文本规整模型的归一化层，通过所述归一化层，输出所述第二文本片段。

3.根据权利要求2所述的方法，其特征在于，所述通过所述编码器网络对所述语义特征进行特征映射处理，输出所述语义特征的编码特征包括：

将所述语义特征输入所述编码器网络的多头注意力层，通过所述多头注意力层，获取所述语义特征在多个层面的特征；

将所述语义特征在多个层面的特征输入所述编码器网络的第一标准化层，通过所述第一标准化层对第一叠加特征进行标准化处理，得到第一类标准化特征；其中，所述第一叠加特征为所述语义特征和所述语义特征在多个层面的特征进行叠加的结果；

将所述第一类标准化特征输入所述编码器网络的前向全连接层，通过所述前向全连接层，对所述第一类标准化特征进行拼接，得到拼接后的第一类标准化特征；

将所述拼接后的第一类标准化特征输入所述编码器网络的第二标准化层，通过所述第二标准化层，对所述第一类标准化特征和所述拼接后的第一类标准化特征进行标准化处理，得到所述编码特征。

4.根据权利要求2所述的方法，其特征在于，所述通过所述解码器网络，确定所述编码特征对应的第一概率分布特征包括：

将所述编码特征输入所述解码器网络的多头注意力层，通过所述多头注意力层，获取所述编码特征在多个层面的特征；

将所述多个层面的特征输入所述解码器网络的第一标准化层，通过所述第一标准化层对第二叠加特征进行标准化处理，得到第二类标准化特征；其中，所述第二叠加特征为所述编码特征和所述编码特征在多个层面的特征进行叠加的结果；

将所述第二类标准化特征输入所述解码器网络的前向全连接层，通过所述前向全连接层，对所述第二类标准化特征进行拼接，得到拼接后的第二类标准化特征；

将所述拼接后的第二类标准化特征输入所述解码器网络的第二标准化层，通过所述第二标准化层，对所述第二类标准化特征和所述拼接后的第二类标准化特征进行标准化处理，得到所述第一概率分布特征。

5.根据权利要求1所述的方法，其特征在于，所述从所述第一文本数据中，确定待进行文本规整的第一文本片段包括：

对所述第一文本数据进行分字处理；

将分字处理后得到的字符输入文本检测模型，通过所述文本检测模型，从所述第一文本数据中确定所述第一文本片段。

6.根据权利要求5所述的方法，其特征在于，所述将分字处理后得到的字符输入所述文本检测模型，通过所述文本检测模型，从所述第一文本数据中确定所述第一文本片段包括：

将所述字符输入所述文本检测模型的输入层，通过所述输入层获取所述字符的文本表示特征，所述文本表示特征用于指示所述字符在字典中的字索引；

将所述文本表示特征输入所述文本检测模型的字嵌入层，通过所述字嵌入层对所述文本表示特征进行特征映射处理，输出嵌入特征；

将所述嵌入特征输入所述文本检测模型的双向循环神经网络层，通过所述双向循环神经网络层，确定所述字符标注为各类标签的概率分布特征，所述标签用于指示所述字符的类型；

将所述概率分布特征输入所述文本检测模型的全连接层，通过所述全连接层，对所述概率分布特征进行拼接，得到拼接后的概率分布特征；

将所述拼接后的概率分布特征输入所述文本检测模型的条件随机场输出层，通过所述条件随机场输出层，确定所述字符的标签；

基于所述字符的标签，从所述第一文本数据中确定所述第一文本片段。

7.根据权利要求1所述的方法，其特征在于，所述提取所述第一文本片段的语义特征包括：

将所述第一文本片段输入文本规整模型的输入嵌入层，通过所述输入嵌入层获取所述第一文本片段的编码向量，作为所述第一文本片段的语义特征。

8.一种文本处理方法，其特征在于，所述方法包括：

获取语音数据；基于所述语音数据进行语音识别，得到第一文本数据；

从所述第一文本数据中，确定待进行文本规整的第一文本片段；

9.一种文本处理装置，其特征在于，所述装置包括：

获取模块，用于获取第一文本数据；

确定模块，用于从所述第一文本数据中，确定待进行文本规整的第一文本片段；

提取模块，用于提取所述第一文本片段的语义特征，所述语义特征包括第一类语义特征、第二类语义特征和第三类语义特征中至少一项；所述第一类语义特征用于指示所述第一文本片段的语义信息，所述第二类语义特征用于指示所述第一文本片段的上下文文本片段的语义信息，所述第三类语义特征用于指示所述第一文本片段的上下文文本片段的拼音信息；

规整处理模块，用于基于所述第一文本片段的语义特征，对所述第一文本片段进行文本规整处理，得到第二文本片段；

替换模块，用于将所述第一文本片段替换为所述第二文本片段，得到第二文本数据。

10.一种文本处理装置，其特征在于，所述装置包括：

获取模块，用于获取语音数据；

语音识别模块，用于基于所述语音数据进行语音识别，得到第一文本数据；

11.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的文本处理方法所执行的操作；或，如权利要求8所述的文本处理方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的文本处理方法所执行的操作；或，如权利要求8所述的文本处理方法所执行的操作。