CN112466286A

CN112466286A - 数据处理方法及装置、终端设备

Info

Publication number: CN112466286A
Application number: CN201910764575.3A
Authority: CN
Inventors: 周鑫; 张雅婷; 孙常龙; 张琼; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-03-09

Abstract

本发明公开了一种数据处理方法及装置、终端设备。其中，该方法包括：获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息；通过训练训练数据，得到文本还原模型；采用文本还原模型对待分析文本进行还原，得到目标书面文本。本发明解决了相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

Description

数据处理方法及装置、终端设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据处理方法及装置、终端设备。

背景技术

在相关技术中，在处理语音信息时，注重语音的具体内容，即对于每条语音信息，将语音内容转化为口语文本，通过这种转化方式形成的文本都是口语文本，容易出现文字堆积，无法形成书面文本；例如，在法律领域，随着人们法律意识增强，法庭案件也越来越多，传统的司法审理模式效率低下，需要开庭的案件越来越多，书记员的工作量大增；这时录音录像设备开始大量进入法庭，语音识别设备开始逐渐辅助书记员的工作，然而庭审语音识别文本与书记员记录的版本有天然的鸿沟，语音识别(ASR)的目的是正确识别说话者的原始说话内容，即口语，而书记员要记录在案的笔录文本要求是简洁规范，是书面语；即利用语音识别方式识别出的语音文本并不是庭审最终记录的文本，庭审过程大多是口语化的表述，而书记员归档的文本是书面化的，在文本具体格式(如无明显断句和标点间隔)和记录内容上存在明显的缺陷，需要书记员后续做大量的文本整理，降低了庭审语音转换的效率。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法及装置、终端设备，以至少解决相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；通过训练所述训练数据，得到文本还原模型；采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：获取单元，用于获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；训练单元，用于通过训练所述训练数据，得到文本还原模型；还原单元，用于采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的数据处理方法。

根据本发明实施例的另一方面，还提供了一种终端设备，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：步骤1，获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；步骤2，通过训练所述训练数据，得到文本还原模型；步骤3，采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

在本发明实施例中，可对语音识别文本进行断句、符号标注，应用于各种语音转化场景，例如，庭审场景，可以对庭审中多语音角色的语音进行识别，并经过文本预处理、案情实体错误识别、口语化错误类型识别、标点符号还原等步骤将识别出的语音文本转换为书面文本。该书面文本更加简洁，符合书面记录格式，减少书记员的工作量。

在本发明实施例中，采用获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息，通过训练所述训练数据，得到文本还原模型，采用文本还原模型对待分析文本进行还原，得到目标书面文本。即可利用与待训练文本中各语音角色对应的关联文本(即当前待解析语句/词语的上下文信息)以及在语音对话过程中的时间信息，来对完成语音转换的待训练文本进行断句和文本整理，并利用创新的文本还原模型(主要为BERT模型)将待分析文本还原为书面文本，减少用户(如书记员)后续的文本整理的工作量，降低用户的修改量，提高了工作效率，进而解决相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现数据处理方法的计算机终端的硬件结构框图；

图2示出了一种数据处理方法网络终端的示意图；

图3是根据本发明实施例一的数据处理方法的流程图；

图4是根据本发明实施例的一种可选的文本还原模型的架构图；

图5是根据本发明实施例的一种可选的还原得到书面文本的示意图；

图6是根据本发明实施例的一种数据处理装置的示意图；

图7是根据本发明实施例的一种终端设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

ASR，Automatic Speech Recognition,简称自动语音识别技术，用于将人的语音转换为文本的技术。

LSTM，Long Short-Term Memory，简称长短期记忆网络，是一种时间递归神经网络(RNN)。

NLP，Natural Language Processing，自然语言处理。

BERT模型，Bidirectional Encoder Representations from Transformers，是一种NLP中的处理模型，可通过左、右或者上、下两侧的文本来预测当前词和通过当前句子预测下一个句子。

Softmax，可以理解为归一化函数，把一些输入映射为0-1之间的实数，归一化保证和为1，确定多个分类的概率，多分类的概率之和为1。

词向量，指的是将词语转化成一种分布式表示，分布式表示将词语表示成一个定长的连续的稠密向量。

实施例1

根据本发明实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2示出了一种数据处理方法网络终端的示意图，如图2所示，计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中，上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

本发明可以应用于各种语音处理环境中，本发明实施例以庭审语音转换为书面文本进行示例性说明，主要是将庭审语音转文字后的文本从口语化转为书面语，但是该方法使用的环境并不限于此，也可以适用于其他的语音处理环境中。

可选的，本发明实施例中的数据处理方法应用于下述至少之一的场景：会议场景、庭审场景。其中，会议场景可以是指存在多人参加的会议，在多人对话过程中，使用本发明实施例的数据处理方法可以形成会议书面文本；而庭审场景可以是指还原庭审过程中多人对话的语音，得到庭审书面文本，该庭审场景包括但不限于：现场庭审场景和庭审还原场景。本发明实施例中以庭审还原场景为例，在庭审过后，对庭审过程中各个人物的对话进行文本还原，得到目标书面文本。

同时，本发明实施例中聚焦于语音识别技术ASR，重点实现文本中的符号还原(以标点还原进行示例说明)，以此形成书面文本。本发明下述实施例中的标点符号包括但不限于：冒号、逗号、句号、问号。

在上述运行环境下，本申请提供了如图3所示的数据处理方法的流程图。图3是根据本发明实施例一的数据处理方法的流程图，如图3所示，该方法包括如下步骤：

步骤S302，获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息；

步骤S304，通过训练所述训练数据，得到文本还原模型；

步骤S306，采用文本还原模型对待分析文本进行还原，得到目标书面文本。

通过上述步骤，可以采用获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息，通过训练所述训练数据，得到文本还原模型，采用文本还原模型对待分析文本进行还原，得到目标书面文本。在该实施例中，可以利用与待训练文本中各语音角色对应的关联文本(即当前待解析语句/词语的上下文信息)以及在语音对话过程中的时间信息，来对完成语音转换的待训练文本进行断句和文本整理，并利用创新的文本还原模型(主要是BERT模型)将待分析文本还原为书面文本，减少用户(如书记员)后续的文本整理的工作量，降低用户的修改量，提高了工作效率，进而解决相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

本发明实施例可应用于使用语音识别技术的终端设备中，尤其适用于庭审语音转换书面记录文本的设备，对于庭审过程中发出语音的语音角色的数量不做具体限定，语音角色包括但不限于：审判长、原告、被告、被告代理律师等。能够对各个语音角色在一场庭审过程中发出语音进行转换，得到书面化记录的文本，记录的语音角色多样化，且记录的内容更加符合书记员记录的标准，降低书记员的修改率，同样可以为后续庭审摘要、要素识别的分析提供更为优质的数据质量。相对于相关技术中仅仅将语音转换为口语化文本，书记员后续需要做大量文本修改，本发明实施例明显能够减少书记员的修改量，在文本转换上更为快速，且能适应多样化的语音环境。

下面结合各个步骤对本发明实施例进行说明。

在本发明实施例中，首先需要将语音转换为待训练文本(在对初始识别文本进行处理后得到)，该待训练文本可以对应各种语音对话场景，语音对话场景包括但不限于：庭审场景、口审场景、会议场景、购物场景等。本发明实施例中以庭审场景进行示意性说明。

步骤S302，获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息。

作为本发明一种可选的实施，待训练文本包括下述至少之一：语音解析文本和历史对话文本，其中，所述语音解析文本是对语音对话现场的各语音角色的声音进行语音识别后得到的文本，所述历史对话文本是对历史过程中记录的各语音角色的对话文本。即待训练文本不仅可以对庭审现场对话过程完成语音转换的语音解析文本进行训练，也可以对历史的庭审记录进行处理。

在每一次的语音对话过程中，会包含多个语音角色，本发明实施例中通过记录语音对话过程中的当前语音、以及上下文信息和对话过程中的时间信息(如停顿信息)来完成断句。

在本发明实施例中，获取训练数据的步骤，包括：获取待训练文本以及语音对话情景；确定在语音对话情景下进行对话的多个语音角色；提取与每个语音角色关联的关联文本，其中，关联文本包括与当前待分析语句对应的语音角色在历史过程中的至少两个对话语句；提取语音对话过程中的时间信息；以待训练文本、语音对话情景、关联文本和时间信息作为训练数据。

对于上述获取待训练文本以及语音对话情景的步骤，包括：对语音对话情景的对话语音内容进行识别，以得到初始识别文本；对初始识别文本进行预处理；在预处理完成后，识别初始识别文本中的实体错误数据；识别初始识别文本中的口语化错误数据，以得到待训练文本。

该初始识别文本可以理解为语音转换后的口语化文本。

而若将初始识别文本处理得到待训练文本，需要进行三个操作，包括：文本预处理(即上述对初始识别文本进行预处理)、实体错误识别(即上述识别初始识别文本中的实体错误数据)、口语化错误类型识别(即上述识别初始识别文本中的口语化错误数据)。下面分别对这三种情况进行详细说明。

第一个操作，文本预处理

即可以通过先对初始识别文本进行预处理，方便后续使用，以庭审场景为例，对语音对话情景的对话语音内容进行识别，以得到初始识别文本的步骤，包括：按照对话的时间顺序和各个语音角色，识别对话语音内容，以得到初始识别文本。其中，语音角色可以多个，输入多个语音角色说的话，以时间先后为顺序；并设定每个语音角色对应一个语音窗口，语音角色包括但不限于：审判长、原告1、被告1、原告代理律师等。

而在对初始识别文本进行预处理时，其可以包括：对初始识别文本中的各个语句进行切分；对各个语句进行分词处理，得到多个词语；对每个词语进行词性标注。

可选的，上述对初始识别文本中的各个语句进行切分是指对待训练文本进行分句处理，即断句，在分句时，可以根据每个语音角色之间的相互对话来分句，例如，审判长、原告1、被告1三个人先后分别说了一句话，则可以将这部分待训练文本分为三句话。而在分词处理时，可以依据各种语言的词义和词性等进行分词。另外，在进行词性标注时，是给每个词打上标注，比如打上动词、名词、连词、助词标注等。在本发明实施例中，还可以在预处理时，对待训练文本进行实体识别，例如，识别待训练文本中出现的人名、地名、机构名等。

第二个操作，实体错误识别

该操作用于对初始识别文本中的案情实体名的错误数据进行识别，输入为初始识别文本和案件实体列表。

在语音对话情景为庭审场景时，识别初始识别文本中的实体错误数据的步骤，包括：将初始识别文本和庭审场景对应的目标案件的案件实体列表转换为拼音序列；在转换完成后，搜索初始识别文本中与目标案件的案件实体名，得到实体错误数据。即可以先将初始识别文本和案件实体列表转换为拼音序列，利用该拼音序列来查找实体错误；而搜索初始识别文本中与目标案件的案件实体名时，可以使用启发式搜索的方式(如最大正向匹配)去在初始识别文本中找出与案件实体最相似的候选，从而得到实体错误数据。

第三个操作，口语化错误类型识别

以庭审情景为例，在进行庭审语音识别后，会得到初始识别文本(即口语化文本)，该初始识别文本往往会含有语气词、口语化表述、停顿词(filled pause)，以及被修复词(重复、被纠正、被重新开始)等口语胡词语，通过该操作可以准确的识别出这些错误类型和所在的位置。

在本发明一个可选的实施方式中，识别初始识别文本中的口语化错误数据包括：对初始识别文本中的如下至少之一的口语化词语进行识别：语气词、停顿词、被修复词；对每种口语化词语设置类型标签；确定初始识别文本中出现口语化词语的错误类型和位置数据；根据口语化词语的类型标签、错误类型和位置数据，构建口语化错误识别模型；通过口语化错误识别模型识别口语化错误数据。

本发明实施例可示例性说明6种口语化的词语类型：

第一种，语气词modal

定义：语气词，往往出现在句尾(陈述句、祈使句、疑问句等)，表达说话人的情绪和情感。常见的语气词有：呃、啊、嗯。

例子：

意思就说<呃/modal>；

户口本也拿出来<嗯/modal>

<在/restart>是什么公司<啊/modal>

第二种，口语化表述词colloquial

定义：口语化表述词，往往出现在口语中，删除该口语化表述词后句子仍通顺且语义保留完整。常见的口语化表述词有：这边、那么、应该说。

例子：<啊/fp><这样的啊/fp><就是/fp>财产他们涉及到两块<啊/fp>一个是股票<那么/colloquial>股票<呢/fp>目前<呢/fp>因为是法院进行采取保全措施的那我们手上是没有资料的。

第三种，停顿词filled pauses(fp)

定义：停顿词，是指说话人在想下语句说什么的同时，加入一些停顿词，用于保留多人对话中继续说话的权利。常见的fp有：哦、这个、啊、嗯、就是。

例子：<等一会/repetition><啊/fp>等一会。审批员我在补充一下<就是/fp>刚才我们庭前提供这个入婴<啊/fp>我们需不需要提供一个纸质的书面的。

第四种，重复词repetition

定义：重复词，匹配模式：ABC{filled pause}ABC。ABC存在重复，中间可能存在停顿词(fp)。

例子：一六年九月<十号/repetition>十号我跟他讲了这件事情以后他十一号午夜回来了九月十一号还有十一月十一号。

第五种，被纠正词correction

定义：被纠正词，其匹配模式：ABC{filled pause}XYZ。XYZ纠正了ABC的说法。其中，XYZ和ABC可能存在一定的字面上的重合；ABC和XYZ中间可能存在停顿词(fp)。

例子：<啊/fp><有有没有伤口/correction>有没有受伤后来有没有建议你去做。

第六种，被重新开始词restart

定义：被重新开始词，其匹配模式：ABC{filled pause}。ABC被忽略，后面重新开始新的句子。

例子：<在/restart>是什么公司<啊/modal>；

<咱们去/restart>我想睡觉。

以上是通用的6中口语错误类型。

本发明实施例中可以通过口语化错误识别模型识别所语化错误数据，在构建口语化错误识别模型时，是通过口语化词语的类型标签(可以理解为类型标识，每个词语位置对应一个类型标识)、错误类型(在初始识别文本中的相应词语位置标识出错误类型)和位置数据(指示初始识别文本中口语化词语的位置，可以通过行列的方式标识)。通过口语化词语的类型标签、错误类型和所述位置数据，对词语进行序列标注，可选的，本发明实施例中，每种错误类型可以采用B、E、I、S四个标签标注，其中，B代表类型的开始字，E代表类型的结束字，I代表类型的中间字，S代表类型的单字，另外，还可以通过O代表其他标签，即O代表不属于上述通用的6种类型的其他标签，总共25个标签。

另一种可选的，在本发明实施例中，口语化错误识别模型可以采用BILSTM+CRF，是一种基于神经网络的架构，整体分为4层。第一层是输入层，以单字的向量为输入，字向量是利用大量庭审笔录通过skip-gram模型训练得到的；第二层是双向lstm层，从正、反两个方向对输入文本建模，代表每个字的正反两个神经元输出拼接起来，输入给第三层，即CRF(条件随机场)层，对标签关系建模；第四层输出层，最终得到的标签和位置。

利用上述实施方式，可以对初始识别文本进行识别和错误纠正，这样就可以完成部分口语转书面语的工作，下面可以实现符号还原的工作，该符号还原的工作，可以通过NLP中的BERT模型，利用每个句子的上下文信息，有效解决对话被打断的情景，并且可以对文本的符号(如标点)实现还原。

在还原过程中，需要先训练得到文本还原模型，为了训练文本还原模型需要获取到获取训练数据，其中，该训练数据包含上述通过文本预处理、实体错误识别以及口语化错误类型识别得到的待训练文本、与该待训练文本中各语音角色对应的关联文本以及在语音对话过程中的时间信息。

在本发明实施例中，与该待训练文本中各语音角色对应的关联文本可以是指当前待分析语句所对应的语音角色所发出其他语音文本，例如，语音角色A发出：“无法证明该案件的时间”，这时就需要分析该语音角色之前说过的其他话或者后续说的话，即得到该语音角色的上下文信息，本发明实施例中不仅利用了待分析语句的信息，还利用了相同角色之前说过的话，即上下文信息。例如，在获取训练数据时，针对待训练文本中的每个语句，查找发出该语句的语音角色的前5个窗口的语句。

作为本发明一个可选的实施方式，在获取训练数据之后，方法还包括：确定待训练文本中与当前待分析语句对应的符号标签，其中，符号标签至少包括：标点标签、字母标签。

本发明实施例中主要是通过标点还原(punctuation restore)技术进行说明，选取的符号标签优选为标点标签。通过输出待分析语句的标点标签，可以知道语音角色在说该待分析语句时，在哪个时间点出现了停顿以及停顿的时间长短。

本发明实施例中，每个token(待分析语句)的标签为当前token前一个的标点标签。

而对于时间信息，包括下述至少之一：每个语句之间的语音停顿时长；每个语句之间的语音停顿开始时间点和语音停顿结束时间点；对话开始时间和对话结束时间。即通过选取语音角色发出语音的停顿时长，例如，用户在发出一句话时，停顿0.5秒，此时可以加一个逗号。

通过上述实施方式，获取到了相应的训练数据，下面说明通过该训练数据训练得到文本还原模型。

步骤S304，通过训练所述训练数据，得到文本还原模型。

在本发明实施例中，训练文本还原模型时，主要分为两个阶段。可选的，通过训练所述训练数据，得到文本还原模型的步骤，包括：对待训练文本和关联文本的特征信息进行第一阶段训练，得到还原输出层，其中，还原输出层的每一个单元表示待训练文本中每个待分析语句的一个文本特征信息；对时间信息进行第二阶段训练，得到时间持续嵌入层；拼接还原输出层、时间持续嵌入层以及预设的归一化层，得到文本还原模型，其中，归一化层用于确定每个符号标签的选取概率，以对符号标签进行标签分类。

上述第一阶段训练可以理解为纯对待训练文本进行训练，而第二阶段训练可以理解为对时间信息进行训练，即对语音停顿信息进行训练。

在本发明实施例中，对待训练文本和关联文本的特征信息进行第一阶段训练，得到还原输出层的步骤，包括：利用与语音对话情景对应的格式文书和语音笔录信息对文本还原模型进行初始预训练，得到文本还原模型的还原层；利用还原层抽取待训练文本和关联文本的特征信息，得到还原输出层。

以庭审情景作为语音对话情景且以BERT模型作为文本还原模型进行示例说明，上述格式文书可以理解为法律文书，而语音笔录信息可以是之前得到的笔录内容，选取BERT模型的架构作为该文本还原模型的架构，这样就可以通过法律文书和语音笔录信息对BERT模型进行预训练，从而得到还原层，在本发明实施例中还原层可以使用BERT layer表示，利用该还原层抽取待训练文本中各个语句和关联文本的特征信息，得到还原输出层，在本发明实施例中还原输出层可以使用BERT output层表示。

本发明实施例中，对文本还原模型中的每个层需要接一个归一化层(Softmax层)做标签分类。第一训练阶段得到的输出就是BERT output层，每一个单元代表了当前token的文本特征信息。

在本发明实施例中，对时间信息进行第二阶段训练，得到时间持续嵌入层的步骤，包括：对时间信息中的语音停顿时长进行离散化处理，得到文本还原模型的初始嵌入层；将初始嵌入层拼接至还原输出层，并在拼接完成后连接归一化层；在连接完成后，更新初始嵌入层，以得到文本还原模型。

可选的，时间信息以毫秒为单位，确定每个语音角色在每句话中的开始、停顿、结束等信息。先对时间信息中的语音停顿时长进行离散化处理，得到初始嵌入层，在本发明实施例中初始嵌入层可以使用duration embedding表示，将该duration embedding拼接在BERT output层；同时后面还可以连接一个全连接层(在本发明实施例一FC layer表示)和一个归一化层(在本发明实施例中以Softmax表示)，在完成后，对文本还原模型进行第二阶段的训练，并且更新初始嵌入层，以训练完成得到文本还原模型，在该第二训练阶段，保持BERT output层不不变。

图4是根据本发明实施例的一种可选的文本还原模型的架构图，如图4所示，该文本还原模型主要是用于标点还原，也可以叫标点还原模型；其下方可以为各个语音句(分别使用W1、W2…Wn表示)，通过对语音句进行分析，建立还原层(BERT layer)；在利用该还原层BERT layer抽取各个语句的特征信息，得到还原输出层BERT output，同时在对时间信息中的停顿时长进行离散化后，可得到初始嵌入层duration embedding，将该初始嵌入层duration embedding拼接在还原输出层BERT output。在拼接完成后，其后面可连接全连接层FC layer和一个归一化层Softmax。

通过上述实施例，可以将语音转换的口语化文本，经过预处理、实体错误识别、口语化错误类型识别、符号还原等方式，可以将语音文本还原为书面文本。通过这种方式得到的书面文本可以降低用户(如书记员)的修改率，同时为后续文本提取、要素识别分析提供更优质的数据质量。经过还原的文本，可以实现各语句中的符号还原，对多语音角色在对话过程中被打断的情况进行有效还原，还原后的书面文本更加简洁规范，有效实现文本的短句，对各语音角色的对话进行还原，且书面文本中的符号(重点是标点)被有效还原。

图5是根据本发明实施例的一种可选的还原得到书面文本的示意图，如图5所示，对应于庭审情景，包括三个语音角色，在图5中分别以庭审录音1、庭审录音2、庭审录音3表示，在左方下侧为通过语音识别转写得到文本，在右方下侧为通过本申请还原得到的书面文本(即NLP生成的书记员版本)。可以看到，左侧的文本完成了语音识别，但是并未对标点实现有效还原，而右侧的书记员版本，更加简洁，且通过冒号、逗号、句号、问号等标点符号实现断句，在记录内容上更加书面化。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，图6是根据本发明实施例的一种数据处理装置的示意图，如图6所示，该装置包括：获取单元61，训练单元63，还原单元65，其中，

获取单元61，用于获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息；

训练单元63，用于通过训练所述训练数据，得到文本还原模型；

还原单元65，用于采用文本还原模型对待分析文本进行还原，得到目标书面文本。

上述数据处理装置，可以通过获取单元61获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息，利用训练单元63训练所述训练数据，得到文本还原模型，利用还原单元65采用文本还原模型对待分析文本进行还原，得到目标书面文本。在该实施例中，可以利用与待训练文本中各语音角色对应的关联文本(即当前待解析语句/词语的上下文信息)以及在语音对话过程中的时间信息，来对完成语音转换的待训练文本进行断句和文本整理，并利用创新的文本还原模型将待分析文本还原为书面文本，减少用户(如书记员)后续的文本整理的工作量，降低用户的修改量，提高了工作效率，进而解决相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

一种可选的实施例，获取单元61包括：第一获取模块，用于获取待训练文本以及语音对话情景；第一确定模块，用于确定在语音对话情景下进行对话的多个语音角色；第一提取模块，用于提取与每个语音角色关联的关联文本，其中，关联文本包括与当前待分析语句对应的语音角色在历史过程中的至少两个对话语句；第二提取模块，用于提取语音对话过程中的时间信息；第一确定模块，用于以待训练文本、语音对话情景、关联文本和时间信息作为训练数据。

可选的，时间信息包括下述至少之一：每个语句之间的语音停顿时长；每个语句之间的语音停顿开始时间点和语音停顿结束时间点；对话开始时间和对话结束时间。

一种可选的实施例，数据处理装置还包括：确定单元，用于在获取训练数据之后，确定待训练文本中与当前待分析语句对应的符号标签，其中，符号标签至少包括：标点标签、字母标签。

在本发明实施例中，训练单元63包括：第一训练模块，用于对待训练文本和关联文本的特征信息进行第一阶段训练，得到还原输出层，其中，还原输出层的每一个单元表示待训练文本中每个待分析语句的一个文本特征信息；第二训练模块，用于对时间信息进行第二阶段训练，得到时间持续嵌入层；第一拼接模块，用于拼接还原输出层、时间持续嵌入层以及预设的归一化层，得到文本还原模型，其中，归一化层用于确定每个符号标签的选取概率，以对符号标签进行标签分类。

在本发明另一可选的实施例中，第一训练模块包括：第一训练子模块，用于利用与语音对话情景对应的格式文书和语音笔录信息对文本还原模型进行初始预训练，得到文本还原模型的还原层；第一抽取子模块，用于利用还原层抽取待训练文本和关联文本的特征信息，得到还原输出层。

在本发明另一可选的实施例中，第二训练模块包括：离散子模块，用于对时间信息中的语音停顿时长进行离散化处理，得到文本还原模型的初始嵌入层；第一拼接子模块，用于将初始嵌入层拼接至还原输出层，并在拼接完成后连接归一化层；更新子模块，用于在连接完成后，更新初始嵌入层，以得到文本还原模型。

一种可选的实施例，上述待训练文本包括下述至少之一：语音解析文本和历史对话文本，其中，所述语音解析文本是对语音对话现场的各语音角色的声音进行语音识别后得到的文本，所述历史对话文本是对历史过程中记录的各语音角色的对话文本。

一种可选的实施例，第一获取模块包括：第一识别子模块，用于对语音对话情景的对话语音内容进行识别，以得到初始识别文本；预处理子模块，用于对初始识别文本进行预处理；第二识别子模块，用于在预处理完成后，识别初始识别文本中的实体错误数据；第三识别子模块，用于识别初始识别文本中的口语化错误数据，以得到待训练文本。

可选的，第一识别子模块按照对话的时间顺序和各个语音角色，识别对话语音内容，以得到初始识别文本。

在本发明另一可选的实施例中，预处理子模块包括：切分子模块，用于对初始识别文本中的各个语句进行切分；分词子模块，用于对各个语句进行分词处理，得到多个词语；标注子模块，用于对每个词语进行词性标注。

在本发明另一可选的实施例中，第二识别子模块包括：转换子模块，用于将初始识别文本和庭审场景对应的目标案件的案件实体列表转换为拼音序列；搜索子模块，用于在转换完成后，搜索初始识别文本中与目标案件的案件实体名，得到实体错误数据。

在本发明另一可选的实施例中，第三识别子模块包括：第四识别子模块，用于对初始识别文本中的如下至少之一的口语化词语进行识别：语气词、停顿词、被修复词；设置子模块，用于对每种口语化词语设置类型标签；确定子模块，用于确定初始识别文本中出现口语化词语的错误类型和位置数据；构建子模块，用于根据口语化词语的类型标签、错误类型和位置数据，构建口语化错误识别模型；第五识别子模块，用于通过口语化错误识别模型识别口语化错误数据。

可选地，上述文本还原模型为BERT模型。

此处需要说明的是，上述获取单元61，训练单元63，还原单元65分别对应于实施例1中的步骤S302、步骤S304、和步骤S306，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，上述计算机终端包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息；通过训练所述训练数据，得到文本还原模型；采用文本还原模型对待分析文本进行还原，得到目标书面文本。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：获取待训练文本以及语音对话情景；确定在语音对话情景下进行对话的多个语音角色；提取与每个语音角色关联的关联文本，其中，关联文本包括与当前待分析语句对应的语音角色在历史过程中的至少两个对话语句；提取语音对话过程中的时间信息；以待训练文本、语音对话情景、关联文本和时间信息作为训练数据。

可选地，时间信息包括下述至少之一：每个语句之间的语音停顿时长；每个语句之间的语音停顿开始时间点和语音停顿结束时间点；对话开始时间和对话结束时间。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：在获取训练数据之后，确定待训练文本中与当前待分析语句对应的符号标签，其中，符号标签至少包括：标点标签、字母标签。

在本实施例中，上述待训练文本包括下述至少之一：语音解析文本和历史对话文本，其中，语音解析文本是对语音对话现场的各语音角色的声音进行语音识别后得到的文本，历史对话文本是对历史过程中记录的各语音角色的对话文本。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：对待训练文本和关联文本的特征信息进行第一阶段训练，得到还原输出层，其中，还原输出层的每一个单元表示待训练文本中每个待分析语句的一个文本特征信息；对时间信息进行第二阶段训练，得到时间持续嵌入层；拼接还原输出层、时间持续嵌入层以及预设的归一化层，得到文本还原模型，其中，归一化层用于确定每个符号标签的选取概率，以对符号标签进行标签分类。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：利用与语音对话情景对应的格式文书和语音笔录信息对文本还原模型进行初始预训练，得到文本还原模型的还原层；利用还原层抽取待训练文本和关联文本的特征信息，得到还原输出层。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：对时间信息中的语音停顿时长进行离散化处理，得到文本还原模型的初始嵌入层；将初始嵌入层拼接至还原输出层，并在拼接完成后连接归一化层；在连接完成后，更新初始嵌入层，以得到文本还原模型。

在本实施例中，文本还原模型为BERT模型。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：对语音对话情景的对话语音内容进行识别，以得到初始识别文本；对初始识别文本进行预处理；在预处理完成后，识别初始识别文本中的实体错误数据；识别初始识别文本中的口语化错误数据，以得到待训练文本。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：按照对话的时间顺序和各个语音角色，识别对话语音内容，以得到初始识别文本。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：对初始识别文本中的各个语句进行切分；对各个语句进行分词处理，得到多个词语；对每个词语进行词性标注。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：将初始识别文本和庭审场景对应的目标案件的案件实体列表转换为拼音序列；在转换完成后，搜索初始识别文本中与目标案件的案件实体名，得到实体错误数据。

在本实施例中，上述计算机终端还可以执行数据处理方法中以下步骤的程序代码：对初始识别文本中的如下至少之一的口语化词语进行识别：语气词、停顿词、被修复词；对每种口语化词语设置类型标签；确定初始识别文本中出现口语化词语的错误类型和位置数据；根据口语化词语的类型标签、错误类型和位置数据，构建口语化错误识别模型；通过口语化错误识别模型识别口语化错误数据。

可选地，图7是根据本发明实施例的一种终端设备的结构框图。如图7所示，该终端设备A可以包括：一个或多个处理器、存储器(包括程序指令和数据存储装置)、以及网络接口、输入/输出接口、键盘、显示器。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：步骤1，获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；步骤2，通过训练所述训练数据，得到文本还原模型；步骤3，采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

采用本发明实施例，提供了一种数据处理方案。通过获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息，通过训练该训练数据得到文本还原模型，然后采用文本还原模型对待分析文本进行还原，得到目标书面文本，从而达到了利用文本还原模型将语音文本进行还原，在还原出动书面文本中实现断句，且通过标点符号等符号来标识语音停顿，对语音对话过程中被打断的场景实现有效还原，还原的书面文本更加简洁，符合书面文本要求，减少了用户的修改量，进而解决了相关技术中在转化语音时无法形成书面化的语音文本，使得用户后续需要做大量修改，降低了工作效率的技术问题。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练数据，其中，训练数据包含待训练文本、与待训练文本中各语音角色对应的关联文本以及在语音角色对话过程中的时间信息；通过训练训练数据，得到文本还原模型；采用文本还原模型对待分析文本进行还原，得到目标书面文本。

本发明的实施例还提供了一种处理器。可选地，在本实施例中，处理器可以用于处理上述实施例一所提供的数据处理方法所执行的程序代码。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；

通过训练所述训练数据，得到文本还原模型；

采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

2.根据权利要求1所述的方法，其特征在于，获取训练数据的步骤，包括：

获取所述待训练文本以及语音对话情景；

确定在所述语音对话情景下进行对话的多个语音角色；

提取与每个所述语音角色关联的关联文本，其中，所述关联文本包括与当前待分析语句对应的所述语音角色在历史过程中的至少两个对话语句；

提取语音对话过程中的时间信息；

以所述待训练文本、所述语音对话情景、所述关联文本和所述时间信息作为所述训练数据。

3.根据权利要求2所述的方法，其特征在于，所述时间信息包括下述至少之一：

每个语句之间的语音停顿时长；

每个语句之间的语音停顿开始时间点和语音停顿结束时间点；

对话开始时间和对话结束时间。

4.根据权利要求2所述的方法，其特征在于，在获取训练数据之后，所述方法还包括：

确定所述待训练文本中与当前待分析语句对应的符号标签，其中，所述符号标签至少包括：标点标签、字母标签。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述待训练文本包括下述至少之一：语音解析文本和历史对话文本，其中，所述语音解析文本是对语音对话现场的各语音角色的声音进行语音识别后得到的文本，所述历史对话文本是对历史过程中记录的各语音角色的对话文本。

6.根据权利要求4所述的方法，其特征在于，通过训练所述训练数据，得到文本还原模型的步骤，包括：

对所述待训练文本和所述关联文本的特征信息进行第一阶段训练，得到还原输出层，其中，所述还原输出层的每一个单元表示所述待训练文本中每个待分析语句的一个文本特征信息；

对所述时间信息进行第二阶段训练，得到时间持续嵌入层；

拼接所述还原输出层、所述时间持续嵌入层以及预设的归一化层，得到所述文本还原模型，其中，所述归一化层用于确定每个所述符号标签的选取概率，以对所述符号标签进行标签分类。

7.根据权利要求6所述的方法，其特征在于，对所述待训练文本和所述关联文本的特征信息进行第一阶段训练，得到还原输出层的步骤，包括：

利用与所述语音对话情景对应的格式文书和语音笔录信息对所述文本还原模型进行初始预训练，得到所述文本还原模型的还原层；

利用所述还原层抽取所述待训练文本和所述关联文本的特征信息，得到还原输出层。

8.根据权利要求6所述的方法，其特征在于，对所述时间信息进行第二阶段训练，得到时间持续嵌入层的步骤，包括：

对所述时间信息中的语音停顿时长进行离散化处理，得到所述文本还原模型的初始嵌入层；

将所述初始嵌入层拼接至所述还原输出层，并在拼接完成后连接所述归一化层；

在连接完成后，更新所述初始嵌入层，以得到文本还原模型。

9.根据权利要求6至8中任意一项所述的方法，其特征在于，所述文本还原模型为BERT模型。

10.根据权利要求2所述的方法，其特征在于，获取所述待训练文本以及语音对话情景的步骤，包括：

对所述语音对话情景的对话语音内容进行识别，以得到初始识别文本；

对所述初始识别文本进行预处理；

在预处理完成后，识别所述初始识别文本中的实体错误数据；

识别所述初始识别文本中的口语化错误数据，以得到所述待训练文本。

11.根据权利要求10所述的方法，其特征在于，对所述语音对话情景的对话语音内容进行识别，以得到初始识别文本的步骤，包括：

按照对话的时间顺序和各个语音角色，识别所述对话语音内容，以得到初始识别文本。

12.根据权利要求10所述的方法，其特征在于，对所述初始识别文本进行预处理的步骤，包括：

对所述初始识别文本中的各个语句进行切分；

对各个所述语句进行分词处理，得到多个词语；

对每个所述词语进行词性标注。

13.根据权利要求10所述的方法，其特征在于，在所述语音对话情景为庭审场景时，识别所述初始识别文本中的实体错误数据的步骤，包括：

将所述初始识别文本和所述庭审场景对应的目标案件的案件实体列表转换为拼音序列；

在转换完成后，搜索所述初始识别文本中与所述目标案件的案件实体名，得到所述实体错误数据。

14.根据权利要求10所述的方法，其特征在于，识别所述初始识别文本中的口语化错误数据包括：

对所述初始识别文本中的如下至少之一的口语化词语进行识别：语气词、停顿词、被修复词；

对每种所述口语化词语设置类型标签；

确定所述初始识别文本中出现所述口语化词语的错误类型和位置数据；

根据所述口语化词语的所述类型标签、所述错误类型和所述位置数据，构建口语化错误识别模型；

通过所述口语化错误识别模型识别所述口语化错误数据。

15.根据权利要求1所述的方法，其特征在于，所述数据处理方法应用于下述至少之一的场景：会议场景、庭审场景。

16.一种数据处理装置，其特征在于，包括：

获取单元，用于获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；

训练单元，用于通过训练所述训练数据，得到文本还原模型；

还原单元，用于采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至15中任意一项所述的数据处理方法。

18.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至15中任意一项所述的数据处理方法。

19.一种终端设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

步骤1，获取训练数据，其中，所述训练数据包含待训练文本、与所述待训练文本中各语音角色对应的关联文本以及在所述语音角色对话过程中的时间信息；

步骤2，通过训练所述训练数据，得到文本还原模型；

步骤3，采用所述文本还原模型对待分析文本进行还原，得到目标书面文本。