CN105843811B

CN105843811B - 转换文本的方法和设备

Info

Publication number: CN105843811B
Application number: CN201510017057.7A
Authority: CN
Inventors: 马林; 张伟彬; 冯雁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-01-13
Filing date: 2015-01-13
Publication date: 2019-12-06
Anticipated expiration: 2035-01-13
Also published as: US9978371B2; US20160203819A1; CN105843811A

Abstract

本发明实施例提供转换文本的方法和设备，该方法包括：获取目标口语文本，该目标口语文本包括非口语语素和口语语素；从目标加权有限状态传导WFST模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同；根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。上述技术方案中，口语文本在通过相应的WFST模型后，该口语文本中的具有口语特点的口语语素被移除。这样，书面语文本变为不包括具有口语特点的文本。因此，上述技术方案能够实现口语文本到书面语文本的转换。

Description

转换文本的方法和设备

技术领域

本发明实施例涉及信息技术领域，并且更具体地，涉及转换文本的方法和设备。

背景技术

口语，作为非正式场合(例如，日常对话、非正式的发言、非正式的文书写作等)中使用的口头语言，具有非正式、灵活等特点。书面语，作为正式场合(例如，正式的演讲、正式的文书写作等)中使用的语言，具有规范、简洁等特点。

由于口语没有书面语具备的简洁、规范等特定，因此在一些场合中，使用口语是不利于传播和交流的。例如，在进行机器翻译时，由于口语的不规范等特点，输入的口语文本可能不能被准确地翻译。

但有时不可避免的会接收到口语文本。例如，当应用语音识别技术将语音转化为文字时，语音识别技术会严格将输入的语音转换为对应的文字。如果输入的语音是口语语音，那么对应的识别结果也是口语本文。

因此，如何将口语文本转换为书面语文本是一个亟待解决的问题。

发明内容

本发明实施例提供转换文本的方法和设备，能够将口语文本转换为书面语文本，从而可以使得文本更易于传播和交流。

第一方面，本发明实施例提供一种转换文本的方法，该方法包括：获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该口语语素的特征包括：插入语素、重复语素和修改语素；从目标加权有限状态传导WFST模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同；根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。

结合第一方面，在第一方面的第一种可能的实现方式中，该目标WFST模型数据库是通过以下方式确定的：根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；根据口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中的该插入语素、该重复语素和该修改语素的状态的输出为空；根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，该根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，包括：确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定该每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和该每个初始口语WFST模型中的该每个口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

第二方面，本发明实施例提供一种转换文本的设备，该设备包括：获取单元，用于获取目标口语文本，该目标口语文本包括口语语素和非口语语素，该口语语素的特征包括：插入语素、重复语素和修改语素；确定单元，用于从目标加权有限状态传导WFST模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同；该确定单元，还用于根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。

结合第二方面，在第二方面的第一种可能的实现方式中，该确定单元，还用于确定该目标WFST模型数据库。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，该确定单元，具体用于根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；根据口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空；根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式职工，该确定单元，具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定该每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和该每个初始口语WFST模型中的该每个口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

第三方面，本发明实施例提供一种转换文本的设备，该设备包括：存储单元，用于存储文本训练数据库和口语语素训练数据库；确定单元，用于根据该文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；该确定单元，还用于根据该口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空；该确定单元，还用于根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；该确定单元，还用于确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

结合第三方面，在第三方面的第一种可能的实现方式中，该确定单元，具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定对应于该每个初始口语WFST模型中的口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和对应于该每个初始口语WFST模型中的口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

上述技术方案中，口语文本在通过相应的WFST模型后，该口语文本中的具有口语特点的口语语素被移除。这样，书面语文本变为不包括具有口语特点的文本。因此，上述技术方案能够实现口语文本到书面语文本的转换。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的转换文本的方法的示意性流程图。

图2是一个WFST模型的示意图。

图3是另一个WFST模型的示意图。

图4是另一个WFST模型的示意图。

图5是另一个WFST模型的示意图。

图6是另一个WFST模型的示意图。

图7是另一个WFST模型的示意图。

图8是另一个WFST模型的示意图。

图9是另一个WFST模型的示意图。

图10是另一个WFST模型的示意图。

图11是另一个WFST模型的示意图。

图12是根据本发明实施例提供的转换文本的设备的结构框图。

图13是根据本发明实施例提供的另一转换文本的设备的结构框图。

图14是根据本发明实施例提供的另一转换文本的设备的结构框图。

图15是根据本发明实施例提供的另一转换文本的设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

101，获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该口语语素的特征包括：插入语素、重复语素和修改语素。

102，从目标加权有限状态传导(英文：Weighted Finite-State Transducers，简称：WFST)模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同。

103，根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。

根据图1所示的实施例，口语文本在通过相应的WFST模型后，该口语文本中的具有口语特点的口语语素被移除。这样，书面语文本变为不包括具有口语特点的文本。因此，根据图1所示的实施例，能够实现口语文本到书面语文本的转换。

具体地，该目标WFST模型是通过以下方式确定的：根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括所述口语语素，所述N个口语文本包括所述目标口语文本，所述N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；根据口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中该口语语素特征WFST模型数据库中的口语语素的特征为该插入语素、该重复语素和该修改语素的口语语素特征WFST模型的状态的输出为空；根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

本文中所称的文本是完整的句子。本文中所称的语素可以是有一个或多个字、一个或多个词、一个或多个字和词组成的元素。本文中所称的语素可以是能够表达完整意义的元素，也可以是不能表达完整意义的元素。文本中的语素可以分为口语语素和非口语语素。非口语语素是指文本在正确表达意思时必不可少的语素，口语语素是指文本在表达正确意思时非必不可少的语素。也就是说，如果去除文本中的口语语素，该文本的所要表达的意思并不会发生改变；如果去除文本中的非口语语素，该文本则不能表达完整的意思或者该文本所表达的意思会发生改变。例如，文本“所以呢我们不会发生混淆”中，“呢”为口语语素，而“所以”、“我们”、“不会”、“发生”、“混淆”为非口语语素。

具体来说，该训练文本数据库包括多个训练文本。通过统计学习，每个文本可以有一个对应的WFST模型。根据训练文本得到的WFST模型称为初始WFST模型。例如，训练文本为“所以呢我们不会发生混淆”，可以通过统计学习得到如图2所示的对应于该训练文本的初始WFST模型。再如，训练文本为“我我就采用采用这些标准”，可以得到如图3所示的对应于该训练文本的WFST初始模型。又如，训练文本为“我们明天不后天去上海”，则可以通过统计学习得到如图4所示的对应于该训练文本的初始WFST模型。

与确定初始WFST模型数据库的过程类似，可以通过口语语素训练数据库，通过统计学习，确定对应的WFST模型数据库。例如，口语语素为“呢”，则可以确定出对应于如图5所示的WFST模型。再如，口语语素为“我我”可以得到如图6所示的WFST模型，口语语素为“采用采用”可以得到如图7所示的WFST模型。又如，口语语素为“明天不后天”可以得到如图8所示的WFST模型。

可选的，可以在得到对应于口语语素的WFST模型后，可以根据口语语素的特征，将口语语素特征为插入语素、重复语素和修改语素的口语语素的状态的输出设置为空，即得到了该口语语素特征WFST模型。具体地，特征为插入语素的口语语素可以是一些无实际意义的插入语，例如“啊”、“哦”、“嗯”、“这个”、“那个”等。对应于这些插入语素的WFST模型中的状态的输出可以被设置为空。如果相同的语素重复出现两次或两次以上，且这种重复并无实际意义，则可以认为这样的重复出现的语素中的其中一个可以是具有重复语素特征的口语语素。无实际意义的重复语素是指并非惯用搭配的有意义的语素，例如叠词(如“亮晶晶”)或者一些惯用词或惯用短语(如“栩栩如生”)等的重复语素。例如，“我我”中，“我”重复出现了两次，并且这种重复并没有实际意义，则可以确定“我我”中的一个“我”为口语语素。又如，文本“采用采用”中，“采用”重复出现了两次，并且这种重复并没有实际意义，则可以确定“采用采用”中的一个“采用”为口语语素。对应于这些重复语素的WFST模型中的状态的输出可以被设置为空。具有“语素1+修改词+语素2”这种特征的语素要表示的真实意思是“修改词”后的语素，即“语素2”，其中“语素1”和“语素2”可以是名词、动词、量词等，“修改词”可以是否定词或者能够表示修改意思的词。在此情况下，可以将具有“语素1+修改词+语素2”这种特征的口语语素中的“语素1+修改词”确定为特征为修改语素的口语语素，并将该口语语素的状态的输出被设置为空。例如，“明天不后天”中的语素“明天”和“不”的状态的输出可以被设置为空。

进一步，该根据该口语语素特征WFST模型数据库，对初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，包括：确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定该每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和该每个初始口语WFST模型中的该每个口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。这样，修正后的WFST模型中的具有插入语素、重复语素和修改语素特征的口语语素的状态的输出为空，而非口语语素的状态的输出不会发生变化(即输出与输出相同)。在此情况下，当输入的目标口语文本是具有这些特征的口语文本时，对应的输出的是不具有这些特征的书面语文本，从而可以实现口语文本到书面语文本的转换。

举例来说，如果初始WFST模型数据库中的初始WFST模型为如图2所示的初始WFST模型，则根据对应的口语语素状态WFST模型(即将图5所示的WFST模型的语素的状态的输出被设置为空的WFST模型)，可以得到如图9所示的修正后的口语WFST模型。可以看出，图9所示的修正后的口语WFST模型中，“呢”的状态的输出为空。这样，当输入的口语文本为“所以呢我们不会发生混淆”时，可以从该目标WFST模型中找到对应的目标WFST模型(即图9所示的WFST模型)，根据该目标WFST模型，可以确定对应于该口语文本的书面语文本，即“所以我们不会发生混淆”。再如，如果初始WFST模型数据库中的初始WFST模型为如图3所示的初始WFST模型，则根据对应的口语语素状态WFST模型(即将图6和图7所示的WFST模型的语素的状态的输出被设置为空的WFST模型)，可以得到如图10所示的修正后的口语WFST模型。可以看出，图10所示的修正后的口语WFST模型中，“我我”中的其中一个“我”和“采用采用”中的其中一个“采用”的状态的输出为空。这样，当输入的口语文本为“我我就采用采用这些标准”，可以从该目标WFST模型中找到对应的目标WFST模型(即图10所示的WFST模型)，根据该目标WFST模型，可以确定对应于该口语文本的书面语文本，即“我就采用这些标准”。又如，如果初始WFST模型数据库中的初始WFST模型为如图4所示的初始WFST模型，则根据对应的口语语素状态WFST模型(即将图8所示的WFST模型的语素的状态的输出被设置为空的WFST模型)，可以得到如图10所示的修正后的口语WFST模型。可以看出，图11所示的修正后的口语WFST模型中，“明天”和“不”的状态的输出为空。这样，当输入的口语文本为“我们明天不后天去上海”，可以从该目标WFST模型中找到对应的目标WFST模型(即如图11所示的WFST模型)，根据该目标WFST模型，可以确定对应于该口语文本的书面语文本，即“我们后天去上海”。

图2至图11中“：”前的元素表示状态的输入，“：”后的元素表示状态的输出，<eps>表示状态的输出为空。

图12是根据本发明实施例提供的转换文本的设备的结构框图。图12所示的设备能够执行图1所示的各个步骤。如图12所示，设备1200包括获取单元1201和确定单元1202。

获取单元1201，用于获取目标口语文本，该目标口语文本包括口语语素和非口语语素，该口语语素的特征包括：插入语素、重复语素和修改语素。

确定单元1202，用于从目标WFST模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同。

确定单元1202，还用于根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。

图12所示的设备1200在获取到口语文本后，可以将该口语文本中的具有口语特点的口语语素移除。这样，设备1200可以确定不包括具有口语特点的书面语文本。因此，图12所示的设备能够实现口语文本到书面语文本的转换。

可选的，该目标WFST模型数据库可以是由设备1200确定的，还可以是由其他设备确定的。在该目标WFST模型数据库是由设备1200确定的情况下，确定单元1202，可以用于确定该目标WFST模型数据库。

具体地，确定单元1202，具体用于根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；根据口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空；根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

进一步，确定单元1202，可以具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定该每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和该每个初始口语WFST模型中的该每个口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

图13是根据本发明实施例提供的另一转换文本的设备的结构框图。图13所示的设备能够执行图1所示的各个步骤。如图13所示，设备1300包括处理器1301、存储器1302。

设备1300中的各个组件通过总线系统1303耦合在一起，其中总线系统1303除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图13中将各种总线都标为总线系统1303。

上述本发明实施例揭示的方法可以应用于处理器1301中，或者由处理器1301实现。处理器1301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1301可以是通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现成可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(英文：Random Access Memory，简称：RAM)、闪存、只读存储器(英文：Read-OnlyMemory，简称：ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1302，处理器1301读取存储器1302中的指令，结合其硬件完成上述方法的步骤。

处理器1301，用于获取目标口语文本，该目标口语文本包括口语语素和非口语语素，该口语语素的特征包括：插入语素、重复语素和修改语素。

处理器1301，用于从目标WFST模型数据库中确定对应于该目标口语文本的目标WFST模型，该目标WFST模型中的对应于该口语语素的状态的输出为空，该目标WFST模型中对应于该非口语语素的状态的输出与输入相同。

处理器1301，还用于根据该目标WFST模型，确定对应于该目标口语文本的书面语文本，该书面语文本包括该非口语语素且不包括该口语语素。

图13所示的设备1300在获取到口语文本后，可以将该口语文本中的具有口语特点的口语语素移除。这样，设备1300可以确定不包括具有口语特点的书面语文本。因此，图13所示的设备能够实现口语文本到书面语文本的转换。

可选的，该目标WFST模型数据库可以是由设备1300确定的，还可以是由其他设备确定的。在该目标WFST模型数据库是由设备1300确定的情况下，处理器1301，可以用于确定该目标WFST模型数据库。

具体地，处理器1301，具体用于根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；根据口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空；根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

进一步，处理器1301，可以具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定该每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和该每个初始口语WFST模型中的每个口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

图14是根据本发明实施例提供的另一转换文本的设备的结构框图。图14所示的设备可以用于确定目标WFST模型数据库，以便图12所示的设备根据该WFST模型数据库执行转换文本的操作。如图14所示，设备1400包括存储单元1401和确定单元1402。

存储单元1401，用于存储文本训练数据库和口语语素训练数据库。

确定单元1402，用于根据该文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空。

确定单元1402，还用于根据该口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空。

确定单元1402，还用于根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空。

确定单元1402，还用于确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

图14所示的设备能够确定出目标WFST模型。这样，图12所示的设备可以根据图14所示的设备确定出的目标WFST模型，进行口语文本到书面语文本的转换。

进一步，确定单元1402，具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定对应于该每个初始口语WFST模型中的口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和对应于该每个初始口语WFST模型中的口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

图15是根据本发明实施例提供的另一转换文本的设备的结构框图。图15所示的设备可以用于确定目标WFST模型数据库，以便图13所示的设备根据该WFST模型数据库执行转换文本的操作。如图15所示，设备1500包括处理器1501和存储器1502。

设备1500中的各个组件通过总线系统1503耦合在一起，其中总线系统1503除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图15中将各种总线都标为总线系统1503。

上述本发明实施例揭示的方法可以应用于处理器1501中，或者由处理器1501实现。处理器1501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1501可以是通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现成可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(英文：Random Access Memory，简称：RAM)、闪存、只读存储器(英文：Read-OnlyMemory，简称：ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1502，处理器1501读取存储器1502中的指令，结合其硬件完成上述方法的步骤。

存储器1502，还可以用于存储文本训练数据库和口语语素训练数据库。

处理器1501，用于根据该文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中该初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，该N个口语文本中的每个口语文本均包括该口语语素，该N个口语文本包括该目标口语文本，该N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空。

处理器1501，还用于根据该口语语素训练数据库，通过统计学习并根据该口语语素的特征，确定口语语素特征WFST模型数据库，其中在该口语语素特征WFST模型数据库中该插入语素、该重复语素和该修改语素的状态的输出为空。

处理器1501，还用于根据该口语语素特征WFST模型数据库，对该初始WFST模型数据库中的该N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，该N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空。

处理器1501，还用于确定该目标WFST模型数据库，其中该目标WFST模型数据库包括该N个修正后的口语WFST模型。

图15所示的设备能够确定出目标WFST模型。这样，图13所示的设备可以根据图15所示的设备确定出的目标WFST模型，进行口语文本到书面语文本的转换。

进一步，处理器1501，具体用于确定每个初始口语WFST模型中的口语语素；从该口语语素特征WFST模型数据库中确定对应于该每个初始口语WFST模型中的口语语素的口语语素特征WFST模型；将该每个初始口语WFST模型和对应于该每个初始口语WFST模型中的口语语素的口语语素WFST模型结合，确定该每个修正后的口语WFST模型。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种转换文本的方法，其特征在于，所述方法包括：

获取目标口语文本，所述目标口语文本包括非口语语素和口语语素，所述口语语素的特征包括：插入语素、重复语素和修改语素；

从目标加权有限状态传导WFST模型数据库中确定对应于所述目标口语文本的目标WFST模型，所述目标WFST模型中的对应于所述口语语素的状态的输出为空，所述目标WFST模型中对应于所述非口语语素的状态的输出与输入相同；

根据所述目标WFST模型，确定对应于所述目标口语文本的书面语文本，所述书面语文本包括所述非口语语素且不包括所述口语语素，

其中，所述目标WFST模型数据库是通过以下方式确定的：

根据文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中所述初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，所述N个口语文本中的每个口语文本均包括所述口语语素，所述N个口语文本包括所述目标口语文本，所述N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；

根据口语语素训练数据库，通过统计学习并根据所述口语语素的特征，确定口语语素特征WFST模型数据库，其中在所述口语语素特征WFST模型数据库中所述插入语素、所述重复语素和所述修改语素的状态的输出为空；

根据所述口语语素特征WFST模型数据库，对所述初始WFST模型数据库中的所述N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，所述N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；

确定所述目标WFST模型数据库，其中所述目标WFST模型数据库包括所述N个修正后的口语WFST模型。

2.如权利要求1所述的方法，其特征在于，所述根据所述口语语素特征WFST模型数据库，对所述初始WFST模型数据库中的所述N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，包括：

确定每个初始口语WFST模型中的口语语素；

从所述口语语素特征WFST模型数据库中确定所述每个初始口语WFST模型中的每个口语语素的口语语素特征WFST模型；

将所述每个初始口语WFST模型和所述每个初始口语WFST模型中的所述每个口语语素的口语语素WFST模型结合，确定所述每个修正后的口语WFST模型。

3.一种转换文本的设备，其特征在于，所述设备包括：

获取单元，用于获取目标口语文本，所述目标口语文本包括口语语素和非口语语素，所述口语语素的特征包括：插入语素、重复语素和修改语素；

确定单元，用于根据文本训练数据库，通过统计学习，确定初始加权有限状态传导WFST模型数据库，其中所述初始加权有限状态传导WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，所述N个口语文本中的每个口语文本均包括所述口语语素，所述N个口语文本包括所述目标口语文本，所述N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；

所述确定单元，还用于根据口语语素训练数据库，通过统计学习并根据所述口语语素的特征，确定口语语素特征WFST模型数据库，其中在所述口语语素特征WFST模型数据库中所述插入语素、所述重复语素和所述修改语素的状态的输出为空；

所述确定单元，还用于根据所述口语语素特征WFST模型数据库，对所述初始WFST模型数据库中的所述N个初始口语WFST模型进行修正，确定N个修正后的口语WFST模型，所述N个修正后的WFST模型中的每个WFST模型中的口语语素的状态的输出为空；

所述确定单元，还用于确定目标WFST模型数据库，其中所述目标WFST模型数据库包括所述N个修正后的口语WFST模型；

所述确定单元，还用于从所述目标WFST模型数据库中确定对应于所述目标口语文本的目标WFST模型，所述目标WFST模型中的对应于所述口语语素的状态的输出为空，所述目标WFST模型中对应于所述非口语语素的状态的输出与输入相同；

所述确定单元，还用于根据所述目标WFST模型，确定对应于所述目标口语文本的书面语文本，所述书面语文本包括所述非口语语素且不包括所述口语语素。

4.如权利要求3所述的设备，其特征在于，所述确定单元，具体用于确定每个初始口语WFST模型中的口语语素；

5.一种转换文本的设备，其特征在于，所述设备包括：

存储单元，用于存储文本训练数据库和口语语素训练数据库；

确定单元，用于根据所述文本训练数据库，通过统计学习，确定初始WFST模型数据库，其中所述初始WFST模型数据库中包括对应于N个口语文本的N个初始口语WFST模型，其中，所述N个口语文本中的每个口语文本均包括口语语素，所述口语语素的特征包括：插入语素、重复语素和修改语素，所述N个口语文本包括目标口语文本，所述N个初始口语WFST模型中的每个初始口语WFST模型中的口语语素的状态的输出均不为空；

所述确定单元，还用于根据所述口语语素训练数据库，通过统计学习并根据所述口语语素的特征，确定口语语素特征WFST模型数据库，其中在所述口语语素特征WFST模型数据库中所述插入语素、所述重复语素和所述修改语素的状态的输出为空；

所述确定单元，还用于确定对应于所述目标口语文本的目标WFST模型数据库，其中所述目标WFST模型数据库包括所述N个修正后的口语WFST模型。

6.如权利要求5所述的设备，其特征在于，所述确定单元，具体用于确定每个初始口语WFST模型中的口语语素；

从所述口语语素特征WFST模型数据库中确定对应于所述每个初始口语WFST模型中的口语语素的口语语素特征WFST模型；

将所述每个初始口语WFST模型和对应于所述每个初始口语WFST模型中的口语语素的口语语素WFST模型结合，确定所述每个修正后的口语WFST模型。