CN116136955B

CN116136955B - 文本转写方法、装置、电子设备及存储介质

Info

Publication number: CN116136955B
Application number: CN202310429058.7A
Authority: CN
Inventors: 詹雁; 方昕; 朱荣华; 孟廷; 吴江照; 胡国平
Original assignee: Hefei Intelligent Voice Innovation Development Co ltd
Current assignee: Hefei Intelligent Voice Innovation Development Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-08-04
Anticipated expiration: 2043-04-21
Also published as: CN116136955A

Abstract

本发明提供一种文本转写方法、装置、电子设备及存储介质，涉及信息处理技术领域，该方法包括：获取初始文本，所述初始文本中包括待转写的第一子文本；在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述转写规则库中的各转写规则用于表征待转写文本对应的目标文本，所述标记信息用于表征所述第一子文本包括至少两种语义；在所述目标转写规则包括标记信息的情况下，提取所述初始文本的特征信息；基于所述特征信息将所述第一子文本转写为第二子文本。本发明可以提高文本转写的准确性。

Description

文本转写方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文本转写方法、装置、电子设备及存储介质。

背景技术

自然语言领域中，存在诸多希望将非标准形式文本转换成目标语种中标准形式文本的应用场景。以语音合成应用场景为例，在语音合成前端处理中，需要把不规则书写的文本如数字、时间日期、货币单位、特殊符号等准确转换成目标语种的单词，从而保证语音合成的过程中有准确的前端信息输入，得到准确的语音合成结果。以目标语种是中文为例，需要将“123”转写成中文“一百二十三”，将“1/10”转写成中文“十分之一”，将“8:00am”转写成“早上八点钟”等等。

在现有技术中，通常通过总结并提炼目标语种中特殊符号的转写规律并形成转写资源，该转写资源中包括有多个转写规则，在待转写的文本与转写规则匹配的情况下，则按照匹配成功的转写规则，通过转写模块进行文本转写，得到最终的转写结果。图1为现有技术中文本转写方法的示意框图，如图1所示，例如待转写文本为“这件衬衫的售价为23$”，基于总结转写规律后得到的转写资源对该待转写文本进行规则匹配，并通过转写模块将文本中的“23$”转写为“二十三美元”，从而得到最终的转写结果“这件衬衫的售价为二十三美元”。

然而，上述基于规则匹配的方式，对具有歧义性的待转写文本进行转写时具有一定的难度，使得文本转写的准确性较低。

发明内容

本发明提供一种文本转写方法、装置、电子设备及存储介质，用以解决现有技术中文本转写的准确性较低的缺陷，实现了提高文本转写准确性的目的。

本发明提供一种文本转写方法，包括：

获取初始文本，所述初始文本中包括待转写的第一子文本；

在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述转写规则库中的各转写规则用于表征待转写文本对应的目标文本，所述标记信息用于表征所述第一子文本包括至少两种语义；

在所述目标转写规则包括标记信息的情况下，提取所述初始文本的特征信息；

基于所述特征信息将所述第一子文本转写为第二子文本。

根据本发明提供的一种文本转写方法，所述特征信息包括词特征信息和字符特征信息；

所述基于所述特征信息将所述第一子文本转写为第二子文本，包括：

将所述词特征信息和所述字符特征信息进行融合，得到融合特征；

基于所述融合特征，确定所述第一子文本对应的语义预测类别；

基于所述语义预测类别，将所述第一子文本转写为所述第二子文本。

根据本发明提供的一种文本转写方法，所述方法还包括：

基于所述初始文本中的各词语在所述初始文本中的位置和各词语对应的类别，确定所述初始文本对应的注意力特征信息；

所述将所述词特征信息和所述字符特征信息进行融合，得到融合特征，包括：

将所述词特征信息、所述字符特征信息和所述注意力特征信息进行融合，得到所述融合特征。

根据本发明提供的一种文本转写方法，所述转写规则库中包括用户转写规则和系统转写规则，所述用户转写规则的优先级高于所述系统转写规则的优先级；

在转写规则库中查找与所述第一子文本对应的目标转写规则，包括：

基于所述转写规则库中各转写规则的优先级，查找与所述第一子文本对应的目标转写规则。

根据本发明提供的一种文本转写方法，在转写规则库中查找与所述第一子文本对应的目标转写规则，包括：

确定所述第一子文本对应的目标类别；

确定所述转写规则库中与所述目标类别对应的至少一个转写规则，并在与所述目标类别对应的至少一个转写规则中查找与所述第一子文本对应的目标转写规则。

根据本发明提供的一种文本转写方法，所述在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，包括：

对所述初始文本进行解析，得到解析结果；

在所述解析结果中不包括标签信息，且在所述转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述标签信息用于表征在所述第一子文本的位置处将所述第一子文本转写为所述第二子文本。

根据本发明提供的一种文本转写方法，所述方法还包括：

在所述解析结果中包括所述标签信息的情况下，基于所述标签信息，将所述第一子文本转写为所述第二子文本。

本发明还提供一种文本转写装置，包括：

获取模块，用于获取初始文本，所述初始文本中包括待转写的第一子文本；

确定模块，用于在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述转写规则库中的各转写规则用于表征待转写文本对应的目标文本，所述标记信息用于表征所述第一子文本包括至少两种语义；

提取模块，用于在所述目标转写规则包括标记信息的情况下，提取所述初始文本的特征信息；

转写模块，用于基于所述特征信息将所述第一子文本转写为第二子文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本转写方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本转写方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本转写方法。

本发明提供一种文本转写方法、装置、电子设备及存储介质，该方法通过获取初始文本，该初始文本中包括待转写的第一子文本；在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；基于特征信息将第一子文本转写为第二子文本。由于利用标记信息，可以对转写规则库中具有歧义的文本对应的转写规则进行标记，在与第一子文本匹配成功的目标转写规则中包括有标记信息时，说明第一子文本具有歧义性，因此，可以对初始文本进行特征信息提取，该特征信息包含有初始文本的上下文语义，基于提取的特征信息将第一子文本转写为第二子文本，由于结合了初始文本的上下文语义来对第一子文本进行转写，避免了歧义性对转写的影响，从而可以提高转写结果的准确性。另外，由于在确定出目标转写规则中包括标记信息的情况下，可以直接通过提取初始文本的特征信息的方式对第一子文本进行转写，而不是在通过目标转写规则转写后再基于得到的转写结果提取初始文本的特征信息，由此可以提高文本转写的效率和鲁棒性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有的文本转写方法示意框图；

图2是本发明实施例提供的文本转写方法的流程示意图之一；

图3是本发明实施例提供的文本转写方法的流程示意图之二；

图4是本发明实施例提供的语义预测类别模型的结构示意图；

图5是本发明实施例提供的文本转写方法的应用系统结构框图；

图6是本发明实施例提供的文本转写装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明中为描述的对象所编序号本身，例如“第一”，“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

在语音合成前，通常需要对各个文本信息进行归一化的文本处理，例如文本中的数字、符号、缩略词、货币单位等需要进行目标语种单词转写，以获取目标语种单词的发音信息，从而进行语音音频的合成。因此，文本转写的准确性决定着语音合成的正确率，准确转写成为语音合成的重要前提。

以中文的文本转写举例，例如待转写文本为“这件衬衫的售价为23$”，其中，数字“23”需要转写为“二十三”，而符号“$”则需要转写为“美元”，即待转写文本被转写为“这件衬衫的售价为二十三美元”时，才可能合成正确的语音。

在一些情况下，待转写文本可能存在歧义性。例如待转写文本中的“2-3”可能被转写为“2减3”，也可能被转写为“从2到3”，会出现不同的转写结果。存在歧义性的待转写文本给转写带来了一定难度。此外，对于一些复杂语言特性的语种，因其语种本身的特点导致转写规则复杂，也增加了转写的难度。以俄语为例，俄语的数字因其上下文环境有着复杂的性、数、格变换，在不同的语义环境下，数字有阴性、阳性、中性；单数、复数以及七个格位的变化，同一个数字不同的性、数、格有着不同的转写形式。

现有的文本转写方法通过强规则匹配的方式转写，泛化性较差，对存在歧义性的文本和具有复杂语言特性的语种的文本，转写准确性较低。

针对以上存在的问题，本发明实施例提供一种文本转写方法，通过标记信息标记转写规则库中的转写规则对应的文本是否存在歧义，在不存在歧义的情况下，可以直接基于转写规则库中匹配成功的转写规则进行转写，而在存在歧义的情况下，采用特征提取，并基于提取的特征信息通过模型进行预测的方式，可以结合初始文本上下文的语义信息进行文本转写，从而可以提高文本转写的准确性。本发明实施例中融合了规则匹配与模型预测的方式，增强了转写系统的泛化能力，而且也保留了基于规则匹配方法的可控性，有效的提升了转写系统的准确性和鲁棒性。

下面结合图2-图5对本发明实施例提供的文本转写方法进行描述。

图2是本发明实施例提供的文本转写方法的流程示意图之一，本发明实施例可以适用于任意需要进行文本转写的场景，例如可以是语音合成前的文本转写等。本方法的执行主体可以是手机、计算机、服务器或者服务器集群等电子设备或专门设计的智能设备中，也可以是设置在该电子设备或智能设备中的文本转写装置，该文本转写装置可以通过软件、硬件或两者的结合来实现。参照图2所示，该文本转写方法包括如下的步骤210~步骤240。

步骤210：获取初始文本，初始文本中包括待转写的第一子文本。

具体地，初始文本可以是包含文字、数字、符号、缩略语等信息的文本。其中，可以通过直接输入、图文识别或数据库导入等任意方式获取初始文本。初始文本中包括需要进行转写的第一子文本，该第一子文本例如可以是初始文本中的数字、符号或缩略语，也可以是数字与符号组合形成的文本片段等。

例如，在初始文本“这件衬衫的售价为23$”中，数字“23”及符号“$”均为第一子文本，又例如，在初始文本“请计算2-3等于多少”中，“2-3”为第一子文本。

步骤220：在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义。

具体地，转写规则库是包含有多个转写规则的集合，例如可以是一个数据库，也可以是多个数据库的组合等。应理解，转写规则库可以是只包含有一种语种的转写规则的集合；转写规则库也可以是同时包含有两种或两种以上语种的转写规则的集合。类似地，在一个转写规则中可以包含一种语种，也可以包含两种或两种以上语种。

其中，转写规则是表征待转写文本与目标文本相对应的规律性准则，可以是基于积累的经验而制定的文本转写的合理准则。例如，“23”转写为“二十三”，即为一个转写规则；又例如，“$”转写为“美元”也是一个转写规则。

在转写规则对应的待转写文本存在歧义的情况下，可以在该转写规则中添加标记信息，以用于表示该条转写规则对应的待转写文本包括至少两种语义。其中，标记信息可以是特殊符号、汉字或者字母等，本发明实施例中对标记信息的形式以及具体内容不做限制，其可以是任意形式或任意内容，只要能够起到标记作用即可。应理解，在转写规则中包括标记信息时，若继续采用规则匹配的方式，则转写后的文本可能并不是用户真正想要的，会降低转写的准确性。

电子设备在获取到初始文本中的第一子文本后，将遍历转写规则库，从而确定该转写规则库中是否存在与第一子文本对应的目标转写规则。若存在，则进一步判断该目标转写规则中是否存在标记信息，基于该标记信息，可以确定出第一子文本是否包括至少两种语义，即可以判断出第一子文本是否存在歧义性。

例如，第一子文本“2-3”所对应的目标转写规则为“{2-3}（*）”，其中（*）为标记信息，当确定出目标转写规则“{2-3}（*）”包括标记信息（*），则可以确定第一子文本“2-3”可能包括至少两种语义，即第一子文本“2-3”存在歧义性。

示例性的，在转写规则库中查找目标转写规则时，可以是在指定语种的转写规则库中进行查找，也可以是在非指定语种的转写规则库中进行查找。在指定语种的转写规则库中进行查找时，查找的范围相对缩小，可以提升查找的效率。在非指定语种的转写规则库中进行查找时，查找的范围相对扩大，找到目标转写规则的概率增大，能提高查找结果的准确性。上述查找方式可以根据实际需求灵活应用。

步骤230：在目标转写规则包括标记信息的情况下，提取初始文本的特征信息。

具体地，在目标转写规则中包括标记信息时，说明第一子文本包括至少两种语义，也即第一子文本存在歧义，此时，则需要结合初始文本的上下文信息进行转写，以此消除第一子文本的歧义性。其中，从初始文本中提取的特征信息中包含有上下文语义，该特征信息例如可以是初始文本中语句的语法信息；或者，初始文本中词语的词性信息；再或者，初始文本中字符的相关信息等。

值得注意的是，若目标转写规则中不包括标记信息时，直接基于目标转写规则对第一子文本进行转写。基于目标转写规则直接对第一子文本转写可以提高转写过程的可控性，流程相对简化，能快速得到目标文本；同时，在这种方式下需要对目标文本进行修改时，可以点对点修复转写规则，修改方式灵活简便、易于操作。

步骤240：基于特征信息将第一子文本转写为第二子文本。

具体地，利用从初始文本中提取的特征信息，可以结合初始文本上下文语义对第一子文本进行分析判断，确定出更符合语境语义和语言逻辑的第一子文本的转写文本，即第二子文本，提高了第一子文本的转写准确性。

例如，可以将初始文本中提取出的特征信息，输入文本转写模型对第一子文本进行语义预测，得出符合初始文本语义的第二子文本。

在实际应用中，在对第一子文本进行转写得到第二子文本之后，可以采用第二子文本替换初始文本中的第一子文本，从而得到最终转写后的目标文本。

需要进行说明的是，若在转写规则库中未查找到与第一子文本对应的目标转写规则时，可以提取初始文本的特征信息，并基于提取的特征信息将第一子文本转写为第二子文本。

本发明实施例提供的文本转写方法，通过获取初始文本，该初始文本中包括待转写的第一子文本；在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；基于特征信息将第一子文本转写为第二子文本。由于利用标记信息，可以对转写规则库中具有歧义的文本对应的转写规则进行标记，在与第一子文本匹配成功的目标转写规则中包括有标记信息时，说明第一子文本具有歧义性，因此，可以对初始文本进行特征信息提取，该特征信息包含有初始文本的上下文语义，基于提取的特征信息将第一子文本转写为第二子文本，由于结合了初始文本的上下文语义来对第一子文本进行转写，避免了歧义性对转写的影响，从而可以提高转写结果的准确性。另外，由于在确定出目标转写规则中包括标记信息的情况下，可以直接通过提取初始文本的特征信息的方式对第一子文本进行转写，而不是在通过目标转写规则转写后再基于得到的转写结果提取初始文本的特征信息，由此可以提高文本转写的效率和鲁棒性。

图3是本发明实施例提供的文本转写方法的流程示意图之二，本实施例在前述实施例的基础上，对如何基于特征信息将第一子文本转写为第二子文本的过程进行详细说明，本实施例中，特征信息包括词特征信息和字符特征信息，如图3所示，该方法包括如下的步骤310~步骤330。

步骤310：将词特征信息和字符特征信息进行融合，得到融合特征。

具体地，对初始文本进行词嵌入（Word Embedding）处理，即词特征信息提取，可以得到初始文本中每个词的词面低维特征，也即词特征信息。另外，还可以对每个词中的字符进行字符特征信息提取，并将词特征信息和字符特征信息进行融合，可以得到融合特征。

例如，可以利用特征提取模型和特征融合模型分别进行特征的提取和融合；也可以通过对初始神经网络模型进行有监督训练，利用训练后得到的模型来实现词特征信息和字符特征信息的提取和融合。初始神经网络模型例如可以是深度神经网络（Deep NeuralNetworks，DNN）、卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Networks，RNN）、长短期记忆（Long short-term memory，LSTM）神经网络等其中的至少一种神经网络组成的模型，但不限于此。

步骤320：基于融合特征，确定第一子文本对应的语义预测类别。

其中，语义预测类别是基于融合特征对初始文本的语义进行分析后，预测出第一子文本的语义类别。

举例来说，初始文本为“请计算出2-3的结果是多少”，其中，第一子文本“2-3”具有多种语义类别，比如可以是有数字次序的“从第二到第三”，也可以是表示数学语义类别的“二减三”。因此，基于初始文本提取的词特征信息和字符特征信息，如“计算”“结果”“多少”，得到融合特征后可以确定出第一子文本“2-3”对应的语义预测类别属于数学运算的类别。

示例性的，得到融合特征后确定第一子文本对应的语义预测类别，可以利用语义预测模型来实现，将融合特征作为语义预测模型的输入，可以得到第一子文本对应的最大概率的语义类别，将最大概率的语义类别确定为第一子文本对应的语义预测类别。

其中，上述语义预测模型可以使用深度神经网络结构，并使用标注的文本数据进行训练。该语义预测模型的结构可以包括：特征提取层、特征融合层、输入层、隐藏层和输出层。其中，隐藏层可以采用递归神经网络结构，有利于更好地结合初始文本的下上文语义信息。由于语义类别的数量相对较多，输出层可以采用两个分类器，进行多标签分类，对两个输出进行排列组合，能减小输出类别的数量。为了防止过拟合，语义预测模型中可以采用批归一化(Batch Normalization，BN)和Dropout。由于确定第一子文本对应的语义预测类别任务的复杂性，语义预测模型可以使用预训练模型进行初始化，使用已训练模型的参数作为网络的初始化权重。训练结束后获取模型参数，获取模型参数后对语义预测模型进行工程化部署，在系统内部进行推理，获取语义预测模型输出的第一子文本对应的语义预测类别。

步骤330：基于语义预测类别，将第一子文本转写为第二子文本。

具体地，通过确定出的第一子文本对应的语义预测类别，对第一子文本进行转写，可以得到第二子文本。

例如，确定出第一子文本“2-3”对应的语义预测类别属于数学计算的类别，则将第一子文本“2-3”转写为第二子文本“二减三”，进而初始文本“请计算出2-3的结果是多少”被转写为“请计算出二减三的结果是多少”。

在本实施例中，利用了初始文本中提取的词特征信息和字符特征信息融合后的融合特征，基于融合特征确定出结合初始文本上下文语义的第一子文本对应的语义预测类别，使转写出的第二子文本更接近初始文本的语义环境，提高了第一子文本转写的准确性，进而提高了初始文本转写的准确性。另外，利用语义预测模型对初始文本进行语义类别的预测时，能针对存在歧义性或需要联系文本上下文语言信息的初始文本进行准确转写，适用的初始文本的类型更多，适用性更高，且相较于仅使用强规则匹配的文本转写方法，本发明实施例提供的文本转写方法的泛化性和鲁棒性得到有效提升。

在一种示例实施例中，在图2所示实施例的基础上，为了使得语义预测模型能够更加关注需要预测的文本部分，也即更加关注需要进行转写的第一子文本，本发明实施例中还可以获取初始文本对应的注意力mask特征（Attention Mask）。示例性的，可以基于初始文本中的各词语在初始文本中的位置和各词语对应的类别，确定初始文本对应的注意力特征信息；将词特征信息、字符特征信息和注意力特征信息进行融合，得到融合特征。

具体地，初始文本中各词语对应的类别可以包括：文字、数字、符号或货币单位等，其也可以理解为需要进行转写的类别或不需要转写的类别。另外，还需要获取每个词语在初始文本中的位置索引，从而通过位置索引和各词语对应的类别，确定出初始文本对应的注意力特征信息。通过上述方式，可以使得语义预测模型在训练和推理过程中更关注需要预测的主体部分，也即需要进行文本转写的部分。以初始文本为“the shirt sell for 23$”为例，该初始文本对应的注意力特征信息为：[ 0, 0, 0, 0, 1, 1, …… ]，初始文本中“23”和“$”为更值得关注的部分，所以对应特征信息处置为1。

在获取到注意力特征信息后，可以将注意力特征信息、词特征信息和字符特征信息进行融合，能得到基于不同维度的融合特征，从而可以将该融合特征输入语义预测模型中，确定第一子文本对应的语义预测类别，以进行第一子文本的转写。

下面，以初始文本为“the shirt sell for 23 $”为例，对确定初始文本的融合特征的过程进行说明。

图4是本发明实施例提供的语义预测模型的结构示意图。如图4所示，该语义预测模型包括特征提取部分、特征融合部分和网络预测部分，利用该语义预测模型可以确定第一子文本对应的语义预测类别。具体包括如下步骤：

步骤一：获取初始文本后，对初始文本进行词嵌入（Word Embedding）处理，即词特征信息提取，获取初始文本中每个词的词面低维特征。以初始文本为“the shirt sell for23 $”为例，对初始文本进行词特征信息提取后得到如下所示的词特征信息：

the [-2.057, -1.159,……]

shirt [-1.029, -0.232,……]

sell [-5.068, -0.207……]

for [-4.044, -5.285,……]

23 [-3.132, -2.156, ……]

$ [-1.044, -2.285,……]

其中，第一列为词面信息，第二列为词面对应的特征信息。

步骤二：对初始文本中每个词进行字符级别的字符嵌入（Char Embedding）处理，即字符特征信息提取。字符特征信息提取后得到的字符特征信息的形式与上述词特征信息的形式类似，此处不再赘述。

步骤三：为了使语义预测模型更加关注初始文本中需要预测的文本部分，还需要生成该初始文本的注意力特征信息。例如，初始文本 “the shirt sell for 23 $”对应的注意力特征信息为：[ 0, 0, 0, 0, 1, 1, …… ]。

步骤四：获取词特征信息、字符特征信息和注意力特征信息后，将三类特征信息进行特征融合（Feature Fusion），得到融合特征。将融合后的融合特征作为网络预测部分的输入，利用网络模型部分进行预测，确定出第一子文本对应的语义预测类别。

进一步地，在确定出第一子文本对应的语义预测类别后，使用转写模块对第一子文本进行转写，得到第二子文本。

在本实施例中，基于各词语的位置和词语对应的类别确定的初始文本对应的注意力特征信息，可以使得语义预测模型更加关注需要进行文本转写的部分，从而可以进一步提高分析初始文本语义的准确性和效率，使确定出的第一子文本对应的语义预测类别的准确性更高，进一步提高文本转写的准确性。

进一步地，现有技术中的转写规则通常是在系统逻辑层被加载和调用，用户无法直接进行修改或者定制化，为了方便用户在线进行一些特殊的定制化修改，本发明实施例中提出了一种转写规则热更新的方法，以实现快速迭代，从而避免在转写错误时需要进行整个系统的更新。示例性的，本发明实施例中的转写规则库中包括用户转写规则和系统转写规则，其中，用户转写规则的优先级高于系统转写规则的优先级；在转写规则库中查找与第一子文本对应的目标转写规则时，可以基于转写规则库中各转写规则的优先级，查找与第一子文本对应的目标转写规则。

具体地，转写规则库可以包括用户转写规则和系统转写规则，用户可以按照预设的规则要求对需要的定制化转写进行资源规则书写，形成用户转写规则，因此，用户转写规则是可以用户自定义的、可在线或者离线修改的转写规则，系统转写规则可以是系统中自带的、不可修改的转写规则。在进行文本转写时，电子设备中的转写系统在通过系统逻辑层加载和调用系统规则文件的基础上，还需要对用户规则文件进行读取解析，并提取相应的转写规则，将该用户转写规则与系统转写规则进行融合，实现转写规则的在线更新。

此外，为了避免用户错误的编辑用户转写规则，导致转写系统不能正常运行，在加载用户转写规则时，转写系统会调用自动检查模块，针对用户书写的转写规则进行检查。在检查无误后，转写系统会将用户转写规则并入系统转写规则内。通过设置用户转写规则，使转写系统的灵活性提升，用户可以直接修改归一化转写规则，针对一些小修改，省去了转写系统的更新周期，实现快速迭代及转写。

示例性的，由于上述用户转写规则的优先级高于系统转写规则的优先级，因此，在查找与第一子文本对应的目标转写规则时，将优先在用户转写规则中进行查找，若用户转写规则中未查找到，再在系统转写规则中进行查找。由于对于每个用户来说，其可能有自己实际需要的转写规则，因此，在进行目标转写规则的查找时，优先在用户转写规则中进行查找，也即可以优先在更加贴合用户实际需求的转写规则中查找，由此可以提高目标转写规则查找的效率。

示例性的，不论是生成上述的用户转写规则还是系统转写规则，都可以是对目标语种的语言的转写规律进行总结、提炼，得到目标语种的转写规则。例如，在生成英语语种的转写规则时，将电流的物理单位“A”转写为“ampere”即可得到一个转写规则，将缩略语“NBA”转写为“National Basketball Association”即可得到一个转写规则；在生成汉语语种的转写规则时，将电流的物理单位“A”转写为“安培”可以得到转写规则等等。

在具体的实现过程中，“NBA”对应的转写规则，在转写规则库中可以以1E 1D=“NBA”：O[National Basketball Association]的形式存储。其中，该转写规则分为条件串和输出串，二者通过“：”分开，需要转写的文本为英文(E)，并且该文本的大写为“NBA”，则输出(O)的转写结果为“[ ]”内部的信息。通过第一子文本和条件串进行匹配，可以获取输出串作为第一子文本对应的转写文本。再例如，“23$”对应的转写规则在转写规则库中可以以1N 2F 2=$:n(1) O(dollars)的形式存储，该转写规则的含义为第一个block为数字(N)，第二个block为符号，且第二个符号为“$”，“：”表示该条转写规则的输出，第一个block用读数字(n)，第二个block读作dollars。该转写规则中的两个block的标签为“n”和“w”。根据语种的特性，通过对各领域的特殊符号进行收集，然后进行规则书写，形成转写规则库，也即转写规则资源文件，作为系统的依赖项。

在本实施例中，由于在转写规则库中增加用户转写规则以达到扩大转写规则库覆盖范围的目的，加入更多、更符合用户需求的转写规则，提高了目标转写规则查找的效率。

用户转写规则也可以理解为基于用户的转写要求或转写习惯总结出适于实用的转写规则。用户可以仿照上述系统转写规则的编辑方式对需要的定制化转写进行转写规则资源编辑，形成用户规则文件，即用户转写规则的集合。在用户进行文本转写时，系统会对用户转写规则的集合进行读取解析，提取用户转写规则，并且将用户转写规则和系统转写规则融合，从而实现在线更新转写规则库的目的。

可选地，用户也可以对转写规则库中的用户转写规则进行修改。当用户发现既有的用户转写规则不符合文本转写需求时，可以直接修改转写规则，通过合理的转写规则修改，可以提高文本转写的准确性，提升本方法快速迭代的能力。

在一种示例实施例中，在转写规则库中查找与第一子文本对应的目标转写规则时，可以通过确定第一子文本对应的目标类别，并确定转写规则库中与目标类别对应的至少一个转写规则，并在与目标类别对应的至少一个转写规则中查找与第一子文本对应的目标转写规则。

具体地，可以对转写规则库中的转写规则按照一定的分类方法进行分类，划分为不同类别的转写规则。举例来说，将转写规则库中的转写规则按照数字、符号、货币单位、时间等类别进行分类，也即转写规则库中包括有数字对应的多个转写规则，符号对应的多个转写规则，货币单位对应的多个转写规则等等。

在确定出第一子文本的目标类别后，基于第一子文本的目标类别，在转写规则库中查找与第一子文本的目标类别对应的目标转写规则。如识别第一子文本“$”后，确定该第一子文本“$”的目标类别为货币单位，则优先在转写规则库中的货币单位对应的多个转写规则中遍历查找该第一子文本对应的目标转写规则。

在本实施例中，按照第一子文本对应的目标类别在转写规则库中查找对应的目标转写规则，可以缩小目标转写规则的查找范围，避免不必要的遍历查找过程，提升查找的速率。

在一种示例实施例中，为了避免在转写错误后重新返回再次进行转写的情况，本发明实施例中可以在输入文本中进行先验标记，以直接修改转写结果，从而实现用户在数据层直接进行归一化的转写体验。示例性的，可以对初始文本进行解析，得到解析结果；在解析结果中不包括标签信息，且在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，其中，该标签信息用于表征在第一子文本的位置处将第一子文本转写为第二子文本。

具体地，标签信息可以是用于识别在第一子文本的位置处将第一子文本转写为第二子文本的标识信息。其可以是用户对初始文本进行标识得到。通过对初始文本进行解析，识别初始文本中是否包含有标签信息，如果初始文本中不包含标签信息且在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，进一步再确定目标转写规则是否包括标记信息。

示例性的，如果初始文本中包含有标签信息，可以基于标签信息，直接将第一子文本转写为第二子文本。

举例来说，初始文本为“This bed is 2 meters long”，用户需要对初始文本中的“2”进行文本转写，则“2”即为第一子文本，用户可以对初始文本中的第一子文本进行标识，添加标签信息。例如将初始文本标识为：“This bed is [i]2 m[o]two meters long”，其中，“[i]2 m[o]two”即为标签信息。在需要转写的位置处插入标签“[i]”表示需要对该位置处的文本进行转写，标签“m[o]”则表示在该位置处转写为“m[o]”后的文本。则可以将第一子文本“2”的位置处直接转写为第二子文本“two”，因此，初始文本转写后的结果为“Thisbed is two meters long”。

在本实施例中，对初始文本中的第一子文本进行标签信息的标识，可以直接标识出第一子文本对应转写的第二子文本，这样，不仅能提高转写的准确性，还能提升转写的效率。当对初始文本解析后，初始文本中不包括标签信息时，再进行目标转写规则的查找和识别，可以避免初始文本中包括标签信息时，不必要的目标转写规则的查找，简化了文本转写的步骤，提升转写效率。

示例性的，图5是本发明实施例提供的文本转写方法的应用系统结构框图，以初始文本为“the shirt sell for 23 $”为例对本实施例提供的文本转写方法进行详细说明。

如图5所示，系统获取初始文本“the shirt sell for 23 $”，其中，初始文本中包括待转写的第一子文本，第一子文本分别为“23”和“$”。获取初始文本后，先对初始文本是否包括标签信息进行解析，并得到解析结果。

当解析结果显示初始文本中包括标签信息时，初始文本将直接输入转写模块进行转写，得到转写结果“the shirt sell for twenty three dollars”。

当解析结果显示初始文本中不包括标签信息时，初始文本将输入调度模块。调度模块可以判断初始文本中的第一子文本，后续是进入规则处理模块还是进入模型预测模块。调度模块可以对每一个第一子文本遍历转写规则库，查找第一子文本对应的目标转写规则。将查找到第一子文本对应的目标转写规则不包括标记信息的第一子文本输入规则处理模块；将没有找到目标转写规则的第一子文本，或者查找到第一子文本对应的目标转写规则包括标记信息的第一子文本输入模型预测模块。

规则处理模块可以是基于系统转写规则和用户转写规则组成的转写规则库对第一子文本进行规则匹配处理的模块。如果查找到第一子文本“23”和“$”的目标转写规则分别为：“23”转写为“twenty three”；“$”转写为“dollars”时，并且这两个目标转写规则不包含标记信息，则可以对第一子文本进行规则匹配并输入转写模块后得到转写结果“theshirt sell for twenty three dollars”。

模型预测模块可以是基于初始文本的特征信息，对第一子文本进行转写的模块。如果查找到第一子文本“23”和“$”的目标转写规则分别为：“23”转写为“23（*）”；“$”转写为“$（*）”时，这两个目标转写规则包含标记信息（*），则第一子文本“23”和“$”输入模型预测模块进行模型预测。基于对初始文本的特征信息提取，确定出第一子文本转写的第二子文本。应理解，初始文本“the shirt sell for 23 $”虽然是由英文单词组成，但并不能表明转写后第一子文本“23”和“$”一定应该转写为英文的表示形式，转写后的目标文本可以是初始文本的同语种，也可以是与初始文本的语种不同的文本，本方法可以根据用户的需求进行灵活设置。同样地，用户可以设置文本转写仅限制于同语种，即，用户设置文本转写的原则是同语种转写，则进行文本转写时，得到的目标文本的语种与初始文本的语种相同。同样地，用户还可以设置文本转写限于指定语种或多语种组合，即，目标文本的语种为用户指定的语种或多语种组合。从增加用户使用灵活性的目的来设置，提高本方法的适用性。

本实施例提供的文本转写方法，整合了规则匹配和模型预测的两个方面，增强了文本转写方法的泛化性，提高系统的泛化能力之外，也保留了基于规则匹配方法的可控性，有效的提升了转写系统的准确性和鲁棒性。此外，在转写规则库包含用户转写规则的情况下，使用户能够添加用户转写规则，体验即插即用式的规则匹配，也使系统实现了线上修复转写规则库的目的，具备转写规则库热更新的能力提升系统迭代速度。并且，本发明实施例还具有解析初始文本是否包括标签信息的功能，可以利用标签信息提升文本转写的准确性和效率。

下面对本发明实施例提供的文本转写装置进行描述，下文描述的文本转写装置与上文描述的文本转写方法可相互对应参照。

图6是本发明实施例提供的文本转写装置的结构示意图，参照图6所示，文本转写装置600包括：

获取模块610，用于获取初始文本，初始文本中包括待转写的第一子文本；

确定模块620，用于在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；

提取模块630，用于在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；

转写模块640，用于基于特征信息将第一子文本转写为第二子文本。

在一种示例实施例中，特征信息包括词特征信息和字符特征信息，转写模块640具体用于：

将词特征信息和字符特征信息进行融合，得到融合特征；

基于融合特征，确定第一子文本对应的语义预测类别；

基于语义预测类别，将第一子文本转写为第二子文本。

在一种示例实施例中，提取模块630还用于：基于初始文本中的各词语在初始文本中的位置和各词语对应的类别，确定初始文本对应的注意力特征信息；

转写模块640还用于：将词特征信息、字符特征信息和注意力特征信息进行融合，得到融合特征。

在一种示例实施例中，转写规则库中包括用户转写规则和系统转写规则，用户转写规则的优先级高于系统转写规则的优先级；

所述装置还包括查找模块；

查找模块，用于基于转写规则库中各转写规则的优先级，查找与第一子文本对应的目标转写规则。

在一种示例实施例中，查找模块具体用于：

确定第一子文本对应的目标类别；

确定转写规则库中与目标类别对应的至少一个转写规则，并在与目标类别对应的至少一个转写规则中查找与第一子文本对应的目标转写规则。

在一种示例实施例中，确定模块620，具体用于对初始文本进行解析，得到解析结果；

在解析结果中不包括标签信息，且在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，标签信息用于表征在第一子文本的位置处将第一子文本转写为第二子文本。

在一种示例实施例中，转写模块640，还用于在解析结果中包括标签信息的情况下，基于标签信息，将第一子文本转写为第二子文本。

本实施例的装置，可以用于执行文本转写方法侧实施例中任一实施例的方法，其具体实现过程与技术效果与文本转写方法侧实施例中类似，具体可以参见文本转写方法侧实施例中的详细介绍，此处不再赘述。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行文本转写方法，该方法包括：获取初始文本，初始文本中包括待转写的第一子文本；在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；基于特征信息将第一子文本转写为第二子文本。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本转写方法，该方法包括：获取初始文本，初始文本中包括待转写的第一子文本；在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；基于特征信息将第一子文本转写为第二子文本。

又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本转写方法，该方法包括：获取初始文本，初始文本中包括待转写的第一子文本；在转写规则库中查找到与第一子文本对应的目标转写规则的情况下，确定目标转写规则是否包括标记信息，转写规则库中的各转写规则用于表征待转写文本对应的目标文本，标记信息用于表征第一子文本包括至少两种语义；在目标转写规则包括标记信息的情况下，提取初始文本的特征信息；基于特征信息将第一子文本转写为第二子文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本转写方法，其特征在于，包括：

获取初始文本，所述初始文本中包括待转写的第一子文本；

在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述转写规则库中的各转写规则用于表征待转写文本对应的目标文本，所述标记信息用于表征所述第一子文本包括至少两种语义；在所述转写规则库中的转写规则对应的待转写文本存在歧义的情况下，所述转写规则中添加有所述标记信息；

基于所述特征信息将所述第一子文本转写为第二子文本。

2.根据权利要求1所述的文本转写方法，其特征在于，所述特征信息包括词特征信息和字符特征信息；

3.根据权利要求2所述的文本转写方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的文本转写方法，其特征在于，所述转写规则库中包括用户转写规则和系统转写规则，所述用户转写规则的优先级高于所述系统转写规则的优先级；

5.根据权利要求1-3任一项所述的文本转写方法，其特征在于，在转写规则库中查找与所述第一子文本对应的目标转写规则，包括：

确定所述第一子文本对应的目标类别；

6.根据权利要求1-3任一项所述的文本转写方法，其特征在于，所述在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，包括：

对所述初始文本进行解析，得到解析结果；

7.根据权利要求6所述的文本转写方法，其特征在于，所述方法还包括：

8.一种文本转写装置，其特征在于，包括：

确定模块，用于在转写规则库中查找到与所述第一子文本对应的目标转写规则的情况下，确定所述目标转写规则是否包括标记信息，所述转写规则库中的各转写规则用于表征待转写文本对应的目标文本，所述标记信息用于表征所述第一子文本包括至少两种语义；在所述转写规则库中的转写规则对应的待转写文本存在歧义的情况下，所述转写规则中添加有所述标记信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本转写方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本转写方法。