CN110852075B

CN110852075B - 自动添加标点符号的语音转写方法、装置及可读存储介质

Info

Publication number: CN110852075B
Application number: CN201910949223.5A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2023-12-26
Anticipated expiration: 2039-10-08
Also published as: CN110852075A

Abstract

本发明公开了一种自动添加标点符号的语音转写方法、装置及可读存储介质，其通过获取指定技术领域的常用表达，并根据常用表达进行提取话术；对所提取的话术进行要素分解或关键要素提取，得到一个以上的分解要素；并对每个分解要素设置对应的要素类型和对应的标点类型；根据分解要素、要素类型、标点类型构造词典文件；根据话术将词典文件中的分解要素连接成完整句子进行训练语言模型；将待转写语音输入语言模型进行预测，输出对应的带标点符号的转写文本；其中，标点符号的标点类型与转写文本的分解要素的要素类型相对应，从而将标点作为文本的一部分进行构建词典文件，输出文本时同时输出对应的标点符号，计算量更小，实时效果更好。

Description

自动添加标点符号的语音转写方法、装置及可读存储介质

技术领域

本发明涉及语音识别技术领域，特别是一种自动添加标点符号的语音转写方法及其应用该方法的装置和可读存储介质。

背景技术

随着计算机技术的发展，语音识别从研究走向实用，并逐渐取代计算机等职能终端的键盘和鼠标等传统输入方法。语音识别技术是从采集到的语音信息中识别出相应的语音内容，即将数字语音信息识别成相应的文本。用户可以基于语音识别技术将语音信息识别成相应的文本，避免了手动输入文本的繁琐，给人们生活带来了便利。

传统的语音识别技术识别中，语音的转写文本默认是词之间的组合，没有任何标点符号的。然而，在实际应用中往往需要在输出的文本中添加相应的标点符号，以便于人们阅读理解文本。并且，随着人工智能技术的发展，语音转写之后的文本可能还会用于下游自然语言处理领域的任务，这时，添加标点符号就十分有必要了，特别是在长语音识别和专业领域语音识别中，添加标点符号也能极大地提升可读性。

目前的语音转写中添加标点符号的方式，主要包括以下四大类：

(1)基于声学特征的方法：

该方法是根据人在说话时的停顿或者韵律(prosody)进行标点符号预测；然而，文本中添加的标点符号和语音信息中停顿的时间长短没有必然的联系，每个人每种语境下说话语速不同，很难设定停顿时间阈值，降低了所添加的标点符号的准确性；并且，无法区分句号、问号、感叹号等句子结束标点符号以及逗号、分号等中间停顿标点符号，实用性较不足。

(2)基于文本特征的方法：

使用语言模型建模或者序列标注建模来预测某个词后面是否接标点符号；由于不同领域文本数据间往往类型不同，因此该方法训练出来的模型泛化性能较差。而如果训练文本涵盖多个领域，一方面需要采集大量文本语料，另一方面由于在不同语境下，标点符号的使用习惯也不尽相同，这就导致模型最终的效果有限。

(3)结合文本与声学特征的方法：

该方法结合了声学特征和文本特征，一定程度上克服了两种方法的不足，效果相对较好；但是，缺点是要求数据集同时有语音数据以及ASR转写文本，数据获取难度较大。

(4)基于机器翻译的方法：

将无标点符号的转写文本作为源语言，人为加标点符号后的转写文本作为该源语言的目标语言，训练得到的机器翻译模型作为标点符号添加模型；该方法需要大量平行语料用于训练单语言的机器翻译模型，即需要无标点符号的转写文本作为源语言，且该句话的带标点符号版本作为目标语言，因此人工成本过大，训练耗时过长。

以上各方法除了基于声学特征的方法外，都需要在输出转写文本后，额外增加标点符号添加模块对标点符号进行添加，并且该标点符号添加模块也需要额外的数据进行训练，在训练过程中文本与标点是相分离，工作量巨大且很难达到实时性的效果。

发明内容

本发明为解决上述问题，提供了一种自动添加标点符号的语音转写方法、装置及可读存储介质，将标点作为文本的一部分进行构建词典文件，输出文本时同时输出对应的标点符号，计算量更小，实时效果更好。

为实现上述目的，本发明采用的技术方案为：

一种自动添加标点符号的语音转写方法，包括以下步骤：

获取指定技术领域的常用表达，并根据所述常用表达进行提取话术；

对所提取的话术进行要素分解或关键要素提取，得到一个以上的分解要素；并对每个分解要素设置对应的要素类型和对应的标点类型；

根据所述分解要素、要素类型、标点类型构造词典文件；

根据话术将所述词典文件中的分解要素连接成完整句子进行训练语言模型；

将待转写语音输入所述语言模型进行预测，输出对应的带标点符号的转写文本；其中，所述标点符号的标点类型与所述转写文本的分解要素的要素类型相对应。

优选的，获取指定技术领域的常用表达，是通过采集指定技术领域的训练语音，并对所述训练语音进行语音识别，得到无标点文本；并根据该无标点文本分析其常用表达。

优选的，还进一步针对不同对话场景设置对应的话术类型，并根据设置的话术类型对提取的话术进行分类，对各个类型的话术构造独立的词典文件；并且，将每个类型的话术中的不同的分解要素分别存放于所述词典文件下的不同的子文件中。

优选的，所述分解要素包括所述话术中的高频用语和所述指定技术领域的专业用语；所述要素类型包括打招呼用语、身份用语、事件用语、事件ID、结尾用语中的一种以上用语类型；打招呼用语对应设置的标点类型为逗号或感叹号，相邻两个身份用语之间设置的标点类型为句号或逗号，事件用语对应设置的标点类型为逗号或句号，事件ID对应设置的标点类型为引号或无标点，结尾用语对应设置的标点类型为句号或问号或感叹号。

优选的，所述语言模型采用三元文法模型；所述语言模型的训练，是通过对连接后的完整句子进行分词处理得到分词语料，并将分词语料作为训练语料进行训练所述语言模型。

优选的，所述词典文件还包括发音文件，所述发音文件包括所述话术或所述分解要素中的每个字的发音，所述发音迁移自发音字典；所述字在发音字典中为多音字时，根据所指定技术领域的常用表达确定所述字的正确的发音。

优选的，根据所述发音文件，对所述连接后的完整句子进行音素对齐，并根据对齐的音素进行训练声学模型；将所述语言模型的得分和所述声学模型的得分进行插值处理，根据插值结果进行预测和输出转写文本。

进一步的，所述声学模型采用高斯混合模型和隐马尔科夫模型作为基础模型对音素进行对齐，并采用时延神经网络作为最终的声学模型。

本发明之另一目的，在于提供一种自动添加标点符号的语音转写装置，包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得所述语音转写装置实现上述任一项所述的语音转写方法。

本发明之再一目的，在于提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，语音转写装置执行所述指令使得语音转写装置实现上述任一项所述的语音转写方法。

本发明的有益效果是：

(1)本发明通过对特定领域特定话术的常用表达进行分析，进而构造语言模型训练文本和词典文件，将标点符号作为词的一部分，但是标点符号不发音，以达到在输出转写文本的同时，将标点符号准确地输出，提高转写效率；

(2)本发明通过将每个话术拆分成不同的分解要素，可以很轻易地构造针对指定领域的特定话术的带标点符号的小型词典，不需要花费大量人力去构造词典；并且，本发明通过对每一种话术，将各个分解要素分别存放在单独的文件中，不仅便于增加条目，而且便于构造词典，并且使编写的代码更加简洁；

(3)本发明的训练语料的来源主要是指定技术领域的常用表达，特别是话术中频繁出现的高频用语以及所述指定领域相关的专业用语加入词典，构造语言模型训练文本语料难度低，不需要通过采集大量文本，减少了数据采集时间，避免了文本预处理的过程；并且，减小了词典大小，使得后续解码空间缩小，还能够降低多音字带来的负面影响；

(4)本发明的发音文件可通过编写脚本将网上开源的中文发音字典中对应词的发音迁移到小型词典上，充分利用了开源的资源，减少了词典标注的工作量；

(5)本发明通过将每一种话术的各个分解要素组合成完整的句子用作语言模型的训练语料，不仅针对性强，而且训练出来的模型相较于通用语言模型，体积大大减小，算法效率和准确率更高；

(6)本发明是针对指定技术领域的特定话术的，添加的标点符号准确度相对于针对通用场景的方法能够较大提升。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的一种自动添加标点符号的语音转写方法，包括以下步骤：

a.获取指定技术领域的常用表达，并根据所述常用表达进行提取话术；

b.对所提取的话术进行要素分解或关键要素提取，得到一个以上的分解要素；并对每个分解要素设置对应的要素类型和对应的标点类型；

c.根据所述分解要素、要素类型、标点类型构造词典文件；

d.根据话术将所述词典文件中的分解要素连接成完整句子进行训练语言模型；

e.将待转写语音输入所述语言模型进行预测，输出对应的带标点符号的转写文本；其中，所述标点符号的标点类型与所述转写文本的分解要素的要素类型相对应。

所述的步骤a中，获取指定技术领域的常用表达，是通过采集指定技术领域的训练语音，并对所述训练语音进行语音识别，得到无标点文本；并根据该无标点文本分析其常用表达。本实施例中，还进一步针对不同对话场景设置对应的话术类型，并根据设置的话术类型对提取的话术进行分类。

所述的步骤b中，每一种话术分解或提取得到一个以上的分解要素；对于每一种话术，各个分解要素是不唯一的，但是每个分解要素所接的标点符号是被固定的；并且，所述标点符合可接在所述分解要素的前面或者后面。

所述的步骤c中，根据所述分解要素、要素类型、标点类型构造词典文件，所述要素类型与所述标点类型是相对应的，但是所述要素类型在不同的上下语境中可对应不同的标点类型；并且，一个要素类型可对应多个分解要素。本实施例还进一步对各个类型的话术构造独立的词典文件；并且，将每个类型的话术中的不同的分解要素分别存放于所述词典文件下的不同的子文件中；即，将不同部分的分解要素的子文件中的内容分别拷贝到词典文件中；为了便于批量操作，拷贝一部分就添加一部分。每一部分单独拷贝并添加标点符号。对于词典文件中的词，根据是否频繁变化、是否在句首、是否在句尾等情况，在词前面或者后面批量添加标点符号；对于词典文件中的词，若该部分的词是频繁变化的，则不添加标点符号，将标点符号划分到下一部分作为开头；若该词在句首，则在词后添加标点符号；若该词在句尾，则在其后面添加句号或问号。此处可采用shell脚本实现。

本实施例中，所述词典文件还包括发音文件，所述发音文件包括所述话术或所述分解要素中的每个字的发音，所述发音迁移自发音字典；所述字在发音字典中为多音字时，根据所指定技术领域的常用表达确定所述字的正确的发音。本实施例是将已有的发音字典中对应字的发音迁移到词典中，对于多音字，需根据语境决定是否需要多个音都要；例如，对于某个词有多个字是连续第三声的情况，只保留最后一个字的第三声，其余前面的字的第三声全部退化为第二声。此处可采用shell脚本实现。本实施例的发音文件可以通过编写脚本将网上开源的中文发音字典中对应词的发音迁移到所述词典文件上，只需要对少量多音字以及连续多个字同为第三声的情况进行单独处理，不仅减少了工作量，而且因为构造的词典规模小、针对性强，极大压缩了语言模型的大小和语音识别的解码空间，识别精度和速度都得到极大提升。

其中，所述分解要素包括所述话术中的高频用语和所述指定技术领域的专业用语；所述要素类型包括打招呼用语、身份用语、事件用语、事件ID、结尾用语中的一种以上用语类型；打招呼用语对应设置的标点类型为逗号或感叹号，相邻两个身份用语之间设置的标点类型为句号或逗号，事件用语对应设置的标点类型为逗号或句号，事件ID对应设置的标点类型为引号或无标点，结尾用语对应设置的标点类型为句号或问号或感叹号。

例如，对于电力调度系统信息直调中常说的一句话：“您好，运检xxx。我这边有一个一级检修处在本级信调初审，需要您审批。检修号是xxxxxxxxxxx。”可以分解成如下几个要素：

1.打招呼用语：“你好”或者“您好”，后面均接逗号“，”；

2.身份用语：“运检xxx”，其中xxx代表姓名，因为该姓名与后面连接的姓名不同，所以将句号“。”作为下一个部分的开头是比较合理的；

3.事件用语：“我这边有一个一级检修处在本级信调初审，需要您审批”，后面均接句号“。”；

4.事件ID：“检修号是xxxxxxxxxxx”，其中检修号为11位数字，例如前八位为年月日，后三位为真实检修号，虽然检修号是不固定的，但是它位于句尾，所以后面接句号“。”

所述的步骤d中，分解要素连接成完整句子进行训练语言模型，可采用python3.6实现；所述语言模型采用三元文法模型；所述语言模型的训练，是通过对连接后的完整句子进行分词处理得到分词语料，此处可采用jieba分词工具实现，并将分词语料作为训练语料进行训练所述语言模型，此处采用kaldi语音识别开源工具实现。根据所述发音文件，对所述连接后的完整句子进行音素对齐，并根据对齐的音素进行训练声学模型；此处可采用kaldi语音识别开源工具实现，对训练集的语音数据进行特征提取，训练声学模型。然后，将所述语言模型的得分和所述声学模型的得分进行插值处理，根据插值结果进行预测和输出转写文本；插值系数通过训练数据训练得到；此处可采用OpenFST解码工具实现。本实施例中，所述声学模型采用高斯混合模型和隐马尔科夫模型(GMM-HMM)作为基础模型对音素进行对齐，并采用时延神经网络(TDNN)作为最终的声学模型；所述声学模型还可以采用其他训练方法，不以此为限。

所述的步骤e中，输入待转写语音，解码得到带标点符号的转写文本。此处采用kaldi语音识别开源工具实现。因为将标点符号集成到了发音词典中，语音识别模型在输出转写文本的同时，标点符号会跟随词一起被输出，不需要额外采集用于训练标点符号模型的文本数据，因此标点符号模型的训练时间和预测时间都降为0，进一步提升了语音识别速度。

本发明实施例提供的语音转写方法应用于服务器中。其中，服务器可以为一台或多台服务器；可选地，多台服务器可以以服务器集群的方式为终端提供数据库服务。一种可能实现，服务器中设置有数据库，该数据库可以为HBase、Mongo数据库(MongoDatabase，MongoDB)、分布型关系数据库服务(Distribute Relational DatabaseService，DRDS)、Volt数据库(Volt Database，VoltDB)、和ScaleBase等分布式数据库。

另外，本发明还提供一种自动添加标点符号的语音转写装置，包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得所述语音转写装置实现上述任一项所述的语音转写方法。

语音转写装置可以是计算机设备，该计算机设备可以是上述的服务器，语音转写装置包括至少一个处理器，通信总线，存储器以及至少一个通信接口。

处理器可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线可包括一通路，在上述组件之间传送信息。所述通信接口604，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘可读存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器用于存储执行本发明方案的程序代码，并由处理器来控制执行。所述处理器用于执行所述存储器中存储的程序代码。

在具体实现中，作为一种实施例，处理器可以包括一个或多个CPU。

在具体实现中，作为一种实施例，语音转写装置可以包括多个处理器，例如处理器和处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，语音转写装置还可以包括输出设备和输入设备。输出设备和处理器通信，可以以多种方式来显示信息。例如，输出设备可以是液晶显示器(liquid crystal display，LCD),发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备和处理器通信，可以以多种方式接受用户的输入。例如，输入设备可以麦克风，也可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的语音转写装置可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，语音转写装置可以是台式机、便携式电脑、网络服务器、掌上电脑(PersonalDigital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等。本发明实施例不限定用户口令管理的语音转写装置的类型。

语音转写装置的存储器中存储了一个或多个软件模块。语音转写装置可以通过处理器以及存储器中的程序代码来实现软件模块，实现上述实施例所说的语音转写方法。

再者，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令；语音转写装置(可以是计算机设备，例如服务器)执行该指令，例如计算机设备中的处理器执行该指令，使得该语音转写装置实现上述实施例所说的语音转写方法。

本发明实施例提供一种计算机程序产品，该计算机程序产品包括指令；语音转写装置(可以是计算机设备，例如服务器)执行该指令，使得该语音转写装置执行上述方法实施例的语音转写方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读可读存储介质中，上述提到的可读存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种自动添加标点符号的语音转写方法，其特征在于，包括以下步骤：

根据所述分解要素、要素类型、标点类型构造词典文件；

将待转写语音输入所述语言模型进行预测，输出对应的带标点符号的转写文本；其中，所述标点符号的标点类型与所述转写文本的分解要素的要素类型相对应；

所述词典文件还包括发音文件，根据所述发音文件，对所述连接后的完整句子进行音素对齐，并根据对齐的音素进行训练声学模型；将所述语言模型的得分和所述声学模型的得分进行插值处理，根据插值结果进行预测和输出转写文本。

2.根据权利要求1所述的一种自动添加标点符号的语音转写方法，其特征在于：获取指定技术领域的常用表达，是通过采集指定技术领域的训练语音，并对所述训练语音进行语音识别，得到无标点文本；并根据该无标点文本分析其常用表达。

3.根据权利要求1所述的一种自动添加标点符号的语音转写方法，其特征在于：还进一步针对不同对话场景设置对应的话术类型，并根据设置的话术类型对提取的话术进行分类，对各个类型的话术构造独立的词典文件；并且，将每个类型的话术中的不同的分解要素分别存放于所述词典文件下的不同的子文件中。

4.根据权利要求1至3任一项所述的一种自动添加标点符号的语音转写方法，其特征在于：所述分解要素包括所述话术中的高频用语和所述指定技术领域的专业用语；所述要素类型包括打招呼用语、身份用语、事件用语、事件ID、结尾用语中的一种以上用语类型；打招呼用语对应设置的标点类型为逗号或感叹号，相邻两个身份用语之间设置的标点类型为句号或逗号，事件用语对应设置的标点类型为逗号或句号，事件ID对应设置的标点类型为引号或无标点，结尾用语对应设置的标点类型为句号或问号或感叹号。

5.根据权利要求1所述的一种自动添加标点符号的语音转写方法，其特征在于：所述语言模型采用三元文法模型；所述语言模型的训练，是通过对连接后的完整句子进行分词处理得到分词语料，并将分词语料作为训练语料进行训练所述语言模型。

6.根据权利要求1所述的一种自动添加标点符号的语音转写方法，其特征在于：所述发音文件包括所述话术或所述分解要素中的每个字的发音，所述发音迁移自发音字典；所述字在发音字典中为多音字时，根据所指定技术领域的常用表达确定所述字的正确的发音。

7.根据权利要求1所述的一种自动添加标点符号的语音转写方法，其特征在于：所述声学模型采用高斯混合模型和隐马尔科夫模型作为基础模型对音素进行对齐，并采用时延神经网络作为最终的声学模型。

8.一种自动添加标点符号的语音转写装置，其特征在于：包括存储器和处理器，所述存储器中存储有指令，所述处理器通过执行所述存储器中存储的指令使得所述语音转写装置实现如权利要求1至7任一项所述的语音转写方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，语音转写装置执行所述指令使得语音转写装置实现权利要求1至7任一项所述的语音转写方法。