CN107423317A

CN107423317A - 一种基于首字母序列的中文文本校对方法

Info

Publication number: CN107423317A
Application number: CN201710185619.8A
Authority: CN
Inventors: 刘宏哲; 袁家政; 薛建明; 黄美玲
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-03-26
Filing date: 2017-03-26
Publication date: 2017-12-01

Abstract

本发明公开一种基于首字母序列的中文文本的校对方法，首先语音输入一段音频，然后通过语音识别技术将语音数据转换成文本数据，紧接着提取这句文本中每个字的拼音首字母组成一串字母序列，然后将生成的首字母序列与存放在首字母序列库中的内容一一进行比较，当提取的序列是库中序列的子序列时，校对后的文本为库中的序列对应的中文文本；当提取的序列与库中序列的长度相等时，比较二者之间不同字母的个数，若小于一定的阈值，那么校对后的文本为库中序列对应的中文文本；其他的情况，则不对文本进行校对，视为正确文本。本发明对基于小型知识库的语音问答系统的识别文本有不错的校对效果，并且具有易于实现的优点。

Description

一种基于首字母序列的中文文本校对方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于首字母序列的中文文本的校对方法。

背景技术

随着现代信息处理技术的发展。计算机渐渐替代了传统文本工作，文本错误也随之越来越多。人工校对已无法满足需求时，文本自动校对的研究应运而生，具有深远意义。在大力发展人工智能的今天，语音识别也取得了长足的进步。虽然如此，但在实际应用中，语音识别的正确率还是难以得到保证，因此，研究一种能够对语音识别后的中文文本进行校对的方法存在应用价值。

在人工校对过程中，文本相关的背景知识、语言学知识、专业知识等对校对过程起到非常重要的作用，而对于计算机来说，目前来说是很难达到的，所以在中文文本自动校对中，必须借助统计等手段，将语言学知识、词典、领域知识等结合起来进行校对和判断，但是经过对语音识别后的文本进行研究发现，识别错误的文本通常首字母是没有错误的，因此，可以以此为根据来进行文本的校对。

发明内容

本发明的目的在于，提出了一种基于首字母序列的中文文本校对方法，对语音识别后的中文文本进行校对，提高语音识别的准确率。

为了实现上述目的，本发明采取了如下的技术方案：

一种基于首字母序列的中文文本校对方法，包括以下步骤：

步骤1：语音识别

通过语音识别模块对获取的音频数据进行音频别；

步骤2：首字母序列的生成

步骤2-1：对语音识别后生成的文本逐个汉字查询常用汉语字典；

步骤2-2：根据查询结果提取拼音的首字母，并将每个汉字提取出来的首字母按顺序组成一个首字母序列，称为源序列；

步骤3：首字母序列的对比

步骤3-1：循环提取知识库中预存的首字母序列表，一行代表一句文本的首字母序列，下文中称为目标序列；

步骤3-2：将源序列与目标序列逐一比较，当源序列长度大于目标序列的二分之一且小于目标序列时，如果源序列是目标序列的子序列，那么则将源序列修改为该目标序列，并记录目标序列所处的位置，否则不修改；当目标序列等于源序列时，源序列修改或者不修改都可以；当目标序列的长度等于源序列时，执行步骤3-3；

步骤3-3：将源序列中的字母逐个与目标序列相对位置的字母进行比较，若每隔三个字母仅有一个或者零个不同的字母，则将源序列修改为目标序列，并记录下目标序列所处的位置，否则不修改；

步骤4：执行完步骤3之后，如果源序列未被修改，则文本视为识别正确，如果源序列被修改为目标序列，则根据步骤3中记录的位置，并以此找到知识库中相对应中文文本。

本发明的基于首字母序列的中文文本的校对方法，在针对语音识别后的文本进行校对，首先语音输入一段音频，然后通过语音识别技术将语音数据转换成文本数据，紧接着提取这句文本中每个字的拼音首字母组成一串字母序列，然后将生成的首字母序列与存放在首字母序列库中的内容一一进行比较，当提取的序列是库中序列的子序列时，校对后的文本为库中的序列对应的中文文本；当提取的序列与库中序列的长度相等时，比较二者之间不同字母的个数，若小于一定的阈值，那么校对后的文本为库中序列对应的中文文本；其他的情况，则不对文本进行校对，视为正确文本。本发明对基于小型知识库的语音问答系统的识别文本有不错的校对效果，并且具有易于实现的优点。

附图说明

图1本发明的流程示意图。

具体实施方式

如图1所示，本发明实施例提供一种基于首字母序列的中文文本校对方法，包括以下步骤：

步骤1：语音识别

通过语音识别模块对获取的音频数据进行音频别；

步骤2：首字母序列的生成

步骤2-2：根据查询结果提取拼音的首字母，并将每个汉字提取出来的首字母按顺序组成一个首字母序列，称为源序列(该处是否为源序列)；

步骤3：首字母序列的对比

步骤3-1：循环提取知识库中预存的首字母序列表，一行代表一句文本的首字母序列，称为目标序列；

其中，步骤3-3中两个序列的对比，只允许每隔三个字母可以有一个不同，这样做的考虑是因为如果四个字母中连续有字母不同的话，可能中文的意思就与目标序列不符，这样可以减少将原本正确的文本修改为错误的文本。

采用本发明的技术方法，提高了语音识别的正确率，同时本发明的校对方法基于中小型知识库，使校对准确率高，也比较容易实现。

Claims

1.一种基于首字母序列的中文文本校对方法，其特征在于，包括以下步骤：

步骤1：语音识别

通过语音识别模块对获取的音频数据进行音频别；

步骤2：首字母序列的生成

步骤3：首字母序列的对比