CN107423317A - 一种基于首字母序列的中文文本校对方法 - Google Patents
一种基于首字母序列的中文文本校对方法 Download PDFInfo
- Publication number
- CN107423317A CN107423317A CN201710185619.8A CN201710185619A CN107423317A CN 107423317 A CN107423317 A CN 107423317A CN 201710185619 A CN201710185619 A CN 201710185619A CN 107423317 A CN107423317 A CN 107423317A
- Authority
- CN
- China
- Prior art keywords
- sequence
- text
- target sequence
- source
- lead
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于首字母序列的中文文本的校对方法,首先语音输入一段音频,然后通过语音识别技术将语音数据转换成文本数据,紧接着提取这句文本中每个字的拼音首字母组成一串字母序列,然后将生成的首字母序列与存放在首字母序列库中的内容一一进行比较,当提取的序列是库中序列的子序列时,校对后的文本为库中的序列对应的中文文本;当提取的序列与库中序列的长度相等时,比较二者之间不同字母的个数,若小于一定的阈值,那么校对后的文本为库中序列对应的中文文本;其他的情况,则不对文本进行校对,视为正确文本。本发明对基于小型知识库的语音问答系统的识别文本有不错的校对效果,并且具有易于实现的优点。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于首字母序列的中文文本的校对方法。
背景技术
随着现代信息处理技术的发展。计算机渐渐替代了传统文本工作,文本错误也随之越来越多。人工校对已无法满足需求时,文本自动校对的研究应运而生,具有深远意义。在大力发展人工智能的今天,语音识别也取得了长足的进步。虽然如此,但在实际应用中,语音识别的正确率还是难以得到保证,因此,研究一种能够对语音识别后的中文文本进行校对的方法存在应用价值。
在人工校对过程中,文本相关的背景知识、语言学知识、专业知识等对校对过程起到非常重要的作用,而对于计算机来说,目前来说是很难达到的,所以在中文文本自动校对中,必须借助统计等手段,将语言学知识、词典、领域知识等结合起来进行校对和判断,但是经过对语音识别后的文本进行研究发现,识别错误的文本通常首字母是没有错误的,因此,可以以此为根据来进行文本的校对。
发明内容
本发明的目的在于,提出了一种基于首字母序列的中文文本校对方法,对语音识别后的中文文本进行校对,提高语音识别的准确率。
为了实现上述目的,本发明采取了如下的技术方案:
一种基于首字母序列的中文文本校对方法,包括以下步骤:
步骤1:语音识别
通过语音识别模块对获取的音频数据进行音频别;
步骤2:首字母序列的生成
步骤2-1:对语音识别后生成的文本逐个汉字查询常用汉语字典;
步骤2-2:根据查询结果提取拼音的首字母,并将每个汉字提取出来的首字母按顺序组成一个首字母序列,称为源序列;
步骤3:首字母序列的对比
步骤3-1:循环提取知识库中预存的首字母序列表,一行代表一句文本的首字母序列,下文中称为目标序列;
步骤3-2:将源序列与目标序列逐一比较,当源序列长度大于目标序列的二分之一且小于目标序列时,如果源序列是目标序列的子序列,那么则将源序列修改为该目标序列,并记录目标序列所处的位置,否则不修改;当目标序列等于源序列时,源序列修改或者不修改都可以;当目标序列的长度等于源序列时,执行步骤3-3;
步骤3-3:将源序列中的字母逐个与目标序列相对位置的字母进行比较,若每隔三个字母仅有一个或者零个不同的字母,则将源序列修改为目标序列,并记录下目标序列所处的位置,否则不修改;
步骤4:执行完步骤3之后,如果源序列未被修改,则文本视为识别正确,如果源序列被修改为目标序列,则根据步骤3中记录的位置,并以此找到知识库中相对应中文文本。
本发明的基于首字母序列的中文文本的校对方法,在针对语音识别后的文本进行校对,首先语音输入一段音频,然后通过语音识别技术将语音数据转换成文本数据,紧接着提取这句文本中每个字的拼音首字母组成一串字母序列,然后将生成的首字母序列与存放在首字母序列库中的内容一一进行比较,当提取的序列是库中序列的子序列时,校对后的文本为库中的序列对应的中文文本;当提取的序列与库中序列的长度相等时,比较二者之间不同字母的个数,若小于一定的阈值,那么校对后的文本为库中序列对应的中文文本;其他的情况,则不对文本进行校对,视为正确文本。本发明对基于小型知识库的语音问答系统的识别文本有不错的校对效果,并且具有易于实现的优点。
附图说明
图1本发明的流程示意图。
具体实施方式
如图1所示,本发明实施例提供一种基于首字母序列的中文文本校对方法,包括以下步骤:
步骤1:语音识别
通过语音识别模块对获取的音频数据进行音频别;
步骤2:首字母序列的生成
步骤2-1:对语音识别后生成的文本逐个汉字查询常用汉语字典;
步骤2-2:根据查询结果提取拼音的首字母,并将每个汉字提取出来的首字母按顺序组成一个首字母序列,称为源序列(该处是否为源序列);
步骤3:首字母序列的对比
步骤3-1:循环提取知识库中预存的首字母序列表,一行代表一句文本的首字母序列,称为目标序列;
步骤3-2:将源序列与目标序列逐一比较,当源序列长度大于目标序列的二分之一且小于目标序列时,如果源序列是目标序列的子序列,那么则将源序列修改为该目标序列,并记录目标序列所处的位置,否则不修改;当目标序列等于源序列时,源序列修改或者不修改都可以;当目标序列的长度等于源序列时,执行步骤3-3;
步骤3-3:将源序列中的字母逐个与目标序列相对位置的字母进行比较,若每隔三个字母仅有一个或者零个不同的字母,则将源序列修改为目标序列,并记录下目标序列所处的位置,否则不修改;
步骤4:执行完步骤3之后,如果源序列未被修改,则文本视为识别正确,如果源序列被修改为目标序列,则根据步骤3中记录的位置,并以此找到知识库中相对应中文文本。
其中,步骤3-3中两个序列的对比,只允许每隔三个字母可以有一个不同,这样做的考虑是因为如果四个字母中连续有字母不同的话,可能中文的意思就与目标序列不符,这样可以减少将原本正确的文本修改为错误的文本。
采用本发明的技术方法,提高了语音识别的正确率,同时本发明的校对方法基于中小型知识库,使校对准确率高,也比较容易实现。
Claims (1)
1.一种基于首字母序列的中文文本校对方法,其特征在于,包括以下步骤:
步骤1:语音识别
通过语音识别模块对获取的音频数据进行音频别;
步骤2:首字母序列的生成
步骤2-1:对语音识别后生成的文本逐个汉字查询常用汉语字典;
步骤2-2:根据查询结果提取拼音的首字母,并将每个汉字提取出来的首字母按顺序组成一个首字母序列,称为源序列;
步骤3:首字母序列的对比
步骤3-1:循环提取知识库中预存的首字母序列表,一行代表一句文本的首字母序列,称为目标序列;
步骤3-2:将源序列与目标序列逐一比较,当源序列长度大于目标序列的二分之一且小于目标序列时,如果源序列是目标序列的子序列,那么则将源序列修改为该目标序列,并记录目标序列所处的位置,否则不修改;当目标序列等于源序列时,源序列修改或者不修改都可以;当目标序列的长度等于源序列时,执行步骤3-3;
步骤3-3:将源序列中的字母逐个与目标序列相对位置的字母进行比较,若每隔三个字母仅有一个或者零个不同的字母,则将源序列修改为目标序列,并记录下目标序列所处的位置,否则不修改;
步骤4:执行完步骤3之后,如果源序列未被修改,则文本视为识别正确,如果源序列被修改为目标序列,则根据步骤3中记录的位置,并以此找到知识库中相对应中文文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710185619.8A CN107423317A (zh) | 2017-03-26 | 2017-03-26 | 一种基于首字母序列的中文文本校对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710185619.8A CN107423317A (zh) | 2017-03-26 | 2017-03-26 | 一种基于首字母序列的中文文本校对方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107423317A true CN107423317A (zh) | 2017-12-01 |
Family
ID=60424160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710185619.8A Pending CN107423317A (zh) | 2017-03-26 | 2017-03-26 | 一种基于首字母序列的中文文本校对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423317A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920560A (zh) * | 2018-06-20 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH024028A (ja) * | 1987-12-24 | 1990-01-09 | Hewlett Packard Co <Hp> | キーボード及びディスプレイを用いてユーザーが複数のエントリから一つを選び出すことを可能にするサーチ制御 |
CN1092184A (zh) * | 1993-03-12 | 1994-09-14 | 周南塔 | 模糊识别法在词组识别中的应用 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN104010059A (zh) * | 2014-06-09 | 2014-08-27 | 深圳市中兴移动通信有限公司 | 一种移动终端及其实现拨打电话的方法和装置 |
CN104598527A (zh) * | 2014-12-26 | 2015-05-06 | 盈世信息科技(北京)有限公司 | 一种语音搜索方法及装置 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN106503033A (zh) * | 2016-09-14 | 2017-03-15 | 国网山东省电力公司青岛供电公司 | 一种配电网工单地址的检索方法和装置 |
-
2017
- 2017-03-26 CN CN201710185619.8A patent/CN107423317A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH024028A (ja) * | 1987-12-24 | 1990-01-09 | Hewlett Packard Co <Hp> | キーボード及びディスプレイを用いてユーザーが複数のエントリから一つを選び出すことを可能にするサーチ制御 |
CN1092184A (zh) * | 1993-03-12 | 1994-09-14 | 周南塔 | 模糊识别法在词组识别中的应用 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN104010059A (zh) * | 2014-06-09 | 2014-08-27 | 深圳市中兴移动通信有限公司 | 一种移动终端及其实现拨打电话的方法和装置 |
CN104598527A (zh) * | 2014-12-26 | 2015-05-06 | 盈世信息科技(北京)有限公司 | 一种语音搜索方法及装置 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN106503033A (zh) * | 2016-09-14 | 2017-03-15 | 国网山东省电力公司青岛供电公司 | 一种配电网工单地址的检索方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920560A (zh) * | 2018-06-20 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN108920560B (zh) * | 2018-06-20 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
US9195646B2 (en) | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium | |
CN101950285A (zh) | 利用统计学方法对汉字的本国语读音串转换系统及其方法 | |
US9946704B2 (en) | Tone mark based text suggestions for chinese or japanese characters or words | |
US20090012789A1 (en) | Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files | |
CN104462071A (zh) | 语音翻译设备和语音翻译方法 | |
US11031003B2 (en) | Dynamic extraction of contextually-coherent text blocks | |
CN110276052B (zh) | 一种古汉语自动分词及词性标注一体化方法及装置 | |
JPWO2014087703A1 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
CN109522550A (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
CN111985234B (zh) | 语音文本纠错方法 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
CN107423317A (zh) | 一种基于首字母序列的中文文本校对方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN111460809B (zh) | 阿拉伯语地名专名音译方法、装置、翻译设备和存储介质 | |
CN102955770A (zh) | 一种拼音自动识别方法及系统 | |
CN109002454B (zh) | 一种确定目标单词的拼读分区的方法和电子设备 | |
CN104731766A (zh) | 拼音文字词库构建方法和装置及输入方法和系统 | |
CN115983266A (zh) | 用于银行征信数据审核的拼音变体文本识别方法及系统 | |
CN109344389A (zh) | 一种汉盲对照双语语料库的构建方法和系统 | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 | |
CN117035064B (zh) | 一种检索增强语言模型的联合训练方法及存储介质 | |
JP6269953B2 (ja) | 単語分割装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171201 |