CN109147767A - 语音中的数字识别方法、装置、计算机设备及存储介质 - Google Patents

语音中的数字识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109147767A
CN109147767A CN201810934537.3A CN201810934537A CN109147767A CN 109147767 A CN109147767 A CN 109147767A CN 201810934537 A CN201810934537 A CN 201810934537A CN 109147767 A CN109147767 A CN 109147767A
Authority
CN
China
Prior art keywords
chinese
text
arabic numerals
voice
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810934537.3A
Other languages
English (en)
Inventor
彭捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810934537.3A priority Critical patent/CN109147767A/zh
Publication of CN109147767A publication Critical patent/CN109147767A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音中的数字识别方法、装置、计算机设备及存储介质,所述方法包括:首先获取待训练文本,将所述待训练文本中的阿拉伯数字进行中文数字转换处理,并根据所述待训练文本训练数字识别模型;再获取待识别语音,通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字;而在输出语音识别文本之前,将所述中文数字转换为阿拉伯数字后输出。本发明提高了对语音中的阿拉伯数字的识别率和准确率,进而提高了输出语音识别文本的精准度。

Description

语音中的数字识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音识别领域,具体涉及一种语音中的数字识别方法、装置、计算机设备及存储介质。
背景技术
近年来,语音识别被普遍应用到人们的日常生活中,比如,语音拨号,语音搜索,微信或QQ语音转换以及人机语音交互等,语音识别技术具有巨大的市场价值和广泛的发展方向。而在识别语音的过程中,在对包含的阿拉伯数字“0”到“9”语音进行识别时,往往会出现误插入或者误删除的现象,其次,在对具体的语境中出现的数字进行识别时,会出现数字混淆的现象。因此,当前缺少一种可以将待识别语音包含的数字语音精确识别的方法。
发明内容
本发明实施例提供一种语音中的数字识别方法、装置、计算机设备及存储介质,用于提高语音识别中对阿拉伯数字的识别率和准确率。
第一方面,本发明案例提供一种语音中的数字识别方法,包括:
获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字;
对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型;
获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型;
获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字;
根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
第二方面,本发明实例提供一种语音中的数字识别装置,包括:
转换模块,用于获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字;
训练模块,用于对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型;
生成模块,用于获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型;
识别模块,用于获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字;
输出模块,用于根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音中的数字识别方法的步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音中的数字识别方法的步骤。
本发明提供的语音中的数字识别方法、装置、计算机设备及存储介质,在数字识别模型构建过程中,用于语言模型的待训练文本根据预设的转换规则将其包含的所有阿拉伯数字转换为中文数字,提高了阿拉伯数字转换为中文数字的匹配率和识别率;且通过数字识别模型将待识别语音中包含的所有数字语音识别为中文数字,并根据预设的逆向转换规则,将中文数字转换为阿拉伯数字,进一步提高输出语音识别文本的精准度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音中的数字识别方法的应用环境示意图;
图2是本发明一实施例中语音中的数字识别方法的流程图;
图3是本发明一实施例中语音中的数字识别方法的步骤S10的流程图;
图4是本发明一实施例中语音中的数字识别方法的步骤S20的流程图;
图5是本发明另一实施例中语音中的数字识别方法的一流程图;
图6是本发明又一实施例中语音中的数字识别方法的另一流程图;
图7是本发明一实施例中语音中的数字识别装置的原理框图;
图8是本发明一实施例中语音中的数字识别装置的训练模块的原理框图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的语音中的数字识别方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音中的数字识别方法,以该方法应用在图1中的服务器为例进行说明,包括以下步骤:
S10、获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字。
具体地,所述待处理文本中均包含阿拉伯数字,且所述阿拉伯数字可以应用于不同的语境,比如,该阿拉伯数字可以代表金额、日期等。由于阿拉伯数字是无穷尽的,直接对阿拉伯数字进行训练生成语言识别模型,成本会非常高,因此,在本实施例中,可以直接将阿拉伯数字转换为中文数字来进行训练,此时,需要判断所述待训练文本中的哪些内容为阿拉伯数字,进而将阿拉伯数字提取出来进行下一步的转换。
作为优选,所述转换规则为将提取的所述阿拉伯数字转换为中文数字的正则表达式。所述正则表达式可以用于检测某一字符串是否含有指定的某一字符或者某种子串(字符串中任意个数连续的字符组成的子序列),若含有该指定的某一字符或者某种子串,则将匹配的子串替换。具体的,根据正则表达式将提取的所述阿拉伯数字转换为中文数字之后,将转换之后的所述中文数字替代所述阿拉伯数字保存至所述待训练文本中。
S20、对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型。
其中,所述语言模型用于获取所述待训练文本中字词之间的相互概率,从而获取最优的词序列。比如:当前词为“学”,之前已有两个词“我是”,根据语言模型来估测“我是学生”或者“我是学习先锋”等出现的概率,从而输出概率最高的词序列。
作为优选,利用SRILM(一种语言模型训练工具)对包含所述中文数字的所述训练文本进行分词,并根据分词后的待训练文本生成语言模型。此时,所述中文数字的所述待训练文本是一个大数据文本,本实施例中,需要对该大数据文本依次进行文本拆分、词频计算,再将拆分之后的文本合并训练生成语言模型。
S30、获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型。
作为优选,可以利用嵌入式训练方法训练生成声学模型,在根据所述声学模型与所述语言模型生成数字识别模型之后,将待识别语音输入所述数字识别模型中,此时,所述数字识别模型可以获取到所述待识别语音的特征向量序列,且根据所述特征向量序列计算对应的词序列的输出概率,并将最优的词序列输出。
可理解的,在语音识别过程中,若给定待识别语音,且该待识别语音可以获得对应的特征向量序列,寻找可能性最大的词序列,以完成语音到文字的转换。可知地,对一段待识别语音进行识别,首先需要对所述待识别语音进行特征提取,也即,从输入的待识别语音的语音信号中提取可以进行建模的所述特征向量序列。其中,所述特征向量序列是指从所述语音信号中得到一组可以表征这一段语音的向量,且后续对语音进行操作都是基于该组向量;所述特征提取以语音信号为输入,进行分帧、中值过滤、预加重或加窗等操作,即可完成时域到频域的转化,并为声学模型提供合适的特征向量序列。
所述数字识别模型是根据声学模型和语言模型组合构建的一个搜索模型,且该所述数字识别模型用于搜索生成给定所述待识别语音的所述特征向量序列概率最大的状态序列,再由状态序列获取对应的词序列,也即,输入特征向量序列,输出概率最高的词序列。
S40、获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字。
可理解的,所述待识别语音中包含需要识别的数字语音,在将待识别语音输入所述数字识别模型时,所述数字识别模型获取所述待识别语音中的数字语音的特征向量序列,且根据所述特征向量序列计算与所述数字语音对应的中文数字序列的输出概率,并将最优的中文数字序列输出。
S50、根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
具体地,语音识别过程中,待识别语音通过所述数字识别模型进行识别之后,首先将所述待识别语音中包含的所有数字语音识别为中文数字,并在输出语音识别文本前,根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字之后,输出语音识别文本。所述预设的逆向转换规则与所述步骤S10中的所述转换规则一一对应,且两者的转换方向相反。例如:金额、个数和百分比等,可以将中文数字转化为阿拉伯数字。
综上所述,本发明提供的语音中的数字识别方法应用于数字识别模型构建过程中,其中,用于语言模型的待训练文本根据预设的转换规则将其包含的所有阿拉伯数字转换为中文数字,提高了阿拉伯数字转换为中文数字的匹配率和识别率;且通过数字识别模型将待识别语音中包含的所有数字语音识别为中文数字,并根据预设的逆向转换规则,将中文数字转换为阿拉伯数字,进一步提高输出语音识别文本的精准度。
在一实施例中,如图3所示,所述步骤S10中,即获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字,具体包括以下步骤:
S101、获取所述待训练文本,并提取所述待训练文本中的阿拉伯数字。
所述待训练文本可以是网络或书籍上收集的各类包含阿拉伯数字的文本,提取所述待训练文本中的阿拉伯数字,并根据应用于不同的语境对阿拉伯数字进行划分,比如,所述阿拉伯数字可以是应用于计数、金额或日期等各种应用场景中的阿拉伯数字。
S102、检测所述阿拉伯数字中是否包含千分位符号,在所述阿拉伯数字中包含千分位符号时,将包含所述千分位符号的所述阿拉伯数字转换为包含计数单位的中文数字。
优选地,在所述阿拉伯数字中包含千分位符号时,可以通过正则表达式将包含所述千分位符号的所述阿拉伯数字,转换为包含计数单位的中文数字。例如:1,435,676转换为一百四十三万五千六百七十六。
S103、检测所述阿拉伯数字中是否包含小数点,在所述阿拉伯数字中包含小数点时,将提取的所述阿拉伯数字转换为包含小数点符号的中文数字。
优选地,在所述阿拉伯数字中包含小数点时,可以通过正则表达式将提取的所述阿拉伯数字,转换为包含小数点符号的中文数字。例如:5.31转换为五点三一。可理解的,所述步骤S102与所述步骤S103的先后顺序可以调换,也即,可以先检测小数点的存在亦可先检测千分位符号的存在。
S104、检测所述阿拉伯数字中是否包含预设的日期符号,在所述阿拉伯数字中包含日期符号时,将提取的所述阿拉伯数字转换为中文日期数字。
在所述阿拉伯数字之后包含年、月、日或其它表示预设日期符号时,将所述日期符号之前的阿拉伯数字转换为中文日期读数。例如:1987年7月6日转换为一九八七年七月六日,1997-3-15转换为一九九七年三月十五日,2007/5/24转换为二零零七年五月二十四日。可理解的,所述步骤S104在所述步骤S102和所述步骤S103之后,也即,在检测到所述阿拉伯数字中不再包含千分位符号与小数点之后,可以检测其是否为日期对应的阿拉伯数字。
S105、检测所述阿拉伯数字中是否包含预设的金额符号,在所述阿拉伯数字中包含金额符号时,将提取的所述阿拉伯数字转成中文金额数字。
例如:5800元/块转换为五千八百元,为三十元。可理解的,所述步骤S105在所述步骤S102和所述步骤S103之后,也即,在检测到所述阿拉伯数字中不再包含千分位符号与小数点之后,可以检测其是否为金额对应的阿拉伯数字,所述步骤S105与所述步骤S104的先后顺序可以调换。
S106、检测所述阿拉伯数字是否超过预设长度,在所述阿拉伯数字超过预设长度时,将所述阿拉伯数字的每一个数字转换为对应的中文数字;在所述阿拉伯数字未超过预设长度时,将所述阿拉伯数字转换为包含计数单位的中文数字。
也即,所述阿拉伯数字可能为编号、合同号、身份证号或者卡号等类型,且以上类型均可用纯粹的阿拉伯数字的中文数字(将阿拉伯数字中的每一个数字转换为对应的一个中文数字)进行表达即可,因此,在所述步骤S102至S105完成之后,判断所述阿拉伯数字是否超出预设长度(预设长度可以根据用户需求进行设置),在不超出该长度X时,将提取的阿拉伯数字转成包含计数单位的中文数字;而在超出该长度时,将所述阿拉伯数字的每一个数字转换为对应的中文数字。比如,预设长度为9位时,阿拉伯数字12345转换为中文数字一万两千三百四十五,而阿拉伯数字1234567890,转换为中文数字一二三四五六七八九零。
可理解的,所述步骤S101至步骤S106并不限定于图3中所示的流程顺序。
综上所述,本发明提供的语音中的数字识别方法可以根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字,减轻了语言模型的训练难度,同时,由于对阿拉伯数字进行分类识别更为合理,有利于准确识别语音中的数字。
在另一实施例中,所述步骤S10之前,即获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字之前,还包括以下步骤:
将所述待训练文本中的特殊字符去除,或将特殊字符转换为特殊字符的中文读音文本。
也即,所述待训练文本中若存在有特殊符号,比如α、β、γ或θ等,此时需要将该特殊符号先删除或将其转换为中文读音文本(比如α转换为阿尔法、β转换为贝塔、γ转换为伽马或θ转换为西塔等)。也即,在提取阿拉伯数字之前,所述待训练文本中已不再存在特殊符号,有利于减轻待训练文本训练生成语言模型的工作量,且生成的语言模型对阿拉伯数字进行识别的针对性更强。
在一实施例中,如图4所示,所述步骤S20中,即对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型,具体包括以下步骤:
S201、将包含所述中文数字的所述待训练文本拆分为多个小文本,并将所有小文本保存到预设的文本路径下。
优选地,使用Linux(一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统)命令中的split(一种命令读取指定文件)命令将包含所述中文数字的所述待训练文本进行拆分。
具体的,获取所述小文本的拆分长度和命名规则之后,即可使用split命令按照所述拆分长度对所述待训练文本进行拆分生成多个小文本,且生成的各小文本的文本名按照所述命名规则命名。同时,将包含所述中文数字的所述待训练文本进行拆分生成多个小文本之后,将生成的所有小文本保存到预设的文本路径下。所述命名规则与文本路径可以根据用户需求进行设定,例如设定其名称为filedir、myfile等,设定其文本路径为filepath,mypath等。
S202、对所述文本路径下的所有小文本进行词频统计,并将统计的词频统计结果存放在预设的计数目录下。
通过语言模型训练工具SRILM中的make-batch-counts脚本分别对预设的文本路径下的所有小文本进行词频统计。具体的,使用批处理的功能make-batch-counts分别对预设的文本路径下的所有小文本进行词频统计,并将统计的词频统计结果存放在预设的计数目录下。所述计数目录包含用于存放词频统计结果的所有计数文本,且各所述计数文本与所述文本路径下的各所述小文本中的词频统计结果一一对应。
S203、合并所述计数目录下的所有计数文本,并通过语言训练工具将合并后的所述计数文本进行训练后生成语言模型。
使用语言模型训练工具SRILM中的merge-batch-counts脚本对所述计数目录下包含的所有计数文本进行合并。使用语言模型训练工具SRILM中的make-big-lm脚本,根据合并之后的所述计数文本训练生成语言模型。在本实施例中,所述语言模型用于计算字词在当前语境中出现的最大概率,比如,若给定若干个词,则可以预测下一个最可能出现的词,从而得到一个词序列。比如,获取到一串音节序列“shi dian yi san yi si”,通过所述语言模型可以得到一个词序列“十点一三一四”。
综上所述,本发明提供的语音中的数字识别方法利用语言模型训练工具SRILM对语言模型进行训练,其基本思路是先拆分再合并,有利于减轻大数据文本的训练难度和训练成本。
在一实施例中,如图5所示,所述步骤S30之前,即获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型之前,还包括以下步骤:
S60、根据训练语音对应的注释文本和所述训练语音训练所述声学模型,生成用于获取语音中的特征向量序列的所述声学模型。
其中,所述声学模型用于对单个词或者多个词建立概率分布的模型,该模型的输入是特征向量序列,输出是概率,概率越高表示该特征向量表示该词的可能性越大。作为优选,所述声学模型包括GMM-HMM模型(混合高斯模型-隐马尔科夫模型)或者DNN-HMM模型(深度神经网络模型-隐马尔科夫模型)等。
所述注释文本由发音单元或者音标构成,比如:若所述注释文本由音标构成,则给定词“跑步”的对应的注释文本为“pao bu”,可知,每个词对应的所述音标通过汉字的读音即可查询;若所述注释文本由发音单元构成,则给定词“你好”的对应的注释文本为“nihao”,可知,每个词对应的所述发音单元可以通过发音词典(所述发音词典用于查询一个词到发音单元的映射);可理解的,根据所述注释文本和所述训练语音训练声学模型,并生成用于获取语音中的特征向量序列的声学模型,此时,根据所述注释文可以获得所述训练语音的输出文本(也即,输出所述训练语音对应的词序列),有利于减少建模的数量。
作为优选,利用嵌入式训练方法将训练语音(用于训练所述声学模型的语音)对应的注释文本和训练语音一起输入到训练模型(比如:HMM模型)中,在训练的过程中所述注释文本和所述训练语音的对齐是迭代更新的,这个迭代最终会收敛,收敛后可直接获取转化为所述特征向量序列的所述训练语音到各个状态(包括:状态转移和状态发射)的概率映射。
在一实施例中,如图6所示,所述步骤S50之前,即根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本之前,还包括以下步骤:
S70、判断所述中文数字及其前后字词是否与预设词句或语境匹配,在所述中文数字及其前后字词与所述预设词句或语境匹配时,标注所述中文数字。
可理解的,在输出语音识别文本之前,可以通过检测所述语音识别文本中包含的所述中文数字及其前后字词是否与预设词句或语境匹配,从而判断是否将所述中文数字转换为阿拉伯数字,在无需转换为阿拉伯数字时,可以对该中文数字进行标注,以便在所述步骤S50中通过所述标注识别无需转换为阿拉伯数字的中文数字,也即在语音识别文本中,若检测到所述标注,则无需将已标注的中文数字进行阿拉伯数字的转换。
在一实施例中,在所述步骤S70中,具体包括以下步骤:
检测所述中文数字及其前后字词是否构成固定搭配中的地名或成语,在所述中文数字及其前后字词构成固定搭配中的所述地名或成语时,标注所述中文数字。
其中,所述固定搭配包括但不限定于为地名或成语,还可以为包含中文数字的诗词等。进一步地,上述步骤包括以下内容:
检测所述中文数字及其前后字词是否构成地名,若所述中文数字及其前后字词构成地名,则标注所述中文数字,也即无需将中文数字转换为阿拉伯数字;例如,所述地名可以为:九沟寨、三明市、六盘水或八达岭等。用于进行匹配的所述地名可以预先存储在预设的对比数据库中。
检测所述中文数字及其前后字词是否构成成语,若所述中文数字及其前后字词构成成语,则标注所述中文数字;例如,所述成语可以为:独一无二、四舍五入或一石二鸟等。用于进行匹配的所述成语可以预先存储在预设的对比数据库中。
检测所述中文数字及其前后字词是否构成其它固定搭配,若所述中文数字及其前后字词构成其它固定搭配时,则标注所述中文数字;所述其它搭配可以为特定名称、五字词语、数字公式或诗词等,如:店小二、唐三藏、三下五除二、三七、一点红、八角、两个黄鹂鸣翠鸟,一行白鹭上青天等。用于进行匹配的所述其它固定搭配可以预先存储在预设的对比数据库中。
在一实施例中,在所述步骤S50中,也即根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本,具体包括以下步骤:
检测所述中文数字是否被标注,在所述中文数字被标注时,在语音识别文本中对应于所述中文数字的位置保留所述中文数字;可理解的,中文数字在上述步骤S70中被标注之后,所述中文数字的标注可以被检测到,此时,所述中文数字将被保留在所述语音识别文本中,而无需转换为阿拉伯数字。也即,可以根据标注识别无需转换的所述中文数字,并在识别到所述中文数字时,将所述中文数字保留并直接输出。
在所述中文数字未被标注时,根据预设的逆向转换规则,在所述语音识别文本中对应于所述中文数字的位置,将所述中文数字转换为阿拉伯数字;输出所述语音识别文本。可理解的,在检测到所述中文数字未被标注时,根据所述逆向转换规则,将所述中文数字转化为对应的阿拉伯数字再输出。
在一实施例中,如图7所示,提供一种语音中的数字识别装置,该语音中的数字识别装置与上述实施例中语音中的数字识别方法一一对应。该语音中的数字识别装置包括转换模块110、训练模块120、生成模块130、识别模块140和输出模块150。各功能模块详细说明如下:
转换模块110,用于获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字。
训练模块120,用于对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型。
生成模块130,用于获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型。
识别模块140,用于获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字。
输出模块150,用于根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
优选地,如图8所示,所述训练模块120具体包括拆分子模块121、统计子模块122和合并子模块123。各功能子模块详细说明如下:
拆分子模块121,用于将包含所述中文数字的所述待训练文本拆分为多个小文本,并将所有小文本保存到预设的文本路径下。
统计子模块122,用于对所述文本路径下的所有小文本进行词频统计,并将统计的词频统计结果存放在预设的计数目录下。
合并子模块123,用于合并所述计数目录下的所有计数文本,并通过语言训练工具将合并后的所述计数文本进行训练后生成语言模型。
关于语音中的数字识别装置的具体限定可以参见上文中对于语音中的数字识别方法的限定,在此不再赘述。上述语音中的数字识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音中的数字识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字。
对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型。
获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型。
获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字。
根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字。
对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型。
获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型。
获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字。
根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、存储器总线直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元或模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音中的数字识别方法,其特征在于,包括:
获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字;
对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型;
获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型;
获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字;
根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
2.如权利要求1所述的语音中的数字识别方法,所述获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字,其特征在于,包括:
获取所述待训练文本,并提取所述待训练文本中的阿拉伯数字;
检测所述阿拉伯数字中是否包含千分位符号,在所述阿拉伯数字中包含千分位符号时,将包含所述千分位符号的所述阿拉伯数字转换为包含计数单位的中文数字;
检测所述阿拉伯数字中是否包含小数点,在所述阿拉伯数字中包含小数点时,将提取的所述阿拉伯数字转换为包含小数点符号的中文数字;
检测所述阿拉伯数字中是否包含预设的日期符号,在所述阿拉伯数字中包含日期符号时,将提取的所述阿拉伯数字转换为中文日期数字;
检测所述阿拉伯数字中是否包含预设的金额符号,在所述阿拉伯数字中包含金额符号时,将提取的所述阿拉伯数字转成中文金额数字;
检测所述阿拉伯数字是否超过预设长度,在所述阿拉伯数字超过预设长度时,将所述阿拉伯数字的每一个数字转换为对应的中文数字;在所述阿拉伯数字未超过预设长度时,将所述阿拉伯数字转换为包含计数单位的中文数字。
3.如权利要求1所述语音中的数字识别的方法,所述对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型,其特征在于,包括:
将包含所述中文数字的所述待训练文本拆分为多个小文本,并将所有小文本保存到预设的文本路径下;
对所述文本路径下的所有小文本进行词频统计,并将统计的词频统计结果存放在预设的计数目录下;
合并所述计数目录下的所有计数文本,并通过语言训练工具将合并后的所述计数文本进行训练后生成语言模型。
4.如权利要求1所述的语音中的数字识别方法,所述获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型之前,其特征在于,包括:
根据训练语音对应的注释文本和所述训练语音训练所述声学模型,生成用于获取语音中的特征向量序列的所述声学模型。
5.如权利要求1所述的语音中的数字识别方法,所述根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本之前,其特征在于,包括:
判断所述中文数字及其前后字词是否与预设词句或语境匹配,在所述中文数字及其前后字词与所述预设词句或语境匹配时,标注所述中文数字。
6.如权利要5所述的语音中的数字识别方法,所述判断所述中文数字及其前后字词是否与预设词句或语境匹配,在所述中文数字及其前后字词与预设词句或语境匹配时,标注所述中文数字,其特征在于,包括:
检测所述中文数字及其前后字词是否构成固定搭配中的地名或成语,在所述中文数字及其前后字词构成固定搭配中的所述地名或成语时,标注所述中文数字;
所述根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本,包括:
检测所述中文数字是否被标注,在所述中文数字被标注时,在语音识别文本中对应于所述中文数字的位置保留所述中文数字;
在所述中文数字未被标注时,根据预设的逆向转换规则,在所述语音识别文本中对应于所述中文数字的位置,将所述中文数字转换为阿拉伯数字;输出所述语音识别文本。
7.一种语音中的数字识别装置,其特征在于,包括:
转换模块,用于获取待训练文本,并根据预设的转换规则将所述待训练文本中的阿拉伯数字转换为中文数字;
训练模块,用于对包含所述中文数字的所述待训练文本进行分词,并根据分词后的所述待训练文本生成语言模型;
生成模块,用于获取声学模型,并根据所述声学模型与所述语言模型生成数字识别模型;
识别模块,用于获取待识别语音,并通过所述数字识别模型将所述待识别语音中包含的所有数字语音识别为中文数字;
输出模块,用于根据预设的逆向转换规则,将所述中文数字转换为阿拉伯数字,输出包含所述阿拉伯数字的语音识别文本。
8.如权利要求7所述的语音中的数字识别装置,其特征在于,所述训练模块包括:
拆分子模块,用于将包含所述中文数字的所述待训练文本拆分为多个小文本,并将所有小文本保存到预设的文本路径下;
统计子模块,用于对所述文本路径下的所有小文本进行词频统计,并将统计的词频统计结果存放在预设的计数目录下;
合并子模块,用于合并所述计数目录下的所有计数文本,并通过语言训练工具将合并后的所述计数文本进行训练后生成语言模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音中的数字识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音中的数字识别方法的步骤。
CN201810934537.3A 2018-08-16 2018-08-16 语音中的数字识别方法、装置、计算机设备及存储介质 Pending CN109147767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810934537.3A CN109147767A (zh) 2018-08-16 2018-08-16 语音中的数字识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810934537.3A CN109147767A (zh) 2018-08-16 2018-08-16 语音中的数字识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109147767A true CN109147767A (zh) 2019-01-04

Family

ID=64789689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810934537.3A Pending CN109147767A (zh) 2018-08-16 2018-08-16 语音中的数字识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109147767A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232923A (zh) * 2019-05-09 2019-09-13 青岛海信电器股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110970030A (zh) * 2019-12-10 2020-04-07 苏州思必驰信息科技有限公司 一种语音识别转换方法及系统
CN111090970A (zh) * 2019-12-31 2020-05-01 苏州思必驰信息科技有限公司 语音识别后的文本标准化处理方法
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
CN111476641A (zh) * 2020-04-13 2020-07-31 南京掌控网络科技有限公司 一种移动设备上语音自动下单的方法、系统及存储介质
CN111797617A (zh) * 2020-05-26 2020-10-20 北京捷通华声科技股份有限公司 一种数据处理方法及装置
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111931508A (zh) * 2020-08-24 2020-11-13 上海携旅信息技术有限公司 数字转换方法及系统、文本处理方法及系统、设备和介质
CN112466056A (zh) * 2020-12-01 2021-03-09 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法
CN112712804A (zh) * 2020-12-23 2021-04-27 哈尔滨工业大学(威海) 语音识别方法、系统、介质、计算机设备、终端及应用
CN113806766A (zh) * 2021-08-12 2021-12-17 招银云创信息技术有限公司 数据加密方法、装置、计算机设备和存储介质
CN114330243A (zh) * 2021-12-31 2022-04-12 北京执象科技发展有限公司 口算结果识别方法、装置、电子设备及存储介质
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342942A (zh) * 2000-09-08 2002-04-03 百度在线网络技术(北京)有限公司 中文姓名的计算机识别及检索方法
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
WO2017215558A1 (zh) * 2016-06-12 2017-12-21 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342942A (zh) * 2000-09-08 2002-04-03 百度在线网络技术(北京)有限公司 中文姓名的计算机识别及检索方法
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
WO2017215558A1 (zh) * 2016-06-12 2017-12-21 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232923B (zh) * 2019-05-09 2021-05-11 海信视像科技股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN110232923A (zh) * 2019-05-09 2019-09-13 青岛海信电器股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110970030A (zh) * 2019-12-10 2020-04-07 苏州思必驰信息科技有限公司 一种语音识别转换方法及系统
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
CN111090970A (zh) * 2019-12-31 2020-05-01 苏州思必驰信息科技有限公司 语音识别后的文本标准化处理方法
CN111090970B (zh) * 2019-12-31 2023-05-12 思必驰科技股份有限公司 语音识别后的文本标准化处理方法
CN111476641A (zh) * 2020-04-13 2020-07-31 南京掌控网络科技有限公司 一种移动设备上语音自动下单的方法、系统及存储介质
CN111797617A (zh) * 2020-05-26 2020-10-20 北京捷通华声科技股份有限公司 一种数据处理方法及装置
CN111798838A (zh) * 2020-07-16 2020-10-20 上海茂声智能科技有限公司 一种提高语音识别准确率的方法、系统、设备及存储介质
CN111931508A (zh) * 2020-08-24 2020-11-13 上海携旅信息技术有限公司 数字转换方法及系统、文本处理方法及系统、设备和介质
CN112466056A (zh) * 2020-12-01 2021-03-09 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法
CN112712804A (zh) * 2020-12-23 2021-04-27 哈尔滨工业大学(威海) 语音识别方法、系统、介质、计算机设备、终端及应用
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN113806766A (zh) * 2021-08-12 2021-12-17 招银云创信息技术有限公司 数据加密方法、装置、计算机设备和存储介质
CN114330243A (zh) * 2021-12-31 2022-04-12 北京执象科技发展有限公司 口算结果识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109147767A (zh) 语音中的数字识别方法、装置、计算机设备及存储介质
CN105718586B (zh) 分词的方法及装置
Lei et al. Re-examining the role of schema linking in text-to-SQL
CN104899304B (zh) 命名实体识别方法及装置
WO2018040899A1 (zh) 搜索词纠错方法及装置
CN102184167B (zh) 一种文本数据处理方法和装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110909548A (zh) 中文命名实体识别方法、装置及计算机可读存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN110929498B (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN113380223B (zh) 多音字消歧方法、装置、系统及存储介质
CN105791446A (zh) 一种民间借贷处理方法、装置及系统
CN106910512A (zh) 语音文件的分析方法、装置及系统
CN102214238A (zh) 一种汉语词语相近性匹配装置及方法
CN109086274A (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN111459977B (zh) 自然语言查询的转换
CN111046653A (zh) 一种语句识别方法、语句识别装置及智能设备
CN109344233A (zh) 一种中文人名识别方法
CN113268989A (zh) 多音字处理方法及装置
CN113157852A (zh) 语音处理的方法、系统、电子设备及存储介质
CN108920500A (zh) 一种时间解析方法
Han et al. Chinese spelling check based on sequence labeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination