CN109801630A - 语音识别的数字转换方法、装置、计算机设备和存储介质 - Google Patents
语音识别的数字转换方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109801630A CN109801630A CN201811520544.5A CN201811520544A CN109801630A CN 109801630 A CN109801630 A CN 109801630A CN 201811520544 A CN201811520544 A CN 201811520544A CN 109801630 A CN109801630 A CN 109801630A
- Authority
- CN
- China
- Prior art keywords
- digital
- word
- phrase
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及一种语音识别的数字转换方法、装置、计算机设备和存储介质,所述方法包括:获取语音识别文本中的数字词语;从语音识别文本中提取数字词组,其中,数字词组为包括数字词语的词组;根据语法表达规则获取数字词组的语义词性;根据数字词组和语义词性对应的书写格式获取数值词语;利用数值词语对语音识别文本中的数字词组进行转换。上述方法根据数码类型对数字词组进行转化,确定数值词语中数字的符号类型,以便于通过改变数值词组的文本表达格式,准确表达数值词语的词义,提高语音识别文本的可读性。
Description
技术领域
本发明自然语言处理领域,特别是涉及语音识别的数字转换方法、语音识别的数字转换装置、计算机设备和存储介质。
背景技术
语音识别通过识别语音信息的自然语言,将语音信号转化为文字,能大大提高了语音听写的效率,将音频数据转换成文字数据,便于对语音信息的内容进行存储和审阅。
数字在语音表达上的读法变化不大,形式较为单一,数字识别在语音识别中难度较低。不过,传统的语音识别在将数值语音识别为数值信息后,直接将数值信息按照语音读法规则表述成数值词组,数值词组包括数字文字和格式文字。而语音读法规则表述的数值词组在文本书面表达中可读性较低,往往降低阅读者的阅读速度,因此语音识别中存在所识别的数字词组的可读性低的问题。
发明内容
基于此,有必要针对语音识别中存在所识别的数字词组的可读性低的问题,提供一种语音识别的数字转换方法、装置、计算机设备和存储介质。
一种语音识别的数字转换方法,所述方法包括如下步骤:
获取语音识别文本中的数字词语;
从所述语音识别文本中提取数字词组,其中,所述数字词组为包括所述数字词语的词组;
根据语法表达规则获取所述数字词组的语义词性;
根据所述数字词组和所述语义词性对应的书写格式获取数值词语;
利用所述数值词语对所述语音识别文本中的所述数字词组进行转换。
在一个实施例中,在所述获取语音识别文本中的数字词语的步骤之前,还包括:
根据语音数据的波段和频率获取所述语音数据的各个单音节数据;
在字库中匹配各所述单音节数据对应的初级字符;
将所述初级字符中组合字符串与词库匹配,获得初级词语;
将所述初级词语依次组合,获得所述语音识别文本。
在一个实施例中,在所述获取语音识别文本中的数字词语的步骤之前,还包括:
根据语音数据的波段和频率获取所述语音数据的各个单音节数据;
在字库中匹配各所述单音节数据对应的初级字符;
将所述初级字符中组合字符串与词库匹配,获得初级词语;
将所述初级词语依次组合,获得所述语音识别文本。
在一个实施例中,所述根据所述数字词组和所述语义词性对应的书写格式获取数值词语的步骤,包括:
根据所述语义词性对应的书写格式获取数码类型和格式字符;
将所述数字词语转换为所述数码类型的数字词语;
根据所述数码类型的数字词语和所述格式字符生成所述数值词语。
在一个实施例中,在所述利用所述数值词语对所述语音识别文本中的所述数字词组进行转换的步骤之后,还包括:
接收用户对所述数值词语的选定格式;
将所述选定格式作为所述语义词性的书写格式。
在一个实施例中,所述从所述语音识别文本中提取数字词组的步骤,包括:
在所述语音识别文本中以所述数字词语为中心,匹配所述数字词组的长度;
根据所述数字词组的长度在所述语音识别文本中提取所述数字词组。
在一个实施例中,所述根据语法表达规则获取所述数字词组的语义词性的步骤,包括:
提取所述数字词组的格式词语;
根据所述数字词语、所述格式词语和所述语法表达规则获取所述数字词组的语义词性。
在一个实施例中,所述根据所述数字词语、所述格式词语和所述语法表达规则获取所述数字词组的语义词性的步骤,包括:
根据所述格式词语和所述语法表达规则计算各个语义词性类型的词性概率;
根据所述数字词语、各所述语义词性类型以及各所述词性概率计算各所述语义词性类型的组合概率;
将最高的组合概率对应的语义词性类型作为所述数字词组的语义词性。
一种语音识别的数字转换装置,包括:
数字词语获取模块,用于获取语音识别文本中的数字词语;
数字词组提取模块,用于从所述语音识别文本中提取数字词组,其中,所述数字词组为包括所述数字词语的词组;
语义词性获取模块,用于根据语法表达规则获取所述数字词组的语义词性;
数值词语获取模块,用于根据所述数字词组和所述语义词性对应的书写格式获取数值词语;
数字转换模块,用于利用所述数值词语对所述语音识别文本中的所述数字词组进行转换。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述语音识别的数字转换方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述方法语音识别的数字转换的步骤。
上述语音识别的数字转换方法、装置、计算机设备和存储介质,通过根据数码类型对数字词组进行转化,确定数值词语中数字的符号类型,以便于通过改变数值词组的文本表达格式,准确表达数值词语的词义,提高语音识别文本的可读性。
附图说明
图1为一个实施例中提供的语音识别的数字转换方法的实施环境图;
图2为一个实施例中语音识别的数字转换方法的流程图;
图3为一个实施例中获取数值词语的流程图;
图4为一个实施例中获取书写格式的流程图;
图5为一个实施例中从语音识别文本中提取数字词组的流程图;
图6为一个实施例中获取数字词组的语义词性的流程图;
图7为一个实施例中获取书写格式的流程图;
图8为一个实施例中语音识别的数字转换装置的结构框图;
图9为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为一个实施例中提供的语音识别的数字转换方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
在一个实施例中,如图2所示,图2为一个实施例中语音识别的数字转换方法的流程图,提出了一种语音识别的数字转换方法,该语音识别的数字转换方法可以应用于上述的计算机设备110中,具体可以包括以下步骤:
步骤S201:获取语音识别文本中的数字词语。
其中,数字词语可以指的是具有数字含义的字,例如,一、二、三、十、百、亿、零等。本步骤中,可以与数字词语样本库的数字词语样本进行对比,从语音识别文本中识别并获取数字词语。
语音识别文本是目标语音在经过语音识别后得到自然语言的文字文本。将目标语音的音频数据输入语音识别模型后,识别该音频数据的特征,经过自然语言处理,匹配并输出该音频数据对应的字或单词,记录为语音识别文本。进一步地,语音识别文本还可以经过语音识别模型或语义解析模型的自然语音分句后的文本,分句后,可以提高后续数字转换的准确性。
步骤S202:从语音识别文本中提取数字词组,其中,数字词组为包括数字词语的词组。
本步骤中,数字词组可以是由单一或者多个数字词语组成,也可以是由数字词语和格式词语组成,数字词组在语句中可以用于表达数值、数量、时间等语义。数字词组的长度可以是一个字,也可以是多个字,主要取决于该数字词语所在语句中前后是否还有数字词语和格式词语。例如该数字词语向前还有数字词语,向后还有常用的量词和名词等格式词语,名词后还有数字词语,则可以将相连的数字词语和格式词语的组合字段作为数字词组,例如“五十个”、“六点五十分”、“二零一八年七月一日”可以作为数字词组。
步骤S203:根据语法表达规则获取数字词组的语义词性。
本步骤中,可以将数字词语与语法表达规则进行对比和匹配,识别出该数字词语对应的语音词性。例如“五十个”对应的是数字+量词的语法表达规则,对应的语义词性是数量,“六点五十分”对应的是数字+小时+数字+分钟的语法表达规则,对应词义词性是时间中的时刻,“二零一八年七月一日”对应的是数字+年+数字+月+数字+日的语法表达规则,对应的语义词性是时间中的日期。
步骤S204:根据数字词组和语义词性对应的书写格式获取数值词语。
本步骤中,数值词语时一般常用的书面表达形式下的带有数字的词语,例如,“五十个”对应数量的数值词语可以是“50个”,“六点五十分”对应时刻的数值词语可以是“6:50”,“二零一八年七月一日”对应日期的数值词语可以是“2018-7-1”。数值词语中的数字为可以展示为阿拉伯数字、中文小写数字、中文大写数字、英文数字单词等数码的类型。
步骤S205:利用数值词语对语音识别文本中的数字词组进行转换。
本步骤中,可以将语音识别文本中的数字词组替换为数值词语,该数字词语和数值词语的语义相同,表达意思相同,在替换后不影响语音识别文本中涉及语句的含义。
按照人类阅读习惯,数值词语在文本书面表达中的可读性高,上述语音识别的数字转换方法,识别数字词组并获取同等语义的数值词语,将语音识别文本中可读性较低的数字词组转换为可读性较高且语义相同的数值词语,可以提高语音识别文本的可读性,进一步提高语音识别技术中语音听写功能的用户体验。
在一个实施例中,在获取语音识别文本中的数字词语的步骤之前,还包括:
步骤S206:根据语音数据的波段和频率获取语音数据的各个单音节数据。
获取语音数据,根据语音数据的波段和频率,对语音数据分解成单个音节。
步骤S207:在字库中匹配各单音节数据对应的初级字符。
通过字在语音中的拼音规则,将分解的音节进行组合,将组合的音节与字库中的字进行匹配,得到该音节组合下对应的初级字符。
步骤S208:将初级字符中组合字符串与词库匹配,获得初级词语。
匹配后得到自然语言的初级词语。可以通过正向识别、逆向识别、不同长度优先匹配等匹配规则识别初级词语。例如,利用长度优先匹配规则,先以整句话作为一个词进行匹配,待匹配失败后,可逐步对字数减少,再进行匹配;或者,还可以在匹配之前,先根据一连句的总字数对其进行最小切分的限定,对切分后的词语词库进行匹配,得到初级词语。
步骤S209:将初级词语依次组合,获得语音识别文本。
上述语音识别的数字转换方法,通过语音的波段和频率,以及自然语言处理对语音数据进行识别,获得准确的语音识别文本。
在一个实施例中,如图3所示,图3为一个实施例中获取数值词语的流程图,根据数字词组和语义词性对应的书写格式获取数值词语的步骤,包括:
步骤S301:根据语义词性对应的书写格式获取数码类型和格式字符。
数码的意思代表数目的符号,例如罗马数字是欧洲在阿拉伯数字传入之前使用的一种数码,罗马数字的产生晚于中国甲骨文中的数码,更晚于埃及人的十进制数字。数码类型,指的是数字符号的类型。数码类型可以是阿拉伯数字、罗马数字、中文数字等,中文数字中数码类型还可以包括中文大写数字和中文小写数字。中文大写数字的数码类型可以适用于金额领域方面的应用,例如票据、合同等。
步骤S302:将数字词语转换为数码类型的数字词语。
例如,数字词语是“五”,数码类型是阿拉伯数字,对应转换为“5”;数字词语是“五”,数字类型是中文大写数字,对应转换为“伍”。
步骤S303:根据数码类型的数字词语和格式字符生成数值词语。
例如,日期对应的格式字符包括“-”,将年份“二零一八”、月份“七”和日“一”分别转换为“2018”、“7”和“1”,根据“-”、“2018”、“7”和“1”生成“2018-7-1”。
另外,还可以根据生产的数值词语与预设的格式设定,将数值词语的形式进行转换,例如,将“2018-7-1”转换为“2018-07-01”。
上述语音识别的数字转换方法,根据数码类型对数字词组进行转化,确定数值词语中数字的符号类型,以便于通过改变数值词组的文本表达格式,准确表达数值词语的词义,提高语音识别文本的可读性。
在一个实施例中,数码类型包括阿拉伯数字。
上述语音识别的数字转换方法,在语音识别文本是通过中文模式进行识别时,语音识别文本中的数字一般为中文数字,但是在文本阅读习惯中阿拉伯数字可以提高阅读速度。上述过程中,将中文数字转换为阿拉伯数字,可以提高语音识别文本的可读性。
在一个实施例中,如图4所示,图4为一个实施例中获取书写格式的流程图,在利用数值词语对语音识别文本中的数字词组进行转换的步骤之后,还包括:
步骤S401:接收用户对数值词语的选定格式。
获得用户的选择或设置的选定格式。
步骤S402:将选定格式作为语义词性的书写格式。
根据选定格式修改语义词性的书写格式,并再根据数字词组和语义词性对应的书写格式获取数值词语,进行新的转换。
上述语音识别的数字转换方法,可以根据用户选择的选定格式更改数值词语的形式,适应用户的阅读习惯和用户选择的文本规范。
在一个实施例中,如图5所示,图5为一个实施例中从语音识别文本中提取数字词组的流程图,从语音识别文本中提取数字词组的步骤,包括:
步骤S501:在语音识别文本中以数字词语为中心,匹配数字词组的长度。
对数字词语逐步向前或向后增长匹配的长度,判断匹配的长度内是否还有数字词语和格式词语,如有,则继续增加匹配长度进行匹配。若无,则结束匹配,并获得对应的数字词组长度。
步骤S502:根据数字词组的长度在语音识别文本中提取数字词组。
按照数字词组的长度与数字词语确定数字词组的位置,并在该位置提取数字词组。
上述语音识别的数字转换方法,可以获取数字词语用于表达语义的数字词组,以便于后续判断数字词组的语义词性。
在一个实施例中,如图6所示,图6为一个实施例中获取数字词组的语义词性的流程图,根据语法表达规则获取数字词组的语义词性的步骤,包括:
步骤S601:提取数字词组的格式词语。
格式词语是可以反映数字词组语义的标志。例如,格式词语可以是量词、标点词语、时间名词、货币词语、结束标记语等,如“五十个”的“个”,“六点五十分”的“点”以及“分”,“二千元整”的“元”和“整”。
步骤S602:根据数字词语、格式词语和语法表达规则获取数字词组的语义词性。
例如,时刻在语法表达规则中涉及分钟和时钟的表示,可以根据“分”进行时刻的语义词性的识别。
上述语音识别的数字转换方法,根据格式词语和语法表达规则可以识别符合阅读习惯下所表达的语义词性,提高语义词性的准确度。
在一个实施例中,如图7所示,图7为又一个实施例中获取数字词组的语义词性的流程图,根据数字词语、格式词语和语法表达规则获取数字词组的语义词性的步骤,包括:
步骤S701:根据格式词语和语法表达规则计算各个语义词性类型的词性概率。
语法表达规则可以是用于统计和预测数字词组的语义词性的模型,格式词语的与不同语义词性之间的存在一定的关联,因此可以建立模型计算格式词语与语义词性的相关度,该相关度为词性概率。
步骤S702:根据数字词语、各语义词性类型以及各词性概率计算各语义词性类型的组合概率。
数字词语与语义词性类型对应的表达方式可以匹配并产生具有语义的词组,表示数字词语与格式词语与词义词性类型之间相关度越高,该相关度为组合概率。
步骤S703:将最高的组合概率对应的语义词性类型作为数字词组的语义词性。
上述语音识别的数字转换方法,组合概率越高则数字词组与语义词性类型越匹配,将最匹配的语义词性类型作为语义词性。
在一个实施例中,如图8所示,图8为一个实施例中语音识别的数字转换装置的结构框图,提供了一种语音识别的数字转换装置,该语音识别的数字转换装置可以集成于上述的计算机设备110中,具体可以包括数字词语获取模块801、数字词组提取模块802、语义词性获取模块803、数值词语获取模块804和数字转换模块805。
数字词语获取模块801,用于获取语音识别文本中的数字词语。
数字词语可以指的是具有数字含义的字,例如,一、二、三、十、百、亿、零等。数字词语获取模块801可以与数字词语样本库的数字词语样本进行对比,从语音识别文本中识别并获取数字词语。
数字词组提取模块802,用于从语音识别文本中提取数字词组,其中,数字词组为包括数字词语的词组。
数字词组提取模块802中,数字词组可以是由单一或者多个数字词语组成,也可以是由数字词语和格式词语组成,数字词组在语句中可以用于表达数值、数量、时间等语义。数字词组的长度可以是一个字,也可以是多个字,主要取决于该数字词语所在语句中前后是否还有数字词语和格式词语。例如该数字词语向前还有数字词语,向后还有常用的量词和名词等格式词语,名词后还有数字词语,则可以将相连的数字词语和格式词语的组合字段作为数字词组,例如“五十个”、“六点五十分”、“二零一八年七月一日”可以作为数字词组。
语义词性获取模块803,用于根据语法表达规则获取数字词组的语义词性。
语义词性获取模块803可以将数字词语与语法表达规则进行对比和匹配,识别出该数字词语对应的语音词性。例如“五十个”对应的是数字+量词的语法表达规则,对应的语义词性是数量,“六点五十分”对应的是数字+小时+数字+分钟的语法表达规则,对应词义词性是时间中的时刻,“二零一八年七月一日”对应的是数字+年+数字+月+数字+日的语法表达规则,对应的语义词性是时间中的日期。
数值词语获取模块804,用于根据数字词组和语义词性对应的书写格式获取数值词语。
数值词语获取模块804中,由于数值词语时一般常用的书面表达形式下的带有数字的词语,例如,“五十个”对应数量的数值词语可以是“50个”,“六点五十分”对应时刻的数值词语可以是“6:50”,“二零一八年七月一日”对应日期的数值词语可以是“2018-7-1”。数值词语中的数字为可以展示为阿拉伯数字、中文小写数字、中文大写数字、英文数字单词等数码的类型。
数字转换模块805,用于利用数值词语对语音识别文本中的数字词组进行转换。
数字转换模块805可以将语音识别文本中的数字词组替换为数值词语,该数字词语和数值词语的语义相同,表达意思相同,在替换后不影响语音识别文本中涉及语句的含义。
按照人类阅读习惯,数值词语在文本书面表达中的可读性高,上述语音识别的数字转换装置,识别数字词组并获取同等语义的数值词语,将语音识别文本中可读性较低的数字词组转换为可读性较高且语义相同的数值词语,可以提高语音识别文本的可读性,进一步提高语音识别技术中语音听写功能的用户体验。
关于语音识别的数字转换系统的具体限定可以参见上文中对于语音识别的数字转换方法的限定,在此不再赘述。上述语音识别的数字转换系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在另一个实施例中,提供一种语音识别的数字转换方法,用于将中文数字转阿拉伯数字的方法,具体包括:
1.建立词库,确定语言样本。
2.获取语音信息,对所述语音信息进行语音识别。
(1)利用语音的波段和频率,识别语音的内容。根据语音的波段和频率,对所获得的语音分解成单个音节,并通过文字语音的拼音规则,将分解的音节进行组合,利用词库,对所组合得到的字进行匹配,得到语音识别的初步结果。
(2)运用NLP自然语言处理方法对语音信息进行语音识别。
可以结合步骤(1)得到的字的语音识别初步结果,组合成不同的汉字符串,利用所述词库进行比对,匹配成功后,得到词的识别结果。其中,对词的识别可以有正向识别、逆向识别、不同长度优先匹配规则等单独,或结合使用以便进一步验证其准确性。
例如,利用长度优先匹配规则,先以整句话作为一个词进行匹配,待匹配失败后,可逐步对字数减少,再进行匹配,直至匹配成功。在匹配的过程中,可使用正向匹配或反向匹配。或者,在匹配之前,先根据一连句的总字数对其进行最小切分的限定,对切分后的词与词库进行匹配。
在对字、词的匹配中,若初步认定为数字含义时,可以根据含有数字词组的组合规则,以其为中心,对该匹配的字词逐步向前或向后增长进行匹配词组的长度,以进一步确认该词组是否含有数字含义的词组,若是,则将该词组含有数字部分转化成阿拉伯数字。例如,若进行匹配后,得到的识别结果为“五十个苹果”,当初步认为“五十”是数词的时候,再后面增添一个字,以形成“五十个”的量词的识别结果,根据量词的组词规则:“数字+单位”,可以得到“五十个”就是“50个”的意思,可以对其进行阿拉伯数字的转化。为了提高识别的准确性,可以进一步增加识别词语的长度,验证结果符合“数字+单位+名称”的表示某数量结果,最终可以确定“五十”可以转化成“50”的意思。
也可以对词性进行标注。对所获取的连句完成词组匹配后,根据语法的表达规则,对词组进行词性的标注。若符合语法的表达规则,则判断为识别成功,然后确认具有数字含义的词语,并将其转化为阿拉伯数字。
3、在上述语音识别的结果基础上,对最终确认具有数字含义的文字内容转化成阿拉伯数字的形式出现。其中,若连续含有多个数字,根据数字组合的规则对该数字进行规则显示。
若“数字+单位”,只需对数字含义文字转化为数字;若是时间,如“六点五十分”,需根据时间的表达方式进行转化为6:50,而不能直接转化为6.50;若是日期,如“二零一八年七月一日”,确认其为时间的表达后,可直接转化为2018年7月1日,也可以经过设置或用户的选择,将其转化为2018-07-01,或07-01-2018。
4、对中文内容转化为阿拉伯数字的过程中,系统可以根据识别的结果,将含有数字内容的文字标示出来,以提示用户。进一步,根据对该数字的含义的判断,如时间、日期等具有多种表示形式的中文内容,将转化为数字组合的多种形式显示出来,供用户进行选择。
上述语音识别的数字转换方法,对一句中文文本进行分词处理,分词后对词性进行判断,数词、数量词、时间三种词性类型提取出来,提取三种词性对应的数字,转换所提取的数字,在原语音识别文本中替换原语句的中文数字,并进行输出。
上述语音识别的数字转换方法具有以下优点:
1、语音转文本更加精确,复合人类思维。
2、与ASR模型剥离开,形成两个不同方向的研究,并能减小ASR模型的复杂度。
图9为一个实施例中计算机设备的内部结构框图。如图9所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种语音识别的数字转换方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种语音识别的数字转换方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取语音识别文本中的数字词语;从语音识别文本中提取数字词组,其中,数字词组为包括数字词语的词组;根据语法表达规则获取数字词组的语义词性;根据数字词组和语义词性对应的书写格式获取数值词语;利用数值词语对语音识别文本中的数字词组进行转换。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:根据语音数据的波段和频率获取语音数据的各个单音节数据;在字库中匹配各单音节数据对应的初级字符;将初级字符中组合字符串与词库匹配,获得初级词语;将初级词语依次组合,获得语音识别文本。
在一个实施例中,处理器所执行的根据数字词组和语义词性对应的书写格式获取数值词语的步骤包括:根据语义词性对应的书写格式获取数码类型和格式字符;将数字词语转换为数码类型的数字词语;根据数码类型的数字词语和格式字符生成数值词语。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:接收用户对数值词语的选定格式;将选定格式作为语义词性的书写格式。
在一个实施例中,处理器所执行的根据语音识别文本中提取数字词组的步骤包括:从语音识别文本中提取数字词组的步骤包括:在语音识别文本中以数字词语为中心,匹配数字词组的长度;根据数字词组的长度在语音识别文本中提取数字词组。
在一个实施例中,处理器所执行的根据语法表达规则获取数字词组的语义词性的步骤包括:提取数字词组的格式词语;根据数字词语、格式词语和语法表达规则获取数字词组的语义词性。
在一个实施例中,处理器所执行的根据数字词语、格式词语和语法表达规则获取数字词组的语义词性的步骤包括:根据格式词语和语法表达规则计算各个语义词性类型的词性概率;根据数字词语、各语义词性类型以及各词性概率计算各语义词性类型的组合概率;将最高的组合概率对应的语义词性类型作为数字词组的语义词性。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取语音识别文本中的数字词语;从语音识别文本中提取数字词组,其中,数字词组为包括数字词语的词组;根据语法表达规则获取数字词组的语义词性;根据数字词组和语义词性对应的书写格式获取数值词语;利用数值词语对语音识别文本中的数字词组进行转换。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:根据语音数据的波段和频率获取语音数据的各个单音节数据;在字库中匹配各单音节数据对应的初级字符;将初级字符中组合字符串与词库匹配,获得初级词语;将初级词语依次组合,获得语音识别文本。
在一个实施例中,处理器所执行的根据数字词组和语义词性对应的书写格式获取数值词语的步骤包括:根据语义词性对应的书写格式获取数码类型和格式字符;将数字词语转换为数码类型的数字词语;根据数码类型的数字词语和格式字符生成数值词语。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:接收用户对数值词语的选定格式;将选定格式作为语义词性的书写格式。
在一个实施例中,处理器所执行的从语音识别文本中提取数字词组的步骤包括:在语音识别文本中以数字词语为中心,匹配数字词组的长度;根据数字词组的长度在语音识别文本中提取数字词组。
在一个实施例中,处理器所执行的根据语法表达规则获取数字词组的语义词性的步骤包括:提取数字词组的格式词语;根据数字词语、格式词语和语法表达规则获取数字词组的语义词性。
在一个实施例中,处理器所执行的根据数字词语、格式词语和语法表达规则获取数字词组的语义词性的步骤包括:根据格式词语和语法表达规则计算各个语义词性类型的词性概率;根据数字词语、各语义词性类型以及各词性概率计算各语义词性类型的组合概率;将最高的组合概率对应的语义词性类型作为数字词组的语义词性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音识别的数字转换方法,其特征在于,包括如下步骤:
获取语音识别文本中的数字词语;
从所述语音识别文本中提取数字词组,其中,所述数字词组为包括所述数字词语的词组;
根据语法表达规则获取所述数字词组的语义词性;
根据所述数字词组和所述语义词性对应的书写格式获取数值词语;
利用所述数值词语对所述语音识别文本中的所述数字词组进行转换。
2.根据权利要求1所述的语音识别的数字转换方法,其特征在于,在所述获取语音识别文本中的数字词语的步骤之前,还包括:
根据语音数据的波段和频率获取所述语音数据的各个单音节数据;
在字库中匹配各所述单音节数据对应的初级字符;
将所述初级字符中组合字符串与词库匹配,获得初级词语;
将所述初级词语依次组合,获得所述语音识别文本。
3.根据权利要求1所述的语音识别的数字转换方法,其特征在于,所述根据所述数字词组和所述语义词性对应的书写格式获取数值词语的步骤,包括:
根据所述语义词性对应的书写格式获取数码类型和格式字符;
将所述数字词语转换为所述数码类型的数字词语;
根据所述数码类型的数字词语和所述格式字符生成所述数值词语。
4.根据权利要求1所述的语音识别的数字转换方法,其特征在于,在所述利用所述数值词语对所述语音识别文本中的所述数字词组进行转换的步骤之后,还包括:
接收用户对所述数值词语的选定格式;
将所述选定格式作为所述语义词性的书写格式。
5.根据权利要求1所述的语音识别的数字转换方法,其特征在于,所述从所述语音识别文本中提取数字词组的步骤,包括:
在所述语音识别文本中以所述数字词语为中心,匹配所述数字词组的长度;
根据所述数字词组的长度在所述语音识别文本中提取所述数字词组。
6.根据权利要求1所述的语音识别的数字转换方法,其特征在于,所述根据语法表达规则获取所述数字词组的语义词性的步骤,包括:
提取所述数字词组的格式词语;
根据所述数字词语、所述格式词语和所述语法表达规则获取所述数字词组的语义词性。
7.根据权利要求6所述的语音识别的数字转换方法,其特征在于,所述根据所述数字词语、所述格式词语和所述语法表达规则获取所述数字词组的语义词性的步骤,包括:
根据所述格式词语和所述语法表达规则计算各个语义词性类型的词性概率;
根据所述数字词语、各所述语义词性类型以及各所述词性概率计算各所述语义词性类型的组合概率;
将最高的组合概率对应的语义词性类型作为所述数字词组的语义词性。
8.一种语音识别的数字转换装置,其特征在于,包括:
数字词语获取模块,用于获取语音识别文本中的数字词语;
数字词组提取模块,用于从所述语音识别文本中提取数字词组,其中,所述数字词组为包括所述数字词语的词组;
语义词性获取模块,用于根据语法表达规则获取所述数字词组的语义词性;
数值词语获取模块,用于根据所述数字词组和所述语义词性对应的书写格式获取数值词语;
数字转换模块,用于利用所述数值词语对所述语音识别文本中的所述数字词组进行转换。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述语音识别的数字转换方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述语音识别的数字转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520544.5A CN109801630A (zh) | 2018-12-12 | 2018-12-12 | 语音识别的数字转换方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520544.5A CN109801630A (zh) | 2018-12-12 | 2018-12-12 | 语音识别的数字转换方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109801630A true CN109801630A (zh) | 2019-05-24 |
Family
ID=66556665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811520544.5A Pending CN109801630A (zh) | 2018-12-12 | 2018-12-12 | 语音识别的数字转换方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109801630A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347696A (zh) * | 2019-05-28 | 2019-10-18 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN110970030A (zh) * | 2019-12-10 | 2020-04-07 | 苏州思必驰信息科技有限公司 | 一种语音识别转换方法及系统 |
CN111026844A (zh) * | 2019-12-04 | 2020-04-17 | 河北数云堂智能科技有限公司 | 一种识别数字串读法的方法及装置 |
CN111179937A (zh) * | 2019-12-24 | 2020-05-19 | 上海眼控科技股份有限公司 | 文本处理的方法、设备和计算机可读存储介质 |
CN111599354A (zh) * | 2020-06-28 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
CN111768788A (zh) * | 2020-06-28 | 2020-10-13 | 北京字节跳动网络技术有限公司 | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
CN111797617A (zh) * | 2020-05-26 | 2020-10-20 | 北京捷通华声科技股份有限公司 | 一种数据处理方法及装置 |
CN111931508A (zh) * | 2020-08-24 | 2020-11-13 | 上海携旅信息技术有限公司 | 数字转换方法及系统、文本处理方法及系统、设备和介质 |
CN113651199A (zh) * | 2021-08-26 | 2021-11-16 | 江苏社家通信息科技有限公司 | 手机语音通过iccid码或imei的电梯控制方法 |
CN114639371A (zh) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103219007A (zh) * | 2013-03-27 | 2013-07-24 | 谢东来 | 语音识别方法及装置 |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
CN107195306A (zh) * | 2016-03-14 | 2017-09-22 | 苹果公司 | 识别提供凭据的语音输入 |
CN107331396A (zh) * | 2017-07-05 | 2017-11-07 | 北京云知声信息技术有限公司 | 输出数字的方法及装置 |
CN107451119A (zh) * | 2017-07-26 | 2017-12-08 | 上海智臻智能网络科技股份有限公司 | 基于语音交互的语义识别方法及装置、存储介质、计算机设备 |
-
2018
- 2018-12-12 CN CN201811520544.5A patent/CN109801630A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
CN103219007A (zh) * | 2013-03-27 | 2013-07-24 | 谢东来 | 语音识别方法及装置 |
CN107195306A (zh) * | 2016-03-14 | 2017-09-22 | 苹果公司 | 识别提供凭据的语音输入 |
CN107331396A (zh) * | 2017-07-05 | 2017-11-07 | 北京云知声信息技术有限公司 | 输出数字的方法及装置 |
CN107451119A (zh) * | 2017-07-26 | 2017-12-08 | 上海智臻智能网络科技股份有限公司 | 基于语音交互的语义识别方法及装置、存储介质、计算机设备 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347696A (zh) * | 2019-05-28 | 2019-10-18 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN110347696B (zh) * | 2019-05-28 | 2024-03-26 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN111026844A (zh) * | 2019-12-04 | 2020-04-17 | 河北数云堂智能科技有限公司 | 一种识别数字串读法的方法及装置 |
CN111026844B (zh) * | 2019-12-04 | 2023-08-01 | 河北数云堂智能科技有限公司 | 一种识别数字串读法的方法及装置 |
CN110970030A (zh) * | 2019-12-10 | 2020-04-07 | 苏州思必驰信息科技有限公司 | 一种语音识别转换方法及系统 |
CN111179937A (zh) * | 2019-12-24 | 2020-05-19 | 上海眼控科技股份有限公司 | 文本处理的方法、设备和计算机可读存储介质 |
CN111797617A (zh) * | 2020-05-26 | 2020-10-20 | 北京捷通华声科技股份有限公司 | 一种数据处理方法及装置 |
CN111768788A (zh) * | 2020-06-28 | 2020-10-13 | 北京字节跳动网络技术有限公司 | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
CN111768788B (zh) * | 2020-06-28 | 2023-08-22 | 抖音视界有限公司 | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
CN111599354A (zh) * | 2020-06-28 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
CN111931508A (zh) * | 2020-08-24 | 2020-11-13 | 上海携旅信息技术有限公司 | 数字转换方法及系统、文本处理方法及系统、设备和介质 |
CN113651199A (zh) * | 2021-08-26 | 2021-11-16 | 江苏社家通信息科技有限公司 | 手机语音通过iccid码或imei的电梯控制方法 |
CN114639371A (zh) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
CN114639371B (zh) * | 2022-03-16 | 2023-08-01 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801630A (zh) | 语音识别的数字转换方法、装置、计算机设备和存储介质 | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN109147767A (zh) | 语音中的数字识别方法、装置、计算机设备及存储介质 | |
WO2020062680A1 (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN102023972A (zh) | 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法 | |
Adiga et al. | Automatic speech recognition in Sanskrit: A new speech corpus and modelling insights | |
CN113051371A (zh) | 中文机器阅读理解方法、装置、电子设备及存储介质 | |
CN110377882A (zh) | 用于确定文本的拼音的方法、装置、系统和存储介质 | |
CN110992941A (zh) | 一种基于语谱图的电网调度语音识别方法及装置 | |
CN111967260A (zh) | 多音字处理方法及装置、模型训练方法及装置 | |
Raj et al. | Text processing for text-to-speech systems in Indian languages. | |
Kim et al. | Enhancing Korean named entity recognition with linguistic tokenization strategies | |
CN110503956A (zh) | 语音识别方法、装置、介质及电子设备 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
Lőrincz et al. | RoLEX: The development of an extended Romanian lexical dataset and its evaluation at predicting concurrent lexical information | |
CN109872718A (zh) | 语音数据的答案获取方法及装置、存储介质、计算机设备 | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
Abujabal et al. | Neural named entity recognition from subword units | |
Abera | Design of a Tigrinya language speech corpus for speech recognition | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
US20220189455A1 (en) | Method and system for synthesizing cross-lingual speech | |
Jariwala et al. | A system for the conversion of digital Gujarati text-to-speech for visually impaired people | |
CN107423293A (zh) | 数据翻译的方法和装置 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |