CN109616121A - 一种数字转换方法和装置 - Google Patents

一种数字转换方法和装置 Download PDF

Info

Publication number
CN109616121A
CN109616121A CN201811436631.2A CN201811436631A CN109616121A CN 109616121 A CN109616121 A CN 109616121A CN 201811436631 A CN201811436631 A CN 201811436631A CN 109616121 A CN109616121 A CN 109616121A
Authority
CN
China
Prior art keywords
digital
text
grabbed
language model
display form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811436631.2A
Other languages
English (en)
Inventor
殷子墨
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Beijing Sinovoice Technology Co Ltd
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201811436631.2A priority Critical patent/CN109616121A/zh
Publication of CN109616121A publication Critical patent/CN109616121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

本发明实施例提供了一种数字转换方法和装置,该方法和装置应用于语音识别系统,具体为对预先收集的文本数据进行预处理,得到训练样本;利用训练样本进行模型训练,得到语言模型;在接收到需要识别的文本时,利用语言模型对文本中的数字进行抓取,并利用语言模型预测数字的展示形式;以展示形式输出所抓取的数字。通过上述处理,能够以最合适的文本展示方式输出,以符合用户的应用需求,从而避免产生混淆。

Description

一种数字转换方法和装置
技术领域
本发明涉及语音识别技术领域,特别是涉及一种数字转换方法和装置。
背景技术
随着语音识别技术的发展成熟,该技术被相继应用于多种领域。在有些领域,如金融、保险等领域对输出结果中的数字的文本方式较为敏感,或者说对于数字的输出形式有特定的要求。然而数字的文本展示形式有很多,如阿拉伯数字形式的1、2、3...,汉字形式的一、二、三....,汉字数字形式的一百二十三,大些汉字数字的壹佰贰拾叁等。对于特定的场所或应用来说,只有最合适的文本展示形式才能符合用户的应用需求,否则会造成混淆。
发明内容
有鉴于此,本发明提供了一种数字转换方法和装置,以输出符合用户应用需求的数字文本,避免产生混淆。
为了解决上述问题,本发明公开了一种数字转换方法,应用于语音识别系统,所述数字转换方法包括步骤:
对预先收集的文本数据进行预处理,得到训练样本;
利用所述训练样本进行模型训练,得到语言模型;
在接收到需要识别的文本时,利用所述语言模型对所述文本中的数字进行抓取,并利用所述语言模型预测所述数字的展示形式;
以所述展示形式输出所抓取的数字。
可选的,所述对预先收集的文本数据进行预处理,得到训练样本,包括:
对所述文本数据中的数字部分进行提取;
对所提取的数字部分转换为对应的形式标签。
可选的,所述形式标签包括阿拉伯数字形式标签、汉字数字形式标签和汉字大写数字形式标签。
可选的,所述以所述展示形式输出所抓取的数字,包括:
将所抓取的数字以所述展示形式予以替换;
将替换后的完整文本予以输出。
相应的,为了保证上述方法实施例的实施,本发明还提供了一种数字转换装置,应用于语音识别系统,所述数字转换装置包括:
样本处理模块,用于对预先收集的文本数据进行预处理,得到训练样本;
模型训练模块,用于利用所述训练样本进行模型训练,得到语言模型;
数字抓取模块,用于在接收到需要识别的文本时,利用所述语言模型对所述文本中的数字进行抓取,并利用所述语言模型预测所述数字的展示形式;
文本输出模块,用于以所述展示形式输出所抓取的数字。
可选的,所述样本处理模块包括:
数字提取单元,用于对所述文本数据中的数字部分进行提取;
数字转换单元,用于对所提取的数字部分转换为对应的形式标签。
可选的,所述形式标签包括阿拉伯数字形式标签、汉字数字形式标签和汉字大写数字形式标签。
可选的,所述文本输出模块包括:
数字替换单元,用于将所抓取的数字以所述展示形式予以替换;
输出执行单元,用于将替换后的完整文本予以输出。
从上述技术方案可以看出,本发明提供了一种数字转换方法和装置,该方法和装置应用于语音识别系统,具体为对预先收集的文本数据进行预处理,得到训练样本;利用训练样本进行模型训练,得到语言模型;在接收到需要识别的文本时,利用语言模型对文本中的数字进行抓取,并利用语言模型预测数字的展示形式;以展示形式输出所抓取的数字。通过上述处理,能够以最合适的文本展示方式输出,以符合用户的应用需求,从而避免产生混淆。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数字转换方法的步骤流程图;
图2为本发明实施例提供的一种数字转换装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例提供的一种数字转换方法的步骤流程图。
参照图1所示,本实施例提供的数字转换方法应用于语音识别系统,用于对语音识别所得的文本中的数字进行抓取转换,具体步骤包括:
S1、对预先收集的文本数据进行预处理。
这里的文本数据也可以称为文本语料。首先进行数字提取,即提取其中的数字部分。
假设预期的数字形式有三种:
1.阿拉伯数字形式(123),用阿拉伯数字形式标签[T_arabic]表示;
2.汉字形式(一二三),用汉字形式标签[T_ch_num]表示;
3.汉字大写数字形式(壹贰叁),用汉字大写数字形式标签[T_ch_big]表示。
事实上还可以有其他形式,此处仅为举例。
在提取到相应数字部分后,将的数字部分转换为对应的形式标签。
例如,原文本:我们周一去银行取了100元钱;处理后:我们周[T_ch_num]去银行取了[T_arabic]元钱。从而完成得到相应的训练样本。
S2、利用训练样本进行模型训练,得到语言模型。
语言模型训练是根据一定长度的上下文来记录这个序列片段出现的概率。如上面的例子中的文本,训练后得到的序列片段可以是:
们 周[T_ch_num]去 银
取 了[T_arabic]元 钱
根据训练样本,我们可以找到所有有不同上下文的数字片段出现的概率,这些序列片段概率的总集就是数字转换专用的语言模型。
S3、在接收到文本时,利用语言模型对数字进行抓取。
所接收的文本是指该语音识别系统通过语音识别所得到的文本,在得到该文本后利用上述的语言模型从中抓取数字,并利用语音模型预测该数字的展示形式。
不管语音识别本身输出的文本是何种形式,我们都可以用同一的规则、即上述的语言模型进行抓取。比如说,输出文本是:我们周1去银行取了一百元钱。
通过规则可以找到‘1’和‘一百’俩个数字部分,然后提取数字前后的上下文,即:
们 周 1 去 银
取 可 一百 元 钱
然后使用语言模型判断,数字部分替换成哪种形式的概率最高,即
们 周[T_arabic]去 银
们 周[T_ch_num]去 银
们 周[T_ch_big]去 银
三者中选取概率较高的一组,在这个情况下‘们周[T_ch_num]去银’的概率应该高于其他两项,从而得到数字的展示形式。即T_ch_num代表的汉字形式。
S4、以前述展示形式输出抓取的数字。
在预测出相应的展示形式后,以该展示形式输出所抓取的数字。具体来说,是将抓取的数字部分以上述的展示形式予以替换,然后输出完成替换后的文本。
从上述技术方案可以看出,本实施例提供了一种数字转换方法,该方法应用于语音识别系统,具体为对预先收集的文本数据进行预处理,得到训练样本;利用训练样本进行模型训练,得到语言模型;在接收到需要识别的文本时,利用语言模型对文本中的数字进行抓取,并利用语言模型预测数字的展示形式;以展示形式输出所抓取的数字。通过上述处理,能够以最合适的文本展示方式输出,以符合用户的应用需求,从而避免产生混淆。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图2为本发明实施例提供的一种数字转换装置的结构框图。
参照图2所示,本实施例提供的数字转换装置应用于语音识别系统,用于对语音识别所得的文本中的数字进行抓取转换,具体包括样本处理模块10、模型训练模块20、数字抓取模块30和文本输出模块40。
样本处理模块用于对预先收集的文本数据进行预处理。
这里的文本数据也可以称为文本语料。该模块包括数字提取单元和数字转换单元。数字提取单元用于进行数字提取,即提取其中的数字部分。
假设预期的数字形式有三种:
1.阿拉伯数字形式(123),用阿拉伯数字形式标签[T_arabic]表示;
2.汉字形式(一二三),用汉字形式标签[T_ch_num]表示;
3.汉字大写数字形式(壹贰叁),用汉字大写数字形式标签[T_ch_big]表示。
事实上还可以有其他形式,此处仅为举例。
数字转换单元用于在提取到相应数字部分后,将的数字部分转换为对应的形式标签。
例如,原文本:我们周一去银行取了100元钱;处理后:我们周[T_ch_num]去银行取了[T_arabic]元钱。从而完成得到相应的训练样本。
模型训练模块用于利用训练样本进行模型训练,得到语言模型。
语言模型训练是根据一定长度的上下文来记录这个序列片段出现的概率。如上面的例子中的文本,训练后得到的序列片段可以是:
们 周[T_ch_num]去 银
取 了[T_arabic]元 钱
根据训练样本,我们可以找到所有有不同上下文的数字片段出现的概率,这些序列片段概率的总集就是数字转换专用的语言模型。
数字抓取模块用于在接收到文本时,利用语言模型对数字进行抓取。
所接收的文本是指该语音识别系统通过语音识别所得到的文本,在得到该文本后利用上述的语言模型从中抓取数字,并利用语音模型预测该数字的展示形式。
不管语音识别本身输出的文本是何种形式,我们都可以用同一的规则、即上述的语言模型进行抓取。比如说,输出文本是:我们周1去银行取了一百元钱。
通过规则可以找到‘1’和‘一百’俩个数字部分,然后提取数字前后的上下文,即:
们 周 1 去 银
取 可 一百 元 钱
然后使用语言模型判断,数字部分替换成哪种形式的概率最高,即
们 周[T_arabic]去 银
们 周[T_ch_num]去 银
们 周[T_ch_big]去 银
三者中选取概率较高的一组,在这个情况下‘们周[T_ch_num]去银’的概率应该高于其他两项,从而得到数字的展示形式。即T_ch_num代表的汉字形式。
文本输出模块用于以前述展示形式输出抓取的数字。
在预测出相应的展示形式后,以该展示形式输出所抓取的数字。改模块包括数字替换单元和输出执行单元,数字替换单元用于将抓取的数字部分以上述的展示形式予以替换,输出执行单元则用于输出完成替换后的文本。
从上述技术方案可以看出,本实施例提供了一种数字转换装置,该装置应用于语音识别系统,具体为对预先收集的文本数据进行预处理,得到训练样本;利用训练样本进行模型训练,得到语言模型;在接收到需要识别的文本时,利用语言模型对文本中的数字进行抓取,并利用语言模型预测数字的展示形式;以展示形式输出所抓取的数字。通过上述处理,能够以最合适的文本展示方式输出,以符合用户的应用需求,从而避免产生混淆。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种数字转换方法,应用于语音识别系统,其特征在于,所述数字转换方法包括步骤:
对预先收集的文本数据进行预处理,得到训练样本;
利用所述训练样本进行模型训练,得到语言模型;
在接收到需要识别的文本时,利用所述语言模型对所述文本中的数字进行抓取,并利用所述语言模型预测所述数字的展示形式;
以所述展示形式输出所抓取的数字。
2.如权利要求1所述的数字转换方法,其特征在于,所述对预先收集的文本数据进行预处理,得到训练样本,包括:
对所述文本数据中的数字部分进行提取;
对所提取的数字部分转换为对应的形式标签。
3.如权利要求2所述的数字转换方法,其特征在于,所述形式标签包括阿拉伯数字形式标签、汉字数字形式标签和汉字大写数字形式标签。
4.如权利要求1所述的数字转换方法,其特征在于,所述以所述展示形式输出所抓取的数字,包括:
将所抓取的数字以所述展示形式予以替换;
将替换后的完整文本予以输出。
5.一种数字转换装置,应用于语音识别系统,其特征在于,所述数字转换装置包括:
样本处理模块,用于对预先收集的文本数据进行预处理,得到训练样本;
模型训练模块,用于利用所述训练样本进行模型训练,得到语言模型;
数字抓取模块,用于在接收到需要识别的文本时,利用所述语言模型对所述文本中的数字进行抓取,并利用所述语言模型预测所述数字的展示形式;
文本输出模块,用于以所述展示形式输出所抓取的数字。
6.如权利要求5所述的数字转换装置,其特征在于,所述样本处理模块包括:
数字提取单元,用于对所述文本数据中的数字部分进行提取;
数字转换单元,用于对所提取的数字部分转换为对应的形式标签。
7.如权利要求6所述的数字转换装置,其特征在于,所述形式标签包括阿拉伯数字形式标签、汉字数字形式标签和汉字大写数字形式标签。
8.如权利要求5所述的数字转换装置,其特征在于,所述文本输出模块包括:
数字替换单元,用于将所抓取的数字以所述展示形式予以替换;
输出执行单元,用于将替换后的完整文本予以输出。
CN201811436631.2A 2018-11-28 2018-11-28 一种数字转换方法和装置 Pending CN109616121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436631.2A CN109616121A (zh) 2018-11-28 2018-11-28 一种数字转换方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436631.2A CN109616121A (zh) 2018-11-28 2018-11-28 一种数字转换方法和装置

Publications (1)

Publication Number Publication Date
CN109616121A true CN109616121A (zh) 2019-04-12

Family

ID=66004807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436631.2A Pending CN109616121A (zh) 2018-11-28 2018-11-28 一种数字转换方法和装置

Country Status (1)

Country Link
CN (1) CN109616121A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232923A (zh) * 2019-05-09 2019-09-13 青岛海信电器股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN111797617A (zh) * 2020-05-26 2020-10-20 北京捷通华声科技股份有限公司 一种数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232923A (zh) * 2019-05-09 2019-09-13 青岛海信电器股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN110232923B (zh) * 2019-05-09 2021-05-11 海信视像科技股份有限公司 一种语音控制指令生成方法、装置及电子设备
CN111797617A (zh) * 2020-05-26 2020-10-20 北京捷通华声科技股份有限公司 一种数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN105446146B (zh) 基于语义分析的智能终端控制方法、系统及智能终端
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
US8825533B2 (en) Intelligent dialogue amongst competitive user applications
US10657959B2 (en) Information processing device, information processing method, and program
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN103559880B (zh) 语音输入系统和方法
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN106407178A (zh) 一种会话摘要生成方法及装置
CN104468959A (zh) 移动终端通话过程中显示图像的方法、装置及移动终端
CN110047481A (zh) 用于语音识别的方法和装置
CN106875939A (zh) 对大范围波动的汉语方言语音识别处理方法及智能机器人
CN105549847B (zh) 一种歌曲播放界面的图片显示方法及用户终端
CN103186523A (zh) 电子设备及其自然语言分析方法
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN109616121A (zh) 一种数字转换方法和装置
CN104267922A (zh) 一种信息处理方法及电子设备
CN110275963A (zh) 用于输出信息的方法和装置
CN105161095A (zh) 语音识别语法树的构图方法及装置
CN109190119A (zh) 时间提取方法和装置、存储介质及电子装置
CN104699480B (zh) 一种便签的显示方法及移动终端
CN107919127B (zh) 语音处理方法、装置和电子设备
CN109889921A (zh) 一种具备交互功能的音视频创建、播放方法及装置
CN109634569A (zh) 基于注解的流程实现方法、装置、设备及可读存储介质
CN113409791A (zh) 语音识别处理方法、装置、电子设备及存储介质
CN109213466B (zh) 庭审信息的显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412