CN103455530A - 随身携带式创建个性化语音对应文本文字数据库的装置 - Google Patents

随身携带式创建个性化语音对应文本文字数据库的装置 Download PDF

Info

Publication number
CN103455530A
CN103455530A CN201210412819XA CN201210412819A CN103455530A CN 103455530 A CN103455530 A CN 103455530A CN 201210412819X A CN201210412819X A CN 201210412819XA CN 201210412819 A CN201210412819 A CN 201210412819A CN 103455530 A CN103455530 A CN 103455530A
Authority
CN
China
Prior art keywords
voice
database
enunciator
personalized speech
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210412819XA
Other languages
English (en)
Inventor
杨京广
张永忠
李树成
陈培基
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HENAN BAITENG ELECTRONIC TECHNOLOGY Co Ltd
Original Assignee
HENAN BAITENG ELECTRONIC TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HENAN BAITENG ELECTRONIC TECHNOLOGY Co Ltd filed Critical HENAN BAITENG ELECTRONIC TECHNOLOGY Co Ltd
Priority to CN201210412819XA priority Critical patent/CN103455530A/zh
Publication of CN103455530A publication Critical patent/CN103455530A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及语音转化为文字领域的装置,特别是一种随身携带式创建个性化语音对应文本文字的数据库创建器。本发明的目的是提供一种可以定时或随时随地采集一个人的个性化语音,并创建完成这个人个性化语音对应文本文字数据库的装置。它包括语音采集部分耳朵支架、语音采集头、语音采集开关、机壳、控制电路集成主板、芯片组、微处理器、存储器、显示面板、手写输入文字或软健盘输入文字的屏幕、操作按钮、喇叭、插孔、插槽、电池与电池槽。本发明的目的是这样实现的:当数据库创建器复读出语音单元时,由发音者用手在手写输入文字或软健盘输入文字的屏幕上输入自己认为的与此语音单元相对应的文字。本发明将任何一个人的个性化语音对应文本文字数据库建成后,数据库安装到其它系统配合其它系统使用,以实现这个人的个性化语音精准无误地转化为文本文字的功能。

Description

随身携带式创建个性化语音对应文本文字数据库的装置
技术领域
在本发明涉及一种创建数据库的装置,具体为一种随身携带式创建个性化语音对应文本文字的数据库创建器。
背景技术
近二十多年来,与语音输入相关的软硬件不断被设计和创造出来,应用范围极其广泛,但存在着对发音者的要求较高,没有经过特殊训练的普通大众,其发音大都不标准,转化后的文本文字不能准确地表达语音的语意,这就是这类软硬件不能在社会上普及的主要原因,文本文字不能准确无误地表达发音者的真实意思,成为限制这一行业发展的瓶颈。根据数据粗略统计:(1)在中国有159件与语音输入相关的授权发明专利,从95年开始有专利授权,以后逐年上升,到2005年达到最高授权量,为25件,但由于语音转化为文本文字的准确率问题无法解决,这类专利在中国和国外一样开始逐年下降,到2010年仅有1件。中国大陆在这方面的技术成果比较落后,在中国大陆授权的这类发明专利的前8名分别是:国际商业机器公司9件,台达电子工业股份有限公司8件,松下电器产业株式会社7件,微软公司7件,株式会社建伍5件,索尼公司5件,日本电气株式会社5件,三星电子株式会社4件,没有一家中国大陆的公司。(2)在中国有1609件与语音及通话相关的授权发明专利,从94年开始有7件专利授权,以后逐年上升,到2006年达到最高授权量,为205件,但由于语音转化为文本文字的准确率问题无法解决,这类专利在中国和国外一样开始逐年下降,到2011年仅有8件。在中国大陆授权的这类发明专利的前8名分别是:微软公司86件,松下电器产业株式会社84件,国际商业机器公司78件,华为技术有限公司45件,摩托罗拉公司39件,索尼株式会社32件,索尼公司31件,中国科学院声学研究院29件。从以上数据显示出两个信息:第一,语音、语音输入方面的技术,在2005年、2006年达到了高潮,但由于语音转化为文本文字的准确率问题无法解决,原来的技术路线遇到了这个行业的技术瓶颈,以原来的技术路线无法在使这个行业向前发展,于是从2005年、2006年开始这方面的专利申报、授权一年比一年下降,导致语音代替双手的革命,至今还没有普及;第二,中国在这方面的技术成果比较溥弱。为了使这个行业继续向前发展,我们必须开创另一条技术路线,来突破这个行业的发展瓶颈。
为什么现有的这类语音输入系统不能准确无误地表达发音者的真实意思呢?因为全世界这类语音软硬件的设计者都走进了一个误区:认为人发出的声波(语音)本身具有含义,是信息的载体,于是采取“分析语音提取参数”、“语音识别技术来确定语义”、“语言解码”、“语音信息拾取”、“生成输入特征向量”、“确定最佳匹配的单词模型”等等方法,来寻找出语音与语义之间的规律,使音频音波转化为文本文字,其实声波(语音)本身没有含义,是人类赋予了它含义。为什么现有的这类系统也可以表达发音者的意思呢?是系统设计者采用了本国语言、本地语系所共认的语音所赋予的含义,寻找到了本国语言、本地语系的语音与语义之间对应关系的规律,然而这种规律是大众化、标准化的,而大部分人的语音所表达的意思却是个性化的、不标准的。所以这类系统总是要求发音者要发出标准的语音、训练使用者来适应系统、训练系统来适应发音者。
系统对语音进行分析,提取参数,确定语意,转化成文本文字。这个技术的难度是相当大的,难度之一:数据库庞大,但依然不能囊括全球所有人的个性化语音;难度之二:复杂的分析程序和过程,但依然不能准确无误地分析出发音者的语音所要表达的意思。
譬如:IBM ViaVoice语音识别系统(语音输入语音控制)发明出来后,向全世界宣布这是一场解放双手的革命,然而十多年过去了,人们普遍还在用双手输入信息和操控硬件。微软的语音输入系统,读音要非常标准,电脑才能识别,即使在这种情况下,错误率还是很高。汉王手写板的语音变文字功能,因发音者的普通话不标准,还是不如用手来书写方便省事。打字员用语音打字,这个技术在90年代已经出现,但是需要打字员说出标准的语音,但大多数人说话并不标准,所以至今只是极少数人使用,大多数人还依然用双手来打字。为了解决这个技术难点,当前日本发明的最新语音输入技术,将声波先转化为电磁波,然后用电磁波和声波原型相对照,并提出最合适的单词,虽然加入了电磁波,准确性有所提高,但还是没有解决根本性问题,他们自称正确率在85%,而且只适合日语。苹果新iPad的语音输入文字功能,为了避免数据库庞杂和准确性不高的难度,目前只支持英、法、德、日四个语种,同样需要发音者的发音要标准。Mac系列的产品需要搭配网络才可使用。美国国防部高级研究计划局(DARPA )2012年投入大量资金对“泛用语言翻译计划”进行技术研发,如果美国的这个科技项目攻关成功,就可以实现让美国士兵们听懂外国民众的语言,美国士兵的话实时翻译成外语,在一些特殊情况下,国家与国家之间要员无需翻译人员在场就可以交流,从而减少知情人数,降低泄密机率。美国的这项科技项目攻关成功后便可实现完全不了解彼此语言的人与之间的面对面流畅交流。
录音机、复读机只是将声音存贮了起来,并没有来确定声音所要表达的意思。计算机、手机等具有语音转化为文本文字的功能,可以确定声音所要表达的意思,但它们安装的软件系统采取的技术路线是:“分析语音提取参数”、“语音识别来确定语义”、“语言解码”、“语音信息拾取”等等方法,使音频音波转化为文本文字,这条技术路线想要准确无误地确定所有人发出的声音的意思,是绝对做不到的。
随着社会的发展,地球越来越象个地球村,一个人与其他非同一语种、同一语系的人在现实世界上的交流越来越频繁;随着计算机网络世界和手机网络世界的发展,一个人与其他非同一语种、同一语系的人如同近在咫尺,在网络世界上的交流越来越频繁;随着物联网的发展、软件程序的发展,一个人同机器、物品等非生命物的交流、互动越来越频繁,虽然可以用指体与其交流,但通过语音交流更方便简单。通过以上所述,人类迫切需要创建完成一个人说话的声音和这些声音所表达的意思精确无误相对应的数据库,这个数据库是这个人专属的、个性化的、只适合于他自己、不断完善、终身使用、可以在不同系统中使用的数据库,同时人类迫切需要发明出创建这样一个数据库的电子器具。
发明内容
在本发明的目的:解决语音输入系统中文本文字不能准确无误地表达发音者所要表达的意思的不足,由发音者和系统共同完成任何一个人的个性化语音对应文本文字数据库的建设。本系统由软件和硬件共同组成,软件为个性化语音采集及语义确定程序,硬件为个性化语音对应文本文字数据库创建器。
 本发明的原理:文字就是符号,本身没有含义,只有被一个人、一群人、整个人类赋予含义后,才成为了含义的载体,被赋予了含义的文字,就变成了信息。语音就是声波,同样,本身也没有含义,只有被一个人、一群人、整个人类赋予含义后,才成为了含义的载体,被赋予了含义的声波,就变成了信息,将没有含义的符号与没有含义的声波赋予相同含义,这时这个符号与这个声波就表达出了相同的信息。从而实现相同信息下的符号(文字)与声波(语音)精准的转化。但是信息概念具有很强的主观特征,所以,这赋予符号与声波相同信息的人,必须是一个人,如果在两个人以上,就会产生误差,甚至毫无相同之处。一个人将他所有的语音(声波)与一组一组的数据(符号)赋予一一对应的相同含义,建立他自己个性化的语音对应语义数据库,那么他的语音,将变为文本文字形式的数据,由处理器进行处理运算,因这些数据都是被他赋予了含义的信息,所以,带有处理器的硬件(譬如计算机、手机)所处理运算的数据就是他的语音要表达的信息。
本发明的思路:将物质层面的硬件、波层面的语音、意识层面的语义、软件层面的程序编码有机地组合起来,也就是说,将电子器具、发音者的声音、发音者的意念、软件设计者的程序有机结合起来,以实现发音者的语音和语义的精准转化。为达到这个目的创造出一种器具,这个器具通过软件、硬件、发音者共同完成发音者自己的个性化语音对应文本文字的个性化数据库的建设。这个数据库建成后,应用到其他各种软硬件中,使其他软硬件能准确无误地通过语音来表达、执行发音者的意图,处理发音者发出的信息。
本发明的技术路线:传统语音输入采取的都是“语音识别技术”,本发明开创了另一条与原来的技术完全不同的技术路线:“语音确定语义技术”。
 本发明公开的硬件部分:数据库创建器,到目前为止在全世界还没有这样的器具和技术。这个数据库创建器的作用可以简述如下:无论这个人是哪个国家的人,说哪一种语言,说哪一种方言,甚止口齿不清,本发明公开的数据库创建器,都可以将他的个性化的语音采集进去,以各个语音单元的形式一一复读出来,再由发音者用手将每个语音单元的意思用文本文字的形式输入进数据库创建器,数据库创建器通过发音者的专业性操作或随意性操作,经过一次或多次操作,数据库创建器初步完成这个人的个性化语音对应文本文字数据库的建设。建成后的这个人的个性化语音对应文本文字数据库,下载到U盘或电脑中保存起来,以备专用的各种实用的器具或系统使用。数据库创建器里面的数据库删除清空后,以备下一个人再使用。
本发明的硬件部分为个性化语音对应文本文字数据库创建器,其结构与工作方法为:
一种个性化语音对应文本文字数据库创建器,它包括:语音采集部分耳朵支架、语音采集头、语音采集开关、机壳、控制电路集成主板、芯片组、微处理器、存储器、显示面板、手写输入文字或软健盘输入文字的屏幕、操作按钮、发音喇叭、插孔、插槽、电池与电池槽。
语音采集部分的耳朵支架(1)挂在耳朵上,触头(2)伸向嘴边,由连线(4)插入数据库创建器主机的声音输入插孔(5),连线上安装有开关(3)。
一组声音进入数据库创建器后,由系统分解成各个语音单元,存储在存储器中,如果再有一组声音进入数据库创建器后,由系统分析成各个语音单元,新的语音单元存储在存储器中,重复的语音单元不再存储。
发音者按数据库创建器上的复读按钮(9),数据库创建器以发音者的原声音将语音单元复读出,发音者在显示屏(7)上用手输入自己认为的此语音单元所表达的文字。发音者再次按数据库创建器上的复读按钮(9),数据库创建器复读出下一个语音单元,以此类推,不断地由发音者与系统确定存储在数据库创建器中的语音单元与文字的对应关系。
发音者按数据库创建器上的数据显示按钮(10),数据库创建器复读出语音单元,并在显示屏上(7)显示出与此语音相对应的文字,如果发音者认为正确,可再按数据显示按钮(10),数据库创建器复读出下一个语音单元显示出下一组文字,如果发音者认为显示的文字不能正确表达这个语音的意思,可在显示屏(7)上进行修改,如果发音者认为这个语音单元不能代表自己的个性化语音(如噪音太大,或发音者掩饰了自己的个性化语音),则可删除这个语音单元。
数据库创建器集中时间工作或平时随意工作一段时间后,数据库创建器里采集的语音单元和输入的文字越来越多,采集的语音单元越来越接近于这个人所能发出的所有语音单元,也就是说系统和发音者共同创建的个性化语音对应标准文本文字数据库几乎完成了这个人所能发出的所有语音单元与文本文字的对应关系。将U盘、电脑、手机、万话机(一种听进自己的个性化语音复读出不同语种不同方言的电子器具)、普话机(一种听进自己的个性化语音复读出标准普通话的电子器具)、仿真机器人、智能玩具、矿下机器(因采取有线无线传送信息比较困难,用人的指体也不方便,可采用语音来操作控制)、语音操控汽车等等机器及器具与本数据库创建器的 USB(6)接口相连接,按保存按钮(11),这个人的个性化语音对应标准文本文字数据库将保存到这些机器及器具中,以备将来使用或直接配合其它系统使用,完成语音精确转化为文本文字的功效。
按删除按钮(13),本数据库创建器将清空里面所有的语音单元和文字,本数据库创建器可移交给另一个人,再为另一个人创建他的个性化语音对应文本文字数据库。
本发明的有益效果
真正实现解放双手的革命。当语音转化为文本文字的系统被发明出来后,人们就梦想着用说话来替代双手,但由于只有极少数人能说出标准的语音,又因为双手可以精准地表达一个人的意思,而语音却做不到精准,所以这个梦想至今还没有实现。本发明通过发音者自己用手确定了语音与语义的精准对应关系,创建了这种对应关系的数据库,从而解决了这一技术难题,使各行各业将发生解放双手的革命成为现实,人们不仅仅可以用手来劳动,也可以用嘴来劳动,“动嘴不动手”这个词从“不实干”的含义变为“高智慧巧干”的含义。
实现人与人之间的无碍沟通。《圣经·旧约·创世记》第11章宣称,原来天下的人都讲一种语言亚当语,大家联合起来兴建希望能通往天堂的高塔,高高的塔顶冲入云霄,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,互相猜疑、互相不配合,计划因此失败。这个故事给我们清楚地指出:语言不同,是全世界处于混乱状态的重要原因之一,也是限止人类继续发展的瓶颈。本发明将有效地解决这一现状。
不纠正、不限止、不训练发音者的语音。传统的语音转化为文字的系统,是程序员根据本国语言的标准语音编写的程序,当发音者说出不标准的语音时,就会出现错误,所以对发音者的语音标准度要求很高。本发明是针对每个人的个性化语音编写的程序,对发音者的语音没有要求,无需对发音者进行训练,也无需对系统进行训练,正确率在99.9%。
传统的语音系统因为是面对一个语种或多个语种,所建数据库非常庞大,对硬件的要求高,传送速度慢,因手持器具的芯片的处理能力太弱,所以一般都采取将系统和数据库存放在远程服务器内。本发明是针对一个人的语音,所建数据库相对很小,系统程序小,对硬件的要求低,传送速度快,数据库可以直接存放在手持硬件中。
在硬件方面,过去都是采取了在硬件上设置这方面的功能,如手机、电脑等,本发明是专门为建设语音对应文本文字数据库设计的器具,除此之外没有其他功能,而且可以重复使用,所建数据库可独立出来、下载保存,需要时再安装到不同的系统中使用,灵活方便。
在适应性方面,本数据库建成后,系统设计有程序转化功能,可以将本数据库的计算机语言转化成各种常用的程序语言,以便适应不同系统的需要。
本发明的数据库创建器创建的个性化语音对应文本文字数据库,有什么用处呢?现举例说明:
第一类,使互联网更加人性化。
例一:网站无人智能接听回复电话系统。因为这个系统中安装了网站上各个会员的个性化语音对应文本文字数据库,所以会员打来的电话可以精准地转变为文字,使网站可以全天24小时即时无人工回复会员打来的电话。
例二:语音鼠标。在电脑中安装一套系统,这套系统事先安装上使用者的个性化语音对应文本文字数据库,所以使用者的语音可以精准地转变为文字,就可以用语音信息对电脑进行操作。
第二类,人与人面对面无碍交流。
例一:普话机。专门为普话机设计一套软件程序,买回普话机后,这个人可以将自己的个性话语音对应文本文字数据库安装进普话机,就可以实现这个人用他的个性话语音(譬如广东话)对着普话机说话,普话机复读出标准的普通话。
例二:万话机。专门为万话机设计一套软件程序,买回万话机后,这个人可以将自己的个性话语音对应文本文字数据库安装进万话机,就可以实现这个人用他的个性话语音(譬如四川话)对着普话机说话,万话机复读出各国语言各种方言,如标准的英语。
例三:智能麦克风。一种安装了使用者个性化对应文本文字数据库的麦克风及相关程序,这种麦克风听进自己的个性化语音,可以播放出各种标准语音的麦克风。
例四:智能麦克风耳机系统。麦克风的软件程序里安装了演讲者的个性化对应文本文字数据,而听众所带的耳机与其为一个整体系统,可以实现:一个人在台上讲话,台下各国的听众将耳机选择到本国语音,即可听到同步的演讲者的演说。
第三类,通话。
例:不同语种人与之间进行手机通话的程序系统。为手机专门设计一套系统,当手机购买回来后,安装上这个手机主人的个性化语音对应文本文字数据库,如果对方的手机也有这套系统,也安装了个性化语音对应文本文字数据库,那么,就可以实现不同语种人与人之间的手机无语言障碍通话。
第四类,收集思维。
例:思维收集器。专门为思维收集器设计一套软件程序,买回思维收集器后这个人可以将自己的个性化语音对应文本文字数据库安装进思维收集器,这个人无论躺在床上,还是坐在飞机上,有什么好的想法、科技灵感、设计方案、小说故事等等时,马上掏出思维收集器,将思维说出,以文本文字的形式保存进思维收集器。
第五类,人与机器的交流、互动。
例一:语音智能汽车。为汽车设计一套软件系统,当汽车购回后安装上驾驶者的个性化语音对应文本文字数据库后,此数据库是通过手指确定了发音者意思的,虽然驾驶者是通过语音来驾驶汽车,实质上是用手指在驾驶,所以,这个人的声音如同他的手一样可以准确地表达出指令,以实现语音对汽车的精确操作。
例二:用语音操控的矿下机器。深矿下的机器,人用指体操控不方便,用无线和有线传送信息控制指令比较困难,安装上个性化语音对应文本文字数据库和相关程序后,可以通过语音进行操作。
第六类,智能机器人。
为例:知己智能机器人。为机器人设计的系统中,可以安装进某个人的个性化语音对应文本文字数据库,使这个智能机器人与这个人达到无碍沟通、交流,而且只能让这个人正常使用,其他人不能正常使用,甚至无法使用。
附图说明
图1为本技术路线的系统流程框图
图2为本发明的结构和工作方法示意图。
在图2中,(1)是耳朵固定支架,(2)是语音采集触头,(3)是语音采集开关,(4)是连线,(5)是声音进入播孔,(6)是USB接口,(7)是显示面板和手写输入文字或软键盘输入文字屏幕,(8)是喇叭,(9)是语音单元复读按钮,(10)是数据显示按钮,(11)是数据库下载保存按钮,(12)是电源开关,(13)是数据库删除按钮。
具体实施方式
以下用实施例结合附图对本发明作进一步的详细说明:
原来的语音输入法,都是采取的“语音识别技术”,这条技术路线已经研究了近三十年,但无法解决将所有人发出的语音都能准确性地转化为文本文字,这并不是技术本身的问题,假如全世界人都能说出标准的语音,那么可以说这方面的技术没有问题了,但是能说出标准语音的人太少了。针对这个现象,我们重新设计出一条技术路线:“语音确定语义技术”,这条技术路线改变了由软件程序独自完成语音转化为文字的工作,而是由软件程序和发音者首先完成他的个性化语音对应文本文字数据库的建设,再将这个数据库应用到各种与语音相关的系统中。其本质原理在于:人们历来的操作,都是用手指,因为手指能准确无误表达人的意思,所以首先要让人的手指参与进去建立一个人特有的语音对应语义数据库,当这个数据库应用到其他系统中时,虽然当时这个人的手指没有发挥作用,其实质这个人的手指在发挥着作用,这就是这条技术路线能实现让每个人的语音输入达到精准效果的原因所在。
如图1所示,本系统软件部分主要包括语音采集模块、个性化语音单元模块、个性化语音数据库、个性化语义数据库、个性化语音对应语义数据库、语义规范模块和个性化语音对应标准语义数据库。语音采集模块采集发音者说话时发音器官发出的语音,语音特征包括:音高、音强、音质、音色、音频、音长、音速、声波、声调。个性化语音单元模块对语音采集模块采集到的语音进行分类整理,以单音节、双音节、多音节为单位建立语音单元。个性化语音数据库,以语音单元为基本单位建立个性化语音数据库。个性化语义数据库,由发音者以文本文字定义个性化语音数据库中的各语音单元。个性化语音对应语义数据库,将个性化语音数据库的语音单元与个性化语义数据库的文本文字一一对应,建立个性化语音对应语义数据库。语义规范模块,对个性化语音对应语义数据库进行分析规范,将个性化语音对应语义数据库中的文本文字,规范为本国语言本地语系的标准文本文字。个性化语音对应标准语义数据库,经语义规范模块将发音者的语音与标准语义对应,建立个性化语音对应标准语义数据库。
如图2所示,本系统的硬件为个性化语音对应文本文字数据库创建器,数据库创建器的语音采集部分安置在某个人的头部,语音采集触头伸向嘴边,数据库创建器将自动采集这个人定时或平时发出的个性化声波、声调、音频、音质、速度等(语音),经过整理后,以单音节、双音节、多音节为单位,创建这个人的语音单元,用这些语音单元建立这个人的个性化语音数据库,系统再将整理后的语音单元一一复读出,由发音者用手指确定各个语音单元所要表达的意义,发音者通过触摸显示屏将各种语音的语义以文本文字的形式输入系统,建立这个人的个性化语义数据库。语音数据库和语义数据库建立起对应关系,语音数据库有什么信息,语义数据库中就对应过来什么信息,形成一一对应。
系统带有语汇分析功能、语法分析功能、习惯用语分析功能,对这个人的个性化语义(文本文字)数据库进行整体评估分析、特性评估分析,找到与本国语言本地语系标准的语汇、标准的语法、标准的习惯的对应关系,规范数据库里的文本文字,将这个人的个性化语义升级为这个人的标准语义。从而使文本文字既能准确无误地反应出发音者的语义,又能符合本国语言本地语系文本文字的大众化标准化。
当系统的个性化语音对应文本文字数据库创建器采集到新的声波(语音)时,便增加到个性化声波(语音)数据库,不断丰富数据库内容。由发音者选定时间对新增加的语音单元进行确定语义的操作。经过一段时间的使用,本系统完成了这个人大部分的语音对应标准语义数据库的建设,本发明的数据库可以做为他的个性化语音语义程序模块,并可转换成各种程序语言,存蓄起来终生使用,随时随地安装到其他相适应的各种软硬件上去,与其它程序相配合,广泛应用。随着时间越来越久,系统几乎可以将这个人的所有语音全部采集进他的个性化语音数据库,更加熟习地掌握他的语汇范畴、语法特点、习惯用语,建立健全他的个性化语音对应标准语义库。
如图1所示,本技术的方法包括如下步骤:
步骤A,发音者发出语音;
步骤B,语音采集模块采集发音者说话时发音器官发出的语音,语音特征包括:音高、音强、音质、音色、音频、音长、音速、声波、声调;
步骤C,对语音采集模块采集到的语音进行分类整理,以单音节、双音节、多音节为单位建立个性化语音单元集合;
步骤D,以语音单元为基本单位建立个性化语音数据库;语音数据库在接收到新的语音单元时,与语音数据库的语音单元进行对比,如不相同,则存入语音数据库;
步骤E,由发音者以文本文字定义个性化语音数据库中的各个语音单元,建立个性化语义数据库;具体步骤为:
1)由声音设备将语音单元以原发音者的语音一一复读出来;
2)发音者将语音单元以自己认为的语义,用文本文字的形式输入系统;
3)建立发音者的语义数据库;
步骤F,将个性化语音数据库的语音单元与个性化语义数据库的文本文字一一对应,建立个性化语音对应语义数据库;
步骤G,由语义规范模块对个性化语音对应语义数据库进行分析规范:语汇分析、语法分析和习惯用语分析;将个性化语音对应语义数据库的文本文字,根据本国语言本地语系标准的字、词、句、语法、习惯规范为标准化大众化的文本文字;
步骤H,经语义规范模块将发音者的语音与标准语义对应,建立个性化语音对应标准语义数据库。
如图2所示,本发明的硬件的结构和工作方式如下:
一种个性化语音对应文本文字数据库创建器,它包括:语音采集部分耳朵支架、语音采集头、语音采集开关、机壳、控制电路集成主板、芯片组、微处理器、存储器、显示面板、手写输入文字或软健盘输入文字的屏幕、操作按钮、喇叭、插孔、插槽、电池与电池槽。
语音采集部分的耳朵支架挂在耳朵上,(2)触头伸向嘴边,由(4)连线插入数据库创建器主机的(5)声音输入插孔,连线上安装有(3)开关。
一组声音进入数据库创建器后,由系统分解成语音单元,存储在存储器中,再有一组声音进入数据库创建器后,由系统分析成语音单元,新的语音单元存储在存储器中,重复的语音单元不再存储。
发音者按数据库创建器上的(9)复读按钮,数据库创建器以保持发音者的声音将语音单元复读出,发音者在(7)显示屏上用手指输入自己认为的与此语音单元相对应的文字。发音者再次按数据库创建器上的(9)复读按钮,数据库创建器复读出下一个语音单元,以此类推,不断地由发音者与系统确定存储在数据库创建器中的语音单元与文字的对应关系。
发音者按数据库创建器上的(10)数据显示按钮,数据库创建器复读出语音单元,并在(7)显示屏上显示出与此语音相对应的文字,如果发音者认为正确,可再按一次(10)数据显示按钮,数据库创建器复读出下一个语音单元显示出下一个文字,如果发音者认为显示的文字不能正确表达这个语音的意思,可在(7)显示屏上进行修改,如果发音者认为这个语音单元不是自己的个性化语音(如噪音太大,或发音者掩饰了自己的个性化语音),删除这个语音单元。
数据库创建器集中时间工作或平时随意工作一段时间后,数据库创建器里采集的语音单元和输入的文字越来越多,采集的语音单元越来越接近于这个人所能发出的所有语音单元,也就是说系统和发音者共同创建的个性化语音对应标准文本文字数据库几乎完成了这个人所能发出的所有语音单元与文本文字的对应关系。将U盘、电脑、手机、万话机、普话机等等机具与本数据库存创建器的(6) USB接口相连接,按(11)保存按钮,这个人的个性化语音对应标准文本文字数据库以各种程序语言形式保存到这些机具中,以备将来使用。
按(13)删除按钮,本数据库创建器将清空里面所有的语音单元和文字,本数据库创建器,可移交给另一个人,再为另一个人创建他的个性化语音对应文本文字数据库。

Claims (4)

1.一种随身携带式创建个性化语音对应文本文字数据库的装置,包括:语音采集部分耳朵支架、语音采集头、语音采集开关、机壳、控制电路集成主板、芯片组、微处理器、存储器、显示面板、手写输入文字或软健盘输入文字的屏幕、操作按钮、喇叭、插孔、插槽、电池与电池槽。
2.按权利要求1所述一种随身携带式创建个性化语音对应文本文字数据库的装置,其特征在于,本发明装置安装有个性化语音采集与语义确定系统软件。
3.按权利要求1所述,其特征在于,一种随身携带式创建个性化语音对应文本文字数据库的装置,语音采集部分的耳朵支架(1)挂在耳朵上,语音采集头(2)伸向嘴边,连线(4)将语音采集部分与主装置连接。
4.按权利要求1所述一种随身携带式创建个性化语音对应文本文字数据库的装置,其特征在于,用手指按一下复读按钮(9),数据库创建器就复读出一个语音单元,发音者用手在手写输入文字或软健盘输入文字的屏幕(7)上输入文字,复读的语音单元与手输入的文字建立对应关系。
CN201210412819XA 2012-10-25 2012-10-25 随身携带式创建个性化语音对应文本文字数据库的装置 Pending CN103455530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210412819XA CN103455530A (zh) 2012-10-25 2012-10-25 随身携带式创建个性化语音对应文本文字数据库的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210412819XA CN103455530A (zh) 2012-10-25 2012-10-25 随身携带式创建个性化语音对应文本文字数据库的装置

Publications (1)

Publication Number Publication Date
CN103455530A true CN103455530A (zh) 2013-12-18

Family

ID=49737905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210412819XA Pending CN103455530A (zh) 2012-10-25 2012-10-25 随身携带式创建个性化语音对应文本文字数据库的装置

Country Status (1)

Country Link
CN (1) CN103455530A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123857A (zh) * 2014-07-16 2014-10-29 北京网梯科技发展有限公司 一种实现个性化点读的设备及方法
WO2017152824A1 (zh) * 2016-03-07 2017-09-14 陈勇 个性语音录入器
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN108304154A (zh) * 2017-09-19 2018-07-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
WO2019218467A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种音视频通话方言识别方法、装置、终端设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
CN102129793A (zh) * 2011-03-01 2011-07-20 珠海全志科技有限公司 一种实现电子书语音书签的方法及其系统、电子书管理系统
CN102215233A (zh) * 2011-06-07 2011-10-12 盛乐信息技术(上海)有限公司 信息系统客户端及信息发布与获取方法
CN102541505A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 语音输入方法及其系统
CN102543078A (zh) * 2010-12-09 2012-07-04 盛乐信息技术(上海)有限公司 电子名片系统及电子名片的语音录入方法、语音检索方法
CN102695134A (zh) * 2011-03-22 2012-09-26 富泰华工业(深圳)有限公司 语音短信系统及其处理方法
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
CN102543078A (zh) * 2010-12-09 2012-07-04 盛乐信息技术(上海)有限公司 电子名片系统及电子名片的语音录入方法、语音检索方法
CN102541505A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 语音输入方法及其系统
CN102129793A (zh) * 2011-03-01 2011-07-20 珠海全志科技有限公司 一种实现电子书语音书签的方法及其系统、电子书管理系统
CN102695134A (zh) * 2011-03-22 2012-09-26 富泰华工业(深圳)有限公司 语音短信系统及其处理方法
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
CN102215233A (zh) * 2011-06-07 2011-10-12 盛乐信息技术(上海)有限公司 信息系统客户端及信息发布与获取方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123857A (zh) * 2014-07-16 2014-10-29 北京网梯科技发展有限公司 一种实现个性化点读的设备及方法
CN104123857B (zh) * 2014-07-16 2016-08-17 北京网梯科技发展有限公司 一种实现个性化点读的设备及方法
WO2017152824A1 (zh) * 2016-03-07 2017-09-14 陈勇 个性语音录入器
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN108304154A (zh) * 2017-09-19 2018-07-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
CN108304154B (zh) * 2017-09-19 2021-11-05 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
WO2019218467A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种音视频通话方言识别方法、装置、终端设备及介质

Similar Documents

Publication Publication Date Title
CN110490213B (zh) 图像识别方法、装置及存储介质
CN110444191B (zh) 一种韵律层级标注的方法、模型训练的方法及装置
CN102831195B (zh) 个性化语音采集与语义确定系统及其方法
CN101923858B (zh) 一种实时同步互译语音终端
CN106874265B (zh) 一种与用户情绪匹配的内容输出方法、电子设备及服务器
US7818166B2 (en) Method and apparatus for intention based communications for mobile communication devices
CN101008942A (zh) 机器翻译装置和机器翻译方法
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN107992195A (zh) 一种教学内容的处理方法、装置、服务器及存储介质
CN103455530A (zh) 随身携带式创建个性化语音对应文本文字数据库的装置
CN111261144A (zh) 一种语音识别的方法、装置、终端以及存储介质
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN103137129A (zh) 语音识别方法及电子装置
CN110277088A (zh) 智能语音识别方法、装置及计算机可读存储介质
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
CN103730032A (zh) 多媒体数据控制方法和系统
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
CN102063282B (zh) 汉语语音输入系统及方法
CN114360510A (zh) 一种语音识别方法和相关装置
CN112086094A (zh) 一种纠正发音的方法、终端设备及计算机可读存储介质
CN106980640A (zh) 针对照片的交互方法、设备和计算机可读存储介质
RU2688758C1 (ru) Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале
CN111145734A (zh) 一种语音识别方法及电子设备
CN116955610A (zh) 一种文本数据的处理方法、装置以及存储介质
CN115019820A (zh) 一种触感感应和手指组合发声的聋哑人沟通方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131218