CN1391690A - 模板化特殊语音的系统和方法 - Google Patents

模板化特殊语音的系统和方法 Download PDF

Info

Publication number
CN1391690A
CN1391690A CN00816092A CN00816092A CN1391690A CN 1391690 A CN1391690 A CN 1391690A CN 00816092 A CN00816092 A CN 00816092A CN 00816092 A CN00816092 A CN 00816092A CN 1391690 A CN1391690 A CN 1391690A
Authority
CN
China
Prior art keywords
sound
data
computer
template
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00816092A
Other languages
English (en)
Inventor
史蒂文·J·基奥
凯瑟琳·阿克西亚·基奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STEVEN J KEOUGH
Original Assignee
STEVEN J KEOUGH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STEVEN J KEOUGH filed Critical STEVEN J KEOUGH
Publication of CN1391690A publication Critical patent/CN1391690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开的系统和方法捕获(103)声音起动部分,然后创建声音模板(127)或剖析特征信号,这些特征可在以后与另一个原噪声相组合,来重建原声音。于是,这样一种重建的声音,通过数字输入装置,可用来作以任何形式或内容的讲话,并且说原声音未曾以原形式说过的内容。发明了在线应用的产品和处理,作为某种业务方法和工业应用。

Description

模板化特殊语音的系统和方法
技术领域
本发明涉及保存和适配声音,准确地说为语音的系统、方法和产品。
背景技术
自哺乳动物时代开始以来,动物和其它生物就有了某种形式的声音或类似噪声的通讯。的确,这些噪声由于生物形态学,甚至在种群内形态学的不同而显得十分特别。生物的这种特殊性包括非常特别的发声方式和音调要素。不幸的是,当某人死亡或终止与听众接触时,就失去了倾听其有特殊声音的语音的乐趣。
今天,只有非常基本的介质记录形式可以保存声音,例如,用磁带或数字记录设备来记录某人的声音,并保留到以后听,且能像最初记录时那样重放,或者重放想要听的那部分。记录声音的这些设备和方法也包括由计算机产生的人为的声音内容,它有许多不同的作用,包括例如电话自动和验证,工具或仪器与用户之间基本的语言、电影和娱乐业的声音合成等。在某些应用中,这些人为的声音按照特殊的输入被编程为一组较窄的响应。虽然在某些情况下,更多的是这种响应,而不是仅仅实际声音的记录,但这种人为声音的录音绝不能与本发明鲁棒的声音能力作简单比较。的确,在本发明的某些实施例中,许多单元与这样的系统十分不同,或远远超过现有技术曾经设想或现有技术发现或革新所建议的系统。
世界的许多出版物公开了人工有声化的方面,同样,一些参考文献公开了应用和产生人工声音的系统和技术,但是,没有一篇公开了本发明的概念。
发明内容
提供记录或捕获某一具体人的声音的起动量以形成声音模式模板的系统和方法。该模板作为建立新的语言发声工具使用,用该模板,新语言的发音与该准确的声音一样,这些新语言可能从来没有被那个人说过或从来没有以这样的上下文或句子说过,而实际上的发音与那个人的实际语言在各个方面都相同。起动部分被设计成捕获重建该实际声音所必须的实际声音要素,但是,为了在起动语言不够的情况下预示重建或重创语言的限制,设置一个置信率是有用的。新的声音可结合主题内容数据库、历史数据、自适应或人工智能模块一起使用,使如同模板声音的原作者在现场一样能与用户进行新的讨论。这一系统和方法可与其它介质组合,如软件,装有芯片的工具,或其它形式。这一系统和方法的交互使用可以以各种方式进行。单元模块本身可包括实现本发明的整体,亦即一芯片或电子板,它构成在此描述方式的应用中捕获和使用声音。
模板是有用的,例如,作为捕获和产生新的与不能即现的人的对话,他可能已亡故,或甚至是同意有模板的声音并在这种应用中使用的人。另一例子是应用于介质,如电影或照片或其它实际声音创始者的描述录产生与原声创作者的虚拟对话。各种其它的使用和应用都在本发明的考虑范围之内。
附图说明
图1是本发明的一个系统工作实施例的流程图。
图2是一个声音捕获子系统实施例的原理图。
图3是一个声音分析子系统实施例的原理图。
图4是一个声音特征子系统实施例的原理图。
图5是一个声音模板子系统实施例的原理图。
图6是一个声音模板信号打包器子系统实施例的原理图。
图7是本发明用于遥控信息下载和上载选项的系统原理图实施例。
图8是本发明体现在可移动的紧凑部件内的一个实施例原理图。
图9是本发明用于视觉介质源的实施例原理图。
具体实施方式
声音是哺乳动物间特别的发音能力。母亲的声音甚至在孩子出生之前就能为孩子识别并能安抚孩子,祖父声音能平静成熟人的恐惧。其它声音可能激励完全的陌生人或引起对很久前事件和时刻的熟人的回忆。但是这是人与其它生物所具有特殊天资的少许例子;并且它们能用每种生物特有的声音去影响其它(和自己)。在人类中,例如,当说话或用声音或通过嘴、鼻气流的其它通讯时,某人声音的特殊性来源于其父母遗传的、影响发音的各人体器官的形状、大小和位置。其它影响也存在。因此,人之间,甚至在同一家庭内存在差别的范围是可以理解的。确实,同一个人,由于像健康状况、紧张程度、情绪状况、疲劳、环境温度、或其它因素等的临时影响其发音也会稍有不同。
但是,一般的共识是,人声音的质量代表一种非常独特的组合,它能从以前已听到的声音中辨别出来。人通过其感觉的关联能力是明显的,特别涉及到声音的识别和关联的感觉。生命的大小事件经常在数年或数十年后,由于曾经议论的性质或记住的音调而回忆起来。这就是声音的持久强度和激励能力。
当然,众所周知捕获和回放人的声音的介质和机器。在磁带和数字介质中,基本控制被记录的人的声音有意或无意地已作了数十年,但是这种控制受到人实际上已经说过的范围的限制,而不是能说什么。例如,播放、编辑、混合和重放有时甚至可以不同的速度来播放人实际说的段。语音应用的其它例子包括有意畸变声音部分的回放,如在卡通片或其它有关动物或某种音乐的音频。当然,动画媒体也已用了人工声音而无需用实际声音来产生。其中的一个例子是由某些电话和通讯系统用的产生“声音”的计算机。合成声音和发音的一种方法涉及链接,并涉及记录的波形数据样本或实际人的语音。然后,该方法把预先记录的原话分成段,并通过链接这些人语音段产生语音话语,以便构建音节,字或短语。这些段的大小可变。人语合成的另一种方法称为参考式,在这一方法中,数学模型被用来创建所要的语言发音。对于每一个所要的发音,用数学模型或数学函数来产生。这样,参数方法通常不需要人声作为要素。最后,通常还有已知的一些参数语音合成方法。一种称为清晰度合成器,它用数学模拟人体的肺、喉、声道和气道的物理状况。另一种参数语音合成器称为格式合成器,它用数学模拟人体声道的声学状况。
其它系统包括用于识别具体声音的装置,只要该系统已经以该声音进行过训练。其例子包括用于捕获口语并把它翻译成文本的各种语音识别系统,如听写系统等。其它语音有关的系统涉及生物统计学领域,以及某些口语词作为保密码或密码使用。没有一种这样的系统、方法、装置或其它发明形式考虑到本专利公开的发明,也没有作任何发明来考虑这种技术创新的需要。长期以来需要一种以动态和自适应的状态保存其它生命的声音以备将来使用或由原创者或其他人受益的系统和方法。还需要用于完成和利用这样的声音捕获和访形的系统和方法,它能代表连贯的、清晰的或地道的原创人的发音或声音,而这些可能从未由该原创者考虑过。实现这种系统的方法还带来附加的好处,使任何技术、文化和语言的所有人都能容易地使用。进一步骤的需要是新的业务方法、技术和模型,与补充的设备和其它装置一起,产生和促进访问特定声音模板,然后促进这些模板对需要或想要用的人的应用,无论是因业务还是娱乐。再说一遍,虽然在声音技术领域已实现了很多工作,但过去的努力都没有考虑到本发明,而仅仅注意新奇而至今未了解到到对这些发明的需要。
图1是系统10的一个实施例原理图,用来捕获具体声音的起动部分用作该声音特征的模板。系统10可以是手控设备的一部分,例如电子手控设备,或者它是膝上电脑,笔记本或桌面大小的计算设备;或系统10仅仅是另一设备内的线路板,或设计成暂时或永久放入的,或与其它电子元件、线路或系统一起用的电子组件或元件;或系统10整体或部分包括计算机可读码或仅仅神经系统内的逻辑或功能电路;或系统10可形成一些其它设备或产品,如分布网络式系统。在一个实施例中,系统10包括输入或捕获装置15,用来捕获或接收用于处理和构建声音算法的部分声音,或包括模板装置19,它可形成数据流、数据包、电信信号,软件编码装置,用来确定和再生具体的声音,或一组经组织的声音特征,应用于或模版化于另一种声音或噪声的组织,以其适合于安排像明显的原创者的声音或噪音。其它格式化计算机可续程序编码装置,或其它把某些视为同样的声音特征数据用于人工产生声音的装置也在本发明的内考虑。运算的逻辑和规则或模板装置19最好做成以最小的声音输入,但为了形成可接受的用于特别声音的数据组,需要各种声音的量和其它数据。
在本发明的一个实施例中,例如为了以少量的模拟或数字记录,或实时有声的输入形成模板的某人的声音,捕获语音的起动部分是需要的。的确,一组规定的字可以形成该人的最大相关声音特征的最佳数据捕获以重复该声音。分析装置用来考虑最有效的确定什么样的起动部分对特定的人最佳。无论是单个数据输入或一串输入,声音数据被捕获和储存在存储装置22的至少一部分。
声音数据分析是在处理器装置25中进行,以鉴别创建具体用户声音模板的特征。众所周知,声音数据可直接路由到处理装置而不需要起始进入存储装置22。处理器装置、存储装置和模板装置之间相互作用的示范讨论在下面进行,并表示在图2-8的关系中。在一个例子中,在足够的声音数据经分析之后,然后,存储声音的模板直到由处理装置25调用。例如,在声音AA经起动部分捕获、分析和选择之后(现表示为AAt),被存储在存储装置22中(它可或驻留在接近其它成分的地方或放在远距离或分布式模型的一个或多个位置),直到对它发出指令请求。指令请求的一个例子是系统10的用户通过典型的输入装置29呈送一个请求,以便利用声音AA的模板AAt在新创建的对话中与声音AA参与作为产生的声音,而不是实际使用的声音AA。这可能会发生联合或应用一个或多个各种数据库,其中一些是环境数据数据库33或个人数据库36所代表。于是,声音AA的模板AAt被调出并用来提供作为具有某些其它噪声的形成结构,以便产生新的对话声音AA’,该声音与原输入数据的原音精确地相像。虽然新声音AA’在所有方面都像原来的声音AA,但它实际上是用模板AAt产生的人工声音,AAt提供对声音AA的匹配的关键要素,如遗传码。在这一方法中,实际声音的起动部分可用模板对系统10编码,使允许用户以任何实际的形式再生和限制地使用该被捕获的声音。这不是声音AA位的先前发声的简单合成,该声音通过链接技术或用构形成分技术的电合成,而是全新的声音,它用声音AA的声音数据特征(即声音模板或仿形),和其它关于声音原创者的其它特征来设计,制造,组装或构建。
当然,已认识到这种技术的意义是深远的,并且需要保证这种模版化声音技术合适使用的安全装置。确实,这种技术需要进一步骤使用授权装置,只允许授权的用户访问和使用模板技术和数据。为了保证避免欺诈或未授权的用户用这种产生的声音,还需要鉴别听到的声音是实在的或模版化的附加装置。除了许可证、合同和已在大多数国家存在的其它手段之外,创建认可这一技术领域的法律手段可能也是需要的。
在图1中,连接装置41代表能量或数据流的路径,它可以是实际的引线,光通道或其它电子学、生物学或其它系统部件间可开启的路径。在一个实施例中,电源装置44表示在系统10内,但如需要也可放在远处。
在系统10的另一个实施例中,算法、信号,编码装置或创立的模板,整体或部分或可返回存储装置22、模版化装置19内,用于储存或修改,或可返回其它系统部件或结构内。这种能力允许和便于按创建者或别的用户的指示来完善或匹配专门的声音模板。如果同一人的声音的多组数据可以超时输入,或如果发生不同的年龄、发育、或其它原创声音者重理或性情变化的声音,那么这一工作可以实现。确实,训练模版化的声音来回忆以前约定的范围并包括这些未来操作的知识是可能的。在这些情况下,选择一个精细的模型来修改声音AA’的模板(AA’t)和用分析装置22或输入装置29的比较和更新来修改声音或模板是有用的。另一个例子包括声音BB的人的位置,该声音包括一个或多个类似声音AA的特征,AA声音是声音模板AA’t的原创者。在这种情况下,输入一个或多个声音BB的同样特征作为有限的或精细的声音AA’或声音模板AA’t的输入或许是有用的。于是,它可能也保持声音BB和产生声音BB’和声音模板BB’t,它们都可能在以后的日子里有用。另一个例子包括对单独声音的原创人创建一个各种经修改的声音数据库,系统或用户按照出现的情况提出要求时使用或作为它们的来用。在另一例子中,可提供对声音匹配的服务和提供合适的修改工具,如自然或人工产生的波形或其它声学或信号单元,来按照用户需要修改声音模板。
在进一步骤说明系统10或有关系统的实施例和方法之前,审查这种技术可能的应用是有用的。一般说来,这种应用的数目很多,很难把它们都列出来。但是,要考虑任何像声音的噪声的使用是在本发明范围内捕获,该噪声是由提供的数据和用于产生那种声音噪声的模板或编码工具产生的数据而产生,特别当这样的编码工具如果需要与其它噪声或声音产生装置一起用来再生与原创人实际声音相同的声音。这种所产生的声音在完全新的句子中的使用,或其它语言结构,也是在本发明的范围内。提供机器、部件,或作为信号形成或声音模板处理或产品传输的一部分的可读编码装置的能力进一步骤促进了这种技术的应用。联系或激活这一声音模版和声音产生技术用于数据流或其它数据形式的装置允许像仅仅提供信息或反应一样,用于虚拟对话,它可能是自适应的或智能的,这样的对话或谈话具有的声音是由用户选择的。也识别到这里公开的技术可像伴音一样用于视觉图像。
此外,相信这里描述的声音模板可以用并不包括原创者声音的实际起动部分的数据来产生,但是原创者声音的起动部分可与其它数据一起用,以确认原创者声音的准确性。在这种状态,可能使用声音的起动部分于声音的模版化中或仅仅对别的被模版化的声音准确性确认中。模版化或复制的声音可用于与计算机或其它机器和系统用于相互作有或提示。用户可从她自己的模版化声音程序库、另一个模版化声音源选择这样的模版化声音,或她可简单地创建新的声音。例如,模版化声音AA’可由用户选择用作语音邮件提示或读文本,或其它通讯界面,而模版化声音CC可选择用于有关交互表演使用。潜伏在用户机器内的缺点或问题或向设备用户发出警告信号可由用户在用模版化声音DD工作的同时来识别或解决。这是些简单的例子,表示这种技术怎样改善用户界面和怎样由用户应用这些技术与各种功能、任务、模型或其它特征相结合。模板选择和应用和产生的声音的形成和使用既可以在用户的机器或设备内完成,部分在用户机器或设备内完成,也可在用户机器和设备的外部完成。可能有一个或多个设备只是暂时使用的情况,如在旅馆房间内,会客间内,或其它过渡场景或有暂时设备使用的地方,但这些设备绝不提供在上面各种可变状态下的特性,例如,一个旅客可能想要携带或访问某种声音作为在飞机上或旅馆房间内该旅客的伴随。本发明可用于医院或医院房间内,或医院的其它地方。这些应用可能要用这里提到的一个或多个实施例。有趣的是,这一系统可由一些个人以他们自己的声音使用,也可作为遗产给别人。许多其它应用也在这里教导的范围内。
本发明的其它应用包括教育,如用选好的模版化声音教儿童数学和其它有关历史事件。例如,如果父母想要用孩子已故祖父母的一种声音教孩子学习美国60年代的种族关系,那么被选择的祖父母的模版化声音(如果有的话)被设计,制造和指定使用。系统10访问一个或多个数据库来捕获关于设定主题的信息和知识,并提供这些信息给系统10内的一个或多个数据库,如需要时用的情景数据库33。该祖父母的模版化声音EE’在访问所要的信息之后被使用,并且需要时该要求将由开始在设定的主题讨论的模版化声音EE’而得到满足。这种讨论可储存在系统10内或所要的远地方供以后使用,或该讨论也可在该祖父母,即该模版化声音,与孩子之间相互使用进行。借助于声音识别模块的使用,这种特性是可能实现的,声音识别模块能事先知道识别讨论中孩子的声音并包括足够的词汇和从孩子的角度出发来组合各种问题的神经认知。此外,提供从输入和声音识别模块到该系统模版化声音部分的桥梁,使能根据该模版化声音作出响应。根据描述在此的特殊用途构成这种结构时,各种语音识别工具都可设想用在这种状态中。当然,这种结构也需要快速搜索对问题的回答和形成适合于孩子听的响应的装置,很清楚,这一例子说明这种技术非一般的潜能,特别是当与合适的数据、系统能力和系统速度相结合时。
使用可选择的声音识别模块,可能只要用有限的特性就能使模版化声音的听众指向产生的声音,以便中止或继续,或能使某些其它特性具有某种要求。这是一种有限相互作用的形式,适合于某些类型但非全部类型的应用。即使用户不采用这种可选特性而仅仅代之以在缺乏祖父母声音的情况下安排故事或讨论,其对这种或其它类应用的效果和有用性也是巨大的。
在用户只希望使用与声音原创者的教育和生活经历一致的模版化声的情况下,它通过各种滤波器或修改器的输入是可能的。例如,模版化声音可再次选择前面祖父母的声音(模版化声音EE’),同时DATA DATES(数据日期)滤波器与被选定的日期“BEFORE DECEMBER 1963”(1963年12月前)结合使用,来讨论美国60年代的种族关系。其结果不包括任何在指定日期之后发生的信息的讨论。在这一例中,祖父母并不讨论1965年的投票权法(Voting Right Act)或该国60年代后期的城市暴乱。同样的方式可调整数据不同方面的数值或模版化声音本身,例如,用示于图4中的数据特征类型。但是,应承认其它调整是可能的并考虑在本发明范围之内,上面的例子仅仅代表本发明技术的能力。
在此公开的系统和方法的另一个实施例中,用户可控制某一个熟人或其它人的模版化声音向用户读出。在这一例中,对各种年龄的人,用缺席或亡故的家庭成员或其它熟人的声音读出给他们听是可能的。当组合大量合适结构的介质排列和计算机可读编码装置来实现数据链接时,这一发明本身将提供给用户巨大的利益。这类应用广泛超过这里给出的专门例子。的确,这种技术,这种状态的更广泛的应用在于要有一个经指定和模版化的声音数据库,它可以付费或其它补偿形式供其它人访问或使用。当用于音乐时,这种技术具有同样深远的意义,特别是,如果人们能访问过去和现在的著名歌唱家,他们的许多声音仍可用于模版化。很清楚,这一技术使一种新的制造业、租借业、洽谈业、或其它用声音模板的工业以及样关的装置、技术和开展业务的等方法的实现成为可能。
本发明在对某些次要或主要的心理疾病的医学处理上也有用处,其中合适的模版化声音的治疗用可很好地减轻甚至治疗疾病。这类技术的另种可能的应用在于创立一种新设计的声音来使用,但是它有一种或多种模版化动物声音的基础或储备。新产生的声音的主权和进一步骤使用可在各种手段或法律强制下控制,如许可证或版税等。当然,这些声音也可为私人所有限于创作者使用。人们可以想象可能创建的图书馆的性质。这些声音将代表创作者创作的意向,但每种声音实际上有真实哺乳动物声音的成分或语气,通过模版化工具或编码的应用作为基础,如同肌肉要素DNA,但可用于具体声音。这类基于声音和由哺乳动物产生的发音的组合代表强有力的新的通讯能力和相互关系。
按照本发明的系统可以手持或其它尺寸。系统可装在其它系统内或工作中单独使用。这里描述的系统和方法的部分或全部单元可在分布式的、网络或其它相互关系的遥控系统中。这里描述的系统和方法利用可下载或远距离可访问的数据,并且可用来控制各种其它系统或方法或处理。本发明的实施例包括暴露的界面程序,用于请求或实现这里发明的方法和操作,但是它可以整个或部分地由别的操作或应用系统来执行。模版化过程模版化声音的应用或者可由哺乳动物或者由人工机器或其它处理来完成和使用。例如,机器人或其它智能助手可产生或使用一种或多种这类声音。这一助手也可用来按照某种一般的或有限的准则自动搜索声音,然后在声音工厂里产生虚拟或实际的模版化声音。在这种状态中,可有效的产生模版化声音的大数据库。在这种或类似系统的使用中,需要产生和应用数据或其它类型的标记和鉴别技术到一个或多个用于产生模版化声音的实际声音的部分。
下面是应用本发明的应用例子,没有限制,只是作为除了本发明别的地方已提到的应用之外,提供可能应用的代表。
例1
用本实施例元件的模板方法产生一个声音编码信号,包括具体声音特征的逻辑结构用于准确地重现该声音。
例2
个人计算机提示器和更新器,状态报告器或应用一个或多个用本技术选择的声音的配对器。
例3
家庭能量监视器、报告器,或应用一个或多个用本技术的选择的声音的配对器。
例4
旅馆房间助理,或汽车助理,根据需要的提示提醒用户,如在旅馆里由用户选择声音的起床呼叫。同样,车辆驾驶员可收到声音或用户选择的声音的信息。
例5
用一个或多个用本技术的选择的声音于个人数字助理,手持个人计算设备,或在任何时候用于声音捕获、配对、警报等的电子设备或部件。
例6
产生或管理一个或多个选择的声音或声音模板于计算机/电子芯片的逻辑、指令、或编码装置中,用来实现本发明的业务、技术方法和制造。
例7
用声音模版化技术与其它视觉介质相结合,如与照片,数字电视或全息图像。
例8
用这里发明的技术与基于剖面卡的闪存储器相结合,用于插入任何能记录、放送或重建声音的设备。
例9
用这里发明的技术与个人的扫描和更新可下载信息的设备相结合,由于有想要的声音或某人选择的声音的用户。例如,它可能用于组织由机器人能做的活动,如信息机器人对背景的搜索和用户不在时的界面和随后用一种或多种用于技术的声音向用户报告状态。
例10
用这里发明的技术与一个或多个车辆或其它运输系统的部件相结合。
图11
用这里发明的技术与一个或多个飞机部件相结合,用于飞行中的陪伴。
例12
用这里发明的技术作为安全提醒,用于工作场所有一个或多个传动部件或设备时。例如个人计算机状态监视器、电气设备、危险设备等。
例13
用这里发明的技术,作为加入其它声音激发系统,例如听写设备,如提示、陪读,或文本阅读器。
例14
用这里发明的技术,用作社会调解或控制机构,如防止由驾驶员或自动激发的对道路的愤怒或其它形式的愤怒和受挫的工具,或用其它装置。
例15
用这里发明的技术作为家庭、学校或工作场所教学工具。
例16
用这里发明的技术用于启发阅读。
图17
用这里发明的技术作为家族历史机的工具。
图18
用这里发明的技术作为声音源和匹配技术的音乐匹配标记,为歌唱家有最好或想要的声音。
例19
用这里发明的技术作为电影或电视匹配技术用最好的声音的声音选择标记,用于已为原表演者所用表演剧的模版化或随后产生声音模板技术联合应用。
例20
用这里发明的技术作为“密友”设备,例如手控单元,它工作于“选择声音”或“声音X”标记模式,并具有与声音匹配的图像数据库,以及可以选择的无名模型,类似于例7。
例21
用这里发明的技术来创建模版化声音的轮廓。
例22
用这里发明的技术用作住房内床第阅读器或夜间同伴,用于监视或对话的安全。
图2是声音捕获子系统的一个实施例流程图,它包括计算机可读编码装置或用于实现捕获、分析和使用指定用于模版化的声音AA的方法。图3是声音分析子系统的一个实施例,它包括逻辑或方法装置,用于有效地确定声音数据特征的程序。在这些实施例中,声音AA是在捕获模块或步骤103中被捕获的,如路径106,通过模版化处理,由逻辑步骤和数据传导路径路由。捕获可以用数字或模拟的方法和部件来完成。代表被捕获声音AA的信号由分析装置111或通过方法来路由,以确定是否存在声音轮廓或模板匹配声音AA。这可以借助于比较由捕获模块103或由分析装置111确定的一个或一组特征(例如示于图4声音特征化子系统113)来实现。出现的反馈和初始分析环路114便利这些步骤,如路径116所作的那样。这种比较可包括询问声音剖析特征数据库或其它存储介质,或本地或远距离。分析模块111的分析步骤和声音特征化子系统113可根据算法,统计或其它技术重复,以确认被分析的声音是否有关或是否与现存的声音剖析特征或数据文件匹配。图4提供声音特征化子系统113的进一步骤详情。
再参考图2,如果相应于声音AA的信号不与现存声音剖析特征组匹配或相同,则该信号被送往特征化子系统进一步骤特征化。但是,如果现存声音剖析特征数据文件与声音AA的剖析特征信号相匹配,则模板的产生不需要在模块/步骤127中,在该情况下,该信号可被分析和/或特征化,用于产生经修正的剖析特征或模板,然后它本身被储存或应用。当有附加的特征化数据可用时(例如起动部分的大小,有没有重音,或其它因素)这种情况是可能发生的,这些附加特征在以前是不可用的。因此,具体声音数据文件可能包括一组模板。用通常表示在图2和图3中所示的验证子系统中的逻辑步骤和系统部件表示验证过程。至于子系统和部件相互位置关系,应强调这些图只是原理图。还有,如图3所示,在确定该声音剖析特征数据文件存在之后(步骤137),步骤139的验证逻辑可选择地进行。如果现有模板的修正是有价值的话,则在步骤142中产生。反过来,逻辑步骤145注意到不对现存模板作修正。接着步骤143或步骤145之后,新的、经修改的,或以前的声音剖析特征或模板被储存或用于步骤155。
图2的模板创建模块/步骤127包括利用声音特征化子系统,来产生一个唯一的鉴别器。它最好是数字鉴别器,用于该具体声音模版化或取剖析特征。理论上说,这种数据与遗传码、基因顺序码,或条形码相似,并像非常特殊的唯一目标、实体、或现象的鉴别器一样。因此,申请人将这种声音剖析特征或模板称为“声音模板技术TM”以及“声音DNATM或VDNATM”和“声音顺序码TM或声音顺序编码TM”。术语“剖析特征”和它的导出术语可用上面的商标术语或用于本新技术的其它参考术语代替。在模板产生之后,该声音模板可以被储存(示于储存模块或步骤161或用于模块或步骤164)。
图4是代表声音特征化子系统的原理图,这一公开包括至少一个特征数据实例和确定和特征化显著的数据来确定采用声音模版化或取声音剖析特征的声音的装置。如图4所示,各类数据在比较特征化数据的组成时是有用的。这一特征化数据将被用来按照编码准则创立声音的模板或剖析特征,虽然图4中的数据呈现离散模块的布置,但一个开放的比较器处理可能是优先的选择,其中任何数据可以各种访问顺序或加权的访问次序用来比较。如本图所示,无论如何,数据可包括:语言的种类,性别,方言,区域或重音(表示成“声音特征”在模块或步骤201的输出信号VC0);频率、间距、音调、持续时间、或幅度(表示成在模块或步骤203的输出信号VC1);年龄、健康、发音、词汇,或生理(表示在模块或步骤205的输出信号VC2);图形、句法、音量、过渡、或声音型式(表示成在模块或步骤207的输出信号VC3);教学、经验、节拍、背诵、或语法(表示成在模块或步骤209的输出信号VC4);职业、国藉、种族、风俗、环境(表示成在模块或步骤211的输出信号VC5);上下文、变异、规则/模型、起动部分类型、大小和数目(表示成在模块或步骤213的输出信号VC6);速度、情感、音群、类似性、或声学模型(表示成在模块或步骤215的输出信号VC7);数学模型、处理模型、信号模型、发声模型、或共享模型(表示成在模块或步骤217的输出信号VC8);矢量模型、自适应数据、分类、语音、或发音方法(表示成在模块或步骤219的输出信号VC9);片段、音节、组合、自学习、或无声(表示成在模块或步骤221的输出信号VC10);包裹、呼吸速率、音色、共振、或循环模式(表示成在模块或步骤233的输出信号VC11);谐波、合成模型、谐振、保真或其它特征(表示成在模块或步骤255的输出信号VC12);或各类其它技术用于唯一地鉴别声音的一部分(或一部分或全部)。例如,可进一步骤包括数字或模拟声音特征、调制、合成输入数据,或其它为本发明形成或使用的数据,他们都表示成在模块或步骤227的输出信号VCx。
识别到来自一个或多个模型或步骤的一种或多种数据类型可向声音模板提供值。还有,为本发明的目的,不论这里提到的,VCx包含任何已知在解释时的分类技术,只要在以后对具体声音确定唯一的声音剖析特征或模板有用,并根据本发明所教导的使用。还有,也识别到,与声音特征文件和输出信号VC0,VC1,VC2,VC3,VC4,VC5,VC6,VC7,VC8,VC9,VC10,VC11,VC12,VCx组合的数据可以优先化并以各种方式组合,以便准确地和有效地分析和特征化声音。用VCx代表仍有进一步骤的技术可结合在这里作参考。
图5和图6说明一个适合于接收各种声音特征数据的信号打包机模型,如数字或编码数据,它代表确认与模版化声音有关的信息和声音的格式。该信号打包机316结合信号内容模块或步骤332的输出和来自一个或多个信号VC0-VCx的值/存储,并格式化模块或步骤343的信号或编码,作为适合于各种潜在用户界面、设备或传输装置的转换和使用,以便产生声音模板、编码或信号VTx的输出。也认识到各种方法可用来创建一个唯一的鉴别器,来划分各种方法可用来创建一个唯一的鉴别器来描绘各种声音特征一从本发明有更宽的范围的观点看,各种可能性可用在这里,使某些成分分类法有某种程度的独立。
图7是一个代表性的电子询问和在声音模板产生或存储设备404和远方用户之间传递的结构和方法。在这一代表中,起动部分可以被各种用户410,413,416的任一个送到远地的声音模板产生或存储设备404。设备404产生或保存声音模板数据文件或保存声音模板信号。然后,该模板信号被送到或下载给用户或它的指定者,示于步骤437。在下载时,或在用户请求441之后,模板信号被格式化,以适合包括激发指令和协议的目的地设备使用,示于步骤/模块457。
图8是一个原理图,代表可移动介质,如卡、盘、或芯片,在其中根据用户模式和需要装有基本的部件,用于声音模板技术。例如,用图7和图8,提供给旅客一个旅馆门卡477,以核对进入旅馆。但是,除了现场保密码编程和线路479用于该卡之外,也使结合本发明的附加特性有用。在这种卡内,可选特性的代表包括装置481,用于接收和应用用于声音或旅馆在旅馆停留期间因各种目的选择的声音的声音模板。如图所示,这些特性可包括模板接收和存储单元501,噪声产生器或产生器线路506,中央处理单元511,输入/输出线路515,数模/模数转换单元518,时钟装置521。还有,各种其它单元也是有用的,如声压缩或扩展装置,如那些已知的在蜂窝电话工业中用的装置,或其它能使该卡具有所需功能的部件。于是,用户可在旅馆内享受以旅客选择的声音与无生命的设备对话或连接。的确,旅客声音的剖析特征甚至可保留这种声音喜欢的信息,并且某种附加可保留这种声音喜欢的信息,并且某种附加的帐单或利益也能通过这种发明的使用而自然增长。认识到本发明可在很宽的应用范围内和商品中使用。图8和图9的例子不应认为是限制。
图9是照片602的说明,它布置成具有可归因于图形Fjj的声音JJ和可归因于图形Fkk的声音KK的声音模板技术的交互使用。不论是计算机可读编码装置或简单的三维材料,与框610或其它结构相结合,用来连接照片的主体或对象,根据用户需要,以合适的声音模板重新产生好像发生或可能已发生的对话。
认识到有多种装置和方法用来捕获、分析和合成实际的或人工的声音成分。例如,下面的美国专利以及它们引证或列出的参考文献,列出一些用于捕获、合成、翻译、识别、特征化或其它分析声音的装置,并总体结合在这里参考:4,493,050;4,710,959;5,930,755;5,307,444;5,890,117;5,030,101;4,257,304;5,794,193;5,774,837;5,634,085;5,704,007;5,280,527;5,465,290;5,428,707;5,231,670;4,914,703;4,803,729;5,850,627;5,765,132;5,715,367;4,829,578;4,903,305;4,805,218;5,915,236;5,920,836;5,909,666;5,920,837;4,907,279;5,859,913;5,978,765;5,475,796;5,483,579;4,122,742;5,278,943;4,833,718;4,757,737;4,754,485;4,975,957;4,912,768;4,907,279;4,888,806;4,686,292;4,415,767;4,181,821;3,982,070;以及4,884,972。这些参考文献中没有一篇说明本发明权利要求书中或本发明其它地方作出的贡献。相反,上面提到的专利在本发明的一个或多个实施中说明是可以利用而不是必须的工具。这样,认识到各种系统、产品、装置、方法、处理、数据格式、数据有关的储存和传递介质、数据内容和其它方面都考虑在本发明内,以获得独特的,并非显而易见的创新、优点、产品和本发明技术的应用。因此,前面公开的内容应被认为是示例而不是限制。所以,权利要求书中提供了较宽的范围,根据发展的步骤实现技术的有效性,给这种领先技术无限制的权利。

Claims (48)

1.一种用于捕获具体声音起动部分的系统,该部分足可用来做该声音进一步使用时的模板,包括:
a.装置,以可用的形式捕获声音的起动部分,用于声音特征分析;
b.分析装置,用于接收和分析捕获到的声音,并用于该被捕获的声音的特征化要素作为特征化数据;
c.存储装置,用于从具体声音的分析装置接收特征化数据;
d.恢复装置,用于恢复分析和特征化数据供进一步使用。
2.根据权利要求1所述的系统,其特征在于捕获声音的装置包括数字记录装置。
3.根据权利要求1所述的系统,其特征在于捕获声音的装置包括闪存储卡。
4.根据权利要求1所述的系统,其特征在于捕获声音的装置包括模拟记录装置。
5.根据权利要求1所述的系统,其特征在于捕获声音的装置包括输入装置,用于接收活的声音和用于把这一声音传给分析装置。
6.根据权利要求1所述的系统,其特征在于分析装置包括数字数据存储装置。
7.根据权利要求1所述的系统,其特征在于分析装置包括用于鉴别在被捕获声音数据中的特定图形、句法、频率、讲话的音调的装置。
8.根据权利要求1所述的系统,其特征在于分析装置包括用于鉴别特定的词汇、发音或被捕获声音特有的重音的装置。
9.根据权利要求1所述的系统,其特征在于分析装置包括用于鉴别被捕获声音唯一有的特定特性的装置,该声音基本上是声音原创者的特定解剖学结构发出的。
10.根据权利要求1所述的系统,其特征在于分析装置包括用于确定被捕获的声音的原创者的特定词汇的装置。
11.根据权利要求10所述的系统,其特征在于分析装置包括用于设置词汇的装置,该词汇作为特征数据用于形成将来的模板化声音。
12.根据权利要求1所述的系统,其特征在于分析装置包括数字处理设备,用于数字处理以声音或被记录声音的数字表示形式的输入数据。
13.根据权利要求1所述的系统,其特征在于分析装置包括第二输入装置,用于接收与声音原创者的生理有关的附加数据。
14.根据权利要求13所述的系统,其特征在于分析装置的第二输入装置包括数字信号处理器装置,它适合于有选择地接收音频或其它包括关于声音原创者形态学的可视化信息的数据。
15.根据权利要求1所述的系统,其特征在于分析装置包括用于比较输入声音数据与存储的数据的装置,该存储数据包括年龄数据、语言数据、教育数据、性别数据、职业数据、重音数据、国藉数据、种族数据、声音类型数据、风俗数据和设置数据。
16.根据权利要求1所述的系统,其特征在于分析装置包括第三输入装置,用于接收关于声音原创者的数据,包括年龄数据、教育数据、性别数据、职业数据、重音数据、国藉数据、种族数据、声音类型数据、风俗数据、语言数据和环境数据。
17.一种产生声音噪声的方法,该噪声在语音上与实际的具体人的声音相同,包括下列步骤:
a.捕获具体的声音的起动部分,用于存储和使用;
b.存储具体语音的起动部分;
c.分析起动部分,以鉴别被捕获的声音的基本成分或特征;
d.用经鉴别的基本成分或特征创建新的声音,当从一个或多个数据库装置分配数据和收听时,对于具有正常辨别能力的听众,创建的新声音在各个方面都与该具体人的声音相同。
18.根据权利要求17所述的方法,其特征在于分析步骤包括鉴别被捕获的具体人声音的起动部分中的成分,至少包括下列中一个成分:频率、音调、间距、音量、重音、性别、谐波结构、听觉触力、语音的或定时的重音、功率和周期性。
19.根据权利要求18所述的方法,其特征在于捕获具体人声音的起动部分用于储存和使用的步骤包括捕获具体人声音的喉部产生的噪声或气湍流产生的噪声。
20.一种准确地重现人声音的方法,包括如下步骤:
a.鉴别最小限度的数据组,包括词、语音或短语的组合,它必须是要重现的声音原创者提供的;
b.捕获介质中发送的要重现的声音原创者发出的词、语音和短语的组合;
c.分析捕获的上述声音来鉴别原创者声音的特征,使足以用鉴别的这些特征人工产生该声音,所以,该人工产生的声音对于有正常声音分辨能力的听众,当听到用某些并不包含在捕获到的实际声音的语言成分所产生的声音时,人工产生的声音在所有方面是相同的。
21.一种制造的产品,包括:
a.具有计算机可读程序编码装置的计算机可用的介质,用于做人声音的复制品,在所述制造产品中的计算机可读程序编码装置包括:
b.计算机可读程序编码装置,用于使计算机实现对捕获到的原创声音的起动部分的分析,以鉴别足能以人工产生该声音的特征数据;
c.计算机可读程序编码装置,使用被鉴别的声音特征数据人工地产生声音,所以,对于有正常声音辨别能力的听众,当听到用某些并不包含在捕获到的原创者实际声音的语言成分所产生的声音时,人工产生的声音在语音和用法上是相同的。
22.根据权利要求21所述的制造产品,其特征在于还包括计算机可读程序编码装置,用于储存以后使用的所产生的声音。
23.根据权利要求21所述的制造产品,其特征在于还包括计算机可读程序编码装置,用于用声音特征数据来产生声音原创者的声音剖析特征。
24.根据权利要求21所述的制造产品,其特征在于还包括计算机可读程序编码装置,用于访问数据库装置,该数据库装置储存包括下列各项的数据:年龄数据、教学数据、性别数据、职位数据、重音数据、语言、国藉数据、种族数据、声音类型数据、风俗数据、一般数据和设置数据。
25.一种用于听觉输出设备的计算机程序产品,所说的计算机程序产品包括:
a.具有计算机可读程序编码装置的计算机可用介质,用于通过一个听觉输出设备产生人声音的复制品,计算机程序产品包括:
b.计算机可读程序编码装置,由于使计算机实现对捕获到的原创者声音起动部分的分析,以鉴别足能以人工产生该声音的声音特征数据;
c.计算机可读程序编码装置,使用被鉴别的声音特征数据,以便通过听觉输出设备人工地产生和输出声音,所以,对于有正常辨别能力的听众,当听到某些并不包含在捕获到的实际声音的语言成分所产生的声音时,人工产生的声音在语言和用法上是相同的。
26.一种用于显示设备的计算机程序产品,所说的计算机程序产品包括:
a.具有计算机可读程序编码装置的计算机可用介质,用于产生人声音的复制品和验证显示在显示设备上的被复制的声音的准确性,计算机程序产品包括:
b.计算机可读程序编码装置,用于使计算机实现对捕获到的原创者声音的起动部分的分析,以鉴别足够以人工产生该声音的声音特征数据;
c.计算机可读程序编码装置,使用被鉴别的声音特征数据人工地产生声音和在显示设备上把这一产生的声音特征与原创者声音比较,所以,该人工产生的声音,当在显示设备上选择指示,并当听众听到用某些并不包含在捕获到的实际声音的语言成分所产生的声音时,人工产生的声音对听者来说在语音上是一样的。
27.一种用于听觉输出设备的计算机程序产品,所说的计算机程序产品包括:
a.具有计算机可读程序编码装置的计算机可用介质,用于通过一个听觉输出设备产生人声音的复制品,计算机程序产品包括:
b.计算机可读程序编码装置,用于引起声音特征数据文件的接收和激活,该特征数据文件专用于足以人工产生该具体声音;
c.计算机可读程序编码装置,使用被鉴别的声音特征数据,以便通过听觉输出设备人工地产生和输出声音,所以,对收听者来说,当听到产生的声音和捕获到的原创者实际声音时,人工产生的声音与收听者听到的声音相同。
28.一种用于电子设备的计算机程序产品,所说的计算机程序产品包括:
a.具有计算机可读程序编码装置的计算机可用介质,用于起动人声音的复制,计算机程序产品包括:
b.计算机可读程序编码装置,用于引起声音特征数据文件的接收和触发,该特征数据文件专用于足以人工产生该具体声音;
c.计算机可读程序编码装置,用于引起已鉴别的声音特征数据文件和一个噪声产生装置的声音输出到人工产生的声音中,所以,该人工产生的声音在语言上与原创者实际声音相同。
29.一种存储数据的存储器,用于应用程序在数据处理子系统中执行时的访问,包括:
a.存储在所说的存储器中的数据结构,所说的数据结构包括驻留在数据库中的信息,该数据库由所说的应用程序使用,并包括:
b.至少一个存储在所说的存储器中的声音起动部分数据文件,每一所说的起动部分数据文件组含有实质上与任何其它声音起动部分数据文件组不同的信息;
c.一组声音特征数据文件,含有不同的参考信息,用于一组声音特征;
d.一组声音剖析特征组,每个具有至少一个声音剖析特征数据文件,其数据只属于该数据文件特有;其中,数据结构允许对声音特征数据文件和声音剖析数据文件的访问,以进行与至少一个声音起动部分数据文件的比较操作。
30.一种数据处理系统,执行应用程序并含有由该应用程序使用的数据库,所说的数据处理系统包括:
a.CPU装置,用于处理所说的应用程序;
b.存储装置,用于保持数据结构为所说的应用程序访问用,所说的数据结构由驻留在数据库中的信息组成,该数据库由所说的应用程序使用并包括:
至少一个储存在所说的存储器内的声音起动部分数据文件,每个所说的声音起动部分数据文件组含有实质上与任何其它声音起动部分数据文件组不同的信息;
一组声音特征数据文件,含有不同的参考信息,用于一组声音特征;
一组声音剖析特征组,每个具有至少一个声音剖析特征数据文件,它具有只属于该数据文件的特殊数据;
c.数据处理系统允许对声音特征数据文件和声音剖析数据文件的访问,以进行与至少一个声音起动部分数据文件的比较操作。
31.一种传输介质中的计算机数据信号,包括:
a.加密源码,用于唯一的声音剖析特征的模板,可用于密钥附加电子噪声来创建特定的产生的声音;
b.载体介质,适用于把加密的源码放在一个位置并构成加密源码,所以,加密源码作为密钥可从应用的载体介质移开,以创建产生的声音。
32.一种使用选择的声音作为电子设备的个人声音助理的方法,包括如下步骤:
a.激活电子装置,用于访问一个远距离的数据库;
b.把信号部分传给远地含有声音数据库的数据库,该声音数据库含有一组声音剖析特征组,每组至少有一个声音剖析特征数据文件,该文件具有只属于该数据文件的特殊数据并可用唯一性鉴定器来鉴定。
c.把信号部分传给远地数据库,来唯一地鉴别所要的数据文件,然后实现把该数据文件的内容传递给用户指定的电子设备位置;
d.使用选择的并被传送的数据文件作为声音的模板,并与电子设备产生的适当噪声或与其他产生这种噪声的装置组合,以致如要求的一样,用户以鉴别的声音确定的选择的声音从电子设备接收噪声。
33.根据权利要求32所述的方法,其特征在于该数据文件包括,安排成像计算机可读程序编码方法的被选声音的数据特征,以便使用被鉴别声音特征数据人工地产生声音模板。
34.根据权利要求32所述的方法,其特征在于实现步骤包括授权装置的应用,该授权装置只允许被授权的用户访问和使用声音模板技术和数据。
35.根据权利要求32所述的方法,其特征在于实现步骤包括有选择的访问验证装置的应用,用来验证听到的声音是实在的或者是模板产生的。
36.一种进行业务的方法,其中,系统用来捕获具体声音的起动部分,使足够用它作为模板来进一步使用该声音,包括如下步骤:
a.以有利于分析声音特征的形式捕获声音的起动部分;
b.把该起动部分输入到分析模块中,用于特征化被捕获的声音要素作为特征数据;
c.从分析模块接收特征数据,用于特定的声音;
d.存储该特征数据为将来使用。
37.根据权利要求36所述的方法,其特征在于用于捕获声音的装置包括数字输入装置。
38.根据权利要求36所述的方法,其特征在于声音的起动部分由电子的方法接收。
39.根据权利要求36所述的方法,其特征在于特征化数据被打包,形成声音模板信号,用于与产生的噪声联合产生模版化的声音,其语音像原来具体的声音。
40.根据权利要求36所述的方法,其特征在于被模版化的声音这样控制,使被模版化的声音可接收语音输入指令,使在模版化声音中发出新的词,但它未曾由该具体声音输入过。
41.一种自动机器,用于捕获具体声音的起动部分和用该部分作为模板,用于模版化声音的将来使用,包括:
a.获取模块,用于分析声音特征有用的形式获取声音的起动部分;
b.分析模块,用于接收和分析被捕获的声音和用于被捕获声音的特征化要素作为特征数据;
c.模板产生器模块,用于自动产生声音模板信号,作为被捕获的具体声音的唯一鉴别器。
42.根据权利要求41所述的机器,其特征在于还包括通讯装置,用于与存储装置的通讯,该存储装置用于从数据库接收特征化数据。
43.根据权利要求41所述的机器,其特征在于还包括与存储设备通讯的通讯装置,该存储装置用来存储已产生的模板,直到被请求时为止。
44.一种在线产生声音模板和为此产生收入的方法,包括:
a.捕获具体声音的起动部分;
b.分析该部分,来产生数据剖析特征,该特征确定了为以后应用可重建该声音的特征;
c.产生声音模板信号,作为被捕获的具体声音的唯一鉴别器;和
d.提供至少一种已产生的数据剖析特征用于他人的商业应用。
45.一种机器操作方法,用于产生声音模板和为此产生收入,包括:
a.捕获具体声音的起动部分;
b.分析具体声音的起动部分,用来产生数据剖析特征,该特征确定了被捕获的声音的特征,以这种方式,在以后应用时可重建;
c.使用数据剖析特征产生声音模板信号,作为被捕获的具体信号的唯一鉴别器;
d.提供至少一种声音模板信号供商业用。
46.一种产生声音模板的业务方法,包括:
a.捕获具体声音的起动部分或模版化声音;
b.用计算机装置分析声音的起动部分,来产生数据剖析特征,该特征确定了捕获声音的特征,以这种方式,在以后应用时可重建;
c.电子产生和保存声音模板信号,作为被捕获声音的唯一鉴别器;
d.提供至少一种声音模板信号用于商业应用。
47.根据权利要求46所述的进行业务的方法,其特征在于提供的步骤是在电子数据交换中完成的。
48.从一组声音产生声音模板的方法,包括:
a.捕获一组声音的起动部分或模版化声音;
b.用计算机装置分析该部分来产生数据剖析特征,该特征确定了被捕获声音的特征,以这种方式,它可以打包成单个的声音信号,以适合于在以后使用时可重建;
c.电子产生声音模板信号,作为新产生的声音的唯一鉴别器。
CN00816092A 1999-11-23 2000-11-23 模板化特殊语音的系统和方法 Pending CN1391690A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16716899P 1999-11-23 1999-11-23
US60/167,168 1999-11-23

Publications (1)

Publication Number Publication Date
CN1391690A true CN1391690A (zh) 2003-01-15

Family

ID=22606225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00816092A Pending CN1391690A (zh) 1999-11-23 2000-11-23 模板化特殊语音的系统和方法

Country Status (13)

Country Link
EP (1) EP1252620A1 (zh)
JP (1) JP2003515768A (zh)
KR (1) KR20020060975A (zh)
CN (1) CN1391690A (zh)
AP (1) AP2002002524A0 (zh)
AU (1) AU2048001A (zh)
BR (1) BR0015773A (zh)
CA (1) CA2392436A1 (zh)
EA (1) EA004079B1 (zh)
IL (1) IL149813A0 (zh)
NO (1) NO20022406L (zh)
WO (1) WO2001039180A1 (zh)
ZA (1) ZA200204036B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622659B (zh) * 2007-06-06 2012-02-22 松下电器产业株式会社 音质编辑装置及音质编辑方法
CN109298642A (zh) * 2018-09-20 2019-02-01 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
RU2617918C2 (ru) * 2015-06-19 2017-04-28 Иосиф Исаакович Лившиц Способ формирования образа человека с учетом характеристик его психологического портрета, полученных под контролем полиграфа
KR101963195B1 (ko) * 2017-06-21 2019-03-28 구동하 사용자 음성을 이용한 생리 주기 결정 방법 및 이를 실행하는 서버
KR102466736B1 (ko) * 2021-06-18 2022-11-14 주식회사 한글과컴퓨터 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5007081A (en) * 1989-01-05 1991-04-09 Origin Technology, Inc. Speech activated telephone
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
CN101622659B (zh) * 2007-06-06 2012-02-22 松下电器产业株式会社 音质编辑装置及音质编辑方法
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device
CN109298642B (zh) * 2018-09-20 2021-08-27 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置
CN109298642A (zh) * 2018-09-20 2019-02-01 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置

Also Published As

Publication number Publication date
CA2392436A1 (en) 2001-05-31
EP1252620A1 (en) 2002-10-30
WO2001039180A1 (en) 2001-05-31
NO20022406L (no) 2002-07-12
EA004079B1 (ru) 2003-12-25
EA200200587A1 (ru) 2002-10-31
KR20020060975A (ko) 2002-07-19
AU2048001A (en) 2001-06-04
NO20022406D0 (no) 2002-05-21
JP2003515768A (ja) 2003-05-07
ZA200204036B (en) 2003-08-21
BR0015773A (pt) 2002-08-06
AP2002002524A0 (en) 2002-06-30
IL149813A0 (en) 2002-11-10

Similar Documents

Publication Publication Date Title
US20020072900A1 (en) System and method of templating specific human voices
JP6876752B2 (ja) 応答方法及び装置
Bendel The synthetization of human voices
US20110219940A1 (en) System and method for generating custom songs
Franzoni et al. Emotional sounds of crowds: spectrogram-based analysis using deep learning
CN1391690A (zh) 模板化特殊语音的系统和方法
Lim et al. Towards expressive musical robots: a cross-modal framework for emotional gesture, voice and music
US20050108011A1 (en) System and method of templating specific human voices
CN113010138A (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
CN110459201B (zh) 一种产生新音色的语音合成方法
Reimao Synthetic speech detection using deep neural networks
US11587561B2 (en) Communication system and method of extracting emotion data during translations
Amezaga et al. Availability of voice deepfake technology and its impact for good and evil
Oyucu A Novel End-to-End Turkish Text-to-Speech (TTS) System via Deep Learning
Parker et al. ‘All possible sounds’: speech, music, and the emergence of machine listening
WO2004008295A2 (en) System and method for voice characteristic medical analysis
CN111696517A (zh) 语音合成方法、装置、计算机设备及计算机可读存储介质
Lee et al. The Sound of Hallucinations: Toward a more convincing emulation of internalized voices
Camastra et al. Machine Learning for Audio, Image and Video Analysis.
Hatem et al. Human Speaker Recognition Based Database Method
Lockhart Listening to the domestic music machine
Ramati The Orientalized Phonograph: The Mechanical Recording of Oral Jewish Tradition
Danylov OPEN SOURCE AND PROPRIETARY SOFTWARE FOR AUDIO DEEPFAKES AND VOICE CLONING: GROWTH AREAS, PAIN POINTS, FUTURE INFLUENCE
Lee et al. Transformer-Based Virtual Engine Sound Generation Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication