CN111048098A - 语音校正系统及语音校正方法 - Google Patents

语音校正系统及语音校正方法 Download PDF

Info

Publication number
CN111048098A
CN111048098A CN201811249863.7A CN201811249863A CN111048098A CN 111048098 A CN111048098 A CN 111048098A CN 201811249863 A CN201811249863 A CN 201811249863A CN 111048098 A CN111048098 A CN 111048098A
Authority
CN
China
Prior art keywords
speech
output result
database
input
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811249863.7A
Other languages
English (en)
Other versions
CN111048098B (zh
Inventor
陈冠中
宋志伟
简佑丞
陈怡玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN111048098A publication Critical patent/CN111048098A/zh
Application granted granted Critical
Publication of CN111048098B publication Critical patent/CN111048098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种语音校正系统,包含:一储存装置及一处理装置。储存装置用以储存一第一数据库。处理装置包含:一音频接收器、一语音辨识引擎、一运算模块以及一判断模块。音频接收器接收多个输入语音。语音辨识引擎辨识此些输入语音,并产生对应每个此些输入语音所对应的多个候选词汇及每个此些候选词汇对应到的一词汇机率。运算模块将所有此些候选词汇中相同者所各自对应到的词汇机率执行一特定运算,以对应产生多个运算结果。判断模块判断每个此些运算结果是否大于一分数阈值,并将大于分数阈值的至少一个输出结果储存至第一数据库。

Description

语音校正系统及语音校正方法
技术领域
本发明关于一种接收语音的系统,特别关于一种语音校正系统及语音校 正方法。
背景技术
现有的语音辨识模型,例如Google Speech API,是通过大量语音数据训 练而产生,但每个人的口音略有不同因而导致错误的辨识结果。
此外,现有的目前语音互动模式,多使用特定的指令进行沟通与互动。 但往往指令会因为上述提及的口音不同,而发生辨识错误,造成用户难以实 行语音互动功能。
举例来说,Android系统使用特定的指令,如“OK Google”作为开启 Google搜索引擎的预设语音。当用户说出“OK Google”而被语音辨识模型辨 识为“OK Google”语音时,由于与预设的“OK Google”指令相同,因此开启 Google搜索引擎。在上述流程中若因用户口音的不同导致语音辨识模型辨识 成其他的语音,例如辨识成“OK Geegle”,则由于与预设的“OK Google”指令 不同,因此无法开启Google搜索引擎。
因此,上述现有方式仍有待加以进一步改进。
发明内容
为了解决上述的问题,本公开内容的一态样提供了一种语音校正系统, 包含:一储存装置以及一处理装置。储存装置用以储存一第一数据库。处理 装置包含:一音频接收器、一语音辨识引擎、一运算模块以及一判断模块。 音频接收器用以接收多个输入语音。语音辨识引擎用以辨识此些输入语音, 并产生对应每个此些输入语音所对应的多个候选词汇及每个此些候选词汇 对应到的一词汇机率。运算模块用以将所有此些候选词汇中相同者所各自对 应到的词汇机率执行一特定运算,以对应产生多个运算结果。判断模块用以判断每个此些运算结果是否大于一分数阈值,并将大于分数阈值的至少一个 输出结果储存至第一数据库。
本发明的另一态样在于提供一种语音校正方法包含:接收多个输入语 音;辨识该些输入语音,并产生对应每个该些输入语音所对应的多个候选词 汇及每个该些候选词汇对应到的一词汇机率;将所有该些候选词汇中相同者 所各自对应到的该词汇机率执行一特定运算,以对应产生多个运算结果;以 及判断每个该些运算结果是否大于一分数阈值,并将大于该分数阈值的至少 一个输出结果储存至一第一数据库。
本发明所示的语音校正系统及语音校正方法,能在输入语音指令时,随 着用户口音不同,进行新增语音的辨识,可以提供不同用户定制化的语意辨 识效果,此外,通过不同指令而将对应的输出结果储存在对不同的数据库, 可在辨识新增语音时,提升辨识用户真正想表达的语意的效率。
附图说明
图1是依照本发明一实施例绘示一种语音校正系统的方块图。
图2是根据本发明的一实施例绘示一种语音校正方法的流程图。
图3是根据本发明的一实施例绘示一种语音校正方法的流程图。
图4是根据本发明的一实施例绘示一种语音校正方法的一示例。
图5是根据本发明的一实施例绘示一种应用语音校正方法的流程图。
符号说明
100:语音校正系统
10:储存装置
DB1:第一数据库
20:处理装置
22:音频接收器
24:语音辨识引擎
26:运算模块
28:判断模块
200、300、400、500:语音校正方法
210~250、310~350、410~490、510~530:步骤
具体实施方式
以下说明是为完成发明的较佳实现方式,其目的在于描述本发明的基本 精神,但并不用以限定本发明。实际的发明内容必须参考所附的权利要求范 围。
必须了解的是,使用于本说明书中的“包含”、“包括”等词,是用以表 示存在特定的技术特征、数值、方法步骤、作业处理、元件以及/或组件,但 并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件, 或以上的任意组合。
于权利要求中使用如“第一”、“第二”、“第三”等词是用来修饰权利要 求中的元件,并非用来表示之间具有优先权顺序,先行关系,或者是一个元 件先于另一个元件,或者是执行方法步骤时的时间先后顺序,仅用来区别具 有相同名字的元件。
请参照图1~图2,图1是依照本发明一实施例绘示一种语音校正系统100 的方块图。图2是根据本发明的一实施例绘示一种语音校正方法200的流程 图。
如图1所示,语音校正系统100包含一储存装置10及一处理装置20。 其中,储存装置10用以储存一第一数据库DB1,处理装置20包含一音频接 收器22、语音辨识引擎24、运算模块26及判断模块28。
于一实施例中,储存装置10可被实作为只读存储器、闪存、软盘、硬 盘、光盘、随身碟、磁带、可由网络存取的数据库或熟悉此技术者可轻易思 及具有相同功能的储存媒体。于一实施例中,储存装置10用以储存数据库 DB1(如图1所示)。数据库DB1可用以储存至少一预设指令,如“open fridge”, 用以开启特定的应用程序。
于一实施例中,音频接收器22用以接收多个语音指令。于一实施例中, 音频接收器22可以是一麦克风或其他具有收音功能的装置。于一实施例中, 音频接收器22可以放置于处理装置20的外部。
于一实施例中,处理装置20可以是任何具有运算功能的电子装置。于 一实施例中,语音辨识引擎24、运算模块26及判断模块28可以各别或合并 由集成电路如微控制单元(micro controller)、微处理器(microprocessor)、数字 信号处理器(digital signalprocessor)、特殊应用集成电路(application specific integrated circuit,ASIC)或一逻辑电路来实施。
于一实施例中,请参图2,于步骤210中,音频接收器22用以接收多个 输入语音。于一实施例中,语音校正系统100通过用户界面请用户对着音频 接收器22说出5次指令,例如“open fridge”,音频接收器22接收此些输入 语音。所谓指令是指系统作为致能特定动作的预设语音,如上述“open fridge”,可设定为开启特定App。
于一实施例中,此些输入语音代表相同含义的一待校正语意,如上述用 户所说的5次“open fridge”,即使发音不一定每次都标准,但含义都是开启 (enable)一语音应用程序,例如用以唤起冰箱管理应用程序。
于步骤220中,语音辨识引擎24用以辨识此些输入语音,并产生对应 每个此些输入语音所对应的至少一个候选词汇及每个此些候选词汇对应到 的一词汇机率。于一实施例中,语音辨识引擎24可以采用已知的语音辨识 软件以实现,故此处不再赘述。
于一实施例中,语音辨识引擎24辨识其中一次输入语音(例如用户第一 次的输入语音,即发出“open fridge”指令的输入语音),辨识结果如至少一 个候选词汇例如为“open French”、“open fridge”及“open in French”等,而 该些候选词汇所对应的词汇机率分别为:“open French”(候选词汇)所对应的 词汇机率为0.95,“open fridge”(候选词汇)所对应的词汇机率为0.92,“open in French”(候选词汇)所对应的词汇机率为0.89。
换句话说,语音辨识引擎24会逐一辨识每一个输入语音,每次辨识会 产生至少一个候选词汇及每一至少一个候选词汇所对应的词汇机率。
于步骤230中,运算模块26用以将所有此些候选词汇中相同者所各自 对应到的词汇机率执行一特定运算,以对应产生多个运算结果。
举例来说,语音辨识引擎24辨识用户5次的输入语音的辨识结果,其 中有3次的辨识结果包含“open fridge”的候选词汇,有5次辨识结果包含 “open French”的候选词汇,有3次辨识结果包含“open in French的候选词 汇”,有2次辨识结果包含“opencartridge”的候选词汇。此时,运算模块 26将相同的候选词汇所对应的词汇机率进行相加,即得到“open fridge”为 2.46(5次辨识结果中包含3次,此3次辨识结果分别对应的词汇机率分别为 0.82、0.81、0.83,运算模块26将此3个值相加所得的值为2.46)“,openFrench” 为3.67(5次辨识结果包含5次,此5次辨识结果分别对应的词汇机率分别为 0.73、0.81、0.82、0.70、0.61,运算模块26将此5个值相加所得的值为3.67), “open in French”为1.92(5次辨识结果包含3次,此3次辨识结果分别对应 的词汇机率分别为0.64、0.64、0.64,运算模块26将此3个值相加所得的值 为1.92),“open cartridge”为0.89(5次辨识结果包含2次,此2次辨识结果 分别对应的词汇机率分别为0.49、0.40,运算模块26将此2个值相加所得的 值为0.89)。
于一实施例中,特定运算是指运算模块26将所有候选词汇中相同者所 对应的词汇机率进行相加、计算平均值或其他数学运算,以产生的运算结果。
于步骤240中,判断模块28用以判断每个此些运算结果是否大于一分 数阈值。
于一实施例中,分数阈值(例如为3)是由音频接收器22接收到输入语音 的次数(例如5次)乘以一置信度(例如为0.6)而得。于一实施例中,置信度介 于0~1之间,可依实际操作环境设置。
一般而言,当置信度或是输入语音的次数越高,会使分数阈值越高,能 够通过阈值的运算结果就越少,可以取得较精准的语音分析结果。例如,当 分数阈值设定为3时,判断模块28会筛选出候选词汇“open French”的运算 结果3.67大于分数阈值。又例如,当阈值为2时,判断模块28会同时筛选 出候选词汇“open French”(运算结果为3.67)以及候选词汇“open fridge”(运 算结果为2.46)。
于步骤250中,判断模块28将大于分数阈值的至少一个输出结果储存 至第一数据库DB1。
于一实施例中,至少一个输出结果可以是多个运算结果的子集合,更具 体而言,判断模块28将大于分数阈值的运算结果视为至少一个输出结果。
于一实施例中,当判断模块28判断每个此些运算结果是否大于一分数 阈值(步骤240),并将大于分数阈值的至少一个输出结果储存至第一数据库 DB1(步骤250),其中,输出结果可以是指大于分数阈值的运算结果所对应 的候选词汇;当判断模块28判断每个此些运算结果皆不大于分数阈值时, 则于步骤240执行完后结束语音校正方法200。
举例来说,当分数阈值设定3时,判断模块28判断仅有候选词汇“open French”的运算结果3.67大于分数阈值,故将输出结果“open French”(由于此 候选词汇的运算结果大于分数阈值,故此时将“open French”视为输出结果) 储存至第一数据库DB1。
又例如,当分数阈值2时,判断模块28判断出候选词汇“open French”(运 算结果为3.67)以及候选词汇“open fridge”(运算结果为2.46)皆大于分数阈值, 故将输出结果“open French”及“open fridge”同时储存至第一数据库DB1。
将大于分数阈值的候选词汇储存至第一数据库DB1的目的在于判断模 块28将该些大于分数阈值的候选词汇(每个至少一个输出结果)皆视为相同 的一正确语意。例如,于此例中,判断模块28将输出结果“open French”及 “open fridge”皆视为相同的一正确语意(即含义都是致能(enable)一特定应 用程序,例如开启一冰箱管理应用程序),换言之,后续无论用户的输入语 音被辨识为“open French”或是“open fridge”,判断模块28都会将此输入语 音视为开启一特定应用程序的正确指令。
于一具体实施例中,步骤210接收多个输入语音而后执行步骤220至步 骤230的流程,亦可改变成步骤210接收一输入语音后而直接执行步骤220 至步骤230,之后回到步骤210接受下一输入语音,直到接受一预设数量的 输入语音,例如5次。
图3是根据本发明的一实施例绘示一种语音校正方法300的流程图。图 3与图2的不同之处在于,图3还包含步骤345。图3的步骤310、320、330、 340、350分别与图2的步骤210、220、230、240、250相同,故以下不赘述。
当判断模块28判断此些运算结果中包含至少一个候选词汇大于分数阈 值时(步骤340),可得到至少一个输出结果,其中,输出结果可以是指大于 分数阈值的运算结果所对应的候选词汇,并接着进入步骤345。
于步骤345中,判断模块28判断至少一个输出结果是否已储存于第一 数据库DB1,若判断模块28判断至少一个输出结果未储存于第一数据库 DB1,则将至少一个输出结果储存至第一数据库DB1。若判断模块28判断 至少一个输出结果已储存于第一数据库DB1,则结束流程。
为更易于理解,请参阅图4,图4是根据本发明的一实施例绘示一种语 音校正方法400的一示例。于一实施例中,语音校正方法400可应用于一冰 箱管理应用程序中,然本发明不限于此,语音校正方法400可应用于各种需 要输入语音的应用程序中。
于步骤410中,处理装置20可以通过一用户界面提示用户说出一预设 次数的输入语音。例如,用户界面显示「请说出5次“open fridge”」,其中, 预设次数不仅限于此,可以是任意的正整数。输入语音可关联于一应用程序 的指令(“open fridge”),例如开启特定应用程序。
于步骤420中,音频接收器22接收一输入语音。例如,音频接收器22 先接收到第一个输入语音。
于步骤430中,语音辨识引擎24辨识输入语音(例如为第一个输入语音)。
于步骤440中,语音辨识引擎24产生对应输入语音(例如为第一个输入 语音)的一个或多个候选词汇,及每个候选词汇所对应到的词汇机率。例如, 语音辨识引擎24产生3个候选词汇对应到第一个输入语音,包括“open French”、“open fridge”及“open inFrench”等候选词汇。其中,“open French”(候选词汇)对应的词汇机率为0.95,“openfridge”(候选词汇)对应的词 汇机率为0.92,“open in French”(候选词汇)对应的词汇机率为0.89。
于步骤450中,判断模块28判断目前是否已接收到预设次数的输入语 音。例如,若预设次数为5,判断模块28判断目前只接收到1次输入语音, 尚未到达预设次数,则回到步骤420;若判断模块28判断目前已接收到5 次输入语音,到达预设次数(5次),则进入步骤460。
亦即,当预设次数为5时,代表前述步骤420~440需要依序执行5次, 以取得对应第一输入语音至第五输入语音及其各自对应的一个或多个候选 词汇。
于步骤460中,运算模块26将所有候选词汇中相同者所各自对应到的 词汇机率执行一特定运算,以对应产生多个运算结果。例如,在辨识用户所 述的5次输入语音后,语音辨识引擎24所产生的所有候选词汇中,辨识结 果有3次包含“open fridge”,辨识结果有5次包含“open French”,辨识结 果有3次包含“open in French”,辨识结果有2次包含“opencartridge”,此 时,运算模块26将相同的候选词汇所对应的词汇机率进行相加,即得到“open fridge”为2.46(5次辨识结果包含3次,此3次辨识结果分别对应的词汇机率 为0.82、0.81、0.83,将此3个值相加所得的值为2.46);得到“open French” 为3.67(5次辨识结果包含5次,此5次辨识结果分别对应的词汇机率为0.73、 0.81、0.82、0.70、0.61,将此5个值相加所得的值为3.67);得到“open in French” 为1.92(5次辨识结果包含3次,此3次辨识结果分别对应的词汇机率为0.64、 0.64、0.64,将此3个值相加所得的值为1.92);得到“open cartridge”为0.89 (5次辨识结果包含2次,此2次辨识结果分别对应的词汇机率为0.49、0.40, 将此2个值相加所得的值为0.89)。
于步骤470中,判断模块28判断每个运算结果是否大于一分数阈值。 例如,当分数阈值设定为3时,判断模块28判断仅有候选词汇“open French” 的运算结果3.67大于分数阈值,故将输出结果“open French”。其中,由于 此候选词汇“open French”的运算结果3.67大于分数阈值3,故此时将“open French”视为输出结果。此步骤与前述图2的步骤240、图3中的步骤340相 似,故此处不赘述。
于步骤480中,判断模块28判断至少一个输出结果是否已储存于第一 数据库DB1,若判断模块28判断至少一个输出结果未储存于第一数据库 DB1,则进入步骤490。若判断模块28判断至少一个输出结果已储存于第一 数据库DB1,结束此流程。
于步骤490中,判断模块28将至少一个输出结果储存至第一数据库 DB1。
请参阅图5,图5是根据本发明的一实施例绘示一种应用语音校正方法 500的流程图。须特别说明的是,较佳地,图5的执行是于前述图2~图4执 行之后。亦即,第一数据库DB1已储存有至少一个输出结果。
于步骤510中,若用户欲开启(enable)特定应用程序而发出“open fridge” 的一新增语音(该新增是指相对图2到图4的输入语音),音频接收器22接收 此新增语音。
于步骤520中,语音辨识引擎24辨识此新增语音(“open fridge”),且判 断模块28判断新增语音是否对应到至少一个输出结果(如“open French”)或 预设指令(“openfridge”),若判断模块28判断新增语音对应到至少一个输出 结果或预设指令,则进入步骤530;若判断模块28判断新增语音未对应到至 少一个输出结果也未对应到预设指令,则结束此流程。
详细而言,当语音辨识引擎24正确辨识此新增语音“open fridge”为预 设指令“open fridge”时,即开启(enable)特定应用程序。若语音辨识引擎24 将此新增语音“openfridge”辨识为“open French”时,虽没有对应到预设指 令“open fridge”,但若第一数据库中已储存的至少一个输出结果包含“open French”(步骤520),仍将其视为正确语意(步骤530)而开启(enable)特定应用 程序。
换句话说,由于图2到图4的流程中,第一数据库中已储存包含预设指 令“openfridge”以及输出结果“open French”,判断模块28即将输出结果“open French”及预设指令“open fridge”皆视为相同的正确语意(即含义都是开启 (enable)一特定应用程序,例如为冰箱管理应用程序)。
因此,虽然新增语意的辨识结果“open French”并非正确地辨识用户所 发出“open fridge”的语音,然由于此辨识的新增语意“open French”可对应 到图4中步骤490所述的第一数据库DB1中所储存的至少一个输出结果, 故判断模块28将此新增语音的辨识结果“open French”亦视为正确语意。换 言之,判断模块28将辨识的新增语音“openFrench”视同于“open fridge”, 于此例中,指令“open fridge”代表用以开启一特定应用程序的语音指令。
由上可知,即使每个用户的口音略有不同,藉由图4所示的语音校正方 法400,能够使语音校正系统100适应每个用户的不同口音。当用户输入一 新增语音(如图5所示语音校正方法的步骤510)时,语音校正系统500辨识 新增语音,且判断新增语音是否对应到至少一个输出结果(步骤520),若是, 则进入步骤530,将新增语音视为正确语意,若否,则结束流程。因此,语 音校正系统500能够辨识出用户真正想表达的语意,而无须正确地辨识用户 的语音。
此外,特定应用程序的语音指令可能有多个指令,例如“open fridge”、 “get anapple”、“put an egg”等3个指令。为加快判断速度,于一实施例中, 储存装置10还包含一第二数据库及/或一第三数据库,在判断模块28欲进行 储存输入语音的阶段时(例如为图4的步骤480),可进一步依据不同指令部 分以决定将至少一个输出结果储存至第一数据库DB1、第二数据库或第三数 据库。例如,第一数据库DB1存放第一指令“open fridge”及相对应的至少 一个输出结果(如上述的“open French”);第二数据库存放第二指令“get anapple”及相对应的至少一个输出结果;第三数据库存放第三指令“put an egg” 及相对应的至少一个输出结果。
于一实施例中,当音频接收器22接收到一新增语音时,语音辨识引擎 24辨识新增语音以取得辨识结果。当判断模块28判断辨识结果较接近第二 指令“get an apple”时,只要于对应的第二数据库中判断是否有对应到第二指 令或至少一个输出结果即可。由此,无须将数据库中所有指令及对应的至少 一个输出结果全部比对,从而减少判断时间与运算资源。
本发明所示的语音校正系统及语音校正方法,能在输入语音指令时,随 着用户口音不同,进行新增语音的辨识,提供不同用户定制化的语意辨识效 果,此外,通过不同指令而将对应的输出结果储存在对不同的数据库,可在 辨识新增语音时,提升辨识用户真正想表达的语意的效率。

Claims (10)

1.一种语音校正系统,包含:
一储存装置,用以储存一第一数据库;以及
一处理装置,包含:
一音频接收器,用以接收多个输入语音;
一语音辨识引擎,用以辨识该些输入语音,并产生对应该些输入语音中的每个输入语音所对应的多个候选词汇及该些候选词汇中的每个候选词汇对应到的一词汇机率;
一运算模块,用以将所有该些候选词汇中相同者所各自对应到的词汇机率执行一特定运算,以对应产生多个运算结果;以及
一判断模块,用以判断该些运算结果中的每个运算结果是否大于一分数阈值,并将大于该分数阈值的至少一个输出结果储存至该第一数据库。
2.根据权利要求1所述的语音校正系统,其中该至少一个输出结果中的每个输出结果是指大于该分数阈值的运算结果所对应的候选词汇,该判断模块将该至少一个输出结果中的每个输出结果皆视为相同的一正确语意。
3.根据权利要求1所述的语音校正系统,其中该判断模块还用以判断该至少一个输出结果是否已储存于该第一数据库,若该判断模块判断该至少一个输出结果未储存于该第一数据库,则将该至少一个输出结果储存至该第一数据库。
4.根据权利要求2所述的语音校正系统,其中当该音频接收器接收到一新增语音时,该语音辨识引擎辨识该新增语音,且该判断模块用以判断该新增语音是否对应到该至少一个输出结果,若该判断模块判断该新增语音对应到该至少一个输出结果,则将该新增语音视为该正确语意。
5.根据权利要求1所述的语音校正系统,其中该运算模块执行该特定运算是指该运算模块将所有该些候选词汇中相同者所对应的该些词汇机率进行相加或计算平均值,以产生该些运算结果。
6.根据权利要求1所述的语音校正系统,其中该分数阈值是由该音频接收器接收到该输入语音的次数乘以一置信度而得。
7.一种语音校正方法,包含:
接收多个输入语音;
辨识该些输入语音,并产生对应该些输入语音中的每个输入语音所对应的多个候选词汇及该些候选词汇中的每个候选词汇对应到的一词汇机率;
将所有该些候选词汇中相同者所各自对应到的词汇机率执行一特定运算,以对应产生多个运算结果;以及
判断该些运算结果中的每个运算结果是否大于一分数阈值,并将大于该分数阈值的至少一个输出结果储存至一第一数据库。
8.根据权利要求7所述的语音校正方法,还包括以下步骤:
接收一新增语音;以及
判断该新增语音是否对应到该至少一个输出结果。
9.根据权利要求7所述的语音校正方法,其中该特定运算是指将所有该些候选词汇中相同者所对应的该些词汇机率进行相加或计算平均值,以产生该些运算结果。
10.根据权利要求7所述的语音校正方法,其中该分数阈值是该输入语音的次数乘以一置信度而得。
CN201811249863.7A 2018-10-12 2018-10-25 语音校正系统及语音校正方法 Active CN111048098B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107135879A TWI697890B (zh) 2018-10-12 2018-10-12 語音校正系統及語音校正方法
TW107135879 2018-10-12

Publications (2)

Publication Number Publication Date
CN111048098A true CN111048098A (zh) 2020-04-21
CN111048098B CN111048098B (zh) 2023-05-26

Family

ID=70160343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811249863.7A Active CN111048098B (zh) 2018-10-12 2018-10-25 语音校正系统及语音校正方法

Country Status (3)

Country Link
US (1) US10885914B2 (zh)
CN (1) CN111048098B (zh)
TW (1) TWI697890B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151022A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 语音识别的优化方法、装置、设备以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173955A1 (en) * 2001-05-16 2002-11-21 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US20050049880A1 (en) * 2001-09-05 2005-03-03 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
CN101286317A (zh) * 2008-05-30 2008-10-15 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
US20090094033A1 (en) * 2005-06-27 2009-04-09 Sensory, Incorporated Systems and methods of performing speech recognition using historical information
US20120065968A1 (en) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Speech recognition method
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN106782529A (zh) * 2016-12-23 2017-05-31 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN108364651A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 语音识别方法和设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
US7634403B2 (en) * 2001-09-05 2009-12-15 Voice Signal Technologies, Inc. Word recognition using word transformation commands
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7716058B2 (en) * 2001-09-05 2010-05-11 Voice Signal Technologies, Inc. Speech recognition using automatic recognition turn off
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
TWI349266B (en) * 2007-04-13 2011-09-21 Qisda Corp Voice recognition system and method
CN102119412B (zh) * 2008-08-11 2013-01-02 旭化成株式会社 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
US10679610B2 (en) * 2018-07-16 2020-06-09 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173955A1 (en) * 2001-05-16 2002-11-21 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US20050049880A1 (en) * 2001-09-05 2005-03-03 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US20090094033A1 (en) * 2005-06-27 2009-04-09 Sensory, Incorporated Systems and methods of performing speech recognition using historical information
CN101286317A (zh) * 2008-05-30 2008-10-15 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
US20120065968A1 (en) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Speech recognition method
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN106782529A (zh) * 2016-12-23 2017-05-31 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN108364651A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 语音识别方法和设备

Also Published As

Publication number Publication date
CN111048098B (zh) 2023-05-26
US10885914B2 (en) 2021-01-05
TW202015034A (zh) 2020-04-16
TWI697890B (zh) 2020-07-01
US20200118561A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
US11669300B1 (en) Wake word detection configuration
KR102201937B1 (ko) 후속 음성 쿼리 예측
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US8036893B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
EP3956884B1 (en) Identification and utilization of misrecognitions in automatic speech recognition
US20170249935A1 (en) System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN108346426B (zh) 语音识别装置以及语音识别方法
CN110807093A (zh) 语音处理方法、装置及终端设备
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
EP1899955B1 (en) Speech dialog method and system
CN111048098B (zh) 语音校正系统及语音校正方法
WO2023148772A1 (en) A system and method to reduce ambiguity in natural language understanding by user expectation handling
CN110895938B (zh) 语音校正系统及语音校正方法
US11632345B1 (en) Message management for communal account
CN115116442B (zh) 语音交互方法和电子设备
WO2024015283A1 (en) History-based asr mistake corrections
KR20210150833A (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
CN115206300A (zh) 热词权重动态配置方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant