具体实施方式
以下将以图式及详细说明本发明的精神,任何所属技术领域中具有通常知识者在了解本发明的较佳实施例后,当可由本发明所教示的技术加以改变及修饰,其并不脱离本发明的精神与范围。
请参照图1,其绘示依照本发明一实施例的一种语音辨识系统的功能方块图。语音辨识系统根据使用者对应的个人字典文件,进行语音辨识。
语音辨识系统包含一服务器100、一数据传输界面200以及一语音辨识装置300。其中,服务器100可由至少一个服务器所提供。当服务器100由多个服务器所提供时,此些服务器可包含至少一当地服务器、至少一云端服务器或其组合。其中,当地服务器可储存当地字典文件,以服务当地使用者;云端服务器则可储存专业字典文件,服务所有使用者。
数据传输界面200可为有线或无线网络通讯协议。然而,在其它实施例中,数据传输界面200可为其它类型有线或无线的数据传输界面,并不限于本揭露书中。
语音辨识装置300透过数据传输界面200与服务器100建立连结。语音辨识装置300包含一麦克风310、一输出组件320以及一处理组件330。处理组件330电性连接麦克风310以及输出组件320。
处理组件330包含一使用者信息接收模块331、一个人字典取得模块332、一语音接收模块333、一音讯转换模块334以及一搜寻模块335。使用者信息接收模块331接收一使用者的一使用者信息。在本发明的一些实施例中,使用者可透过键盘、鼠标、图形化使用者界面(Graphical User Interface,GUI)或其它类型的输入界面,输入其使用者信息。在本发明的另一些实施例中,处理组件330的一声音辨识模块336可透过麦克风310接收一使用者声音讯号,根据使用者声音讯号,判断使用者为何,并对应产生使用者的使用者信息,供使用者信息接收模块331接收。其中,声音辨识模块336可辨识出使用者对应的使用者识别信息,作为其使用者信息。此外,声音辨识模块336可根据使用者声音讯号,辨识出使用者的声音类别(如语言、腔调或其它类型的声音类别),作为其使用者信息。
个人字典取得模块332透过数据传输界面200,传送使用者信息至服务器100,以取得使用者信息对应的一个人字典文件。其中,个人字典文件的产生可取决于使用者的语音辨识结果的历史数据,以及他人近期使用的相关数据。举例来说,个人字典取得模块332可取得收录使用者常用字汇的个人字典文件。又例如说,个人字典取得模块332可根据使用者信息中的语言、腔调或其它类型的声音类别,取得相应的个人字典文件。
语音接收模块333透过麦克风310接收使用者的一待辨识语音讯号。音讯转换模块334根据使用者对应的一声纹档案,将待辨识语音讯号转换为一数字特征文件。如此一来,可避免因为使用者声音特性不同,所造成的语音辨识正确率低落的缺点。此外,数字特征文件的档案大小将小于待辨识语音讯号,因此可缩短进一步语音辨识所需的时间。
搜寻模块335根据数字特征文件搜寻个人字典文件,以取得一语音辨识结果,并透过输出组件320,输出语音辨识结果。在本发明的一些实施例中,输出组件320可为一显示组件,用以显示语音辨识结果。在本发明的另一些实施例中,输出组件320可为一喇叭,用以发出语音辨识结果对应的声音。然而,在本发明的其它实施例中,输出组件320可用其它输出方式,输出语音辨识结果,并不限于本揭露书。如此一来,语音辨识装置300不须储存大量的字典文件,即可提供精确的语音辨识功能。因此,可用处理组件效能较差或储存组件容量较小的电子装置,作为语音辨识装置300。
此外,在本发明的一些实施例中,使用者可透过语音辨识装置300的键盘、鼠标、图形化使用者界面(Graphical User Interface,GUI)或其它类型的输入界面,回馈语音辨识结果是否正确。在本发明的另一些实施例中,处理组件330更可包含一辨识错误判断模块337。由于一般使用者在发觉辨识错误时,会重复其先前说出的字汇或句子,以进行重新辨识。因此,辨识错误判断模块337可先判断麦克风310所接收的讯号是否与先前的待辨识语音讯号相同。当麦克风310接收与待辨识语音讯号相同的一重复语音讯号时,辨识错误判断模块337会判定语音辨识结果辨识错误。如此一来,当使用者在发觉辨识错误时,仅需重复发出相同声音,即可使语音辨识装置300判定辨识错误,重新修正其辨识结果,方便使用者操作。
另外,服务器100的一更新模块110更可透过数据传输界面200,自语音辨识装置300接收语音辨识结果是否正确的信息,作为更新个人字典的依据。举例来说,更新模块110可根据语音辨识结果的正确与否,调整对应词汇的权重,进而提高辨识的正确率。
在本发明的一些实施例中,服务器100更可包含一相关字典提供模块120。相关字典提供模块120透过数据传输界面200,接收语音辨识结果,并根据语音辨识结果,传送一相关字典文件至语音辨识装置300,供搜寻模块335搜寻。举例来说,当相关字典提供模块120判断语音辨识结果相关于天气,相关字典提供模块120传送包含天气相关词汇的相关字典文件至语音辨识装置300。如此一来,可提高语音辨识装置300的辨识正确率。此外,亦可缩短因为辨识错误,而需修改辨识结果或重新传送字典文件的额外时间。
在本发明的另一些实施例中,服务器100若包含当地服务器时,当地服务器可储存近期常用字典文件。由于同一个当地服务器服务的使用者多半具有相近的语音内容或习惯用字,因而可减少当地服务器所需储存的字典文件的档案大小。
请参照图2,其为依照本发明一实施方式的一种语音辨识方法的流程图。语音辨识方法可实作为一计算机程序,并储存于一计算机可读取记录媒体中,而使计算机读取此记录媒体后执行语音辨识方法。计算机可读取记录媒体可为只读存储器、闪存、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或熟悉此技艺者可轻易思及具有相同功能的计算机可读取记录媒体。语音辨识方法400包含以下步骤:
在步骤410中,由一语音辨识装置,接收一使用者的一使用者信息。在本发明的一些实施例中,使用者可透过键盘、鼠标、图形化使用者界面或其它类型的输入界面,输入其使用者信息。在本发明的另一些实施例中,可透过语音辨识装置的麦克风接收一使用者声音讯号。接下来,可根据使用者声音讯号,判断使用者为何,并对应产生使用者的使用者信息,供语音辨识装置接收(步骤410)。其中,可辨识出使用者对应的使用者识别信息,作为其使用者信息。此外,亦可根据使用者声音讯号,辨识出使用者的声音类别(如语言、腔调或其它类型的声音类别),作为其使用者信息。
在步骤420中,由语音辨识装置传送使用者信息至一服务器,以取得使用者信息对应的一个人字典文件。举例来说,语音辨识装置可取得收录使用者常用字汇的个人字典文件。又例如说,可根据使用者信息中的语言、腔调或其它类型的声音类别,取得相应的个人字典文件。
在步骤430中,透过语音辨识装置的一麦克风接收使用者的一待辨识语音讯号。
在步骤440中,由语音辨识装置根据使用者对应的一声纹档案,将待辨识语音讯号转换为一数字特征文件。
在步骤450中,由语音辨识装置根据数字特征文件搜寻个人字典文件,以取得一语音辨识结果,并输出语音辨识结果。在步骤450的一些实施例中,可透过显示组件显示(输出)语音辨识结果。在步骤450的另一些实施例中,可发出(输出)语音辨识结果对应的声音。然而,在步骤450的其它实施例中,可用其它输出方式,输出语音辨识结果,并不限于本揭露书。如此一来,语音辨识装置不须储存大量的字典文件,即可实时提供精确的语音辨识功能。因此,可用处理组件效能较差或储存组件容量较小的电子装置,作为语音辨识装置。
此外,在本发明的一些实施例中,由服务器自语音辨识装置,接收语音辨识结果是否正确的信息,作为服务器更新个人字典的依据。其中,语音辨识结果是否正确的信息可透过键盘、鼠标、图形化使用者界面或其它类型的输入界面接收。另外,亦可在语音辨识装置的麦克风接收与待辨识语音讯号相同的一重复语音讯号时,判定语音辨识结果辨识错误。如此一来,使用者在发觉辨识错误时,仅需重复发出相同声音,即可使语音辨识装置判定辨识错误,重新修正其辨识结果,方便使用者操作。
另外,服务器亦可进一步接收语音辨识结果。于是,可由服务器根据收到的语音辨识结果,传送一相关字典文件至语音辨识装置,作为步骤450执行搜寻的依据。举例来说,当判断语音辨识结果相关于天气,服务器传送包含天气相关词汇的相关字典文件至语音辨识装置。如此一来,可提高语音辨识装置的辨识正确率。此外,亦可缩短因为辨识错误,而需修改辨识结果或重新传送字典文件的额外时间。
在本发明的一些实施例中,语音辨识装置可储存一预设字典文件。语音辨识方法400更可包含在语音辨识装置无法辨识使用者的使用者信息时,将预设字典文件视为个人字典文件。如此一来,在因使用者第一次登入或其它原因使得其使用者信息无法被辨识时,仍可藉由预设字典文件提供基本的语音辨识功能。
在本发明的另一些实施例中,可记录使用者的对话或其历史使用数据。于是,可根据使用者的对话内容以及历史使用数据,产生一当前使用字典文件,以储存于服务器。服务器可将当前使用字典文件设为使用者信息对应的个人字典文件。
在本发明的另一些实施例中,服务器可根据于本地端所提供的语音辨识服务,产生并储存一近期常用字典文件。于是,近期常用字典文件将符合服务器所服务的本地使用者的使用习惯。接下来,当将当前使用字典文件设为使用者信息对应的个人字典文件的一辨识正确率小于一门坎值时,使用近期常用字典文件进行语音辨识。如此一来,使用者的使用习惯应与服务器所服务的当地使用者相近,因此可作为改善语音辨识正确率的依据。
在本发明的另一些实施例中,可将使用者常用的至少一常用字词储存于服务器中的一私人字典文件。于是,可根据使用者的私人字典文件,修改使用者的当前使用字典文件,以更符合使用者的使用习惯。
在本发明的又一些实施例中,服务器更可储存对应数个专业分类的数个专业字典文件。其中,专业字典文件可储存于单一当地服务器。此外,专业字典文件亦可储存于至少一云端服务器,用以提供给当地服务器查询。语音辨识方法400更可包含取得至少一需修正类别。其中,可在特定专业类别的辨识错误率较高时,将其设为需修正类别。于是,可根据专业字典文件中需修正类别对应者,修改使用者信息对应的个人字典文件。如此一来,可依据个人字典文件中不同字词所属的专业类别进行修正,以提高整体辨识正确率。
虽然本发明已以实施方式揭露如上,然其并非用以限定本发明任何熟习此技艺者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视后附的申请专利范围所界定者为准。