CN101141508B

CN101141508B - 通信系统以及语音识别方法

Info

Publication number: CN101141508B
Application number: CN200710149769XA
Authority: CN
Inventors: 黄炎松; 白博仁; 鲁又南; 侯震; 张铭
Original assignee: Fortemedia Inc
Current assignee: Fortemedia Inc
Priority date: 2006-09-05
Filing date: 2007-09-05
Publication date: 2012-02-22
Anticipated expiration: 2027-09-05
Also published as: US20080059193A1; CN101141508A; TWI349267B; TW200813980A; US7957972B2

Abstract

一种通信系统和其方法。该通信系统包括设定控制器、语音识别控制器、以及应用控制器。该设定控制器，接收一语音关键词查询表，该语音关键词查询表包括语音识别关键词以及相对应的应用指令。该语音识别控制器，耦接上述设定控制器，接收上述设定控制器而来的上述语音关键词查询表，接收第一语音输入，以及比较上述第一语音输入和上述语音关键词查询表用以判定上述相对应的应用指令。该应用控制器，耦接上述语音识别控制器，接收以及执行上述相对应的应用指令。

Description

通信系统以及语音识别方法

技术领域

本发明涉及语音识别，特别是涉及一种提供语音识别的通信系统和其方法。

背景技术

语音识别控制器是一种具有使用者提供的识别关键词能力并且产生相对应输出的装置，例如，指令或文字符串，用于一应用装置，例如，DVD或MP3播放器，移动电话、汽车收音机、以及汽车控制器。

语音识别控制器可以是用于移动电话的蓝牙喇叭扩音器，其在一通信系统内具有蓝牙功能，在该通信系统中语音控制器喇叭扩音器和移动电话是成对的。语音控制器上的语音识别引擎用来识别使用者定义的名单中的名字，并且输出相对应的电话号码。移动电话中的拨打功能将会拨打该号码，并且使用者可以经由移动电话的喇叭扩音器进行通话。

有鉴于此，需要一种使用语音识别控制器的通信系统，该语音识别控制器具有较佳的语音识别率。

发明内容

本发明提出一种通信系统，包括一设定控制器、一语音识别控制器、以及一应用控制器。该设定控制器，接收一语音关键词查询表(Voice KeywordTable，VKT)，该语音关键词查询表包括一语音识别关键词以及一相对应的应用指令。该语音识别控制器，耦接上述设定控制器，接收上述设定控制器而来的上述语音关键词查询表，接收第一语音输入，以及比较上述第一语音输入和上述语音关键词查询表用以判定上述相对应的应用指令。该应用控制器，耦接上述语音识别控制器，接收以及执行上述相对应的应用指令。

本发明另提出一种语音识别方法，用于一通信系统，包括一设定控制器接收一语音关键词查询表，该语音关键词查询表包括一语音识别关键词以及一相对应的应用指令，一语音识别控制器接收上述语音关键词查询表，以及比较一第一语音输入和上述语音关键词查询表用以判定上述相对应的应用指令，以及一应用控制器接收以及执行上述相对应的应用指令。

附图说明

图1是显示根据本发明实施例所述的通信系统的方块图。

图2a、2b和2c是显示根据本发明实施例所述的语音关键词查询表。

第3图是显示根据本发明实施例所述的语音合成以及语音识别方法。

第4图是显示根据本发明实施例所述的语音识别装置的方块图。

第5图是显示根据本发明实施例所述的语音识别方法的流程图。

附图符号说明

10-设定控制器；

12-语音识别控制器；

14-应用控制器；

120-第一收发器；

121-第二收发器；

122-声音输入装置；

123-声音输出装置；

124-模拟/数字转换器；

125-内存；

126-系统控制器；

127-语音识别控制器。

具体实施方式

为让本发明的上述和其它目的、特征、和优点能更明显易懂，下文特举出较佳实施例，并配合附图，作详细说明如下：

图1是显示根据本发明实施例所述的通信系统的方块图，包括设定控制器10、语音识别控制器12、和应用控制器14。设定控制器10耦接语音识别控制器12、然后耦接应用控制器14。

设定控制器10可以为个人计算机或个人数字助理(Personal DigitalAssistant，PDA)。设定控制器10包括语音识别关键词VKT 100，其包括语音识别关键词以及相对应的应用指令。语音识别关键词VKT 100可以包括至少一组语音关键词V_i和应用指令A_i对。语音识别方法利用从所有的语音关键词V_i中搜寻输入语音数据而执行。语音识别方法通常由3种种类分类，分为不特定语者模型(Speaker Independent，SI)、特定语者模型(SpeakerDependent，SD)、和语者调适模型(Speaker Adapted，SA)。在不特定语者模型系统中，语音识别引擎藉由普遍的语音模型来识别特征，该普遍的语音模型由大量的训练取样产生。其中一种使用不特定语者模型的商用软件为微软语音识别软件(Microsoft Speech Recognizer)。因为不需训练过的使用者就可使用，所以这种系统非常方便。然而，这种系统的识别率通常较差，特别是当说话者的口音严重或说话者的说话模式和训练取样差异过大时。另一方面，特定语者模型系统需要使用者对每个关键词提供取样，因此对于产生大量关键词不但麻烦且非常需要内存。语音识别关键词VKT 100可以由像是键盘或按键的输入来编辑，或由经建立的数据库，例如Outlook、Skype、MSN、或Yahoo Messager的电话簿输入。

图2a是显示根据本发明实施例所述的语音关键词查询表，使用于图1的通信系统，包括20a、22a、24a、和26a。20a包含使用者输入的名字标签L₁、L₂、...、L_i、...、和L_n。每个L_I都可以藉由设定控制器10内的不特定语者模型的文字到声音(Text-to-Speech)语音合成算法转换到标准语音关键词V_DI。标准语音关键词是和输入语音数据流一起比较的语音识别关键词。24的实现不需是看的见的。设定控制器10包括用于语音输入的麦克风。使用者可以另外在改变语音栏22内输入相对应的改变语音关键词V_A1到V_An。改变语音关键词Kai可以针对每个发音参数调整。当识别到设定控制器10内的标准语音关键词V_DI或改变语音关键词V_A1时26即提供应用指令A_PI用以执行。

参考图1，语音识别控制器12从10接收语音识别关键词VKT 100，并且接收V用以执行第一层语音识别，即，从第一收发器120内的语音识别关键词中搜寻第一语音输入V₁，藉此判定相对应的应用指令。在第一收发器120内找到语音关键词V_i之后，语音识别控制器12传送应用指令到应用控制器14以便执行。语音识别控制器12可以是一轻便可携的装置，例如耳机、喇叭、或具有语音识别功能的耳机。应用控制器14可以是移动电话、DVD播放器、MP 3播放器、汽车音响、汽车控制器、或任意消费电子产品。

如果没有在语音识别查询表内找到第一语音输入，语音识别控制器12就会传送第一语音输入V₁到应用控制器14。应用控制器14另外执行第二层语音识别，即，根据第一语音输入V₁判定应用指令，以及传送第一语音输入V₁和其相对应的应用指令给语音识别控制器12。第二层语音识别可以由应用控制器14的本地的语音关键词查询表实现，该本地的语音关键词查询表包括其它的语音关键词和相对应的应用指令，使得第一语音输入V₁可以符合其中一个语音关键词，藉此找到和执行A₁。应用控制器14接着执行A₁。第二层语音识别可以识别比语音识别控制器12的第一层语音识别更多的语音关键词。应用控制器14可以更将第一语音输入V₁和相对应的应用指令A_i传送给语音识别控制器12，使得语音识别控制器12也可以识别第一语音输入V₁，藉此改进语音识别率。

设定控制器10、语音识别控制器12、和应用控制器14经由有线或无线的通信方式沟通。无线的通信方式可以是蓝牙(Bluetooth)、无线局域网络(Wireless LAN)、WiFi、或其它通信方式。

设定控制器10包括自我诊断功能，接收V2用以和第一收发器120内的语音识别关键词做比较，以及若V2符合语音识别关键词则确认该语音识别关键词，允许使用者改变设定控制器10内的该语音识别关键词。

语音关键词查询表VKT可以是电话簿，语音识别关键词是名字输入的发音，而相对应的应用指令是拨打一预定号码。图2b显示图1中的语音关键词查询表VKT。20b包括使用者定义的名字输入，例如，“Brian Smith”或“家”。24b包括机器产生的音素数据，包括从名字输入经由文字到音素算法而产生的音素串，以及相对应的产生语音的不特定语者模型，该不特定语者模型用于语音识别和语音合成。22b包括使用者定义的音素数据，可能和24b的音素数据不同，他提供使用者另外在24b定义个人化数据的选择，用以加强语音识别效能和系统的实时语音品质。相对应的应用指令是文字符串，例如拨打26b内的电话号码。

语音关键词查询表VKT可以是语音指令查询表，语音识别关键词是语音指令的发音，而相对应的应用指令是内建指令或使用者定义的指令。图2c显示图1中的语音关键词查询表VKT。20c存储指令卷标，例如，“家”、“语音留言”、“快速键[1-9]”、“内存[1-9]”、或“设定选单”。24c包括标准的音素数据，22c包括使用者定义、可以改变的音素资料。对应到“家”的标准的音素数据和可以改变的音素资料对到拨打家中电话的应用指令，“语音留言”对应到拨打语音留言的号码，“快速键[1-9]”对应到拨打对应快速键[1-9]的号码、“内存[1-9]”对应到拨打内存[1-9]之内的号码、或“设定选单”对应到进入设定选单。

图3是显示根据本发明实施例所述的语音合成以及语音识别方法，使用第2图的语音关键词查询表VKT和图1的设定控制器。方法利用语音合成实时输出和语音识别模型共享相同的音素来改善语音识别率。设定控制器10会产生合适的发音音素，使用者能够在语音合成实时输出的引导下根据他的习惯发音而编辑发音音素。一旦确定了发音音素，系统会更产生用于识别的语音识别模型。因此可以藉由使用者的习惯而提高语音识别率。第3图的方法在语音合成和语音识别方法中使用共同的音素串，使得设定控制器可以产生语音关键词查询表VKT，该语音关键词查询表VKT可以藉由使用者的发音喜好改变因此加强识别率。虚线以上的步骤提供语音合成的方法，以下的步骤提供语音识别模型产生的方法。

在步骤S310中，设定控制器10从S300接收图2a20a的文字符串，例如，“Home”，并且从所有的语言的音素中(S302)产生发音音素给“Home”(S312)。文字到音素算法S310可以利用搜寻发音字典或应用发音产生规则来产生字典外的文字符串。

在步骤S320中，语音合成模块根据音素串(S322)产生语音波形(S322)。

在步骤S330中，设定控制器10接收音素(S312)用以根据完整的内建不特定语者模型(S332)产生语音数据。例如，系统控制器126(见第4图)根据S312得到S322的“h”“o”“m”“e”模型用以产生相对应的语音识别模型。

图4是显示根据本发明实施例所述的语音识别装置的方块图，包括第一收发器120、第二收发器121、声音输入装置122、声音输出装置123、模拟/数字转换器124、内存125、系统控制器126、和语音识别控制器127。

第一收发器120从设定控制器10下载语音识别关键词VKT 100用以存储在内存125。第二收发器121传送相对应的应用指令A_i，以及从应用控制器14接收请求的语音识别关键词V_i和相对应的应用指令A_i，并且接着将请求的语音识别关键词V_i和相对应的应用指令A_i加入第一收发器120。声音输入装置122可以是接收第一语音输入V₁的麦克风。声音输出装置123可以是播放声音数据的扩音器。模拟/数字转换器124将语音关键词V_i从模拟转换到数字。内存125存储第一收发器120、内建的语音模型和参数以及第一语音输入V₁。系统控制器126(语音识别模块)将第一语音输入V₁和语音关键词查询表VKT内的语音关键词V_i比较用以判定相对应的应用指令A_i。

图5是显示根据本发明实施例所述的语音识别方法的流程图，使用图4的语音识别控制器。

在步骤S500中，第一语音输入V₁的信号在时域中被抑制用来提供好的信号品质。

在步骤S502中，第一语音输入V₁转换到频域来进一步减低噪声以及抽取其中的特定模型。

在步骤S504中，系统控制器126使用第一语音输入V₁、不特定语者模型、和特定语者模型来搜寻语音关键词查询表VKT内的语音识别关键词。

在步骤S506中，系统控制器126对1执行后处理，例如，执行相对应的应用指令、第一层的退回、或语音识别织成功率的产生。如果系统控制器126判定第一语音输入V₁符合语音关键词查询表VKT内的语音识别关键词，就传送相对应的应用指令到应用控制器14执移动作。如果没有，系统控制器126传送第一语音输入V₁到应用控制器14来执行第二层语音识别。系统控制器126可以建立一种根据第一层语音识别的成功率的给分系统。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何熟习此项技艺者，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视本发明的申请专利范围所界定者为准。

Claims

1.一种通信系统，包括：

设定控制器，接收一语音关键词查询表，该语音关键词查询表包括一语音识别关键词以及一相对应的应用指令；该语音识别关键词包括标签、标准语音关键词、以及改变语音关键词；该标准语音关键词包括音素串、以及不特定语者模型；该改变语音关键词包括使用者定义的音素数据，用以对发音参数进行调整；该设定控制器通过该不特定语者模型进行语音合成，将该标签转换而产生该音素串；

语音识别控制器，耦接上述设定控制器，接收上述设定控制器而来的上述语音关键词查询表，接收第一语音输入，以及比较上述第一语音输入和上述语音关键词查询表用以判定上述相对应的应用指令；以及

应用控制器，耦接上述语音识别控制器，接收以及执行上述相对应的应用指令。

2.如权利要求1所述的通信系统，其中，上述设定控制器、上述语音识别控制器、以及上述应用控制器经由有线或无线通信沟通。

3.如权利要求1所述的通信系统，其中，上述设定控制器更在语音合成和语音识别模型间共享音素，以及根据上述音素产生发音。

4.如权利要求1所述的通信系统，其中，上述语音识别控制器更传送上述第一语音输入到上述应用控制器，如果上述第一语音输入和上述语音关键词查询表内所有的语音关键词都不符。

5.如权利要求4所述的通信系统，其中，上述应用控制器更根据上述第一语音输入判定相对应的应用指令，以及传送上述第一语音输入和上述应用控制器根据上述第一语音输入判定所得的相对应的应用指令到上述语音识别控制器。

6.如权利要求1所述的通信系统，其中，上述语音关键词查询表是电话簿，上述语音识别关键词是名字输入的发音，上述相对应的应用指令是拨打一预定号码。

7.如权利要求1所述的通信系统，其中，上述语音识别关键词是指令输入的发音，上述相对应的应用指令是控制或接收信息。

8.如权利要求1所述的通信系统，其中，上述语音识别关键词是数字输入的发音，上述相对应的应用指令是拨打上述数字输入。

9.如权利要求1所述的通信系统，其中，上述设定控制器更接收第二语音输入，如果上述第二语音输入和上述语音关键词符合，则上述设定控制器更让使用者改变上述语音识别关键词。

10.如权利要求1所述的通信系统，其中，上述语音识别控制器包括：

第一收发器，从上述设定控制器下载上述语音关键词查询表；

第二收发器，传送上述相对应应用指令到上述应用控制器；

声音输入装置，接收上述语音输入；

模拟/数字转换器，耦接上述声音输入装置，转换上述语音输入到数字；

内存，耦接上述第一和第二收发器，存储上述语音关键词查询表；以及

语音识别模块，耦接上述模拟/数字转换器和上述内存，比较上述第一语音输入和上述语音识别关键词用以判定上述相对应的应用指令。

11.一种语音识别方法，用于一通信系统，包括：

设定控制器接收一语音关键词查询表，该语音关键词查询表包括一语音识别关键词以及一相对应的应用指令；

语音识别控制器从上述设定控制器接收上述语音关键词查询表，以及比较一第一语音输入和上述语音关键词查询表用以判定上述相对应的应用指令；以及

应用控制器从上述语音识别控制器接收以及执行上述相对应的应用指令，

其中，该语音识别关键词包括标签、标准语音关键词、以及改变语音关键词；该标准语音关键词包括音素串、以及不特定语者模型；该改变语音关键词包括使用者定义的音素数据，用以对发音参数进行调整；该设定控制器通过该不特定语者模型进行语音合成，将该标签转换而产生该音素串。

12.如权利要求11所述的语音识别方法，其中，上述设定控制器、上述语音识别控制器、以及上述应用控制器经由有线或无线通信沟通。

13.如权利要求11所述的语音识别方法，更包括：上述设定控制器在语音合成和语音识别模型间共享音素，以及根据上述音素产生发音。

14.如权利要求11所述的语音识别方法，更包括：上述语音识别控制器传送上述第一语音输入到上述应用控制器，如果上述第一语音输入和上述语音关键词查询表内所有的语音关键词都不符。

15.如权利要求14所述的语音识别方法，更包括：上述应用控制器根据上述第一语音输入判定相对应的应用指令，以及传送上述第一语音输入和上述应用控制器根据上述第一语音输入判定所得的相对应的应用指令到上述语音识别控制器。

16.如权利要求11所述的语音识别方法，其中，上述语音关键词查询表是电话簿，上述语音识别关键词是名字输入的发音，上述相对应的应用指令是拨打一预定号码。

17.如权利要求11所述的语音识别方法，其中，上述语音识别关键词是指令输入的发音，上述相对应的应用指令是控制或接收信息。

18.如权利要求11所述的语音识别方法，其中，上述语音识别关键词是数字输入的发音，上述相对应的应用指令是拨打上述数字输入。

19.如权利要求11所述的语音识别方法，更包括：上述设定控制器接收第二语音输入，如果上述第二语音输入和上述语音关键词符合，则上述设定控制器更让使用者改变上述语音识别关键词。