CN111724768A - 用于离线语音识别的实时生成解码文件的系统和方法 - Google Patents
用于离线语音识别的实时生成解码文件的系统和方法 Download PDFInfo
- Publication number
- CN111724768A CN111724768A CN202010323145.0A CN202010323145A CN111724768A CN 111724768 A CN111724768 A CN 111724768A CN 202010323145 A CN202010323145 A CN 202010323145A CN 111724768 A CN111724768 A CN 111724768A
- Authority
- CN
- China
- Prior art keywords
- command word
- command
- word
- module
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 15
- 238000012552 review Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims 1
- 238000012827 research and development Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种用于离线语音识别的实时生成解码文件的系统和方法,涉及语音识别中的生成解码文件领域;该系统包含命令词定义模块、命令词发音审核模块、串口命令定义模块、命令词门限定义模块、播报音配置模块五大模块和模型生成服务、用户管理服务两大服务;整体的实施方法步骤如下:首先命令词和发音的确定,接着是串口、门限、播报音的确定,最后是调用模型生成服务生成需要的解码镜像,下载镜像到板子并上电即可完成所有操作。本发明解决离线语音识别中从命令词定义到给客户语音版本耗时长、命令词无法调整、普通研发人员无法介入工作的问题。
Description
技术领域
本发明涉及语音识别中的生成解码文件领域,提供了一种用于离线语音识别的实时生成解码文件的系统和方法。
背景技术
目前对于控制类的离线语音识别,要得到完整的解码文件,需要进行多个步骤才能完成:1、专业人士采集上千人语料、对语料进行审核,去掉残缺语料;2、处理语料,把采集的语料转化为可训练的语料,经过多个小时训练生成解码模型,在识别率不满足要求时可能要迭代多次训练;3、根据模型特点设置词条的门限值,降低误识别的概率;4、待解码模型确定后,再人工生成播报音;5、最后根据解码模型、命令词、播报音来配置关联文件。
从上面可以看出,从客户提出命令词到最终生成解码文件,需要语音识别的专业人士多次操作,按照步骤一步步的才能完成,非专业人员无法完成该类工作,并且从命令词定义好到最后出版本至少需要两周以上的时间。
发明内容
本发明提供一种用于离线语音识别的实时生成解码文件的系统和方法,是解决离线语音识别中从命令词定义到给客户语音版本耗时长、命令词无法调整、普通研发人员无法介入工作的问题而提供的一种新型的训练系统和方法。
本发明解决其技术问题所采用的技术方案是:一种用于离线语音识别的实时生成解码文件的系统,包括:
1)命令词定义模块,该模块提供了唤醒词和命令词的定义以及词条检测功能;
2)命令词发音审核模块,该模块显示词条发音和修改词条发音;
3)串口命令定义模块,该模块定义命令词与系统之间的交互关系;
4)命令词门限定义模块,该模块定义命令词的门限值;
5)播报音配置模块,该模块设置识别出命令词后提示客户的播报音;
6)模型生成服务模块,该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块;
7)用户管理服务模块,该服务模块包括用户的注册、审核、登录、删除相关的服务模块。
进一步地,所述词条检测功能包括词的相似度检测、词的发音检测,对于不满足条件的词给出警告提醒。
进一步地,所述命令词发音审核模块会根据系统定义的词条生成每个词的发音,发音内容会显示到界面上;还包括人工检查和审核,对发现不正确的发音进行修改。
进一步地,所述串口命令定义模块显示出定义的词条,在词条后面设有输入框,用于输入当出现该词条时发什么命令给系统;输入的命令系统会有检查功能,不可随意输入。
进一步地,对于所述命令词门限定义模块,每个识别出来的命令词都有一个可信度的值,当命令词可信度值大于等于设置的门限值时命令词有效,小于该门限值则被系统丢弃。
进一步地,所述播报音配置模块会让用户选择提示音的类型,每种类型有试听功能;所述播报音配置模块对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置,设置的内容由用户手动输入,所述播报音配置模块在后台生成播放的语音文件。
进一步地,所述模型生成服务模块包括语音识别的解码模型生成、解码配置文件生成以及业务文件生成,并把所述一堆文件打包成镜像。
本发明还公开了一种用于离线语音识别的实时生成解码文件的方法,包括以下步骤:
a.用户使用自己的用户名、密码登录到系统;
b.输入唤醒词和命令词,并进行系统检测,对于系统提示的词进行修改和调整;
c.查看命令词的发音,检查每个词条的发音是否正确,对不正确的发音进行修改;
d.对上电、唤醒词和命令词配置发送命令;
e.设置唤醒词和每个命令词的门限值,系统会给出默认门限值,用户根据产品的使用场景和特点来调整门限值;
f.配置上电播报音、唤醒后的播报音和命令词播报音;
g.点击生成解码镜像,用户下载镜像后放到硬件板子上以实现定制化的语音识别。
本发明的有益效果是:
1)依托于在线平台,客户的初始版本只需要有我们提供的硬件系统后,客户登录系统很快就能完成从命令词定义到解码文件,这个阶段由原来的两周以上时间降低为几分钟,成倍的加快了项目的交互周期,提升了企业的竞争力。
2)客户在不同阶段会有不同的想法,命令词可能会调整,通过在线平台,客户可自行调整命令词,很大程度上增强了客户对产品使用方面自由方便的感受。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的模块说明图;
图2是本发明实施例的详细流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
本发明的具体实施的系统框图如附图1所示,一种用于离线语音识别的实时生成解码文件的系统,包括:
1)命令词定义模块101,该模块提供了唤醒词和命令词的定义以及词条检测功能,所述词条检测功能包括词的相似度检测、词的发音检测,对于不满足条件的词给出警告提醒;
2)命令词发音审核模块102,该模块显示词条发音和修改词条发音;所述命令词发音审核模块102会根据系统定义的词条生成每个词的发音,发音内容会显示到界面上;还包括人工检查和审核,对发现不正确的发音进行修改;
3)串口命令定义模块103,该模块定义命令词与系统之间的交互关系;所述串口命令定义模块103显示出定义的词条,在词条后面设有输入框,用于输入当出现该词条时发什么命令给系统;输入的命令系统会有检查功能,不可随意输入;
4)命令词门限定义模块104,该模块定义命令词的门限值;对于所述命令词门限定义模块104,每个识别出来的命令词都有一个可信度的值,当命令词可信度值大于等于设置的门限值时命令词有效,小于该门限值则被系统丢弃;
5)播报音配置模块105,该模块设置识别出命令词后提示客户的播报音;所述播报音配置模块105会让用户选择提示音的类型,每种类型有试听功能;所述播报音配置模块105对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置,设置的内容由用户手动输入,所述播报音配置模块105在后台生成播放的语音文件;
6)模型生成服务模块106,该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块;所述模型生成服务模块106包括语音识别的解码模型生成、解码配置文件生成以及业务文件生成,并把所述一堆文件打包成镜像;
7)用户管理服务模块107,该服务模块包括用户的注册、审核、登录、删除相关的服务模块。
该系统包含命令词定义模块、命令词发音审核模块、串口命令定义模块、命令词门限定义模块、播报音配置模块五大模块和模型生成服务、用户管理服务两大服务模块。从图2的流程图上可以看到整体的实施方法,首先命令词和发音的确定,接着是串口、门限、播报音的确定,最后是调用模型生成服务生成需要的解码镜像,下载镜像到板子并上电即可完成所有操作。详细步骤包括如下:
如附图2所示,本发明还公开了一种用于离线语音识别的实时生成解码文件的方法,包括以下步骤:
a.用户使用自己的用户名、密码登录到系统;
b.输入唤醒词和命令词,并进行系统检测,对于系统提示的词进行修改和调整;
c.查看命令词的发音,检查每个词条的发音是否正确,对不正确的发音进行修改;
d.对上电、唤醒词和命令词配置发送命令;
e.设置唤醒词和每个命令词的门限值,系统会给出默认门限值,用户根据产品的使用场景和特点来调整门限值;
f.配置上电播报音、唤醒后的播报音和命令词播报音;
g.点击生成解码镜像,用户下载镜像后放到硬件板子上以实现定制化的语音识别。
本发明的有益效果是:
1)依托于在线平台,客户的初始版本只需要有我们提供的硬件系统后,客户登录系统很快就能完成从命令词定义到解码文件,这个阶段由原来的两周以上时间降低为几分钟,成倍的加快了项目的交互周期,提升了企业的竞争力。
2)客户在不同阶段会有不同的想法,命令词可能会调整,通过在线平台,客户可自行调整命令词,很大程度上增强了客户对产品使用方面自由方便的感受。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种用于离线语音识别的实时生成解码文件的系统,其特征在于,包括:
命令词定义模块,该模块提供了唤醒词和命令词的定义以及词条检测功能;
命令词发音审核模块,该模块显示词条发音和修改词条发音;
串口命令定义模块,该模块定义命令词与系统之间的交互关系;
命令词门限定义模块,该模块定义命令词的门限值;
播报音配置模块,该模块设置识别出命令词后提示客户的播报音;
模型生成服务模块,该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块;
用户管理服务模块,该服务模块具有用户的注册、审核、登录以及删除的服务功能。
2.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:所述词条检测功能包括词的相似度检测以及词的发音检测。
3.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:所述命令词发音审核模块会根据系统定义的词条生成每个词的发音,发音内容会显示到界面上。
4.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:所述串口命令定义模块显示出定义的词条,在词条后面设有输入框,用于输入命令给系统;输入的命令系统会有检查功能,不可随意输入。
5.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:对于所述命令词门限定义模块,每个识别出来的命令词都有一个可信度的值,当命令词的可信度值大于或等于设置的门限值时命令词有效,小于该门限值则被丢弃。
6.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:所述播报音配置模块会让用户选择提示音的类型,所述播报音配置模块对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置,设置的内容由用户手动输入,所述播报音配置模块在后台生成播放的语音文件。
7.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统,其特征在于:所述模型生成服务模块用以语音识别的解码模型生成、解码配置文件生成以及业务文件生成,并把所述一堆文件打包成镜像。
8.一种用于离线语音识别的实时生成解码文件的方法,其特征在于,包括以下步骤:
a.用户使用自己的用户名、密码登录到系统;
b.输入唤醒词和命令词,并进行系统检测,对于系统提示的词进行修改和调整;
c.查看命令词的发音,检查每个词条的发音是否正确,对不正确的发音进行修改;
d.对上电、唤醒词和命令词配置发送命令;
e.设置唤醒词和每个命令词的门限值,系统会给出默认门限值,用户根据产品的使用场景和特点来调整门限值;
f.配置上电播报音、唤醒后的播报音和命令词播报音;
g.点击生成解码镜像,用户下载镜像后放到硬件板子上以实现定制化的语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323145.0A CN111724768A (zh) | 2020-04-22 | 2020-04-22 | 用于离线语音识别的实时生成解码文件的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323145.0A CN111724768A (zh) | 2020-04-22 | 2020-04-22 | 用于离线语音识别的实时生成解码文件的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111724768A true CN111724768A (zh) | 2020-09-29 |
Family
ID=72563669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010323145.0A Pending CN111724768A (zh) | 2020-04-22 | 2020-04-22 | 用于离线语音识别的实时生成解码文件的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724768A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US20150134332A1 (en) * | 2012-09-26 | 2015-05-14 | Huawei Technologies Co., Ltd. | Speech recognition method and device |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106921544A (zh) * | 2016-06-20 | 2017-07-04 | 广州零号软件科技有限公司 | 预设语音交互命令词库的智能家居语音控制系统 |
CN108632653A (zh) * | 2018-05-30 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 语音管控方法、智能电视及计算机可读存储介质 |
CN108766441A (zh) * | 2018-05-29 | 2018-11-06 | 广东声将军科技有限公司 | 一种基于离线声纹识别和语音识别的语音控制方法及装置 |
CN109584875A (zh) * | 2018-12-24 | 2019-04-05 | 珠海格力电器股份有限公司 | 一种语音设备控制方法、装置、存储介质及语音设备 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
-
2020
- 2020-04-22 CN CN202010323145.0A patent/CN111724768A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US20150134332A1 (en) * | 2012-09-26 | 2015-05-14 | Huawei Technologies Co., Ltd. | Speech recognition method and device |
CN106921544A (zh) * | 2016-06-20 | 2017-07-04 | 广州零号软件科技有限公司 | 预设语音交互命令词库的智能家居语音控制系统 |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN108766441A (zh) * | 2018-05-29 | 2018-11-06 | 广东声将军科技有限公司 | 一种基于离线声纹识别和语音识别的语音控制方法及装置 |
CN108632653A (zh) * | 2018-05-30 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 语音管控方法、智能电视及计算机可读存储介质 |
CN109584875A (zh) * | 2018-12-24 | 2019-04-05 | 珠海格力电器股份有限公司 | 一种语音设备控制方法、装置、存储介质及语音设备 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
US8249873B2 (en) | Tonal correction of speech | |
CN110164435A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
KR20160077190A (ko) | 자연 표현 처리 방법, 처리 및 응답 방법, 디바이스 및 시스템 | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN106486121A (zh) | 应用于智能机器人的语音优化方法及装置 | |
CN109119071A (zh) | 一种语音识别模型的训练方法及装置 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN110517686A (zh) | 智能音箱端语音开通应用的方法及系统 | |
CN111653265A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN109243450A (zh) | 一种交互式的语音识别方法及系统 | |
CN116762078A (zh) | 用于聊天机器人会话的实体解析 | |
KR20200145776A (ko) | 음성보정 합성방법, 장치 및 프로그램 | |
CN111429914A (zh) | 麦克风控制方法、电子装置及计算机可读存储介质 | |
CN117056481A (zh) | 基于大模型技术的云服务行业对话帮助系统及实现方法 | |
CN112349266A (zh) | 一种语音编辑方法及相关设备 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
CN110298150B (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN112163084A (zh) | 问题反馈方法、装置、介质以及电子设备 | |
CN111724768A (zh) | 用于离线语音识别的实时生成解码文件的系统和方法 | |
CN111599342A (zh) | 音色选择方法和选择系统 | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
KR20220154655A (ko) | 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
CN115101053A (zh) | 基于情绪识别的对话处理方法、装置、终端及存储介质 | |
CN112150103B (zh) | 一种日程设置方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200929 |
|
RJ01 | Rejection of invention patent application after publication |