CN113436618A - 一种用于语音指令捕捉的信号精确度调节系统 - Google Patents

一种用于语音指令捕捉的信号精确度调节系统 Download PDF

Info

Publication number
CN113436618A
CN113436618A CN202110561900.3A CN202110561900A CN113436618A CN 113436618 A CN113436618 A CN 113436618A CN 202110561900 A CN202110561900 A CN 202110561900A CN 113436618 A CN113436618 A CN 113436618A
Authority
CN
China
Prior art keywords
voice
instruction
matching
voice instruction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110561900.3A
Other languages
English (en)
Inventor
彭玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110561900.3A priority Critical patent/CN113436618A/zh
Publication of CN113436618A publication Critical patent/CN113436618A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种用于语音指令捕捉的信号精确度调节系统及方法,系统包括语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块,语音指令样本库实时更新模块对新更新的语音指令实时上传到语音指令样本库中进行存储,指令分段采集单元用于对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令,采集单元识别指令分析匹配模块用于对不同采集模块采集的语音指令进行识别匹配分析,样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,非限定语音指令信号人工捕捉训练模块用于对采集的未在样本库中的语音指令进行捕捉训练。

Description

一种用于语音指令捕捉的信号精确度调节系统
技术领域
本发明涉及语音识别技术领域,具体为一种用于语音指令捕捉的信号精确度调节系统。
背景技术
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别,关键词识别和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务。
语音识别主要有以下五个问题:对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则;语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。环境噪声和干扰对语音识别有严重影响,致使识别率低。
目前,在语音指令识别时很容易导致语音指令识别不清晰的情况出现,但在现在语音输入时,设备往往只对语音进行识别,而本申请旨在对语音和用户唇语通过录音和录像分段进行识别分析,提高语音指令信号的精确度。
发明内容
本发明的目的在于提供一种用于语音指令捕捉的信号精确度调节系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种用于语音指令捕捉的信号精确度调节系统及方法,系统包括语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块,其中,语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块依次通过内网连接,样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块分别和语音指令样本库实时更新模块通过内网连接;
所述语音指令样本库实时更新模块用于对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看,指令分段采集单元用于对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令,采集单元识别指令分析匹配模块用于对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率,样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令,非限定语音指令信号人工捕捉训练模块用于对采集的未在样本库中的语音指令进行捕捉训练。
通过采用上述技术方案:所述语音指令样本库实时更新模块包括更新指令样本关键词汇输入子模块和指令样本关键词汇汇总反馈子模块,更新指令样本关键词汇输入子模块用于将训练输出的语音指令实时输入样本库中进行更新,对样本库内的语音指令模板进行扩充,指令样本关键词汇汇总反馈子模块用于对语音指令样本库的内部的语音指令进行汇总,将汇总后的语音指令反馈给系统平台,用户根据汇总后的语音指令集合对相应设备发送语音指令进行控制。
通过采用上述技术方案:所述指令分段采集单元包括指令第一语音采集单元和指令第二视频采集单元,指令第一语音采集单元用于对用户发出的语音指令进行录音,对录音文件进行分段化切割,对每一分段进行语音识别,指令第二视频采集单元用于对用户发出语音指令时进行录像,对录像视频进行分段切割,对每一分段录像视频进行唇语识别,将语音识别和唇语识别出的指令信息进行分别按照不同分段进行汇总,其中,录音文件和录像文件按照同一时间片段进行切割,将语音识别和唇语识别后的分段数据分别进行标记,将标记后的数据发送至采集单元识别指令分析匹配模块。
通过采用上述技术方案:所述采集单元识别指令分析匹配模块包括片段化识别指令匹配率分析子模块和二次识别调整匹配子模块,片段化识别指令匹配率分析子模块按照指令第一语音采集单元和指令第二视频采集单元采集的的分段式录音和录像文件进行识别,将同一时间分段的语音识别和唇语识别的数据进行匹配,对每一分段的语音和唇语识别数据的匹配率分析,二次识别调整匹配子模块用于在首次匹配率不满足要求时,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析。
通过采用上述技术方案:所述片段化识别指令匹配率分析子模块用于对采集的语音文件和录像文件分别进行分段化语音识别和唇语识别,对同一时间分段的语音识别数据和唇语识别数据按照分段内关键词和分段解释内容进行匹配,设定当前不同分段的语音识别数据和唇语识别数据关键词匹配率为F1%,分段解释内容匹配率为F2%,设定关键词匹配率占比为Pm%,分段解释内容匹配率占比为Pn%,设定某一时间分段内语音识别数据和唇语识别数据的综合匹配度为F0,满足公式:
Figure DEST_PATH_IMAGE002
计算得出当前时间分段内语音识别数据和唇语识别数据的综合匹配度,逐一计算出采集语音文件和录像文件不同时间分段的综合匹配度为F01、F02、F03、…、F0n-1、F0n,设定采集的语音指令总匹配度满足以下公式:
Figure DEST_PATH_IMAGE004
当采集的语音指令不同分段集合的总匹配度满足上述公式,判定该语音指令匹配度合格,发送至样本库进行匹配,当采集的语音指令不同分段集合的总匹配度不满足上述公式,判定该语音指令匹配度不合格,该语音指令发送至二次识别调整匹配子模块,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析,当二次识别后满足上述公式,将语音指令发送至样本库,当语音指令在二次识别后依旧不满足上述公式,则判定该语音指令不符合语音录入标准,反馈给用户进行重新录入。
通过采用上述技术方案:所述样本库指令智能匹配模块包括限定语音指令信号匹配标记子模块和非限定语音指令信号人工反馈子模块,用于对用户语音指令与样本库内存储的指令信号进行匹配;当样本库中存在用户所输入的语音指令时,限定语音指令信号匹配标记子模块将当前语音指令标记为限定语音指令后筛出,并按照该指令信号原先设置的设备处理方法对该设备进行控制,当样本库中不存在用户所输入的语音指令,则非限定语音指令信号人工反馈子模块当前语音指令为非限定语音指令信号,并发送至非限定语音指令信号人工捕捉训练模块进行人工训练。
通过采用上述技术方案:所述非限定语音指令信号人工捕捉训练模块包括非限定语音指令信号模拟设备训练子模块和训练检测输出概率分析子模块,非限定语音指令信号模拟设备训练子模块用于对样本库内不存在的非限定语音指令信号进行模拟设备训练,通过语音训练对该模拟设备进行若干次训练,将训练结果发送至训练检测输出概率分析子模块,训练检测输出概率分析子模块用于对若干次模拟设备对语音训练的结果进行监测分析,判定当前语音指令是否能够成功录入。
通过采用上述技术方案:所述训练检测输出概率分析子模块通过模拟设备若干次对非限定语音指令信号进行训练,设定若干次模拟设备训练下该非限定语音指令信号的可操作系数为Y1、Y2、Y3、…、Yn-1、Yn,其中,可操作系数为1-100,设定当前模拟设备训练的标准系数为Yj,设定模拟设备训练可操作数据最大值为CO,模拟设备训练可操作数据最小值为C1,监测其模拟设备训练合格率H,满足公式:
Figure DEST_PATH_IMAGE006
计算得出当前模拟设备对非限定语音指令信号训练的合格率,当合格率大于设定阈值,判定当前非限定语音指令信号能够在设备上实施,将当前语音指令信号发送至样本库中进行存储,当合格率小于等于设定阈值,判定当前非限定语音指令信号不能够在设备上实施,对该语音指令信号不做处理。
一种用于语音指令捕捉的信号精确度调节方法:
S1:利用语音指令样本库实时更新模块对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看;
S2:利用指令分段采集单元对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令;
S3:利用采集单元识别指令分析匹配模块对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率;
S4:利用样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令;
S5:利用非限定语音指令信号人工捕捉训练模块对采集的未在样本库中的语音指令进行捕捉训练。
通过采用上述技术方案:所述调节方法还包括以下步骤:
S1-1:利用更新指令样本关键词汇输入子模块将训练输出的语音指令实时输入样本库中进行更新,对样本库内的语音指令模板进行扩充,指令样本关键词汇汇总反馈子模块对语音指令样本库的内部的语音指令进行汇总,将汇总后的语音指令反馈给系统平台,用户根据汇总后的语音指令集合对相应设备发送语音指令进行控制;
S2-1:利用指令第一语音采集单元对用户发出的语音指令进行录音,对录音文件进行分段化切割,对每一分段进行语音识别,指令第二视频采集单元对用户发出语音指令时进行录像,对录像视频进行分段切割,对每一分段录像视频进行唇语识别,将语音识别和唇语识别出的指令信息进行分别按照不同分段进行汇总,其中,录音文件和录像文件按照同一时间片段进行切割,将语音识别和唇语识别后的分段数据分别进行标记,将标记后的数据发送至采集单元识别指令分析匹配模块;
S3-1:利用片段化识别指令匹配率分析子模块按照指令第一语音采集单元和指令第二视频采集单元采集的的分段式录音和录像文件进行识别,将同一时间分段的语音识别和唇语识别的数据进行匹配,对每一分段的语音和唇语识别数据的匹配率分析,二次识别调整匹配子模块在首次匹配率不满足要求时,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析;
S4-1:利用限定语音指令信号匹配标记子模块对用户语音指令与样本库内存储的指令信号进行匹配,当样本库中存在用户所输入的语音指令,对该指令标记后进行筛出,对该语音指令标记为限定语音指令信号,按照该指令信号原先设置的设备处理方法对该设备进行控制,非限定语音指令信号人工反馈子模块对用户语音指令与样本库内存储的指令信号进行匹配,当样本库中不存在用户所输入的语音指令,判定当前语音指令为非限定语音指令信号,将该指令发送至非限定语音指令信号人工捕捉训练模块进行人工训练;
S5-1:利用非限定语音指令信号模拟设备训练子模块对样本库内不存在的非限定语音指令信号进行模拟设备训练,通过语音训练对该模拟设备进行若干次训练,将训练结果发送至训练检测输出概率分析子模块,训练检测输出概率分析子模块对若干次模拟设备对语音训练的结果进行监测分析,判定当前语音指令是否能够成功录入。
与现有技术相比,本发明所达到的有益效果是:本发明旨在对语音和用户唇语通过录音和录像分段进行识别分析,提高语音指令信号的精确度;
利用语音指令样本库实时更新模块用于对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看,指令分段采集单元用于对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令,采集单元识别指令分析匹配模块用于对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率,样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令,非限定语音指令信号人工捕捉训练模块用于对采集的未在样本库中的语音指令进行捕捉训练。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是一种用于语音指令捕捉的信号精确度调节系统的模块结构示意图;
图2是一种用于语音指令捕捉的信号精确度调节方法的步骤示意图;
图3是一种用于语音指令捕捉的信号精确度调节方法的具体步骤示意图;
图4是一种用于语音指令捕捉的信号精确度调节系统的实施方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供技术方案:
本发明的工作原理:
一种用于语音指令捕捉的信号精确度调节系统及方法,系统包括语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块,其中,语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块依次通过内网连接,样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块分别和语音指令样本库实时更新模块通过内网连接;
所述语音指令样本库实时更新模块用于对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看,指令分段采集单元用于对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令,采集单元识别指令分析匹配模块用于对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率,样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令,非限定语音指令信号人工捕捉训练模块用于对采集的未在样本库中的语音指令进行捕捉训练。
通过采用上述技术方案:所述语音指令样本库实时更新模块包括更新指令样本关键词汇输入子模块和指令样本关键词汇汇总反馈子模块,更新指令样本关键词汇输入子模块用于将训练输出的语音指令实时输入样本库中进行更新,对样本库内的语音指令模板进行扩充,指令样本关键词汇汇总反馈子模块用于对语音指令样本库的内部的语音指令进行汇总,将汇总后的语音指令反馈给系统平台,用户根据汇总后的语音指令集合对相应设备发送语音指令进行控制。
通过采用上述技术方案:所述指令分段采集单元包括指令第一语音采集单元和指令第二视频采集单元,指令第一语音采集单元用于对用户发出的语音指令进行录音,对录音文件进行分段化切割,对每一分段进行语音识别,指令第二视频采集单元用于对用户发出语音指令时进行录像,对录像视频进行分段切割,对每一分段录像视频进行唇语识别,将语音识别和唇语识别出的指令信息进行分别按照不同分段进行汇总,其中,录音文件和录像文件按照同一时间片段进行切割,将语音识别和唇语识别后的分段数据分别进行标记,将标记后的数据发送至采集单元识别指令分析匹配模块。
通过采用上述技术方案:所述采集单元识别指令分析匹配模块包括片段化识别指令匹配率分析子模块和二次识别调整匹配子模块,片段化识别指令匹配率分析子模块按照指令第一语音采集单元和指令第二视频采集单元采集的的分段式录音和录像文件进行识别,将同一时间分段的语音识别和唇语识别的数据进行匹配,对每一分段的语音和唇语识别数据的匹配率分析,二次识别调整匹配子模块用于在首次匹配率不满足要求时,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析。
通过采用上述技术方案:所述片段化识别指令匹配率分析子模块用于对采集的语音文件和录像文件分别进行分段化语音识别和唇语识别,对同一时间分段的语音识别数据和唇语识别数据按照分段内关键词和分段解释内容进行匹配,设定当前不同分段的语音识别数据和唇语识别数据关键词匹配率为F1%,分段解释内容匹配率为F2%,设定关键词匹配率占比为Pm%,分段解释内容匹配率占比为Pn%,设定某一时间分段内语音识别数据和唇语识别数据的综合匹配度为F0,满足公式:
Figure 333737DEST_PATH_IMAGE002
计算得出当前时间分段内语音识别数据和唇语识别数据的综合匹配度,逐一计算出采集语音文件和录像文件不同时间分段的综合匹配度为F01、F02、F03、…、F0n-1、F0n,设定采集的语音指令总匹配度满足以下公式:
Figure DEST_PATH_IMAGE007
当采集的语音指令不同分段集合的总匹配度满足上述公式,判定该语音指令匹配度合格,发送至样本库进行匹配,当采集的语音指令不同分段集合的总匹配度不满足上述公式,判定该语音指令匹配度不合格,该语音指令发送至二次识别调整匹配子模块,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析,当二次识别后满足上述公式,将语音指令发送至样本库,当语音指令在二次识别后依旧不满足上述公式,则判定该语音指令不符合语音录入标准,反馈给用户进行重新录入。
通过采用上述技术方案:所述样本库指令智能匹配模块包括限定语音指令信号匹配标记子模块和非限定语音指令信号人工反馈子模块,用于对用户语音指令与样本库内存储的指令信号进行匹配;当样本库中存在用户所输入的语音指令时,限定语音指令信号匹配标记子模块将当前语音指令标记为限定语音指令后筛出,并按照该指令信号原先设置的设备处理方法对该设备进行控制,当样本库中不存在用户所输入的语音指令,则非限定语音指令信号人工反馈子模块当前语音指令为非限定语音指令信号,并发送至非限定语音指令信号人工捕捉训练模块进行人工训练。
通过采用上述技术方案:所述非限定语音指令信号人工捕捉训练模块包括非限定语音指令信号模拟设备训练子模块和训练检测输出概率分析子模块,非限定语音指令信号模拟设备训练子模块用于对样本库内不存在的非限定语音指令信号进行模拟设备训练,通过语音训练对该模拟设备进行若干次训练,将训练结果发送至训练检测输出概率分析子模块,训练检测输出概率分析子模块用于对若干次模拟设备对语音训练的结果进行监测分析,判定当前语音指令是否能够成功录入。
通过采用上述技术方案:所述训练检测输出概率分析子模块通过模拟设备若干次对非限定语音指令信号进行训练,设定若干次模拟设备训练下该非限定语音指令信号的可操作系数为Y1、Y2、Y3、…、Yn-1、Yn,其中,可操作系数为1-100,设定当前模拟设备训练的标准系数为Yj,设定模拟设备训练可操作数据最大值为CO,模拟设备训练可操作数据最小值为C1,监测其模拟设备训练合格率H,满足公式:
Figure 719719DEST_PATH_IMAGE006
计算得出当前模拟设备对非限定语音指令信号训练的合格率,当合格率大于设定阈值,判定当前非限定语音指令信号能够在设备上实施,将当前语音指令信号发送至样本库中进行存储,当合格率小于等于设定阈值,判定当前非限定语音指令信号不能够在设备上实施,对该语音指令信号不做处理。
一种用于语音指令捕捉的信号精确度调节方法:
S1:利用语音指令样本库实时更新模块对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看;
S2:利用指令分段采集单元对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令;
S3:利用采集单元识别指令分析匹配模块对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率;
S4:利用样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令;
S5:利用非限定语音指令信号人工捕捉训练模块对采集的未在样本库中的语音指令进行捕捉训练。
通过采用上述技术方案:所述调节方法还包括以下步骤:
S1-1:利用更新指令样本关键词汇输入子模块将训练输出的语音指令实时输入样本库中进行更新,对样本库内的语音指令模板进行扩充,指令样本关键词汇汇总反馈子模块对语音指令样本库的内部的语音指令进行汇总,将汇总后的语音指令反馈给系统平台,用户根据汇总后的语音指令集合对相应设备发送语音指令进行控制;
S2-1:利用指令第一语音采集单元对用户发出的语音指令进行录音,对录音文件进行分段化切割,对每一分段进行语音识别,指令第二视频采集单元对用户发出语音指令时进行录像,对录像视频进行分段切割,对每一分段录像视频进行唇语识别,将语音识别和唇语识别出的指令信息进行分别按照不同分段进行汇总,其中,录音文件和录像文件按照同一时间片段进行切割,将语音识别和唇语识别后的分段数据分别进行标记,将标记后的数据发送至采集单元识别指令分析匹配模块;
S3-1:利用片段化识别指令匹配率分析子模块按照指令第一语音采集单元和指令第二视频采集单元采集的的分段式录音和录像文件进行识别,将同一时间分段的语音识别和唇语识别的数据进行匹配,对每一分段的语音和唇语识别数据的匹配率分析,二次识别调整匹配子模块在首次匹配率不满足要求时,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析;
S4-1:利用限定语音指令信号匹配标记子模块对用户语音指令与样本库内存储的指令信号进行匹配,当样本库中存在用户所输入的语音指令,对该指令标记后进行筛出,对该语音指令标记为限定语音指令信号,按照该指令信号原先设置的设备处理方法对该设备进行控制,非限定语音指令信号人工反馈子模块对用户语音指令与样本库内存储的指令信号进行匹配,当样本库中不存在用户所输入的语音指令,判定当前语音指令为非限定语音指令信号,将该指令发送至非限定语音指令信号人工捕捉训练模块进行人工训练;
S5-1:利用非限定语音指令信号模拟设备训练子模块对样本库内不存在的非限定语音指令信号进行模拟设备训练,通过语音训练对该模拟设备进行若干次训练,将训练结果发送至训练检测输出概率分析子模块,训练检测输出概率分析子模块对若干次模拟设备对语音训练的结果进行监测分析,判定当前语音指令是否能够成功录入。
实施例1:限定条件,对同一时间分段的语音识别数据和唇语识别数据按照分段内关键词和分段解释内容进行匹配,设定当前不同分段的语音识别数据和唇语识别数据关键词匹配率为96%,分段解释内容匹配率为98%,设定关键词匹配率占比为40%,分段解释内容匹配率占比为60%,设定某一时间分段内语音识别数据和唇语识别数据的综合匹配度为F0,满足公式:
Figure DEST_PATH_IMAGE009
计算得出当前时间分段内语音识别数据和唇语识别数据的综合匹配度,逐一计算出采集语音文件和录像文件不同时间分段的综合匹配度为97.2%、99.4%、98.9%、100%、100%、99.8%,设定采集的语音指令总匹配度满足以下公式:
Figure DEST_PATH_IMAGE011
当采集的语音指令不同分段集合的总匹配度满足上述公式,判定该语音指令匹配度合格,发送至样本库进行匹配。
实施例2:限定条件,训练检测输出概率分析子模块通过模拟设备若干次对非限定语音指令信号进行训练,设定若干次模拟设备训练下该非限定语音指令信号的可操作系数为78、84、77、88、92,设定当前模拟设备训练的标准系数为80,设定模拟设备训练可操作数据最大值为99,模拟设备训练可操作数据最小值为60,监测其模拟设备训练合格率H,满足公式:
Figure DEST_PATH_IMAGE013
计算得出当前模拟设备对非限定语音指令信号训练的合格率为12.8%,设定阈值为15%,合格率12.8%小于设定阈值15%,判定当前非限定语音指令信号不能够在设备上实施,对该语音指令信号不做处理。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述系统包括语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块,其中,语音指令样本库实时更新模块、指令分段采集单元、采集单元识别指令分析匹配模块、样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块依次通过内网连接,样本库指令智能匹配模块和非限定语音指令信号人工捕捉训练模块分别和语音指令样本库实时更新模块通过内网连接;
所述语音指令样本库实时更新模块用于对新更新的语音指令实时上传到语音指令样本库中进行存储,将存储的语音指令反馈给系统平台用于方便用户查看,指令分段采集单元用于对用户输入的语音指令进行片段化采集,智能识别当前用户识别的语音指令,采集单元识别指令分析匹配模块用于对不同采集模块采集的语音指令进行识别匹配,分析采集的不同指令的匹配率,样本库指令智能匹配模块将采集筛选出的语音指令与样本库进行匹配,确认当前样本库是否存在该语音指令,非限定语音指令信号人工捕捉训练模块用于对采集的未在样本库中的语音指令进行捕捉训练;
所述语音指令样本库实时更新模块包括更新指令样本关键词汇输入子模块和指令样本关键词汇汇总反馈子模块,更新指令样本关键词汇输入子模块用于将训练输出的语音指令实时输入样本库中进行更新,对样本库内的语音指令模板进行扩充,指令样本关键词汇汇总反馈子模块用于对语音指令样本库的内部的语音指令进行汇总,将汇总后的语音指令反馈给系统平台,用户根据汇总后的语音指令集合对相应设备发送语音指令进行控制;
所述采集单元识别指令分析匹配模块包括片段化识别指令匹配率分析子模块和二次识别调整匹配子模块,片段化识别指令匹配率分析子模块按照指令第一语音采集单元和指令第二视频采集单元采集的的分段式录音和录像文件进行识别,将同一时间分段的语音识别和唇语识别的数据进行匹配,对每一分段的语音和唇语识别数据的匹配率分析,二次识别调整匹配子模块用于在首次匹配率不满足要求时,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析。
2.根据权利要求1所述的一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述片段化识别指令匹配率分析子模块用于对采集的语音文件和录像文件分别进行分段化语音识别和唇语识别,对同一时间分段的语音识别数据和唇语识别数据按照分段内关键词和分段解释内容进行匹配,设定当前不同分段的语音识别数据和唇语识别数据关键词匹配率为F1%,分段解释内容匹配率为F2%,设定关键词匹配率占比为Pm%,分段解释内容匹配率占比为Pn%,设定某一时间分段内语音识别数据和唇语识别数据的综合匹配度为F0,满足公式:
Figure DEST_PATH_IMAGE001
计算得出当前时间分段内语音识别数据和唇语识别数据的综合匹配度,逐一计算出采集语音文件和录像文件不同时间分段的综合匹配度为F01、F02、F03、…、F0n-1、F0n,设定采集的语音指令总匹配度满足以下公式:
Figure 739468DEST_PATH_IMAGE002
其中,n为所采集不同时间段语音文件和录像文件综合匹配度的个数,F0nmin为所采集语音文件和录像文件综合匹配度的最小值;
当采集的语音指令不同分段集合的总匹配度满足上述公式,判定该语音指令匹配度合格,发送至样本库进行匹配,当采集的语音指令不同分段集合的总匹配度不满足上述公式,判定该语音指令匹配度不合格,该语音指令发送至二次识别调整匹配子模块,对指令第一语音采集单元和指令第二视频采集单元采集语音文件和视频文件重新按照时间进行分段,对分段后的录音文件和录像文件分别重新进行语音识别和唇语识别,对重新识别的数据进行匹配分析,当二次识别后满足上述公式,将语音指令发送至样本库,当语音指令在二次识别后依旧不满足上述公式,则判定该语音指令不符合语音录入标准,反馈给用户进行重新录入。
3.根据权利要求1所述的一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述指令分段采集单元包括指令第一语音采集单元和指令第二视频采集单元,指令第一语音采集单元用于对用户发出的语音指令进行录音,对录音文件进行分段化切割,对每一分段进行语音识别,指令第二视频采集单元用于对用户发出语音指令时进行录像,对录像视频进行分段切割,对每一分段录像视频进行唇语识别,将语音识别和唇语识别出的指令信息进行分别按照不同分段进行汇总,其中,录音文件和录像文件按照同一时间片段进行切割,将语音识别和唇语识别后的分段数据分别进行标记,将标记后的数据发送至采集单元识别指令分析匹配模块。
4.根据权利要求1所述的一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述样本库指令智能匹配模块包括限定语音指令信号匹配标记子模块和非限定语音指令信号人工反馈子模块,用于对用户语音指令与样本库内存储的指令信号进行匹配;当样本库中存在用户所输入的语音指令时,限定语音指令信号匹配标记子模块将当前语音指令标记为限定语音指令后筛出,并按照该指令信号原先设置的设备处理方法对该设备进行控制,当样本库中不存在用户所输入的语音指令,则非限定语音指令信号人工反馈子模块当前语音指令为非限定语音指令信号,并发送至非限定语音指令信号人工捕捉训练模块进行人工训练。
5.根据权利要求1所述的一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述非限定语音指令信号人工捕捉训练模块包括非限定语音指令信号模拟设备训练子模块和训练检测输出概率分析子模块,非限定语音指令信号模拟设备训练子模块用于对样本库内不存在的非限定语音指令信号进行模拟设备训练,通过语音训练对该模拟设备进行若干次训练,将训练结果发送至训练检测输出概率分析子模块,训练检测输出概率分析子模块用于对若干次模拟设备对语音训练的结果进行监测分析,判定当前语音指令是否能够成功录入。
6.根据权利要求5所述的一种用于语音指令捕捉的信号精确度调节系统,其特征在于:所述训练检测输出概率分析子模块通过模拟设备若干次对非限定语音指令信号进行训练,设定若干次模拟设备训练下该非限定语音指令信号的可操作系数为Y1、Y2、Y3、…、Yn-1、Yn,其中,可操作系数为1-100,设定当前模拟设备训练的标准系数为Yj,设定模拟设备训练可操作数据最大值为CO,模拟设备训练可操作数据最小值为C1,监测其模拟设备训练合格率H,满足公式:
Figure DEST_PATH_IMAGE003
其中,Ynmax是指模拟设备训练下该非限定语音指令信号的可操作系数的最大值,Ynmin是指模拟设备训练下该非限定语音指令信号的可操作系数的最小值;
计算得出当前模拟设备对非限定语音指令信号训练的合格率,当合格率大于设定阈值,判定当前非限定语音指令信号能够在设备上实施,将当前语音指令信号发送至样本库中进行存储,当合格率小于等于设定阈值,判定当前非限定语音指令信号不能够在设备上实施,对该语音指令信号不做处理。
CN202110561900.3A 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统 Withdrawn CN113436618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110561900.3A CN113436618A (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010852699.XA CN111968628B (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统及方法
CN202110561900.3A CN113436618A (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202010852699.XA Division CN111968628B (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统及方法

Publications (1)

Publication Number Publication Date
CN113436618A true CN113436618A (zh) 2021-09-24

Family

ID=73390149

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010852699.XA Active CN111968628B (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统及方法
CN202110561900.3A Withdrawn CN113436618A (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010852699.XA Active CN111968628B (zh) 2020-08-22 2020-08-22 一种用于语音指令捕捉的信号精确度调节系统及方法

Country Status (1)

Country Link
CN (2) CN111968628B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742687B (zh) * 2021-08-31 2022-10-21 深圳时空数字科技有限公司 一种基于人工智能的物联网控制方法及系统
CN116347134B (zh) * 2023-03-29 2024-01-30 深圳市联合信息技术有限公司 基于人工智能教学课堂的机顶盒音频处理系统及其方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
CN102945074B (zh) * 2011-10-12 2016-04-27 微软技术许可有限责任公司 根据所捕捉的语音和音频内容来填充列表和任务
CN104166724A (zh) * 2014-08-26 2014-11-26 四川亿信信用评估有限公司 一种捕捉关键词的中文语音应用于浏览器的方法
CN104834900B (zh) * 2015-04-15 2017-12-19 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US20180204568A1 (en) * 2017-01-13 2018-07-19 Alicia J. Ginsberg System for filtering potential immigration threats through speech analysis
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108304072A (zh) * 2018-02-09 2018-07-20 北京北行科技有限公司 一种vr虚拟世界角色表情植入装置以及植入方法
CN109271915B (zh) * 2018-09-07 2021-10-08 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109599105A (zh) * 2018-11-30 2019-04-09 广州富港万嘉智能科技有限公司 基于图像及语音识别的自动取菜方法、系统及存储介质
CN111326152A (zh) * 2018-12-17 2020-06-23 南京人工智能高等研究院有限公司 语音控制方法及装置
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110570862A (zh) * 2019-10-09 2019-12-13 三星电子(中国)研发中心 一种语音识别方法及智能语音引擎装置
CN111191544A (zh) * 2019-12-20 2020-05-22 恒银金融科技股份有限公司 一种体感动作识别设备主动移动服务方法及系统

Also Published As

Publication number Publication date
CN111968628A (zh) 2020-11-20
CN111968628B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
US8793127B2 (en) Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
Harb et al. Voice-based gender identification in multimedia applications
US6442519B1 (en) Speaker model adaptation via network of similar users
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Jin et al. Event-based Video Retrieval Using Audio.
CN105427858A (zh) 实现语音自动分类的方法及系统
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN111429935B (zh) 一种语音话者分离方法和装置
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法
CN112397054B (zh) 一种电力调度语音识别方法
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
US11776532B2 (en) Audio processing apparatus and method for audio scene classification
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Nyodu et al. Automatic identification of Arunachal language using K-nearest neighbor algorithm
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
CN108629024A (zh) 一种基于声音识别的教学考勤方法
EP0177854B1 (en) Keyword recognition system using template-concatenation model
Neti et al. Joint processing of audio and visual information for multimedia indexing and human-computer interaction.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210924

WW01 Invention patent application withdrawn after publication