CN114627859A - 一种脱机语义识别电子相框的方法及系统 - Google Patents
一种脱机语义识别电子相框的方法及系统 Download PDFInfo
- Publication number
- CN114627859A CN114627859A CN202210127071.2A CN202210127071A CN114627859A CN 114627859 A CN114627859 A CN 114627859A CN 202210127071 A CN202210127071 A CN 202210127071A CN 114627859 A CN114627859 A CN 114627859A
- Authority
- CN
- China
- Prior art keywords
- photo frame
- operation instruction
- electronic photo
- semantic
- offline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 101001000212 Rattus norvegicus Decorin Proteins 0.000 claims description 6
- FVJZSBGHRPJMMA-UHFFFAOYSA-N distearoyl phosphatidylglycerol Chemical compound CCCCCCCCCCCCCCCCCC(=O)OCC(COP(O)(=O)OCC(O)CO)OC(=O)CCCCCCCCCCCCCCCCC FVJZSBGHRPJMMA-UHFFFAOYSA-N 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种脱机语义识别电子相框的方法及系统,所述方法包括:设置操作指令,并创建对应的语义处理模块;在电子相框中导入对应的语义处理模块;通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;通过相框主程序根据接收到的操作指令后执行对应操作。采用本发明实现的电子相框可以实现离线状态的语义识别与操作,使其更加智能化,操作更加便捷,提升用户体验。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种脱机语义识别电子相框的方法及系统。
背景技术
目前,随着电子技术的飞速发展,电子相框已为普通消费者所熟悉。电子相框被作为音乐视频照片的播放器,为用户提供照片、视频的播放与切换,其一般通过遥控器实现非接触性操作,随着电子相册的功能不断强大,为了实现强大的功能,电子相册需要有一个后台云服务器作为支持,使其能够正常使用云服务器中提供的比如语音识别等功能,现有的对电子相册的操作要么通过遥控器实现基本操作,要么通过线上语音识别功能实现基本操作,当电子相册为语音控制的电子相册时,其语音识别功能是需要先采集音频然后上报给服务器解析之后识别出指令意图后再下发给电子相框,即在没有网络的时候,这个功能就无法使用,这导致一些简单的页面切换等最常用最基础的操作都无法使用,这类电子相框对网络环境要求较高,一旦网络出现故障,就连基本的操作都实现不了,用户体验不高。
发明内容
本发明要解决的技术问题,在于提供一种脱机语义识别电子相框的方法及系统,解决现有电子相册需要依赖网络实现基本语言识别给用户操作带来不便的问题。
第一方面,本发明提供了一种脱机语义识别电子相框的方法,所述方法包括:
设置操作指令,并创建语义处理模块;
设置操作指令,并创建对应的语义处理模块;
在电子相框中导入对应的语义处理模块;
通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;
在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;
通过相框主程序根据接收到的操作指令后执行对应操作。
进一步的,所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型,通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令;
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
进一步的,所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。
进一步的,所述触发器采用DSPG芯片实现触发监听功能。
进一步的,所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。
第二方面,本发明提供了一种脱机语义识别电子相框的系统,所述系统包括:
脱机语义模块,用于设置操作指令,并创建对应的语义处理模块;
导入模块,用于在电子相框中导入对应的语义处理模块;
音频采集模块,用于通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;
识别模块,用于在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;以及
响应模块,用于通过相框主程序根据接收到的操作指令后执行对应操作。
进一步的,所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型,通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令;
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配;
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
进一步的,所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。
进一步的,所述触发器采用DSPG芯片实现触发监听功能。
进一步的,所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。
本发明的优点在于:
本发明通过脱机的交互可以使得相框不需要网络环境也能很好识别用户发出的语音指令,使得即使没有wifi也能够体验到人机交互功能,使其更加智能化,对于一些家人不在身边的老人家减少了WiFi连接等复杂操作,操作更加便捷,提升用户体验。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种脱机语义识别电子相框的方法的流程图。
图2是本发明一种脱机语义识别电子相框的系统的系统框图。
具体实施方式
请参照图1所示,本发明提供一种脱机语义识别电子相框的方法,所述方法包括:
设置操作指令,并创建对应的语义处理模块;
在电子相框中导入对应的语义处理模块;
通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;通过该相框触发器实时获取mic采集到的监听音频流信息,当监听到预置的唤醒关键词之后,才进行音频流信息的进一步采集。
在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;
通过相框主程序根据接收到的操作指令后执行对应操作。
较佳的,所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型(即最终的语音音频模型),通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令,所述操作指令信息描述例如{”action:next...”};
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
较佳的,所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置,所述X为预置的相片中人物或动物的称呼,比如女儿、儿子等。
较佳的,所述触发器采用DSPG芯片实现触发监听功能。
较佳的,所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。本发明可以通过在实际使用中更改唤醒关键词,特别是针对一些口音较重的的使用人群,有时候无法对特定名词准确发音,通过系统预选名称进行切换选择,可以最大程度提高唤醒关键词的识别率,使得无需联网也能准确无误的进行识别,提高用户体验。
请参照图2所示,本发明提供一种脱机语义识别电子相框的系统,所述系统包括:
脱机语义模块,用于设置操作指令,并创建对应的语义处理模块;
导入模块,用于在电子相框中导入对应的语义处理模块;
音频采集模块,用于通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;通过该相框触发器实时获取mic采集到的监听音频流信息,当监听到预置的唤醒关键词之后,才进行音频流信息的进一步采集。
识别模块,用于在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;以及
响应模块,用于通过相框主程序根据接收到的操作指令后执行对应操作。
较佳的,所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型(即最终的语音音频模型),通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令,所述操作指令信息描述例如{”action:next...”};
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
较佳的,所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置,所述X为预置的相片中人物或动物的称呼,比如女儿、儿子等。
较佳的,所述触发器采用DSPG芯片实现触发监听功能。
较佳的,所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。本发明可以通过在实际使用中更改唤醒关键词,特别是针对一些口音较重的的使用人群,有时候无法对特定名词准确发音,通过系统预选名称进行切换选择,可以最大程度提高唤醒关键词的识别率,使得无需联网也能准确无误的进行识别,提高用户体验。
本发明通过在电子相框中设置语义处理模块,实现脱机下的人机交互,不需要网络环境也能很好识别用户发出的语音指令,执行常用的语音操作,比如上一张、下一张、回到首页等操作,使其更加智能化,减少手动操作,特别是对于一些家人不在身边的老人家,一旦WiFi出现问题就不懂手动操作,可以通过本申请方法省去其WiFi连接等复杂操作,整体操作更加便捷,提升用户体验。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种脱机语义识别电子相框的方法,其特征在于:所述方法包括:
设置操作指令,并创建对应的语义处理模块;
在电子相框中导入对应的语义处理模块;
通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;
在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;
通过相框主程序根据接收到的操作指令后执行对应操作。
2.如权利要求1所述的一种脱机语义识别电子相框的方法,其特征在于:所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型,通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令;
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
3.如权利要求1所述的一种脱机语义识别电子相框的方法,其特征在于:所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。
4.如权利要求1所述的一种脱机语义识别电子相框的方法,其特征在于:所述触发器采用DSPG芯片实现触发监听功能。
5.如权利要求4所述的一种脱机语义识别电子相框的方法,其特征在于:所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。
6.一种脱机语义识别电子相框的系统,其特征在于:所述系统包括:
脱机语义模块,用于设置操作指令,并创建对应的语义处理模块;
导入模块,用于在电子相框中导入对应的语义处理模块;
音频采集模块,用于通过相框触发器监听预置的唤醒关键字后,由相框主程序采集音频流信息,并将所述音频流信息发送给语义处理模块;
识别模块,用于在所述语义处理模块接收到音频流信息后,将所述音频流转换成文字,对所述文字进行识别,将识别出来的结果转换为对应的操作指令回传给相框主程序;以及
响应模块,用于通过相框主程序根据接收到的操作指令后执行对应操作。
7.如权利要求6所述的一种脱机语义识别电子相框的系统,其特征在于:所述语义处理模块创建过程如下:
针对预设的操作指令,选择机器学习模型构建语音音频模型,通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练,得到特定类型的语音音频模型,通过所述特定类型的语音音频模型将待识别音频流信息转成文字,再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令;
其中,训练时,通过自然语言处理音频文件中的关键字,存入脱机语义库,脱机语义库供后续识别时调用匹配。
8.如权利要求6所述的一种脱机语义识别电子相框的系统,其特征在于:所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。
9.如权利要求6所述的一种脱机语义识别电子相框的系统,其特征在于:所述触发器采用DSPG芯片实现触发监听功能。
10.如权利要求9所述的一种脱机语义识别电子相框的系统,其特征在于:所述唤醒关键字支持用户修改,具体如下:用户通过设置中修改相框名称,完成对电子相框的命名,之后通过呼唤所述电子相框的名称实现唤醒电子相框,并进行语音控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210127071.2A CN114627859A (zh) | 2022-02-11 | 2022-02-11 | 一种脱机语义识别电子相框的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210127071.2A CN114627859A (zh) | 2022-02-11 | 2022-02-11 | 一种脱机语义识别电子相框的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114627859A true CN114627859A (zh) | 2022-06-14 |
Family
ID=81897771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210127071.2A Pending CN114627859A (zh) | 2022-02-11 | 2022-02-11 | 一种脱机语义识别电子相框的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627859A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893649A (zh) * | 2024-03-15 | 2024-04-16 | 深圳市前海手绘科技文化有限公司 | 一种相框、基于相框的展览方法 |
-
2022
- 2022-02-11 CN CN202210127071.2A patent/CN114627859A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893649A (zh) * | 2024-03-15 | 2024-04-16 | 深圳市前海手绘科技文化有限公司 | 一种相框、基于相框的展览方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6058053B2 (ja) | 記録制御システム、システム及びプログラム | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN111261162B (zh) | 语音识别方法、语音识别装置及存储介质 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
WO2020253064A1 (zh) | 语音的识别方法及装置、计算机设备、存储介质 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及系统 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN111326154B (zh) | 语音交互的方法、装置、存储介质及电子设备 | |
CN110992955A (zh) | 一种智能设备的语音操作方法、装置、设备及存储介质 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN110211609A (zh) | 一种提升语音识别准确率的方法 | |
US10847154B2 (en) | Information processing device, information processing method, and program | |
CN113593565B (zh) | 一种智能家庭设备管控方法和系统 | |
CN111933135A (zh) | 终端控制方法、装置、智能终端及计算机可读存储介质 | |
CN114627859A (zh) | 一种脱机语义识别电子相框的方法及系统 | |
CN113160821A (zh) | 一种基于语音识别的控制方法及装置 | |
CN112965603A (zh) | 一种人机交互的实现方法和系统 | |
CN110910898A (zh) | 一种语音信息处理的方法和装置 | |
CN110782886A (zh) | 语音处理的系统、方法、电视、设备和介质 | |
CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN114495981A (zh) | 语音端点的判定方法、装置、设备、存储介质及产品 | |
CN113571060A (zh) | 一种基于视听觉融合的多人对话点餐方法及系统 | |
CN110600009A (zh) | 一种智能化语音交互操作平台及交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |