CN105469783B - 音频识别方法及装置 - Google Patents
音频识别方法及装置 Download PDFInfo
- Publication number
- CN105469783B CN105469783B CN201510772801.4A CN201510772801A CN105469783B CN 105469783 B CN105469783 B CN 105469783B CN 201510772801 A CN201510772801 A CN 201510772801A CN 105469783 B CN105469783 B CN 105469783B
- Authority
- CN
- China
- Prior art keywords
- audio data
- character
- audio
- code value
- feature information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 241001269238 Data Species 0.000 description 3
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种音频识别方法,所述音频识别方法包括以下步骤:获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;将获取的所述字符作为与所述音频数据匹配的字符。本发明还公开了一种音频识别装置。本发明实现通过智能电视解决了语音传送过程中,出现PCM码流数据的丢失的问题,提高了语音识别准确度。
Description
技术领域
本发明涉及智能电视技术领域,尤其涉及一种音频识别方法及装置。
背景技术
随着智能电视语音识别技术的高速发展,用户在家由传统的到处找遥控器发展到现在不用遥控器,直接用嘴告诉电视,用户喜欢看的影视、连续剧综艺节目等。虽然该种方式比较方便,然而该方式在语音识别环节的语音传送过程中,可能出现PCM(Pulse CodeModulation,脉冲编码调制)码流数据的丢失,从而造成语音识别的准确度差。例如,小敏拿着自己的无线网的手机对电视说“想看刘德华电影”,在无线网手机麦克风将PCM码流数据传送到TV端,TV端因为传送过程受到无线网多辐射干扰,集成电路片间总线干扰等因素,造成传送的PCM码流数据出现丢失,将丢失“影(0X1100,0X1000,丢失数据)”的码流数据上传到云端,识别出想看刘德华电字串,在TV上显示出刘德华电,此时,就造成小敏的困惑,因为刘德华有电影,刘德华有电视剧等等。
发明内容
本发明的主要目的在于提供一种音频识别方法及装置,旨在解决语音传送过程中,出现PCM码流数据的丢失,从而造成语音识别的准确度差的问题。
为实现上述目的,本发明提供的一种音频识别方法,所述音频识别方法包括:
获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;
获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;
将确定的所述字符作为与所述音频数据匹配的字符。
可选地,所述获取所述音频数据的第一特征信息的步骤包括:
确定所述音频数据的码流中的最大码值以及最小码值;
获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值;
根据获取到的所述码值计算所述音频数据的第一特征信息。
可选地,所述根据获取到的所述码值计算所述音频数据的第一特征信息的步骤包括:
对所获取到的所述码值进行求和得到所述音频数据的校验值;
按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
可选地,获取终端当前显示界面中各个字符的第二特征信息的步骤包括:
获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
判断所述各个字符重复出现的比例是否大于第一预设比例;
若是,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
可选地,所述获取音频缓存区中存储的音频数据的步骤之前,所述音频识别方法还包括:
确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
若是,则执行获取音频缓存区中存储的音频数据的步骤。
此外,为实现上述目的,本发明还提供一种音频识别装置,所述音频识别装置包括:
第一获取模块,用于获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;
第二获取模块,用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
确定模块,用于确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符。
匹配模块,用于将确定的所述字符作为与所述音频数据匹配的字符。
可选地,所述第二获取模块包括:
确定单元,用于确定所述音频数据的码流中的最大码值以及最小码值;
获取单元,用于获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值;
计算单元,用于根据获取到的所述码值计算所述音频数据的第一特征信息。
可选地,所述计算单元包括:
求和子单元,用于对所获取到的所述码值进行求和得到所述音频数据的校验值;
处理子单元,用于按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
可选地,所述第二获取模块还包括:
所述获取单元,还用于获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
判断单元,用于判断所述各个字符重复出现的比例是否大于第一预设比例;
所述获取单元,还用于若所述各个字符重复出现的比例大于第一预设比例,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
可选地,所述音频识别装置还包括:
所述确定模块,还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
判断模块,用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
所述第一获取模块,还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数,则获取音频缓存区中存储的音频数据。
本发明通过获取音频数据的特征信息,并将所述音频数据的特征信息与从云端获取的终端当前显示界面的各个字符数据对应的特征信息进行匹配,使得即使音频数据存在丢失的情况,也能根据所述音频数据的特征信息与所述各个字符数据对应的特征信息进行匹配,从而识别出所述音频数据对应的字符,提高了语音识别准确度。
附图说明
图1为本发明音频识别方法的第一实施例的流程示意图;
图2为图1中所述获取所述音频数据的第一特征信息的细化流程示意图;
图3为图2中根据获取到的所述码值计算所述音频数据的第一特征信息的细化流程示意图;
图4为图1中获取终端当前显示界面中各个字符的第二特征信息的细化流程示意图;
图5为本发明音频识别方法的第二实施例的流程示意图;
图6为本发明音频识别装置的第一实施例的功能模块示意图;
图7为图6中第二获取模块的细化功能模块示意图;
图8为本发明音频识别装置的第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于上述问题,本发明提供一种音频识别方法。
参照图1,图1为本发明音频识别方法的第一实施例的流程示意图。
在本实施例中,所述音频识别方法包括:
步骤S10,获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;
在本实施例中,所述终端可为智能电视,以下以智能电视为例进行说明。智能电视侦测到语音PCM码流输入时,将接收到的语音PCM码流(音频数据)存储至音频缓存区中,然后实时或定时检测所述音频缓存区是否存在音频数据,并在检测到所述音频缓存区存在音频数据后,获取所述音频缓存区中的音频数据。例如,获取到所述音频缓存区的第一存储单元存储的数据为0x50,即APCM_Data(x1)=0x50;获取到所述音频缓存区的第二存储单元存储的数据为0x40,即APCM_Data(x2)=0x40。
步骤S20,获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
当智能电视获取到音频缓存区中存储的音频数据后,对所述音频数据进行求和及移位处理,从而得到所述音频数据的第一特征信息,例如,经过对所述音频数据求和及移位处理后,得到所述音频数据的第一的特征信息为0x0A00。在本实施例中,所述音频数据为智能电视的控制指令对应的语音PCM码流数据,包括人名、一些特定的名词对应的语音PCM码流数据等。所述第一特征信息为所述音频数据的校验数据,该检验数据是唯一的,即每个音频数据的校验数据唯一代表一个音频数据。
在获取到所述音频数据的第一特征信息后,获取终端当前显示界面中各个字符的第二特征信息。在本实施例中,所述各个字符为终端当前显示界面存在的字符,该字符存在于特定的字符文件中,各个字符的存在形式举例如下:
Resource_String(x1)="影视"
Resource_String(x2)="电影"
Video.xml:<string name="app_name">影视</string>
在获取到各个字符后,从云端获取所述各个字符的第二特征信息,例如,获取到的各个字符对应的第二的特征信息分别为:0x0B00、0x0A00、0x0C00等。
步骤S30,确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;
在获取到所述音频数据的第一特征信息以及各个字符的第二特征信息后,将所述音频数据的第一特征信息与各个字符的第二特征信息进行匹配,直到确定与所述音频数据的第一特征信息匹配成功的第二特征信息所对应的字符为止。
步骤S40,将确定的所述字符作为与所述音频数据匹配的字符。
当确定与所述音频数据的第一特征信息匹配成功的第二特征信息对应的字符后,将所述字符作为所述音频数据匹配的字符,即所述音频数据代表的意思即为所述字符,并通过智能电视的屏幕将所述匹配成功的字符显示出来,以供用户确定所述显示的字符是否为正确的字符。
本发明通过获取音频数据的特征信息,并将所述音频数据的特征信息与从云端获取的终端当前显示界面的各个字符数据对应的特征信息进行匹配,使得即使音频数据存在丢失的情况,也能根据所述音频数据的特征信息与所述各个字符数据对应的特征信息进行匹配,从而识别出所述音频数据对应的字符,提高了语音识别准确度。
进一步地,基于上述第一实施例提出本发明音频识别方法的第二实施例,参照图2,所述获取所述音频数据的第一特征信息的步骤包括:
步骤S21,确定所述音频数据的码流中的最大码值以及最小码值;
智能电视读取所述音频缓存区中的音频数据,并将所述音频数据按照码值的大小顺序排列,可以将所述音频数据按照码值的大小从大到小顺序排列,或者将所述音频数据按照码值的大小从小到大顺序排列。在对所述音频数据排序后,很容易就能获取到所述音频数据的码流中的最大码值以及最小码值。
步骤S22,获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值;
在确定所述最大码值以及最小码值后,根据所述最大码值及最小码值确定所述音频数据的码流中最大的码值的数据的出现时刻及所述音频数据的码流中最小的码值的数据的出现时刻,并获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值。
步骤S23,根据获取到的所述码值计算所述音频数据的第一特征信息。
在获取到所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值后,根据语音PCM流特征算法计算出音频数据的第一特征信息,所述语音PCM流特征算法为对所述获取到的所述码值进行求和及移位处理的算法。
具体的,参照图3,所述步骤S23包括;
步骤S231,对所获取到的所述码值进行求和得到所述音频数据的校验值;
所述智能电视对所获取到的所述码值进行求和,从而得到所述音频数据的校验值。例如,所获取到的所述码值由最大的PCM码流数据0x50、次最大的PCM码流数据0x40及最小的PCM码流数据0x10组成,则音频数据的校验值=0x50+0x40+0x10=0xA0。可选地,所述校验值由16位二进制数表示,则所述音频数据的校验值表示为0x00A0。
步骤S132,按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
所述左移算法可为将所述校验值左移一位的算法,也可为左移多位的算法。在本实施例中,将所述校验值进行左移动一位的左移处理,则得到所述音频数据的特征信息为:Personal_PCM_Data(x1)=|0x00A0<<1|=0x0A00,其中,0x00A0为所述音频数据的校验值。每获取到一个音频数据的校验值,都需要通过左移算法对所述校验值进行处理,从而使得每个音频数据的特征信息唯一代表一个音频数据。
本实施例通过获取所述音频数据中的某些特定的音频数据的特征信息来表示所述音频数据。由于每个音频数据的特征信息是唯一的,因此,可以通过所述特征信息来代表该音频数据,从而使得音频数据的表示更加简便,解决了音频数据的传送占有大量的传送通道的问题。
进一步地,基于上述第一或第二实施例提出本发明音频识别方法的第三实施例,参照图4,所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括:
步骤S24,获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
在获取到所述音频数据的第一特征信息后,读取所述智能电视当前界面的类型。所述类型包括浏览器类型及安卓系统类型。所述智能电视当前界面的类型可以只为浏览器类型,也可只为安卓系统类型,也可同时存在浏览器类型和安卓系统类型。
在确定到所述智能电视的当前界面类型后,获取所述各个字符在预设的字符文件中重复出现的比例。所述预设的字符文件包括当前界面类型为浏览器类型时所对应的xml文件的字符文件及当前界面类型为安卓系统类型时所对应的安卓系统控件的资源文件夹的xml文件的字符文件。当确定所述当前界面的类型包括浏览器类型时,则读取该类型对应的预设的字符文件中存在的所有字符,并将所述读取到的字符保存到预设的存储区间内;当确定所述当前界面的类型包括安卓系统类型时,则读取该类型对应的预设的字符文件中存在的所有字符,并将所述读取到的字符保存在另一预设的存储区间内。智能电视读取上述两个存储区间的字符,并确定各个字符重复出现的比例。例如,设置字符10次及10次以上重复出现的比例为100%,5次重复出现的比例为50%,4次出现的重复比例为40%,一次重复出现的比例为10%等。在读取到上述两个存储区间的字符后,根据预设的判断字符的重复出现比例的规则,就能确定各个字符重复出现的比例。
步骤S25,判断所述各个字符重复出现的比例是否大于第一预设比例;
步骤S26,若是,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息;
在确定各个字符数据重复出现的比例后,判断所述各个字符数据重复出现的比例是否大于第一预设比例。所述第一预设比例为预先设定的比例值,可选地,所述第一预设比例设为50%,可以理解的是,所述第一预设比例也可设为其它值。当判定各个字符重复出现的比例大于第一预设比例,则优先从云端服务器获取所述重复比例最大的字符对应的第二特征信息,然后将所述从云端获取的第二特征信息与所述音频数据的第一特征信息进行匹配,若匹配成功,则显示所述字符,若匹配失败,则从云端服务器获取所述重复比例次大的字符对应的第二特征信息与所述音频数据的特征信息进行匹配,直到匹配成功为止。
本实施例通过确定所述各个字符在预设的字符文件中重复出现的比例,并在确定各个字符重复出现的比例后,优先从云端获取重复出现的比例最大的字符对应的第二特征信息与所述音频数据的第一特征信息进行匹配,从而能够缩短匹配时间,提高了系统效率。
进一步地,基于上述任一实施例,提出本发明音频识别方法的第四实施例,参照图5,在本实施例中,所述获取音频缓存区中存储的音频数据的步骤之前,所述音频识别方法还包括:
步骤S11,确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
可选地,所述第二预设比例设为5%,可以理解的,该第二预设比例也可以根据具体情况设置为其他比例值。在确定所述音频数据的第二预设比例所对应的音频数据的个数时,应该先确定所述音频缓存区的音频数据的总数,然后根据音频数据的总数与第二预设比例值计算出所述第二预设比例所对应的音频数据的个数。
步骤S12,判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
步骤S13,若是,则执行获取音频缓存区中存储的音频数据的步骤。
当确定所述第二预设比例所对应的音频数据的个数及大于1的音频数据的个数后,将两者进行比较,从而判断出所述大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数,当判定出所述大于1的音频数据的个数大于所述第二预设比例所对应的音频数据的个数时,获取音频缓存区中存储的音频数据;当判定出所述大于1的音频数据的个数小于所述第二预设比例所对应的音频数据的个数时,确定所述音频缓存区中不存在音频数据。
本实施例通过判断所述音频缓存区中的音频数据中大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数,来确定所述音频缓存区中是否存在音频数据。由于所述音频数据的存在与否与音频数据中大于1的音频数据的个数有关,因此通过判断所述音频数据中大于1的音频数据的个数与第二预设比例所对应的音频数据的个数的大小能更准确确定所述音频缓存区中是否存在音频数据,从而预先排除一些噪音的干扰。
上述实施例的音频识别方法的执行主体均可以为终端。更进一步地,该音频识别方法可以由安装在终端上的客户端控制程序实现,其中,该终端可以为智能电视。
本发明进一步提供一种基于智能电视的音频数据处理装置。
参照图6,图6为本发明音频识别装置的第一实施例的功能模块示意图。
在本实施例中,所述音频识别装置包括:第一获取模块10、第二获取模块20、确定模块30及匹配模块40。
第一获取模块10,用于获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;在本实施例中,所述终端可为智能电视,以下以智能电视为例进行说明。智能电视侦测到语音PCM码流输入时,将接收到的语音PCM码流(音频数据)存储至音频缓存区中,然后实时或定时检测所述音频缓存区是否存在音频数据,并在检测到所述音频缓存区存在音频数据后,获取所述音频缓存区中的音频数据。例如,获取到所述音频缓存区的第一存储单元存储的数据为0x50,即APCM_Data(x1)=0x50;获取到所述音频缓存区的第二存储单元存储的数据为0x40,即APCM_Data(x2)=0x40。
所述第二获取模块20,用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
当智能电视获取到音频缓存区中存储的音频数据后,对所述音频数据进行求和及移位处理,从而得到所述音频数据的第一特征信息,例如,经过对所述音频数据求和及移位处理后,得到所述音频数据的第一的特征信息为0x0A00。在本实施例中,所述音频数据为智能电视的控制指令对应的语音PCM码流数据,包括人名、一些特定的名词对应的语音PCM码流数据等。所述第一特征信息为所述音频数据的校验数据,该检验数据是唯一的,即每个音频数据的校验数据唯一代表一个音频数据。
在获取到所述音频数据的第一特征信息后,获取终端当前显示界面中各个字符的第二特征信息。在本实施例中,所述各个字符为终端当前显示界面存在的字符,该字符存在于特定的字符文件中,各个字符的存在形式举例如下:
Resource_String(x1)="影视"
Resource_String(x2)="电影"
Video.xml:<string name="app_name">影视</string>
在获取到各个字符后,从云端获取所述各个字符的第二特征信息,例如,获取到的各个字符对应的第二的特征信息分别为:0x0B00、0x0A00、0x0C00等。
所述确定模块30,确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;
在获取到所述音频数据的第一特征信息以及各个字符的第二特征信息后,将所述音频数据的第一特征信息与各个字符的第二特征信息进行匹配,直到确定与所述音频数据的第一特征信息匹配成功的第二特征信息所对应的字符为止。
所述匹配模块40,用于将确定的所述字符作为与所述音频数据匹配的字符。
当确定与所述音频数据的第一特征信息匹配成功的第二特征信息对应的字符后,将所述字符作为所述音频数据匹配的字符,即所述音频数据代表的意思即为所述字符,并通过智能电视的屏幕将所述匹配成功的字符显示出来,以供用户确定所述显示的字符是否为正确的字符。
本发明通过获取音频数据的特征信息,并将所述音频数据的特征信息与从云端获取的终端当前显示界面的各个字符数据对应的特征信息进行匹配,使得即使音频数据存在丢失的情况,也能根据所述音频数据的特征信息与所述各个字符数据对应的特征信息进行匹配,从而识别出所述音频数据对应的字符,提高了语音识别准确度。
进一步地,基于上述第一实施例提出本发明音频识别装置的第二实施例,参照图7,所述第二获取模块20包括:确定单元21,获取单元22、计算单元23及判断单元24。
所述确定单元21,确定所述音频数据的码流中的最大码值以及最小码值;
智能电视读取所述音频缓存区中的音频数据,并将所述音频数据按照码值的大小顺序排列,可以将所述音频数据按照码值的大小从大到小顺序排列,或者将所述音频数据按照码值的大小从小到大顺序排列。在对所述音频数据排序后,很容易就能获取到所述音频数据的码流中的最大码值以及最小码值,所述最大码值为PCM码流中峰值最大时对应的音频数据的码值,所述最小码值为PCM码流中峰值最小时对应的音频数据的码值。
所述获取单元22,用于获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值;
在确定所述最大码值以及最小码值后,根据所述最大码值及最小码值确定所述音频数据的码流中最大的码值的数据的出现时刻及所述音频数据的码流中最小的码值的数据的出现时刻,并获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值。
进一步地,所述获取单元22,还用于获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
在获取到所述音频数据的第一特征信息后,读取智能电视当前界面的类型。所述类型包括浏览器类型及安卓系统类型。所述智能电视当前界面的类型可以只为浏览器类型,也可只为安卓系统类型,也可同时存在浏览器类型和安卓系统类型。
在确定到所述智能电视的当前界面类型后,获取所述各个字符在预设的字符文件中重复出现的比例。所述预设的字符文件包括当前界面类型为浏览器类型时所对应的xml文件的字符文件及当前界面类型为安卓系统类型时所对应的安卓系统控件的资源文件夹的xml文件的字符文件。当确定所述当前界面的类型包括浏览器类型时,则读取该类型对应的预设的字符文件中存在的所有字符,并将所述读取到的字符保存到预设的存储区间内;当确定所述当前界面的类型包括安卓系统类型时,则读取该类型对应的预设的字符文件中存在的所有字符,并将所述读取到的字符保存在另一预设的存储区间内。所述智能电视读取上述两个存储区间内的字符,并确定各个字符重复出现的比例。在本实施例中,设置字符10次及10次以上重复出现的比例为100%,5次重复出现的比例为50%,4次出现的重复比例为40%,一次重复出现的比例为10%等。在读取到上述两个存储区间内的字符后,根据预设的判断字符的重复出现比例的规则,就能确定各个字符重复出现的比例。
所述计算单元23,用于根据获取到的所述码值计算所述音频数据的第一特征信息。
在获取到所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值后,根据语音PCM流特征算法计算出音频数据的第一特征信息,所述语音PCM流特征算法为对所述获取到的所述码值进行求和及移位处理的算法。
进一步地,所述计算单元23还包括:求和子单元231及移位子单元232。
所述求和子单元231,用于对所获取到的所述码值进行求和得到所述音频数据的校验值;
所述智能电视对所获取到的所述码值进行求和,从而得到所述音频数据的校验值。所述获取到的所述码值为所述短音频数据对应的码值。例如,所所获取到的所述码值由最大的PCM码流数据0x50、次最大的PCM码流数据0x40及最小的PCM码流数据0x10组成,则所述音频数据的校验值=0x50+0x40+0x10=0xA0。可选地,所述校验值由16位二进制数表示,则所述音频数据的校验值表示为0x00A0。
移位子单元232,用于按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
所述左移算法可为将所述校验值左移一位的算法,也可为左移多位的算法。在本实施例中,将所述校验值进行左移动一位的左移处理,则得到所述音频数据的特征信息为:Personal_PCM_Data(x1)=|0x00A0<<1|=0x0A00,其中,0x00A0为所述音频数据的校验值。每获取到一个音频数据的校验值,都需要通过左移算法对所述校验值进行处理,从而使得每个音频数据的特征信息唯一代表一个音频数据。
所述判断单元24,用于判断所述各个字符重复出现的比例是否大于第一预设比例;
所述获取单元22,还用于若所述各个字符重复出现的比例大于第一预设比例,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
在确定各个字符数据重复出现的比例后,判断所述各个字符数据重复出现的比例是否大于第一预设比例。所述第一预设比例为预先设定的比例值,可选地,所述第一预设比例设为50%,可以理解的是,所述第一预设比例也可设为其它值。当判定各个字符重复出现的比例大于第一预设比例,则优先从云端服务器获取所述重复比例最大的字符对应的第二特征信息,然后将所述从云端获取的第二特征信息与所述音频数据的第一特征信息进行匹配,若匹配成功,则显示所述字符,若匹配失败,则从云端服务器获取所述重复比例次大的字符对应的第二特征信息与所述音频数据的特征信息进行匹配,直到匹配成功为止。
本实施例通过获取所述音频数据中的某些特定的音频数据的特征信息来表示所述音频数据。由于每个音频数据的特征信息是唯一的,因此,可以通过所述特征信息来代表该音频数据,从而使得音频数据的表示更加简便,解决了音频数据的传送占有大量的传送通道的问题。
进一步地,基于上述第一或第二实施例提出本发明音频识别装置的第三实施例,参照图8,所述音频识别装置还包括:判断模块50。
所述确定模块30,用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
在获取音频缓存区中存储的音频数据前,首先确定所述音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数。可选地,所述第二预设比例设为5%,可以理解的,该第二预设比例也可以根据具体情况设置为其他比例值。在确定所述音频数据的第二预设比例所对应的音频数据的个数时,应该先确定所述音频缓存区的音频数据的总数,然后根据音频数据的总数与第二预设比例值计算出所述第二预设比例所对应的音频数据的个数。
判断模块50,用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
所述第一获取模块30,还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数,则获取音频缓存区中存储的音频数据。
当确定所述第二预设比例所对应的音频数据的个数及大于1的音频数据的个数后,将两者进行比较,从而判断出所述大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数,当判定出所述大于1的音频数据的个数大于所述第二预设比例所对应的音频数据的个数时,获取音频缓存区中存储的音频数据;当判定出所述大于1的音频数据的个数小于所述第二预设比例所对应的音频数据的个数时,确定所述音频缓存区中不存在音频数据。
本实施例通过判断所述音频缓存区中的音频数据中大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数,来确定所述音频缓存区中是否存在音频数据。由于所述音频数据的存在与否与音频数据中大于1的音频数据的个数有关,因此通过判断所述音频数据中大于1的音频数据的个数与第二预设比例所对应的音频数据的个数的大小能更准确确定所述音频缓存区中是否存在音频数据,从而预先排除一些噪音的干扰。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种音频识别方法,其特征在于,所述音频识别方法包括以下步骤:
获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;
获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;以及
将确定的所述字符作为与所述音频数据匹配的字符;
所述获取所述音频数据的第一特征信息的步骤包括:
确定所述音频数据的码流中的最大码值以及最小码值;
获取所述音频数据的码流中出现最大码值的时刻以及出现最小码值的时刻之间的码值;
根据获取到的所述码值计算所述音频数据的第一特征信息。
2.如权利要求1所述的音频识别方法,其特征在于,所述根据获取到的所述码值计算所述音频数据的第一特征信息的步骤包括:
对所获取到的所述码值进行求和得到所述音频数据的校验值;
按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
3.如权利要求1所述的音频识别方法,其特征在于,所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括:
获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
判断所述各个字符重复出现的比例是否大于第一预设比例;
若是,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
4.如权利要求1至3任一项所述的音频识别方法,其特征在于,所述获取音频缓存区中存储的音频数据的步骤之前,所述音频识别方法还包括:
确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
若是,则执行获取音频缓存区中存储的音频数据的步骤。
5.一种音频识别装置,其特征在于,所述音频识别装置包括:
第一获取模块,用于获取音频缓存区中存储的音频数据,其中,终端在接收到音频数据时,将接收到的音频数据存储至所述音频缓存区中;
第二获取模块,用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息;
确定模块,用于确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符;
匹配模块,用于将确定的所述字符作为与所述音频数据匹配的字符;
所述第二获取模块包括:
确定单元,用于确定所述音频数据的码流中的最大码值以及最小码值;
获取单元,用于获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值;
计算单元,用于根据获取到的所述码值计算所述音频数据的第一特征信息。
6.如权利要求5所述的音频识别装置,其特征在于,所述计算单元包括:
求和子单元,用于对所获取到的所述码值进行求和得到所述音频数据的校验值;
处理子单元,用于按照预设的左移算法对所述校验值进行左移处理,以得到所述音频数据的第一特征信息。
7.如权利要求5所述的音频识别装置,其特征在于,所述第二获取模块还包括:
所述获取单元,还用于获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例;
判断单元,用于判断所述各个字符重复出现的比例是否大于第一预设比例;
所述获取单元,还用于若所述各个字符重复出现的比例大于第一预设比例,则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
8.如权利要求5至7任一项所述的音频识别装置,其特征在于,所述音频识别装置还包括:
所述确定模块,还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数;
判断模块,用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数;
所述第一获取模块,还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数,则获取音频缓存区中存储的音频数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510772801.4A CN105469783B (zh) | 2015-11-12 | 2015-11-12 | 音频识别方法及装置 |
PCT/CN2016/084617 WO2017080195A1 (zh) | 2015-11-12 | 2016-06-03 | 音频识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510772801.4A CN105469783B (zh) | 2015-11-12 | 2015-11-12 | 音频识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105469783A CN105469783A (zh) | 2016-04-06 |
CN105469783B true CN105469783B (zh) | 2019-06-21 |
Family
ID=55607413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510772801.4A Active CN105469783B (zh) | 2015-11-12 | 2015-11-12 | 音频识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105469783B (zh) |
WO (1) | WO2017080195A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469783B (zh) * | 2015-11-12 | 2019-06-21 | 深圳Tcl数字技术有限公司 | 音频识别方法及装置 |
CN105847900B (zh) * | 2016-05-26 | 2018-10-26 | 无锡天脉聚源传媒科技有限公司 | 一种节目频道确定方法及装置 |
CN106648532A (zh) * | 2016-12-22 | 2017-05-10 | 惠州Tcl移动通信有限公司 | 一种实现自动搜索的方法、系统及其移动终端 |
CN112397051B (zh) * | 2019-08-16 | 2024-02-02 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN115022108A (zh) * | 2022-06-16 | 2022-09-06 | 深圳市欢太科技有限公司 | 会议接入方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102177726A (zh) * | 2008-08-21 | 2011-09-07 | 杜比实验室特许公司 | 用于音频和视频签名生成和检测的特征优化和可靠性估计 |
CN103634613A (zh) * | 2013-08-15 | 2014-03-12 | 北京中视广信科技有限公司 | 移动终端与广播电视频道自动同步的方法及系统 |
CN103686055A (zh) * | 2012-09-24 | 2014-03-26 | 中兴通讯股份有限公司 | 电视会议系统中丢包补偿的处理方法及装置 |
CN104796729A (zh) * | 2015-04-09 | 2015-07-22 | 宁波创视信息技术有限公司 | 高清晰实时获取电视播放画面的方法 |
CN104917671A (zh) * | 2015-06-10 | 2015-09-16 | 腾讯科技(深圳)有限公司 | 基于移动终端的音频处理方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376648B2 (en) * | 2004-10-20 | 2008-05-20 | Oracle International Corporation | Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems |
KR101775532B1 (ko) * | 2011-01-17 | 2017-09-06 | 엘지전자 주식회사 | 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 |
CN103618953B (zh) * | 2013-08-15 | 2016-09-14 | 北京中视广信科技有限公司 | 基于音频特征的广播电视节目标识与识别的方法及系统 |
CN104423552B (zh) * | 2013-09-03 | 2017-11-03 | 联想(北京)有限公司 | 一种处理信息的方法和电子设备 |
JP5888356B2 (ja) * | 2014-03-05 | 2016-03-22 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN104036773B (zh) * | 2014-05-22 | 2017-12-29 | 立德高科(北京)数码科技有限责任公司 | 将录入的文本内容通过防伪辨别装置以播放的方法及系统 |
CN105469783B (zh) * | 2015-11-12 | 2019-06-21 | 深圳Tcl数字技术有限公司 | 音频识别方法及装置 |
-
2015
- 2015-11-12 CN CN201510772801.4A patent/CN105469783B/zh active Active
-
2016
- 2016-06-03 WO PCT/CN2016/084617 patent/WO2017080195A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102177726A (zh) * | 2008-08-21 | 2011-09-07 | 杜比实验室特许公司 | 用于音频和视频签名生成和检测的特征优化和可靠性估计 |
CN103686055A (zh) * | 2012-09-24 | 2014-03-26 | 中兴通讯股份有限公司 | 电视会议系统中丢包补偿的处理方法及装置 |
CN103634613A (zh) * | 2013-08-15 | 2014-03-12 | 北京中视广信科技有限公司 | 移动终端与广播电视频道自动同步的方法及系统 |
CN104796729A (zh) * | 2015-04-09 | 2015-07-22 | 宁波创视信息技术有限公司 | 高清晰实时获取电视播放画面的方法 |
CN104917671A (zh) * | 2015-06-10 | 2015-09-16 | 腾讯科技(深圳)有限公司 | 基于移动终端的音频处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2017080195A1 (zh) | 2017-05-18 |
CN105469783A (zh) | 2016-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469783B (zh) | 音频识别方法及装置 | |
CN110364144B (zh) | 一种语音识别模型训练方法及装置 | |
CN112863547B (zh) | 虚拟资源转移处理方法、装置、存储介质及计算机设备 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN103413549B (zh) | 语音交互的方法、系统以及交互终端 | |
CN107623614A (zh) | 用于推送信息的方法和装置 | |
CN108764487A (zh) | 用于生成模型的方法和装置、用于识别信息的方法和装置 | |
CN107147618A (zh) | 一种用户注册方法、装置及电子设备 | |
CN109903773B (zh) | 音频处理方法、装置及存储介质 | |
CN107919129A (zh) | 用于控制页面的方法和装置 | |
CN109545192A (zh) | 用于生成模型的方法和装置 | |
CN108038398B (zh) | 一种二维码解析能力测试方法、装置及电子设备 | |
EP3584741A1 (en) | Fingerprint registration method and related product | |
CN109146496A (zh) | 一种支付方法、装置及可穿戴设备 | |
CN109981185A (zh) | 数据发送和接收方法、装置及计算机可读存储介质 | |
CN109346102B (zh) | 音频开头爆音的检测方法、装置及存储介质 | |
CN109065017B (zh) | 语音数据生成方法及相关装置 | |
CN111382403A (zh) | 用户行为识别模型的训练方法、装置、设备及存储介质 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN112837672A (zh) | 对话归属的确定方法、装置、电子设备及存储介质 | |
US20230005490A1 (en) | Packet loss recovery method for audio data packet, electronic device and storage medium | |
CN105573156B (zh) | 遥控方法及系统 | |
CN107895573A (zh) | 用于识别信息的方法及装置 | |
CN107656627A (zh) | 信息输入方法和装置 | |
CN114360528A (zh) | 语音识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |