CN111462777A - 关键词检索方法、系统、移动终端及存储介质 - Google Patents
关键词检索方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111462777A CN111462777A CN202010239637.1A CN202010239637A CN111462777A CN 111462777 A CN111462777 A CN 111462777A CN 202010239637 A CN202010239637 A CN 202010239637A CN 111462777 A CN111462777 A CN 111462777A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- state
- voice
- keyword
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract 2
- 238000001514 detection method Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键词检索方法、系统、移动终端及存储介质,该方法包括:获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;根据指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,将滑窗设置为当前声学状态;根据滑窗判断待检测语音中语音段的声学状态与指定声学状态是否匹配;若是,则对语音段进行音素状态转换,得到当前音素状态;根据指定音素状态判断当前音素状态对应的音素是否是关键词音素;若是,对语音段进行关键词标记,记录语音段的语音位置。本发明通过指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了关键词检索效率。
Description
技术领域
本发明属于信息检索技术领域,尤其涉及一种关键词检索方法、系统、移动终端及存储介质。
背景技术
语音关键词检索是从语料库中确定出现指定关键词的语音数据,并确定该指定关键词在对应的语音数据中出现的位置。现有技术中,语音关键词检索方案主要基于语音识别技术,即将待检索语音数据转换为文本内容,确定文本内容中是否出现指定关键词,若出现指定关键词,进一步确定指定关键词出现的位置。
现有技术中的检索效果完全依赖于语音识别系统的识别效果,而训练一个大量词汇的语音识别系统需要大量的标注数据,由于公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切,考虑到特定语种熟悉人员相对有限,缺乏标注数据,因此,无法快速开发相应的语音识别系统,即无法利用主流的语音关键词检索方法进行关键词检索,降低了关键词检索的效率。
发明内容
本发明实施例的目的在于提供一种关键词检索方法、系统、移动终端及存储介质,旨在解决现有的关键词检索过程中,由于小语种或方言语种的标注数据较少所导致的关键词检索效率低下的问题。
本发明实施例是这样实现的,一种关键词检索方法,所述方法包括:
获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态;
根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。
更进一步的,所述获取待检测语音的当前声学状态的步骤包括:
获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征,并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;
对所述特征向量进行向量合并,得到所述当前声学状态。
更进一步的,所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括:
计算每个所述指定声学状态的长度,并将最大长度的所述指定声学状态设置所述滑窗的窗长。
更进一步的,所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括:
根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;
判断所述语音声学状态与所述指定声学状态是否相同/相似;
当判断到所述语音声学状态与所述指定声学状态相同/相似时,则判定对应所述语音段的声学状态与所述指定声学状态相匹配。
更进一步的,所述对所述语音段进行音素状态转换,得到当前音素状态的步骤包括:
将所述语音段转换为拼音,得到拼音串,并对所述拼音串内的辅音音素和元音音素进行分隔;
对所述拼音串中相邻的音素进行组合,得到待检测音素对,并对所述待检测语音进行语音端点检测,得到端点检测结果;
根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记,以得到所述当前音素状态。
更进一步的,所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括:
分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长;
根据所述静音时长查询时长标识,并根据所述时长标识对所述待检测音素对进行时长标记。
更进一步的,所述根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素的步骤包括:
将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配;
当所述指定音素对与所述待检测音素对匹配成功时,判断所述指定音素对和所述待检测音素对上的所述时长标识是否相同/相似;
当判断到所述时长标识相同/相似时,则判定所述当前音素状态是所述关键词音素。
本发明实施例的另一目的在于提供一种关键词检索系统,所述系统包括:
样本信息获取模块,用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
滑窗设置模块,用于根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
声学状态匹配模块,用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
音素转换模块,用于当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
音素状态判断模块,用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的关键词检索方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的关键词检索方法的步骤。
本发明实施例,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。
附图说明
图1是本发明第一实施例提供的关键词检索方法的流程图;
图2是本发明第二实施例提供的关键词检索方法的流程图;
图3是本发明第三实施例提供的关键词检索方法的流程图;
图4是本发明第四实施例提供的关键词检索系统的结构示意图;
图5是本发明第五实施例提供的移动终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一
请参阅图1,是本发明第一实施例提供的关键词检索方法的流程图,包括步骤:
步骤S10,获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
其中,该指定关键词库中指定关键词的数量可以根据需求进行设置,该声学状态主要存储在final.mdl文件中,该声学状态中存储有音素特征向量,该音素状态为对应指定关键词中音素之间的音素组合特征和/或音素静音时长特征等;
步骤S20,根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
其中,该滑窗的窗长为滑窗对语音帧的检索长度,该步骤中,通过根据该指定声学状态对滑窗的窗长进行设置,有效的提高了后续对待检测语音中语音帧选取的准确性。
具体的,该步骤中,对该滑窗的声学状态的设置次数等于该当前声学状态的数量,以得到对应数量的滑窗,即该步骤中,将该滑窗依序设置为当前声学状态,直至所有的当前声学状态均被设置完成后,停止该滑窗的设置;
步骤S30,根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
其中,根据所述滑窗依序对待检测语音中语音段的声学状态进行检测,并基于检测结果判断与指定声学状态是否相同/相似,当判断到语音段的声学状态与任一指定声学状态相同/相似时,判定所述语音段的声学状态与对应所述指定声学状态相匹配;
具体的,该步骤中,将设置完成后的所有滑窗对该待检测语音进行声学状态的匹配检测,直至判断到所有滑窗均完成检测时,停止所述滑窗对所述待检测语音的匹配检测;
优选的,本实施例中,当判断到所述语音段的声学状态与所述指定声学状态匹配时,则判定该语音段与该指定声学状态对应的指定关键词的语音特征相同/相似。
步骤S40,当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
其中,通过对所述语音段进行音素状态转换的设计,将该语音段的音频信息转换为音素信息,有效的方便了该语音段与对应指定关键词之间的音素分析;
具体的,该当前音素状态中存储有对应语音段内音素之间的音素组合特征和/或音素静音时长特征等;
步骤S50,根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
其中,通过判断指定音素状态与当前音素状态内的音素组合特征和/或音素静音时长特征是否相同/相似,以判定所述当前音素状态对应的音素是否为关键词语音;
具体的,该步骤中,通过判断指定音素状态与当前音素状态内的音素组合特征是否相同/相似的设计,以判断指定音素状态与当前音素状态内的发音音素是否相同/相似,且通过判断指定音素状态与当前音素状态内的音素静音时长特征是否相同/相似的设计,以判断指定音素状态与当前音素状态之间的发音停顿是否相同/相似;
优选的,当判断到指定音素状态与当前音素状态内的音素组合特征和/或音素静音时长特征之间的当前相似度大于相似度阈值时,则判定所述当前音素状态对应的音素为关键词语音。
当判断到所述当前音素状态对应的音素是所述关键词音素时,执行步骤S60;
步骤S60,对所述语音段进行关键词标记,并记录所述语音段的语音位置;
其中,该关键词标记用于对对应语音段进行突显显示,以表示该语音段对应的词汇为该指定关键词,优选的,该关键词标记可以采用颜色标记、框选标记、放大标记或缩小标记等方式对该语音段进行突显,有效的方便了用户对该待检测语音内关键词位置的查看。
优选的,不同指定关键词所采用的关键词标记方式可以不相同,例如当该关键词标记采用颜色标记的方式进行标记时,则对不同指定关键词对应语音段的标记颜色不相;
例如针对第一指定关键词所采用的标记颜色为红色、第二指定关键词所采用的标记颜色为蓝色,则当语音段A中的声学状态与第一指定关键词中的指定声学状态相匹配,且根据第一指定关键词的指定音素状态判断到语音段A的当前音素状态对应的音素是关键词音素时,则将该语音段A标记为红色;可以理解的,当语音段B中的声学状态与第二指定关键词中的指定声学状态相匹配,且根据第二指定关键词的指定音素状态判断到语音段B的当前音素状态对应的音素是关键词音素时,则将该语音段B标记为蓝色;
通过将不同指定关键词的关键词标记方式设置为不相同的设计,有效的方便了用户对不同指定关键词检索结果的查看,提高了用户的观察体验。
本实施例,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。
实施例二
请参阅图2,是本发明第二实施例提供的关键词检索方法的流程图,包括步骤:
步骤S11,获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态,并计算每个所述指定声学状态的长度;
其中,通过获取该指定声学状态中存储的音素特征向量,对音素特征向量进行合并,以得到该指定声学状态的长度;
步骤S21,将最大长度的所述指定声学状态设置所述滑窗的窗长,并获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征;
其中,该滑窗的窗长为滑窗对语音帧的检索长度,该步骤中,通过根据该指定声学状态对滑窗的窗长进行设置,有效的提高了后续对待检测语音中语音帧选取的准确性。
优选的,通过对所有指定声学状态的长度进行排序,以获取最大长度的所述指定声学状态,并根据获取结果对该滑窗的窗长进行参数设置;
进一步的,通过获取该待检测语音的MFCC特征、PITCH特征和IVECTOR特征,有效的达到了提取该待检测语音的语音特征的效果;
步骤S31,对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;
其中,通过对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换的设计,以使将音频信息转换为矢量信息,有效的方便了后续对该待检测语音中关键词检索的判断;
步骤S41,对所述特征向量进行向量合并,得到所述当前声学状态,并将所述滑窗设置为所述当前声学状态;
其中,通过对所有所述特征向量进行向量合并的设计,以使采用一个特征向量来表述待检测语音的声学特征,有效的方便了该滑窗声学状态的设置;
具体的,该步骤中,对该滑窗的声学状态的设置次数等于该当前声学状态的数量,以得到对应数量的滑窗,即该步骤中,将该滑窗依序设置为当前声学状态,直至所有的当前声学状态均被设置完成后,停止该滑窗的设置;
步骤S51,根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;
其中,一个滑窗内选取有多个语音帧,该步骤中,依序获取每个语音帧内所述语音段的语音声学状态;
步骤S61,判断所述语音声学状态与所述指定声学状态是否相同/相似;
其中,当判断到所述语音声学状态与任一指定声学状态相同/相似时,判定该语音段与该指定声学状态对应的指定关键词的语音特征相同/相似;
当判断到所述语音声学状态与所述指定声学状态相同/相似时,执行步骤S71;
步骤S71,判定对应所述语音段的声学状态与所述指定声学状态相匹配,对所述语音段进行音素状态转换,得到当前音素状态;
其中,通过对所述语音段进行音素状态转换的设计,将该语音段的音频信息转换为音素信息,有效的方便了该语音段与对应指定关键词之间的音素分析;
具体的,该当前音素状态中存储有对应语音段内音素之间的音素组合特征和/或音素静音时长特征等;
步骤S81,根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
其中,通过判断指定音素状态与当前音素状态内的音素组合特征和/或音素静音时长特征是否相同/相似,以判定所述当前音素状态对应的音素是否为关键词语音;
当判断到所述当前音素状态对应的音素是所述关键词音素时,执行步骤S91;
步骤S91,对所述语音段进行关键词标记,并记录所述语音段的语音位置;
本实施例中,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。
实施例三
请参阅图3,是本发明第三实施例提供的关键词检索方法的流程图,包括步骤:
步骤S12,获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
步骤S22,根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
步骤S32,根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
步骤S42,当判断到所述语音段的声学状态与所述指定声学状态匹配时,将所述语音段转换为拼音,得到拼音串;
其中,可以通过对该语音段进行音素识别,以得到该拼音串,例如该语音段的音频内容为“关键词”时,则对应得到的拼音串为“guan jian ci”;
步骤S52,对所述拼音串内的辅音音素和元音音素进行分隔,并对所述拼音串中相邻的音素进行组合,得到待检测音素对;
其中,该拼音串“guan jian ci”中包括辅音音素g、j、c,元音元素uan、ian、i,因此,对辅音音素和元音音素进行分隔,得到“g uan j ian c i”;
优选的,对所述拼音串中相邻的音素进行组合后,得到的待检测音素对包括:g-uan、uan-j、j-ian、an-c和c-i;
步骤S62,对所述待检测语音进行语音端点检测,得到端点检测结果,并根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记,以得到所述当前音素状态;
其中,语音端点检测(Voice Activity Detection,VAD)又称语音活动检测和语音边界检测,该语音端点检测的目的是从待检测语音中的声音信号流里识别各个语言节点的静音期,进而有效的保障了后续针对音素对静音标记的准确性;
具体的,该步骤中,以音素对为单位进行静音标记,以使对该拼音串中所有的音素对进行静音长度的标记,当该静音标记越大时,则判定对应的音素对后续的静音时间较长;
此外,该步骤中,所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括:
分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长;
根据所述静音时长查询时长标识,并根据所述时长标识对所述待检测音素对进行时长标记。
步骤S72,将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配;
具体的,该步骤中,通过将指定音素与待检测音素对进行匹配的设计,以判断指定音素状态与当前音素状态内的发音音素是否相同/相似;当所述指定音素对与所述待检测音素对匹配成功时,执行步骤S82;
步骤S82,判断指定音素对和待检测音素对上的时长标识是否相同/相似;
其中,该指定音素状态中的指定音素对的静音标记方式与该待检测语音中待检测音素对标记方式相同,且在步骤S82实施之前,已经完成了针对该指定音素状态中所有指定音素对的静音标记;
具体的,该步骤中,通过判断所述指定音素对和所述待检测音素对上的所述时长标识是否一致的设计,以判断指定音素状态与当前音素状态之间的发音停顿是否一致;
当判断到所述时长标识一致时,执行步骤S92;
步骤S92,判定所述当前音素状态是所述关键词音素,对所述语音段进行关键词标记,并记录所述语音段的语音位置;
本实施例,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。
实施例四
请参阅图4,是本发明第四实施例提供的关键词检索系统100的结构示意图,包括:样本信息获取模块10、滑窗设置模块11、声学状态匹配模块12、音素转换模块13和音素状态判断模块14,其中:
样本信息获取模块10,用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态。
滑窗设置模块11,用于根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态。
其中,所述滑窗设置模块11还用于:获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征,并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;
对所述特征向量进行向量合并,得到所述当前声学状态。
优选的,所述滑窗设置模块11还用于:计算每个所述指定声学状态的长度,并将最大长度的所述指定声学状态设置所述滑窗的窗长。
声学状态匹配模块12,用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配。
其中,所述声学状态匹配模块12还用于:根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;
判断所述语音声学状态与所述指定声学状态是否相同/相似;
当判断到所述语音声学状态与所述指定声学状态相同/相似时,则判定对应所述语音段的声学状态与所述指定声学状态相匹配。
音素转换模块13,用于当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态。
其中,所述音素转换模块13还用于:将所述语音段转换为拼音,得到拼音串,并对所述拼音串内的辅音音素和元音音素进行分隔;
对所述拼音串中相邻的音素进行组合,得到待检测音素对,并对所述待检测语音进行语音端点检测,得到端点检测结果;
根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记,以得到所述当前音素状态。
优选的,所述音素转换模块13还用于:分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长;
根据所述静音时长查询时长标识,并根据所述时长标识对所述待检测音素对进行时长标记。
音素状态判断模块14,用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。
其中,所述音素状态判断模块14还用于:将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配;
当所述指定音素对与所述待检测音素对匹配成功时,判断所述指定音素对和所述待检测音素对上的所述时长标识是否相同/相似;
当判断到所述时长标识一致时,则判定所述当前音素状态是所述关键词音素。
本实施例,通过基于对指定关键词的指定声学状态和指定音素状态的获取,以采用样本无相关的方式对待检测语音进行关键词的检索,无需获取语音信息的标注数据,提高了对小语种或方言语种的关键词检索效率,且通过对滑窗进行长度和状态信息的设置,以采用滑窗检索的方式对待检测语音进行关键词检索,进一步提高了关键词检索的效率。
实施例五
请参阅图5,是本发明第五实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的关键词检索方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图4中示出的组成结构并不构成对本发明的关键词检索系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-3中的关键词检索方法亦采用图4中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标关键词检索系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标关键词检索系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关键词检索方法,其特征在于,所述方法包括:
获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;
当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。
2.如权利要求1所述的关键词检索方法,其特征在于,所述获取待检测语音的当前声学状态的步骤包括:
获取待检测语音的MFCC特征、PITCH特征和IVECTOR特征,并对所述MFCC特征、所述PITCH特征和所述IVECTOR特征进行向量转换,得到特征向量;
对所述特征向量进行向量合并,得到所述当前声学状态。
3.如权利要求1所述的关键词检索方法,其特征在于,所述根据所述指定声学状态对滑窗的窗长进行设置的步骤包括:
计算每个所述指定声学状态的长度,并将最大长度的所述指定声学状态设置所述滑窗的窗长。
4.如权利要求1所述的关键词检索方法,其特征在于,所述根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配的步骤包括:
根据所述滑窗依序获取所述待检测语音中每帧语音帧内所述语音段的语音声学状态;
判断所述语音声学状态与所述指定声学状态是否相同/相似;
当判断到所述语音声学状态与所述指定声学状态相同/相似时,则判定对应所述语音段的声学状态与所述指定声学状态相匹配。
5.如权利要求1所述的关键词检索方法,其特征在于,所述对所述语音段进行音素状态转换,得到当前音素状态的步骤包括:
将所述语音段转换为拼音,得到拼音串,并对所述拼音串内的辅音音素和元音音素进行分隔;
对所述拼音串中相邻的音素进行组合,得到待检测音素对,并对所述待检测语音进行语音端点检测,得到端点检测结果;
根据所述端点检测结果对所述拼音串中的所述待检测音素对进行静音标记,以得到所述当前音素状态。
6.如权利要求5所述的关键词检索方法,其特征在于,所述根据所述端点检测结果对所述拼音串中的所述音素对进行静音标记的步骤包括:
分别获取每个所述待检测音素对末端音素在所述端点检测结果中对应的静音时长;
根据所述静音时长查询时长标识,并根据所述时长标识对所述待检测音素对进行时长标记。
7.如权利要求6所述的关键词检索方法,其特征在于,所述根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素的步骤包括:
将所述指定音素状态中存储指定音素对与所述当前音素状态中存储的所述待检测音素对进行匹配;
当所述指定音素对与所述待检测音素对匹配成功时,判断所述指定音素对和所述待检测音素对上的所述时长标识是否一致;
当判断到所述时长标识一致时,则判定所述当前音素状态是所述关键词音素。
8.一种关键词检索系统,其特征在于,所述系统包括:
样本信息获取模块,用于获取指定关键词库中每个指定关键词的指定声学状态和指定音素状态;
滑窗设置模块,用于根据所述指定声学状态对滑窗的窗长进行设置,获取待检测语音的当前声学状态,并将所述滑窗设置为所述当前声学状态;
声学状态匹配模块,用于根据所述滑窗判断所述待检测语音中语音段的声学状态与所述指定声学状态是否匹配;
音素转换模块,用于当判断到所述语音段的声学状态与所述指定声学状态匹配时,对所述语音段进行音素状态转换,得到当前音素状态;
音素状态判断模块,用于根据所述指定音素状态判断所述当前音素状态对应的音素是否是关键词音素;当判断到所述当前音素状态对应的音素是所述关键词音素时,对所述语音段进行关键词标记,并记录所述语音段的语音位置。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的关键词检索方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的关键词检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239637.1A CN111462777B (zh) | 2020-03-30 | 2020-03-30 | 关键词检索方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239637.1A CN111462777B (zh) | 2020-03-30 | 2020-03-30 | 关键词检索方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462777A true CN111462777A (zh) | 2020-07-28 |
CN111462777B CN111462777B (zh) | 2023-02-14 |
Family
ID=71683347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010239637.1A Active CN111462777B (zh) | 2020-03-30 | 2020-03-30 | 关键词检索方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462777B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192535A (zh) * | 2021-04-16 | 2021-07-30 | 中国科学院声学研究所 | 一种语音关键词检索方法、系统和电子装置 |
CN113506575A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN114783438A (zh) * | 2022-06-17 | 2022-07-22 | 深圳市友杰智新科技有限公司 | 自适应解码方法、装置、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365849A (zh) * | 2012-03-27 | 2013-10-23 | 富士通株式会社 | 关键词检索方法和设备 |
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
US20160180834A1 (en) * | 2014-12-22 | 2016-06-23 | Casio Computer Co., Ltd. | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
US20160180839A1 (en) * | 2014-12-22 | 2016-06-23 | Casio Computer Co., Ltd. | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN110610707A (zh) * | 2019-09-20 | 2019-12-24 | 科大讯飞股份有限公司 | 语音关键词识别方法、装置、电子设备和存储介质 |
CN110767214A (zh) * | 2018-07-27 | 2020-02-07 | 杭州海康威视数字技术股份有限公司 | 语音识别方法及其装置和语音识别系统 |
-
2020
- 2020-03-30 CN CN202010239637.1A patent/CN111462777B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365849A (zh) * | 2012-03-27 | 2013-10-23 | 富士通株式会社 | 关键词检索方法和设备 |
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
US20160180834A1 (en) * | 2014-12-22 | 2016-06-23 | Casio Computer Co., Ltd. | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
US20160180839A1 (en) * | 2014-12-22 | 2016-06-23 | Casio Computer Co., Ltd. | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN110767214A (zh) * | 2018-07-27 | 2020-02-07 | 杭州海康威视数字技术股份有限公司 | 语音识别方法及其装置和语音识别系统 |
CN110610707A (zh) * | 2019-09-20 | 2019-12-24 | 科大讯飞股份有限公司 | 语音关键词识别方法、装置、电子设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192535A (zh) * | 2021-04-16 | 2021-07-30 | 中国科学院声学研究所 | 一种语音关键词检索方法、系统和电子装置 |
CN113506575A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN113506575B (zh) * | 2021-09-09 | 2022-02-08 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN114783438A (zh) * | 2022-06-17 | 2022-07-22 | 深圳市友杰智新科技有限公司 | 自适应解码方法、装置、计算机设备和存储介质 |
CN114783438B (zh) * | 2022-06-17 | 2022-09-27 | 深圳市友杰智新科技有限公司 | 自适应解码方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111462777B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462777B (zh) | 关键词检索方法、系统、移动终端及存储介质 | |
US8200490B2 (en) | Method and apparatus for searching multimedia data using speech recognition in mobile device | |
CN111341305B (zh) | 一种音频数据标注方法、装置及系统 | |
CN103544955B (zh) | 识别语音的方法及其电子装置 | |
CN104078044B (zh) | 移动终端及其录音搜索的方法和装置 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
CN109712612B (zh) | 一种语音关键词检测方法及装置 | |
JPH11191000A (ja) | テキストを音声信号と整列する方法 | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
US9135911B2 (en) | Automated generation of phonemic lexicon for voice activated cockpit management systems | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN112331229B (zh) | 语音检测方法、装置、介质和计算设备 | |
CN111192572A (zh) | 语义识别的方法、装置及系统 | |
Gandhe et al. | Using web text to improve keyword spotting in speech | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
CN111798841B (zh) | 声学模型训练方法、系统、移动终端及存储介质 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR20110010243A (ko) | 음성의 음소간 경계 탐색 시스템 및 그 방법 | |
CN112820281B (zh) | 一种语音识别方法、装置及设备 | |
JP2938865B1 (ja) | 音声認識装置 | |
Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |