CN112836039B - 基于深度学习的语音数据处理方法和装置 - Google Patents
基于深度学习的语音数据处理方法和装置 Download PDFInfo
- Publication number
- CN112836039B CN112836039B CN202110110350.3A CN202110110350A CN112836039B CN 112836039 B CN112836039 B CN 112836039B CN 202110110350 A CN202110110350 A CN 202110110350A CN 112836039 B CN112836039 B CN 112836039B
- Authority
- CN
- China
- Prior art keywords
- text
- data
- target
- training
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 54
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 184
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims description 45
- 238000009499 grossing Methods 0.000 claims description 30
- 238000010606 normalization Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的基于深度学习的语音数据处理方法和装置,涉及语音处理技术领域。在本申请中,首先,基于预设的语音识别模块将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到。其次,将预先确定的目标语音关键词对应的关键词文本数据与目标文本数据进行匹配,得到第一匹配结果。然后,若第一匹配结果为匹配成功,则确定待检测语音数据包括目标语音关键词。基于上述方法,可以改善基于现有的语音处理技术对待检测语音数据进行关键词检测的准确率较低的问题。
Description
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种基于深度学习的语音数据处理方法和装置。
背景技术
语音关键词检索是语音识别中一个重要的研究方向,旨在快速精确地检测语音数据中是否包含指定的关键词。然而,在对关键词检索召回率要求较高的特定应用场景下,如从语音数据中检测出用户感兴趣的内容或敏感语音信息,实现高召回率并尽可能降低误报,仍是一个亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种基于深度学习的语音数据处理方法和装置,以改善基于现有的语音处理技术对待检测语音数据进行关键词检测的准确率较低的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种基于深度学习的语音数据处理方法,包括:
基于预设的语音识别模块将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到;
将预先确定的目标语音关键词对应的关键词文本数据与所述目标文本数据进行匹配,得到第一匹配结果;
若所述第一匹配结果为匹配成功,则确定所述待检测语音数据包括所述目标语音关键词。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,该语音数据处理方法还包括:
若所述第一匹配结果为匹配失败,则对所述关键词文本数据进行同音词扩展,得到至少一个同音词文本数据;
将每一个所述同音词文本数据分别与所述目标文本数据进行匹配,得到至少一个第二匹配结果;
若所述至少一个第二匹配结果中存在目标第二匹配结果,则对所述目标文本数据进行分句,得到至少一个文本分句数据,其中,该目标第二匹配结果为匹配成功的一个第二匹配结果;
在所述至少一个文本分句数据中确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据,并将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,得到目标文本分句数据;
基于预设的语言模型确定所述目标文本分句数据的发生概率,其中,该语言模型基于第一目标语料库中的文本训练集训练得到;
基于所述目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间,其中,该长度-概率对应关系基于所述语言模型和所述第一目标语料库中的文本测试集建立;
判断所述发生概率是否属于所述概率区间;
若所述发生概率属于所述概率区间,则基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,得到该目标文本数据的类别向量,其中,该文本分类模型基于第二目标语料库中包括该多个文本分类的文本语料分类集训练得到;
计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,得到该目标关键词与该多个文本分类的相关程度向量,并对该相关程度向量进行归一化处理,得到相关程度归一化向量;
计算所述类别向量与所述相关程度归一化向量的余弦相似度,并将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度;
基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度;
判断所述文本数据相关度是否大于预设的相关度阈值;
若所述文本数据相关度大于或等于所述相关度阈值,则确定所述待检测语音数据包括所述目标语音关键词。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,所述计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值的步骤,包括:
统计所述文本语料分类集包括的训练文本的数量,得到第一文本数量;
针对每一个所述文本分类,确定属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第二文本数量;
针对每一个所述文本分类,确定不属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第三文本数量;
针对每一个所述文本分类,确定属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第四文本数量;
针对每一个所述文本分类,确定不属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第五文本数量;
针对每一个所述文本分类,基于所述第一文本数量、该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,所述基于所述第一文本数量、该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值的步骤,包括:
计算所述第二文本数量与所述第五文本数量的乘积,得到第一乘积;
计算所述第三文本数量与所述第四文本数量的乘积,得到第二乘积;
计算所述第一乘积与所述第二乘积的差值的平方,得到平方值;
计算所述第一文本数量与所述平方值的乘积,得到第三乘积;
计算所述第二文本数量与所述第四文本数量的和值,得到第一和值;
计算所述第三文本数量与所述第五文本数量的和值,得到第二和值;
计算所述第二文本数量与所述第三文本数量的和值,得到第三和值;
计算所述第四文本数量与所述第五文本数量的和值,得到第四和值;
计算所述第一和值、所述第二和值、所述第三和值和所述第四和值的乘积,得到第四乘积;
计算所述第三乘积与所述第四乘积的商值,并将该商值作为所述第二文本数量、所述第三文本数量、所述第四文本数量和所述第五文本数量对应的文本分类与所述关键词文本数据之间的相关程度值。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,所述基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度的步骤,包括:
确定所述类别相符度的第一权重系数、所述发生概率的第二权重系数,其中,该第一权重系数与该第二权重系数的和值为1,且该第一权重系数大于或等于0.2、小于或等于0.8;
基于所述第一权重系数和所述第二权重系数,对所述类别相符度和所述发生概率进行加权求和计算,得到所述关键词文本数据与所述目标文本数据之间的文本数据相关度。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,所述语言模型为统计语言模型,该语音数据处理方法还包括训练该统计语音模型的步骤,该步骤包括:
针对所述文本训练集包括的每一个文本训练语句,确定该文本训练语句中每一个文本训练词语在该文本训练集中的词语发生概率,并基于该词语发生概率确定该文本训练语句的语句发生概率;
基于每一个所述文本训练语句和该文本训练语句对应的所述语句发生概率之间的对应关系,得到所述统计语言模型。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,所述确定该文本训练语句中每一个文本训练词语在该文本训练集中的词语发生概率的步骤,包括:
针对所述文本训练语句中的每一个文本训练词语,确定该文本训练词语在所述文本训练集中出现的第一次数、第二次数和第三次数,其中,该第一次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前两个词语形成的词语序列,在该文本训练集中出现的次数,该第二次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前一个词语形成的词语序列,在该文本训练集中出现的次数,该第三次数用于表征该文本训练词语在该文本训练集中出现的次数;
计算每一个所述文本训练词语对应的所述第一次数和所述第二次数的比例,得到每一个所述文本训练词语对应的第一比例值;
计算每一个所述文本训练词语对应的所述第二次数和所述第三次数的比例,得到每一个所述文本训练词语对应的第二比例值;
计算每一个所述文本训练词语对应的所述第三次数和目标词语数量的比例,得到每一个所述文本训练词语对应的第三比例值,其中,该目标词语数量用于表征所述文本训练集包括的词语的数量;
确定所述第一比例值的第一平滑系数、所述第二比例值的第二平滑系数和所述第三比例值的第三平滑系数,其中,该第一平滑系数、该第二平滑系数和该第三平滑系数的和为1,且该第一平滑系数大于或等于0,该第二平滑系数大于或等于0,该第三平滑系数大于或等于0;
针对每一个所述文本训练词语,基于所述第一平滑系数、所述第二平滑系数和所述第三平滑系数,对该文本训练词语对应的所述第一比例值、所述第二比例值和所述第三比例值进行加权求和计算,得到该文本训练词语在所述文本训练集中的词语发生概率。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,该语音数据处理方法还包括基于所述语言模型和所述第一目标语料库中的文本测试集建立所述长度-概率对应关系的步骤,该步骤包括:
基于所述统计语言模型中的每一个所述文本训练语句和该文本训练语句对应的语句发生概率之间的对应关系,确定所述第一目标语料库中的文本测试集包括的每一个文本测试语句的语句发生概率;
确定每一个所述文本测试语句的词语长度,其中,该词语长度用于表征对应文本测试语句包括的测试词语的词语数量;
针对每一个所述词语长度,基于该词语长度对应的每一个文本测试语句的语句发生概率确定对应的概率区间,并将该词语长度与该概率区间建立对应关系,得到所述长度-概率对应关系。
在本申请实施例较佳的选择中,在上述基于深度学习的语音数据处理方法中,该语音数据处理方法还包括:
若所述至少一个第二匹配结果中不存在目标第二匹配结果,则确定所述待检测语音数据不包括所述目标语音关键词;
若所述发生概率不属于所述概率区间,则确定所述待检测语音数据不包括所述目标语音关键词;
若所述文本数据相关度小于所述相关度阈值,则确定所述待检测语音数据包括所述目标语音关键词。
本申请实施例还提供了一种基于深度学习的语音数据处理装置,包括:
语音数据转换模块,用于基于预设的语音识别模块将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到;
文本数据匹配模块,用于将预先确定的目标语音关键词对应的关键词文本数据与所述目标文本数据进行匹配,得到第一匹配结果;
语音关键词确定模块,用于在所述第一匹配结果为匹配成功时,确定所述待检测语音数据包括所述目标语音关键词。
本申请提供的基于深度学习的语音数据处理方法和装置,基于语音识别模块将待检测语音数据转换为目标文本数据,使得可以将预先确定的目标语音关键词对应的关键词文本数据与目标文本数据进行匹配,以基于匹配结果确定待检测语音数据是否包括目标语音关键词。基于此,由于语音识别模型基于获得的语音识别数据训练集进行深度学习得到,使得可以得到较高精度的目标文本数据,从而提高进行后续匹配的准确度,进而改善基于现有的语音处理技术对待检测语音数据进行关键词检测的准确率较低的问题,使得具有较高的实用价值。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的基于深度学习的语音数据处理方法的流程示意图。
图3为本申请实施例提供的基于深度学习的语音数据处理装置的方框示意图。
图标:10-电子设备;12-存储器;14-处理器;100-基于深度学习的语音数据处理装置;110-语音数据转换模块;120-文本数据匹配模块;130-语音关键词确定模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种电子设备10,可以包括存储器12、处理器14和基于深度学习的语音数据处理装置100。
其中,所述存储器12和处理器14之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述基于深度学习的语音数据处理装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序,例如,所述基于深度学习的语音数据处理装置100所包括的软件功能模块及计算机程序等,以实现本申请实施例提供的基于深度学习的语音数据处理方法(如后文所述)。
可选地,所述存储器12可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
并且,所述处理器14可以是一种通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System onChip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,所述电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置,例如,还可以包括用于与其它设备(如在该电子设备10为服务器时,该其它设备可以为终端设备,如手机等)进行信息交互的通信单元。
结合图2,本申请实施例还提供一种可应用于上述电子设备10的基于深度学习的语音数据处理方法。其中,所述基于深度学习的语音数据处理方法有关的流程所定义的方法步骤可以由所述电子设备10实现。
下面将对图2所示的具体流程,进行详细阐述。
步骤S110,基于预设的语音识别模块将待检测语音数据转换为目标文本数据。
在本实施例中,所述电子设备10在获得待检测语音数据之后,可以基于预设的语音识别模型将该待检测语音数据转换为目标文本数据。
其中,所述语音识别模型可以基于获得的语音识别数据训练集进行深度学习得到,用于将语音数据转换为文本数据。
步骤S120,将预先确定的目标语音关键词对应的关键词文本数据与目标文本数据进行匹配,得到第一匹配结果。
在本实施例中,在基于步骤S110得到所述目标文本数据之后,所述电子设备10可以将预先确定的目标语音关键词对应的关键词文本数据与该目标文本数据进行匹配,以得到第一匹配结果。
其中,若所述第一匹配结果为匹配成功,可以执行步骤S130。
步骤S130,确定所述待检测语音数据包括所述目标语音关键词。
在本实施例中,在基于步骤S120得到匹配成功的第一匹配结果之后,即确定所述目标文本数据中包括所述关键词文本数据之后,所述电子设备10可以确定所述待检测语音数据中包括所述目标语音关键词。
基于上述方法,由于语音识别模型基于获得的语音识别数据训练集进行深度学习得到,使得可以得到较高精度的目标文本数据,从而提高进行后续匹配的准确度,进而改善基于现有的语音处理技术对待检测语音数据进行关键词检测的准确率较低的问题。
第一方面,对于步骤S110需要说明的是,将所述待检测语音数据转换为目标文本数据的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以先提取所述待检测语音数据中的语音特征信息,然后,再将该语音特征信息输入至所述语音识别模型,使得该语音识别模型可以基于该语音特征信息进行处理,如此,可以输出文本字符串,即得到所述目标文本数据。
其中,所述语音特征信息可以是指,语音信号(如所述待检测语音数据)中的Filter Bank(滤池组)特征信息或MFCC(梅尔频率倒谱系数)特征信息。所述语音识别模型可以包括,GRU-CTC、CNN-RNN-CTC、DeepSpeech等模型。对该语音识别模型进行训练(深度学习)的语音识别数据集,包括thchs-30(清华大学中文语料库)、aishell(希尔贝壳中文普通话语音数据库)等。
第二方面,对于步骤S120需要说明的是,将所述关键词文本数据与所述目标文本数据进行匹配的具体方式不受限制,可以根据实际需求选择。
例如,在一种可以替代的示例中,考虑到所述关键词文本数据和所述目标文本数据为字符串,因而,可以基于字符串匹配方法将该关键词文本数据和该目标文本数据进行匹配。
其中,所述字符串匹配方法可以包括,KMP、AC自动机(Aho-Corasick automation)等算法。
并且,对于步骤S120需要说明的是,在得到的所述第一匹配结果为匹配成功时,执行上述的步骤S130;在得到的所述第一匹配结果为匹配失败时,具体的处理方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,在得到的所述第一匹配结果为匹配失败时,可以确定所述待检测语音数据不包括所述目标语音关键词。
又例如,在另一种可以替代的示例中,为了提高对目标语音关键词的检测准确率,在得到的所述第一匹配结果为匹配失败时,可以执行子步骤1-子步骤13,具体内容如下所述。
子步骤1,对所述关键词文本数据进行同音词扩展,得到至少一个同音词文本数据。
在本实施例中,在基于步骤S120得到匹配失败的第一匹配结果之后,可以对所述关键词文本数据进行同音词扩展,如此,可以得到该关键词文本数据对应的至少一个同义词文本数据。
例如,可以基于同音词词典对所述关键词文本数据进行同音词扩展。详细地,在一种具体的应用示例中,关键词文本数据“助手”的同义词文本数据可以有“住手”、“驻守”等。在另一种具体的应用示例中,关键词文本数据“他们”的同义词文本数据可以有“她们”、“它们”等。
子步骤2,将每一个所述同音词文本数据分别与所述目标文本数据进行匹配,得到至少一个第二匹配结果。
在本实施例中,在基于子步骤1得到所述至少一个同音词文本数据之后,可以针对每一个所述同音词文本数据,将该同音词文本数据与所述目标文本数据进行匹配(具体匹配方式可以参照前文对所述关键词文本数据进行的匹配方式,即步骤S120),得到该同音词文本数据,如此,针对至少一个同音词文本数据,可以得到至少一个第二匹配结果。
其中,若所述至少一个第二匹配结果中存在目标第二匹配结果,可以执行子步骤3;若所述至少一个第二匹配结果中不存在目标第二匹配结果,可以确定所述待检测语音数据不包括所述目标语音关键词。并且,该目标第二匹配结果为匹配成功的一个第二匹配结果,即对应的同音词文本数据与所述目标文本数据匹配成功。
子步骤3,对所述目标文本数据进行分句,得到至少一个文本分句数据。
在本实施例中,在基于子步骤2得到所述目标第二匹配结果之后,可以对所述目标文本数据进行分句,如此,可以得到至少一个文本分句数据,即将目标文本分解为至少一个句子。
子步骤4,在所述至少一个文本分句数据中确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据,将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,得到目标文本分句数据。
在本实施例中,在基于子步骤3得到所述至少一个文本分句数据之后,可以在该至少一个文本分句数据中,确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据。然后,可以将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,如此,可以得到包括该关键词文本数据的目标文本分局。
例如,所述关键词文本数据为“助手”,所述同义词文本数据包括“住手”和“驻守”,所述至少一个文本分句数据中存在一个文本分句数据为“我们今晚就驻守在这里吧”,如此,可以使得同音词文本数据“驻守”能够与该文本分句数据匹配结果,即同音词文本数据“驻守”对应的第二匹配结果为所述目标第二匹配结果,然后,可以将该文本分句数据中的“驻守”替换为“助手”,得到目标文本分句数据“我们今晚就助手在这里吧”。
子步骤5,基于预设的语言模型确定目标文本分句数据的发生概率。
在本实施例中,在基于子步骤4得到所述目标文本分句数据之后,可以基于预设的语言模型确定该目标文本分句数据的发生概率。
其中,所述语言模型可以基于第一目标语料库中的文本训练集训练得到。也就是说,所述目标文本分句的发生概率可以是指,该目标文本分句在该文本训练集包括的语句中出现的频率。
并且,所述第一目标语料库可以包括,维基百科语料库、搜狗新闻语料库等。所述文本训练集可以是将该第一目标语料库中的文本或语句顺序调整之后的部分文本或语句,另一部分可以作为对应的文本测试集。
子步骤6,基于所述目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间。
在本实施例中,在基于子步骤4得到所述目标文本分句数据之后,可以基于该目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间。
其中,所述长度-概率对应关系基于所述语言模型和所述第一目标语料库中的文本测试集建立。并且,所述分句长度可以是指,所述目标文本分句数据包括的词语的数量。
子步骤7,判断所述发生概率是否属于所述概率区间。
在本实施例中,在基于子步骤5得到所述目标文本分句数据的发生概率且基于子步骤6得到所述概率区间之后,可以判断该发生概率是否属于该概率区间。
其中,若判定所述发生概率属于所述概率区间,可以执行子步骤8;若判定所述发生概率不属于所述概率区间,可以确定所述待检测语音数据不包括所述目标语音关键词。
子步骤8,基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,得到该目标文本数据的类别向量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,如此,可以得到属于每一个文本分类的概率,使得可以基于得到的多个概率构建向量,即得到所述目标文本数据的类别向量。
其中,所述文本分类模型可以基于第二目标语料库中包括所述多个文本分类的文本语料分类集训练得到。并且,所述文本分类模型可以包括FastText、TextCNN等模型,所述第二目标语料库可以是指复旦中文文本分类语料库、搜狗新闻语料库等。
子步骤9,计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,得到该目标关键词与该多个文本分类的相关程度向量,并对该相关程度向量进行归一化处理,得到相关程度归一化向量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,如此,可以基于得到的多个相关程度值构建向量,即得到该目标关键词与该多个文本分类的相关程度向量。然后,对该相关程度向量进行归一化处理,得到对应的相关程度归一化向量。
其中,进行归一化处理的方式可以是,基于softmax函数进行归一化。
子步骤10,计算所述类别向量与所述相关程度归一化向量的余弦相似度,并将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度。
在本实施例中,在基于子步骤8得到所述类别向量且基于子步骤9得到所述相关程度归一化向量之后,可以计算该类别向量与该相关程度归一化向量的余弦相似度。然后,可以将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度。
子步骤11,基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度。
在本实施例中,在基于子步骤10得到所述类别相符度之后,可以基于该类别相符度和所述目标文本分句数据的发生概率,计算得到所述关键词文本数据与所述目标文本数据的文本数据相关度。
子步骤12,判断所述文本数据相关度是否大于预设的相关度阈值。
在本实施例中,在基于子步骤11得到所述文本数据相关度之后,可以判断该文本数据相关度是否大于预设的相关度阈值(该相关度阈值可以基于预先进行的语音关键词检索训练确定,训练的过程可以参照本申请实施例提供的基于深度学习的语音数据处理方法,以根据真实结果和基于该方法得到的结果对该相关度阈值进行调整,使得该真实结果和基于该方法得到的结果的一致或误差率满足用户需求)。
其中,若所述文本数据相关度大于或等于所述相关度阈值,可以执行子步骤13;若所述文本数据相关度小于所述相关度阈值,可以确定所述待检测语音数据包括所述目标语音关键词。
子步骤13,确定所述待检测语音数据包括所述目标语音关键词。
在本实施例中,在基于子步骤12判定所述文本数据相关度大于或等于所述相关度阈值之后,即确定所述目标文本数据中包括所述关键词文本数据之后,可以确定所述待检测语音数据包括所述目标语音关键词。
可选地,在上述示例中,基于子步骤9以计算所述相关程度值的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,为了提高计算所述相关程度值的准确度,子步骤9可以包括子步骤91-子步骤96,具体内容如下所述。
子步骤91,统计所述文本语料分类集包括的训练文本的数量,得到第一文本数量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以统计所述文本语料分类集包括的训练文本的数量(即用于训练所述文本分类模型的文本的数量),如此,可以得到第一文本数量。
子步骤92,针对每一个所述文本分类,确定属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到对应的第二文本数量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以针对每一个所述文本分类,在所述文本语料分类集包括的训练文本中,确定属于该文本分类且包括所述关键词文本数据的训练文本,并确定该训练文本的数量,得到该文本分类对应的第二文本数量,如此,针对多个所述文本分类,可以得到多个第二文本数量。
子步骤93,针对每一个所述文本分类,确定不属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到对应的第三文本数量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以针对每一个所述文本分类,在所述文本语料分类集包括的训练文本中,确定不属于该文本分类且包括所述关键词文本数据的训练文本,并确定该训练文本的数量,得到该文本分类对应的第三文本数量,如此,针对多个所述文本分类,可以得到多个第三文本数量。
子步骤94,针对每一个所述文本分类,确定属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到对应的第四文本数量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以针对每一个所述文本分类,在所述文本语料分类集包括的训练文本中,确定属于该文本分类且不包括所述关键词文本数据的训练文本,并确定该训练文本的数量,得到该文本分类对应的第四文本数量,如此,针对多个所述文本分类,可以得到多个第四文本数量。
子步骤95,针对每一个所述文本分类,确定不属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到对应的第五文本数量。
在本实施例中,在基于子步骤7判定所述发生概率属于所述概率区间之后,可以针对每一个所述文本分类,在所述文本语料分类集包括的训练文本中,确定不属于该文本分类且不包括所述关键词文本数据的训练文本,并确定该训练文本的数量,得到该文本分类对应的第五文本数量,如此,针对多个所述文本分类,可以得到多个第五文本数量。
子步骤96,针对每一个所述文本分类,基于所述第一文本数量、该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值。
在本实施例中,在基于子步骤91-子步骤95得到所述第一文本数量、所述第二文本数量、第三文本数量、第四文本数量和第五文本数量之后,可以针对每一个所述文本分类,基于该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,并集合所述第一文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值。如此,针对所述多个文本分类,可以得到多个相关程度值(该相关程度值越大,表示对应的文本分类与所述关键词文本数据之间的相关性越大)。
可以理解的是,在上述示例中,基于子步骤96以计算所述相关程度值的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,子步骤96可以包括:
第一步,计算所述第二文本数量与所述第五文本数量的乘积,得到第一乘积;第二步,计算所述第三文本数量与所述第四文本数量的乘积,得到第二乘积;第三步,计算所述第一乘积与所述第二乘积的差值的平方,得到平方值;第四步,计算所述第一文本数量与所述平方值的乘积,得到第三乘积;第五步,计算所述第二文本数量与所述第四文本数量的和值,得到第一和值;第六步,计算所述第三文本数量与所述第五文本数量的和值,得到第二和值;第七步,计算所述第二文本数量与所述第三文本数量的和值,得到第三和值;第八步,计算所述第四文本数量与所述第五文本数量的和值,得到第四和值;第九步,计算所述第一和值、所述第二和值、所述第三和值和所述第四和值的乘积,得到第四乘积;第十步,计算所述第三乘积与所述第四乘积的商值,并将该商值作为所述第二文本数量、所述第三文本数量、所述第四文本数量和所述第五文本数量对应的文本分类与所述关键词文本数据之间的相关程度值。
可选地,在上述示例中,基于子步骤11以计算关键词文本数据与目标文本数据的文本数据相关度的具体方式不受限制,可以根据实际需求选择。
例如,在一种可以替代的示例中,子步骤11可以包括:
首先,确定所述类别相符度的第一权重系数、所述发生概率的第二权重系数;其次,基于所述第一权重系数和所述第二权重系数,对所述类别相符度和所述发生概率进行加权求和计算,得到所述关键词文本数据与所述目标文本数据之间的文本数据相关度。
其中,所述第一权重系数与所述第二权重系数的和值为1,且该第一权重系数大于或等于0.2、小于或等于0.8。
在上述示例的基础上,对于所述语言模型需要说明的是,该语言模型的具体类型不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,所述语言模型可以是神经网络模型,如基于循环神经网络的神经网络语言模型。
又例如,在另一种可以替代的示例中,所述语言模型可以是统计语言模型,如trigram语言模型。其中,训练该统计语言模型的具体方式也不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以基于以下步骤训练得到所述统计语言模型:
首先,针对所述文本训练集包括的每一个文本训练语句,确定该文本训练语句中每一个文本训练词语在该文本训练集中的词语发生概率,并基于该词语发生概率确定该文本训练语句的语句发生概率;其次,基于每一个所述文本训练语句和该文本训练语句对应的所述语句发生概率之间的对应关系,得到所述统计语言模型。
在上述示例中,所述统计语言模型可以理解为是一种统计表,该统计表中包括各所述文本训练语句与对应的语句发生概率。如此,在需要基于该统计语言模型确定目标语句的语句发生概率时,可以基于该统计表中的对应关系,查找到该目标语句的语句发生概率。
可选地,在上述示例中,确定所述文本训练语句中每一个文本训练词语在所述文本训练集中的词语发生概率的具体方式不受限制。
例如,在一种可以替代的示例中,可以基于以下步骤确定所述文本训练语句中每一个文本训练词语在所述文本训练集中的词语发生概率:
第一步,针对所述文本训练语句中的每一个文本训练词语,确定该文本训练词语在所述文本训练集中出现的第一次数、第二次数和第三次数,其中,该第一次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前两个词语形成的词语序列,在该文本训练集中出现的次数,该第二次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前一个词语形成的词语序列,在该文本训练集中出现的次数,该第三次数用于表征该文本训练词语在该文本训练集中出现的次数;
第二步,计算每一个所述文本训练词语对应的所述第一次数和所述第二次数的比例,得到每一个所述文本训练词语对应的第一比例值;
第三步,计算每一个所述文本训练词语对应的所述第二次数和所述第三次数的比例,得到每一个所述文本训练词语对应的第二比例值;
第四步,计算每一个所述文本训练词语对应的所述第三次数和目标词语数量的比例,得到每一个所述文本训练词语对应的第三比例值,其中,该目标词语数量用于表征所述文本训练集包括的词语的数量;
第五步,确定所述第一比例值的第一平滑系数、所述第二比例值的第二平滑系数和所述第三比例值的第三平滑系数,其中,该第一平滑系数、该第二平滑系数和该第三平滑系数的和为1,且该第一平滑系数大于或等于0,该第二平滑系数大于或等于0,该第三平滑系数大于或等于0;
第六步,针对每一个所述文本训练词语,基于所述第一平滑系数、所述第二平滑系数和所述第三平滑系数,对该文本训练词语对应的所述第一比例值、所述第二比例值和所述第三比例值进行加权求和计算,得到该文本训练词语在所述文本训练集中的词语发生概率。
可以理解的是,在上述示例中,所述文本训练语句中的每一个文本训练词语,可以基于对该文本训练语句进行分词处理得到。并且,对于句首的词语,可以采用空格以代替对应的前两个词语和前一个词语。
可选地,在上述示例中,基于每一个文本训练词语的词语发生概率确定对应的文本训练语句的语句发生概率的具体方式不受限制。
例如,在一种可以替代的示例中,可以对所述文本训练语句包括的每一个文本训练词语的词语发生概率进行累乘处理,将得到的乘积作为该文本训练语句的语句发生概率。
又例如,在另一种可以替代的示例中,为了避免确定所述语句发生概率时出现概率下溢的问题,可以对所述文本训练语句包括的每一个文本训练词语的词语发生概率进行累乘处理,并将得到的乘积进行取对数操作,然后,将取对数操作得到的结果作为该文本训练语句的语句发生概率。
在上述示例的基础上,所述深度学习的语音数据处理方法还包括基于所述语言模型和所述第一目标语料库中的文本测试集建立所述长度-概率对应关系的步骤,其中,该步骤的具体内容不受限制。
例如,在一种可以替代的示例中,在所述语言模型为统计语言模型的基础上,可以基于以下步骤建立所述长度-概率对应关系:
首先,基于所述统计语言模型中的每一个所述文本训练语句和该文本训练语句对应的语句发生概率之间的对应关系,确定所述第一目标语料库中的文本测试集包括的每一个文本测试语句的语句发生概率;
其次,确定每一个所述文本测试语句的词语长度,其中,该词语长度用于表征对应文本测试语句包括的测试词语的词语数量,该测试词语可以基于对该文本测试语句进行分词处理得到;
然后,针对每一个所述词语长度,基于该词语长度对应的每一个文本测试语句的语句发生概率确定对应的概率区间,并将该词语长度与该概率区间建立对应关系,得到所述长度-概率对应关系。
例如,所述文本测试集包括5个文本测试语句,分别为文本测试语句1、文本测试语句2、文本测试语句3、文本测试语句4和文本测试语句5。其中,文本测试语句1的词语长度为A,文本测试语句2的词语长度为B,文本测试语句3的词语长度为A,文本测试语句4的词语长度为B,文本测试语句5的词语长度为A。基于此,针对词语长度A,对应有3个文本测试语句,因此,可以将这3个文本测试语句对应的语句发生概率中的最大值和最小值作为对应概率区间的上限值和下限值,再将词语长度A与该概率区间建立对应关系。针对词语长度B,对应有2个文本测试语句,因此,可以将这2个文本测试语句对应的语句发生概率中的最大值和最小值作为对应概率区间的上限值和下限值,再将词语长度B与该概率区间建立对应关系。如此,可以得到每一个词语长度对应的长度-概率对应关系。
结合图3,本申请实施例还提供一种可应用于上述电子设备10的基于深度学习的语音数据处理装置100。
其中,所述基于深度学习的语音数据处理装置100可以包括语音数据转换模块110、文本数据匹配模块120和语音关键词确定模块130。
所述语音数据转换模块110,用于基于预设的语音识别模块将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到。在本实施例中,所述语音数据转换模块110可用于执行图2所示的步骤S110,关于所述语音数据转换模块110的相关内容可以参照前文对步骤S110的描述。
所述文本数据匹配模块120,用于将预先确定的目标语音关键词对应的关键词文本数据与所述目标文本数据进行匹配,得到第一匹配结果。在本实施例中,该文本数据匹配模块120可用于执行图2所示的步骤S120,关于该文本数据匹配模块120的相关内容可以参照前文对步骤S120的描述。
所述语音关键词确定模块130,用于在所述第一匹配结果为匹配成功时,确定所述待检测语音数据包括所述目标语音关键词。在本实施例中,所述语音关键词确定模块130可用于执行图2所示的步骤S130,关于所述语音关键词确定模块130的相关内容可以参照前文对步骤S130的描述。
可选地,在上述示例的基础上,基于不同的需求,所述基于深度学习的语音数据处理装置100还可以包括其它模块,该其它模块可以用于:
在所述第一匹配结果为匹配失败时,对所述关键词文本数据进行同音词扩展,得到至少一个同音词文本数据;将每一个所述同音词文本数据分别与所述目标文本数据进行匹配,得到至少一个第二匹配结果;在所述至少一个第二匹配结果中存在目标第二匹配结果时,对所述目标文本数据进行分句,得到至少一个文本分句数据,其中,该目标第二匹配结果为匹配成功的一个第二匹配结果;在所述至少一个文本分句数据中确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据,将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,得到目标文本分句数据;基于预设的语言模型确定所述目标文本分句数据的发生概率,其中,该语言模型基于第一目标语料库中的文本训练集训练得到;基于所述目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间,其中,该长度-概率对应关系基于所述语言模型和所述第一目标语料库中的文本测试集建立;判断所述发生概率是否属于所述概率区间;在所述发生概率属于所述概率区间时,基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,得到该目标文本数据的类别向量,其中,该文本分类模型基于第二目标语料库中包括该多个文本分类的文本语料分类集训练得到;计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,得到该目标关键词与该多个文本分类的相关程度向量,对该相关程度向量进行归一化处理,得到相关程度归一化向量;计算所述类别向量与所述相关程度归一化向量的余弦相似度,并将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度;基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度;判断所述文本数据相关度是否大于预设的相关度阈值;在所述文本数据相关度大于或等于所述相关度阈值时,确定所述待检测语音数据包括所述目标语音关键词。
在本申请实施例中,对应于上述的应用于所述电子设备10的基于深度学习的语音数据处理方法,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序运行时执行基于深度学习的语音数据处理方法的各个步骤。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述基于深度学习的语音数据处理方法的解释说明。
综上所述,本申请提供的基于深度学习的语音数据处理方法和装置,基于语音识别模块将待检测语音数据转换为目标文本数据,使得可以将预先确定的目标语音关键词对应的关键词文本数据与目标文本数据进行匹配,以基于匹配结果确定待检测语音数据是否包括目标语音关键词。基于此,由于语音识别模型基于获得的语音识别数据训练集进行深度学习得到,使得可以得到较高精度的目标文本数据,从而提高进行后续匹配的准确度,进而改善基于现有的语音处理技术对待检测语音数据进行关键词检测的准确率较低的问题,使得具有较高的实用价值。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于深度学习的语音数据处理方法,其特征在于,包括:
基于预设的语音识别模型将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到;
将预先确定的目标语音关键词对应的关键词文本数据与所述目标文本数据进行匹配,得到第一匹配结果;
若所述第一匹配结果为匹配成功,则确定所述待检测语音数据包括所述目标语音关键词;
其中,所述语音数据处理方法还包括:
若所述第一匹配结果为匹配失败,则对所述关键词文本数据进行同音词扩展,得到至少一个同音词文本数据;
将每一个所述同音词文本数据分别与所述目标文本数据进行匹配,得到至少一个第二匹配结果;
若所述至少一个第二匹配结果中存在目标第二匹配结果,则对所述目标文本数据进行分句,得到至少一个文本分句数据,其中,该目标第二匹配结果为匹配成功的一个第二匹配结果;
在所述至少一个文本分句数据中确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据,并将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,得到目标文本分句数据;
基于预设的语言模型确定所述目标文本分句数据的发生概率,其中,该语言模型基于第一目标语料库中的文本训练集训练得到;
基于所述目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间,其中,该长度-概率对应关系基于所述语言模型和所述第一目标语料库中的文本测试集建立;
判断所述发生概率是否属于所述概率区间;
若所述发生概率属于所述概率区间,则基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,得到该目标文本数据的类别向量,其中,该文本分类模型基于第二目标语料库中包括该多个文本分类的文本语料分类集训练得到;
计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,得到该关键词文本数据与该多个文本分类的相关程度向量,并对该相关程度向量进行归一化处理,得到相关程度归一化向量;
计算所述类别向量与所述相关程度归一化向量的余弦相似度,并将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度;
基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度;
判断所述文本数据相关度是否大于预设的相关度阈值;
若所述文本数据相关度大于或等于所述相关度阈值,则确定所述待检测语音数据包括所述目标语音关键词。
2.根据权利要求1所述的基于深度学习的语音数据处理方法,其特征在于,所述计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值的步骤,包括:
统计所述文本语料分类集包括的训练文本的数量,得到第一文本数量;
针对每一个所述文本分类,确定属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第二文本数量;
针对每一个所述文本分类,确定不属于该文本分类且包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第三文本数量;
针对每一个所述文本分类,确定属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第四文本数量;
针对每一个所述文本分类,确定不属于该文本分类且不包括所述关键词文本数据的训练文本的数量,得到该文本分类对应的第五文本数量;
针对每一个所述文本分类,基于所述第一文本数量、该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值。
3.根据权利要求2所述的基于深度学习的语音数据处理方法,其特征在于,所述基于所述第一文本数量、该文本分类对应的第二文本数量、第三文本数量、第四文本数量和第五文本数量,计算得到该文本分类与所述关键词文本数据之间的相关程度值的步骤,包括:
计算所述第二文本数量与所述第五文本数量的乘积,得到第一乘积;
计算所述第三文本数量与所述第四文本数量的乘积,得到第二乘积;
计算所述第一乘积与所述第二乘积的差值的平方,得到平方值;
计算所述第一文本数量与所述平方值的乘积,得到第三乘积;
计算所述第二文本数量与所述第四文本数量的和值,得到第一和值;
计算所述第三文本数量与所述第五文本数量的和值,得到第二和值;
计算所述第二文本数量与所述第三文本数量的和值,得到第三和值;
计算所述第四文本数量与所述第五文本数量的和值,得到第四和值;
计算所述第一和值、所述第二和值、所述第三和值和所述第四和值的乘积,得到第四乘积;
计算所述第三乘积与所述第四乘积的商值,并将该商值作为所述第二文本数量、所述第三文本数量、所述第四文本数量和所述第五文本数量对应的文本分类与所述关键词文本数据之间的相关程度值。
4.根据权利要求1所述的基于深度学习的语音数据处理方法,其特征在于,所述基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度的步骤,包括:
确定所述类别相符度的第一权重系数、所述发生概率的第二权重系数,其中,该第一权重系数与该第二权重系数的和值为1,且该第一权重系数大于或等于0.2、小于或等于0.8;
基于所述第一权重系数和所述第二权重系数,对所述类别相符度和所述发生概率进行加权求和计算,得到所述关键词文本数据与所述目标文本数据之间的文本数据相关度。
5.根据权利要求1所述的基于深度学习的语音数据处理方法,其特征在于,所述语言模型为统计语言模型,该语音数据处理方法还包括训练该统计语言模型的步骤,该步骤包括:
针对所述文本训练集包括的每一个文本训练语句,确定该文本训练语句中每一个文本训练词语在该文本训练集中的词语发生概率,并基于该词语发生概率确定该文本训练语句的语句发生概率;
基于每一个所述文本训练语句和该文本训练语句对应的所述语句发生概率之间的对应关系,得到所述统计语言模型。
6.根据权利要求5所述的基于深度学习的语音数据处理方法,其特征在于,所述确定该文本训练语句中每一个文本训练词语在该文本训练集中的词语发生概率的步骤,包括:
针对所述文本训练语句中的每一个文本训练词语,确定该文本训练词语在所述文本训练集中出现的第一次数、第二次数和第三次数,其中,该第一次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前两个词语形成的词语序列,在该文本训练集中出现的次数,该第二次数用于表征基于该文本训练词语和该文本训练词语在该文本训练语句中的前一个词语形成的词语序列,在该文本训练集中出现的次数,该第三次数用于表征该文本训练词语在该文本训练集中出现的次数;
计算每一个所述文本训练词语对应的所述第一次数和所述第二次数的比例,得到每一个所述文本训练词语对应的第一比例值;
计算每一个所述文本训练词语对应的所述第二次数和所述第三次数的比例,得到每一个所述文本训练词语对应的第二比例值;
计算每一个所述文本训练词语对应的所述第三次数和目标词语数量的比例,得到每一个所述文本训练词语对应的第三比例值,其中,该目标词语数量用于表征所述文本训练集包括的词语的数量;
确定所述第一比例值的第一平滑系数、所述第二比例值的第二平滑系数和所述第三比例值的第三平滑系数,其中,该第一平滑系数、该第二平滑系数和该第三平滑系数的和为1,且该第一平滑系数大于或等于0,该第二平滑系数大于或等于0,该第三平滑系数大于或等于0;
针对每一个所述文本训练词语,基于所述第一平滑系数、所述第二平滑系数和所述第三平滑系数,对该文本训练词语对应的所述第一比例值、所述第二比例值和所述第三比例值进行加权求和计算,得到该文本训练词语在所述文本训练集中的词语发生概率。
7.根据权利要求5所述的基于深度学习的语音数据处理方法,其特征在于,该语音数据处理方法还包括基于所述语言模型和所述第一目标语料库中的文本测试集建立所述长度-概率对应关系的步骤,该步骤包括:
基于所述统计语言模型中的每一个所述文本训练语句和该文本训练语句对应的语句发生概率之间的对应关系,确定所述第一目标语料库中的文本测试集包括的每一个文本测试语句的语句发生概率;
确定每一个所述文本测试语句的词语长度,其中,该词语长度用于表征对应文本测试语句包括的测试词语的词语数量;
针对每一个所述词语长度,基于该词语长度对应的每一个文本测试语句的语句发生概率确定对应的概率区间,并将该词语长度与该概率区间建立对应关系,得到所述长度-概率对应关系。
8.根据权利要求1-7任意一项所述的基于深度学习的语音数据处理方法,其特征在于,该语音数据处理方法还包括:
若所述至少一个第二匹配结果中不存在目标第二匹配结果,则确定所述待检测语音数据不包括所述目标语音关键词;
若所述发生概率不属于所述概率区间,则确定所述待检测语音数据不包括所述目标语音关键词;
若所述文本数据相关度小于所述相关度阈值,则确定所述待检测语音数据包括所述目标语音关键词。
9.一种基于深度学习的语音数据处理装置,其特征在于,包括:
语音数据转换模块,用于基于预设的语音识别模型将待检测语音数据转换为目标文本数据,其中,该语音识别模型基于获得的语音识别数据训练集进行深度学习得到;
文本数据匹配模块,用于将预先确定的目标语音关键词对应的关键词文本数据与所述目标文本数据进行匹配,得到第一匹配结果;
语音关键词确定模块,用于在所述第一匹配结果为匹配成功时,确定所述待检测语音数据包括所述目标语音关键词;
所述语音关键词确定模块,还用于若所述第一匹配结果为匹配失败,则对所述关键词文本数据进行同音词扩展,得到至少一个同音词文本数据;
将每一个所述同音词文本数据分别与所述目标文本数据进行匹配,得到至少一个第二匹配结果;
若所述至少一个第二匹配结果中存在目标第二匹配结果,则对所述目标文本数据进行分句,得到至少一个文本分句数据,其中,该目标第二匹配结果为匹配成功的一个第二匹配结果;
在所述至少一个文本分句数据中确定与所述目标第二匹配结果对应的同音词文本数据匹配的文本分句数据,并将该文本分句数据中包括的该同音词文本数据替换为所述关键词文本数据,得到目标文本分句数据;
基于预设的语言模型确定所述目标文本分句数据的发生概率,其中,该语言模型基于第一目标语料库中的文本训练集训练得到;
基于所述目标文本分句数据的分句长度和预先建立的长度-概率对应关系,得到该分句长度对应的概率区间,其中,该长度-概率对应关系基于所述语言模型和所述第一目标语料库中的文本测试集建立;
判断所述发生概率是否属于所述概率区间;
若所述发生概率属于所述概率区间,则基于预设的文本分类模型确定所述目标文本数据属于预设的多个文本分类的概率,得到该目标文本数据的类别向量,其中,该文本分类模型基于第二目标语料库中包括该多个文本分类的文本语料分类集训练得到;
计算所述关键词文本数据与所述多个文本分类中每一个文本分类的相关程度值,得到该关键词文本数据与该多个文本分类的相关程度向量,并对该相关程度向量进行归一化处理,得到相关程度归一化向量;
计算所述类别向量与所述相关程度归一化向量的余弦相似度,并将该余弦相似度作为所述关键词文本数据与所述目标文本数据的类别相符度;
基于所述类别相符度和所述发生概率,计算所述关键词文本数据与所述目标文本数据的文本数据相关度;
判断所述文本数据相关度是否大于预设的相关度阈值;
若所述文本数据相关度大于或等于所述相关度阈值,则确定所述待检测语音数据包括所述目标语音关键词。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110110350.3A CN112836039B (zh) | 2021-01-27 | 2021-01-27 | 基于深度学习的语音数据处理方法和装置 |
US17/207,733 US11636849B2 (en) | 2021-01-27 | 2021-03-21 | Voice data processing based on deep learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110110350.3A CN112836039B (zh) | 2021-01-27 | 2021-01-27 | 基于深度学习的语音数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836039A CN112836039A (zh) | 2021-05-25 |
CN112836039B true CN112836039B (zh) | 2023-04-21 |
Family
ID=75930852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110110350.3A Active CN112836039B (zh) | 2021-01-27 | 2021-01-27 | 基于深度学习的语音数据处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11636849B2 (zh) |
CN (1) | CN112836039B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701639B (zh) * | 2023-07-26 | 2024-03-12 | 广东师大维智信息科技有限公司 | 基于文本分析的双碳知识图谱数据分析方法及系统 |
CN117690439B (zh) * | 2024-01-31 | 2024-04-16 | 国网安徽省电力有限公司合肥供电公司 | 一种基于营销场景的语音识别语意理解方法及系统 |
CN117672200B (zh) * | 2024-02-02 | 2024-04-16 | 天津市爱德科技发展有限公司 | 一种物联网设备的控制方法、设备及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179935A (zh) * | 2018-11-12 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 一种语音质检的方法和设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150106091A1 (en) * | 2013-10-14 | 2015-04-16 | Spence Wetjen | Conference transcription system and method |
US10445360B2 (en) * | 2015-11-24 | 2019-10-15 | Comcast Cable Communications, Llc | Content analysis to enhance voice search |
CN106598939B (zh) * | 2016-10-21 | 2019-09-17 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
US11721329B2 (en) * | 2017-09-11 | 2023-08-08 | Indian Institute Of Technology, Delhi | Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus |
CN108197109B (zh) * | 2017-12-29 | 2021-04-23 | 北京百分点科技集团股份有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
KR20190114321A (ko) * | 2018-03-29 | 2019-10-10 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN110059161A (zh) * | 2019-04-23 | 2019-07-26 | 深圳市大众通信技术有限公司 | 一种基于文本分类技术的电话语音机器人系统 |
US11861674B1 (en) * | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
KR102153668B1 (ko) * | 2019-10-29 | 2020-09-09 | 주식회사 퍼즐에이아이 | 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 |
CN111428474A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 基于语言模型的纠错方法、装置、设备及存储介质 |
CN111429912B (zh) * | 2020-03-17 | 2023-02-10 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111696557A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 语音识别结果的校准方法、装置、设备及存储介质 |
-
2021
- 2021-01-27 CN CN202110110350.3A patent/CN112836039B/zh active Active
- 2021-03-21 US US17/207,733 patent/US11636849B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179935A (zh) * | 2018-11-12 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 一种语音质检的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112836039A (zh) | 2021-05-25 |
US20220238100A1 (en) | 2022-07-28 |
US11636849B2 (en) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836039B (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN107180084B (zh) | 词库更新方法及装置 | |
CN111611807B (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
US10970488B2 (en) | Finding of asymmetric relation between words | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN113254643A (zh) | 文本分类方法、装置、电子设备和 | |
CN115510500A (zh) | 一种文本内容的敏感分析方法及系统 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
Arbaatun et al. | Hate speech detection on Twitter through Natural Language Processing using LSTM model | |
Mekala et al. | A survey on authorship attribution approaches | |
Oo | Comparing accuracy between svm, random forest, k-nn text classifier algorithms for detecting syntactic ambiguity in software requirements | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN113792131A (zh) | 一种关键词的提取方法、装置、电子设备及存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |