CN109902306A - 一种语音识别方法、装置、存储介质及语音设备 - Google Patents
一种语音识别方法、装置、存储介质及语音设备 Download PDFInfo
- Publication number
- CN109902306A CN109902306A CN201910191079.3A CN201910191079A CN109902306A CN 109902306 A CN109902306 A CN 109902306A CN 201910191079 A CN201910191079 A CN 201910191079A CN 109902306 A CN109902306 A CN 109902306A
- Authority
- CN
- China
- Prior art keywords
- network
- meaning
- text
- hot word
- network hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000013519 translation Methods 0.000 description 10
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 210000000003 hoof Anatomy 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种语音识别方法、装置、存储介质及语音设备,所述方法包括:将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;若识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。本发明提供的方案能够判断出用户想表达的是网络热词的引申含义还是原本含义,提高语音识别的准确性。
Description
技术领域
本发明涉及控制领域,尤其涉及一种语音识别方法、装置、存储介质及语音设备。
背景技术
如今,在语音技术中,普遍采用语音识别与语义理解相结合的方法解析用户语义,其中语义理解是技术难点,我们通过语法、语义、语用分析,获取用户说的话的语义表示。但现今由于社会文化的丰富,出现了很多网络热词与段子,语言的含义变得更加广泛。例如,“pick”本来是挑选的意思,但现在引申为“支持”的意思。当用户语音控制设备的时候,若语音中包含有网络热词,单凭一句语音命令,缺少特定的语境,设备无法确定用户想表达的是词语的原始意思还是引申出的网络含义,尤其当句子结构不完整的时候,对用户语音的理解变得更有歧义,这无疑增加了语义理解的难度。
发明内容
本发明的主要目的在于克服上述现有技术的缺陷,提供一种语音识别方法、装置、存储介质及语音设备,以解决现有技术中语音中包含有网络热词时语音设备无法识别用户想表达的是词语原义还是引申的网络含义的问题。
本发明一方面提供了一种语音识别方法,包括:将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;若识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
可选地,识别所述文本中是否存在网络热词,包括:基于预先配置的网络热词库识别所述文本中是否存在网络热词。
可选地,还包括:每隔第一预设时间更新所述网络热词库;和/或,每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度。
可选地,根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义,包括:将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分;和/或,根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分;根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
可选地,还包括:建立所述语义分析模型,包括:采集预先标记了句子结构完整程度和/或句意符合逻辑程度的句子样本;将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
本发明另一方面提供了一种语音识别装置,包括:识别单元,用于将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;确定单元,用于若所述识别单元识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;解析单元,用于根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
可选地,所述识别单元,识别所述文本中是否存在网络热词,包括:基于预先配置的网络热词库识别所述文本中是否存在网络热词。
可选地,还包括:更新单元,用于每隔第一预设时间更新所述网络热词库;和/或,每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度。
可选地,所述确定单元,包括:第一评分子单元,用于将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分;和/或,第二评分子单元,用于根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分;确定子单元,用于根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
可选地,还包括:模型建立单元,用于建立所述语义分析模型,包括:采集预先标记了句子结构完整程度和/或句意符合逻辑程度的句子样本;将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
本发明又一方面提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现前述任一所述方法的步骤。
本发明再一方面提供了一种语音设备,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述任一所述方法的步骤。
本发明再一方面提供了一种语音设备,包括前述任一所述的语音识别装置。
根据本发明的技术方案,根据网络热词当前的热度和/或预先建立的语义分析模型确定网络热词在用户语音对应文本中表达网络含义还是原本含义,从而能够判断出用户想表达的是网络热词的引申含义还是原本含义,能够提高语音识别的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明提供的语音识别方法的一实施例的方法示意图;
图2是根据本发明实施例的确定所述网络热词在所述文本中表达网络含义还是原本含义的步骤的一种具体实施方式的流程示意图;
图3是本发明提供的语音识别方法的一具体实施例的方法示意图;
图4是本发明提供的语音识别装置的一实施例的结构示意图;
图5是根据本发明实施例的确定单元的一种具体实施方式的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供一种语音识别方法。所述语音识别方法可以用于语音设备。所述语音设备即是能够通过语音控制的设备。图1是本发明提供的语音识别方法的一实施例的方法示意图。
如图1所示,根据本发明的一个实施例,所述语音设备方法至少包括步骤S110、步骤S120和步骤S130。
步骤S110,将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词。
具体地,当用户语音控制设备的时候,接收用户输入的语音作为待识别语音,对所述待识别语音进行识别,得到对应的文本,识别得到的文本中是否存在网络热词。可选地,可以预先配置网络热词库,所述网络热词库中保存网络热词,将待识别语音识别为对应的文本之后,基于预先配置的网络热词库识别所述文本中是否存在网络热词,也就是说,查找所述文本中是否存在所述网络热词库中的网络热词。所述网络热词库中还可以保存网络热词对应的含义和/或热度,所述热度具体可以为网络热词的出现次数和/或出现频率,可以根据其出现次数(例如,包括使用次数和/或搜索次数)和/或出现频率的高低来确定,例如,使用次数和/或搜索次数在不同的次数范围内对应不同的热度,所述热度例如可以从高到低划分为“非常高”、“很高”、“高”、“一般”和“低”五个等级,或者可以按照从高到低划分为五星、四星、三星、二星和一星。
可选地,可以每隔第一预设时间更新所述网络热词库。例如,每隔一星期更新一次网络热词库,补充网络中新出现的网络热词。可选地,可以每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度,例如,每天更新一次网络热词库中保存的网络热词对应的热度。
步骤S120,若识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义。
图2是根据本发明实施例的确定所述网络热词在所述文本中表达网络含义还是原本含义的步骤的一种具体实施方式的流程示意图。如图2所示,在一种具体实施方式中,步骤S120包括步骤S121和/或步骤S122,还包括步骤S123。
步骤S121,将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分;
具体地,将所述文本输入所述语义分析模型中后,将所述文本中的所述网络热词解释为网络含义和/或原本含义后进行语义分析,以得到所述网络热词表达网络含义和/或原本含义后的第一评分,所述第一评分具体可以为将所述文本中的所述网络热词解释为网络含义和/或原本含义时的句子结构完整程度和/或句意符合逻辑程度的评分。
其中,所述语义分析模型具体可以通过如下的方式建立:
(1)采集预先标注了句子结构完整程度和/或句意符合逻辑程度的句子样本。
具体地,采集大量的句子样本,句子样本包含句子结构完整程度和/或句意符合逻辑程度不同的句子。预先标注句子的句子结构完整程度和/或句意符合逻辑程度。例如,将句子按照句子结构完整程度分为两类,即结构完整的句子和结构不完整的句子,或者将句子按照句意符合逻辑程度分为两类,即符合逻辑的句子和不符合逻辑的句子。预先标注每个句子的分类,即标注每个句子是结构完整的句子还是结构不完整的句子,是句意符合逻辑的句子还是句意不符合逻辑的句子。
(2)将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
具体地,将采集的所述句子样本输入预设的神经网络中进行模型训练,以得到能够根据句子结构完整程度和/或句意符合逻辑程度,对句子进行评分的语义分析模型。
在一种具体实施方式中,建立双向LSTM(Long Short-Term Memory,长短期记忆网络)网络模型,将采集的所述句子样本输入LSTM网络模型中,分别使用大量结构完整的句子样本和结构不完整的句子样本,或者符合逻辑的句子样本和不符合逻辑的句子样本,输入该模型进行训练,以得到所述能够根据句子结构完整程度和/或句意符合逻辑程度,对句子进行评分的语义分析模型。
将所述文本输入所述语义分析模型中进行分析,即可得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分。例如,将所述文本输入所述语义分析模型中分析句子结构时,可以将句子中的网络热词替换为原本含义进行分析,得到句子的第一评分,和/或将句子中的网络热词替换为网络含义进行分析,得到句子的第一评分。
所述第一评分具体可以按照所述文本中的所述网络热词解释为网络含义和/或原本含义时的句子结构完整程度和/或句意符合逻辑程度进行评分,例如,所述第一评分为所述网络热词在所述文本中表达网络含义的评分时,可以根据将所述网络热词解释为网络含义时句子结构完整程度和/或句意符合逻辑程度从高到低进行评分,其中,句子结构完整程度和/或句意符合逻辑程度越高所述网络热词在所述文本中表达网络含义的评分越高,也就是说,将所述网络热词解释为网络含义时,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的可信度越高;或者根据将所述网络热词解释为原本含义时句子结构完整程度和/或句意符合逻辑程度从高到低进行评分,其中,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的评分越低,也就是说,将所述网络热词解释为原本含义时,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的可信度越低。该过程即是判断句子中网络热词表达网络含义的可信度的过程。例如,“男人都是大猪蹄子”,这句话主、谓、宾结构很完整,但是用大猪蹄子形容人,句子逻辑是说不过去的。而“大猪蹄子”作为网络热词,具有“傻”、“要面子”等引申含义,使用引申含义句子含义符合逻辑,因此该处“大猪蹄子”应该翻译成引申的网络含义。
例如,表1是根据本发明具体实施例的不同的评分对应的热度、网络热词解释为网络含义和原本含义的符合逻辑程度。参考表1所示,其中的评分具体可以为所述网络热词在所述文本中表达网络含义的评分,对应的评分为5分时,表示按网络含义翻译用户语音语义,完全符合逻辑,对应的评分为4分时,按网络含义翻译用户语音语义,基本符合逻辑度,……,对应的评分为1时,按网络含义翻译用户语音语义,完全不符合逻辑;反之,对应的评分为5分时,按词语原本含义翻译用户语音语义,完全不符合逻辑,对应的评分为4分时,按词语原本含义翻译用户语音语义,不符合逻辑,……,对应的评分为1分时,按词语原本含义翻译用户语音语义,完全符合逻辑。其中,句意符合逻辑程度的从高到低划分为“完全符合逻辑”、“基本符合逻辑”、“勉强符合逻辑”、“不符合逻辑”、“完全不符合逻辑”。
表1
步骤S122,根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分。
例如,所述第二评分具体可以为所述网络热词在所述文本中表达网络含义的评分时,所述网络热词当前的热度越高,其在所述文本中表达网络含义的可能性就越高,表达原本含义的可能性就越低,则其在所述文本中表达网络含义的第二评分就越高,表达原本含义的第二评分就越低。例如,按照网络热词的在网络中的出现次数和/或搜索次数,将热度划分为两个以上等级,例如,表1是根据本发明具体实施例的不同的评分对应的热度、网络热词解释为网络含义和原本含义的符合逻辑程度,
参考表1所示,按照热度从高到低划分为“非常高”、“很高”、“高”、“一般”、“低”五个等级,其中每个等级分别对应一个网络热词表达网络含义的评分(第二评分),例如,“非常高”等级对应的网络热词表达网络含义的评分为5分,“很高”等级对应的网络热词表达网络含义的评分为4分、“高”等级对应的网络热词表达网络含义的评分为3分,“一般”等级对应的网络热词表达网络含义的评分为2分,“低”等级对应的网络热词表达网络含义的评分为1分。
步骤S123,根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
具体地,可以根据所述第一评分、第二评分中的任一项评分,确定所述网络热词在所述文本中表达网络含义还是原本含义,例如,所述第一评分或所述第二评分评分为所述网络热词在所述文本中表达网络含义的评分时,所述第一评分或第二评分超过第一预设分值,则确定所述网络热词在所述文本中表示网络含义;或者根据所述第一评分与第二评分之和,确定所述网络热词在所述文本中表达网络含义还是原本含义,例如,所述第一评分和所述第二评分评分为所述网络热词在所述文本中表达网络含义的评分时,第一评分与第二评分的评分之和超过第二预设分值,则确定所述网络热词在所述文本中表示网络含义。
步骤S130,根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
具体地,若确定所述网络热词在所述文本中表达的网络含义,则按照网络含义识别出所述文本的语义;若确定所述网络热词在所述文本中表达的原本含义,则按照原本含义识别出所述文本的语义。
例如,用户语音为“中国好声音中,哪个学员的pick度最高”,语音中的“pick”为网络热词,出自一档真人秀节目,当前十分流行,表示“支持”的意思,pick谁就是支持谁的意思。“pick”原本的中文含义是“挑选”,结合用户的语义,可知用户表达的是“pick”的网络含义“支持”的意思。
为清楚说明本发明技术方案,下面再以一个具体实施例对本发明提供的语音识别方法的执行流程进行描述。
图3是本发明提供的语音识别方法的一具体实施例的方法示意图。如图3所示实施例中包括步骤S201~步骤S207。
步骤S201,更新网络热词库。
步骤S202,识别用户语音,得到用户语音文本。
步骤S203,语音文本匹配网络热词,若语音文本中含有网络热词,则执行步骤S204,若语音文本中没有网络热词,则执行步骤S206。
步骤S204,确定网络热词解释为网络含义的评分。
步骤S205,评分是否大于预设分值,若否,则执行步骤S206,若是,则执行步骤S207。
步骤S206,按原本含义识别。
步骤S207,按网络含义识别。
本发明提供一种语音识别装置。所述语音识别方法可以用于语音设备。所述语音设备即是能够通过语音控制的设备。
图4是本发明提供的语音识别装置的一实施例的结构示意图。如图4所示,所述语音识别装置100包括:识别单元110、确定单元120和解析单元130。
识别单元110用于将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;确定单元120用于若所述识别单元识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;解析单元130用于根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
识别单元110将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词。具体地,当用户语音控制设备的时候,接收用户输入的语音作为待识别语音,识别单元110对所述待识别语音进行识别,得到对应的文本,并识别得到的文本中是否存在网络热词。可选地,可以预先配置网络热词库,所述网络热词库中保存网络热词,识别单元110将待识别语音识别为对应的文本之后,基于预先配置的网络热词库识别所述文本中是否存在网络热词,也就是说,查找所述文本中是否存在所述网络热词库中的网络热词。所述网络热词库中还可以保存网络热词对应的含义和/或热度,所述热度具体可以为出现次数和/或出现频率,可以根据其出现次数(例如,包括使用次数和/或搜索次数)和/或出现频率的高低来确定,例如,使用次数和/或搜索次数在不同的次数范围内对应不同的热度,所述热度例如可以从高到低划分为“非常高”、“很高”、“高”、“一般”和“低”五个等级,或者可以按照从高到低划分为五星、四星、三星、二星和一星。
可选地,还包括所述装置100还可以包括更新单元(图未示),用于每隔第一预设时间更新所述网络热词库;和/或,每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度。例如,每隔一星期更新一次网络热词库,补充网络中新出现的网络热词。或者例如,每天更新一次网络热词库中保存的网络热词对应的热度。
若识别单元110识别出所述文本中存在网络热词,则确定单元120根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义。
图5是根据本发明实施例的确定单元的一种具体实施方式的结构示意图。如图5所示,在一种具体实施方式中,确定单元120包括第一评分子单元121和/或第二评分子单元122,还包括确定子单元123。
第一评分子单元121用于将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分。
具体地,第一评分子单元121将所述文本输入所述语义分析模型中后,将所述文本中的所述网络热词解释为网络含义和/或原本含义后进行语义分析,以得到所述网络热词表达网络含义和/或原本含义后的第一评分,所述第一评分具体可以为将所述文本中的所述网络热词解释为网络含义和/或原本含义时的句子结构完整程度和/或句意符合逻辑程度的评分。
可选地,所述装置100还包括模型建立单元(图未示),用于建立所述语义分析模型。
所述模型建立单元具体可以通过如下的方式建立:
(1)采集预先标注了句子结构完整程度和/或句意符合逻辑程度的句子样本。
具体地,采集大量的句子样本,句子样本包含句子结构完整程度和/或句意符合逻辑程度不同的句子。预先标注句子的句子结构完整程度和/或句意符合逻辑程度。例如,将句子按照句子结构完整程度分为两类,即结构完整的句子和结构不完整的句子,或者将句子按照句意符合逻辑程度分为两类,即符合逻辑的句子和不符合逻辑的句子。预先标注每个句子的分类,即标注每个句子是结构完整的句子还是结构不完整的句子,是句意符合逻辑的句子还是句意不符合逻辑的句子。
(2)将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
具体地,将采集的所述句子样本输入预设的神经网络中进行模型训练,以得到能够根据句子结构完整程度和/或句意符合逻辑程度,对句子进行评分的语义分析模型。
第一评分子单元121将所述文本输入所述语义分析模型中进行分析,即可得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分。例如,将所述文本输入所述语义分析模型中分析句子结构时,可以将句子中的网络热词替换为原本含义进行分析,得到句子的第一评分,和/或将句子中的网络热词替换为网络含义进行分析,得到句子的第一评分。
所述第一评分具体可以按照所述文本中的所述网络热词解释为网络含义和/或原本含义时的句子结构完整程度和/或句意符合逻辑程度进行评分,例如,所述第一评分为所述网络热词在所述文本中表达网络含义的评分时,可以根据将所述网络热词解释为网络含义时句子结构完整程度和/或句意符合逻辑程度从高到低进行评分,其中,句子结构完整程度和/或句意符合逻辑程度越高所述网络热词在所述文本中表达网络含义的评分越高,也就是说,将所述网络热词解释为网络含义时,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的可信度越高;或者根据将所述网络热词解释为原本含义时句子结构完整程度和/或句意符合逻辑程度从高到低进行评分,其中,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的评分越低,也就是说,将所述网络热词解释为原本含义时,句子结构完整程度和/或句意符合逻辑程度越高,所述网络热词在所述文本中表达网络含义的可信度越低。该过程即是判断句子中网络热词表达网络含义的可信度的过程。例如,“男人都是大猪蹄子”,这句话主、谓、宾结构很完整,但是用大猪蹄子形容人,句子逻辑是说不过去的。而“大猪蹄子”作为网络热词,具有“傻”、“要面子”等引申含义,使用引申含义句子含义符合逻辑,因此该处“大猪蹄子”应该翻译成引申的网络含义。
例如,表1是根据本发明具体实施例的不同的评分对应的热度、网络热词解释为网络含义和原本含义的符合逻辑程度;参考表1所示,其中的评分具体可以为所述网络热词在所述文本中表达网络含义的评分,对应的评分为5分时,表示按网络含义翻译用户语音语义,完全符合逻辑,对应的评分为4分时,按网络含义翻译用户语音语义,基本符合逻辑度,……,对应的评分为1时,按网络含义翻译用户语音语义,完全不符合逻辑;反之,对应的评分为5分时,按词语原本含义翻译用户语音语义,完全不符合逻辑,对应的评分为4分时,按词语原本含义翻译用户语音语义,不符合逻辑,……,对应的评分为1分时,按词语原本含义翻译用户语音语义,完全符合逻辑。其中,句意符合逻辑程度的从高到低划分为“完全符合逻辑”、“基本符合逻辑”、“勉强符合逻辑”、“不符合逻辑”、“完全不符合逻辑”。
表1
第二评分子单元122用于根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分。
例如,所述第二评分具体可以为所述网络热词在所述文本中表达网络含义的评分时,所述网络热词当前的热度越高,其在所述文本中表达网络含义的可能性就越高,表达原本含义的可能性就越低,则其在所述文本中表达网络含义的第二评分就越高,表达原本含义的第二评分就越低。例如,按照网络热词的在网络中的出现次数和/或搜索次数,将热度划分为两个以上等级,例如,表1是根据本发明具体实施例的不同的评分对应的热度、网络热词解释为网络含义和原本含义的符合逻辑程度,参考表1所示,按照热度从高到低划分为“非常高”、“很高”、“高”、“一般”、“低”五个等级,其中每个等级分别对应一个网络热词表达网络含义的评分(第二评分),例如,“非常高”等级对应的网络热词表达网络含义的评分为5分,“很高”等级对应的网络热词表达网络含义的评分为4分、“高”等级对应的网络热词表达网络含义的评分为3分,“一般”等级对应的网络热词表达网络含义的评分为2分,“低”等级对应的网络热词表达网络含义的评分为1分。
确定子单元123用于根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
具体地,确定子单元123可以根据所述第一评分、第二评分中的任一项评分,确定所述网络热词在所述文本中表达网络含义还是原本含义。例如,所述第一评分或所述第二评分评分为所述网络热词在所述文本中表达网络含义的评分时,所述第一评分或第二评分超过第一预设分值,则确定所述网络热词在所述文本中表示网络含义;或者根据所述第一评分与第二评分之和,确定所述网络热词在所述文本中表达网络含义还是原本含义,例如,所述第一评分和所述第二评分评分为所述网络热词在所述文本中表达网络含义的评分时,第一评分与第二评分的评分之和超过第二预设分值,则确定所述网络热词在所述文本中表示网络含义。
解析单元130根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。具体地,若确定单元120确定所述网络热词在所述文本中表达的网络含义,则解析单元130按照网络含义识别出所述文本的语义;若确定单元120确定所述网络热词在所述文本中表达的原本含义,则解析单元130按照原本含义识别出所述文本的语义。
例如,用户语音为“中国好声音中,哪个学员的pick度最高”,语音中的“pick”为网络热词,出自一档真人秀节目,当前十分流行,表示“支持”的意思,pick谁就是支持谁的意思。“pick”原本的中文含义是“挑选”,结合用户的语义,可知用户表达的是“pick”的网络含义“支持”的意思。
本发明还提供对应于所述语音识别方法的一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现前述任一所述方法的步骤。
本发明还提供对应于所述语音识别方法的一种语音设备,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述任一所述方法的步骤。
本发明还提供对应于所述语音识别装置的一种语音设备,包括前述任一所述的语音识别装置。
据此,本发明提供的方案,根据网络热词当前的热度和/或预先建立的语义分析模型确定网络热词在用户语音对应文本中表达网络含义还是原本含义,从而能够判断出用户想表达的是网络热词的引申含义还是原本含义,能够提高语音识别的准确性。
本文中所描述的功能可在硬件、由处理器执行的软件、固件或其任何组合中实施。如果在由处理器执行的软件中实施,那么可将功能作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体予以传输。其它实例及实施方案在本发明及所附权利要求书的范围及精神内。举例来说,归因于软件的性质,上文所描述的功能可使用由处理器、硬件、固件、硬连线或这些中的任何者的组合执行的软件实施。此外,各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为控制装置的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (13)
1.一种语音识别方法,其特征在于,包括:
将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;
若识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;
根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
2.根据权利要求1所述的方法,其特征在于,识别所述文本中是否存在网络热词,包括:
基于预先配置的网络热词库识别所述文本中是否存在网络热词。
3.根据权利要求2所述的方法,其特征在于,还包括:
每隔第一预设时间更新所述网络热词库;
和/或,
每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义,包括:
将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分;
和/或,
根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分;
根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
5.根据权利要求4所述的方法,其特征在于,还包括:建立所述语义分析模型,包括:
采集预先标记了句子结构完整程度和/或句意符合逻辑程度的句子样本;
将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
6.一种语音识别装置,其特征在于,包括:
识别单元,用于将待识别语音识别为对应的文本,并识别所述文本中是否存在网络热词;
确定单元,用于若所述识别单元识别出所述文本中存在网络热词,则根据所述网络热词当前的热度和/或预先建立的语义分析模型,确定所述网络热词在所述文本中表达网络含义还是原本含义;
解析单元,用于根据确定的所述网络热词在所述文本中表达的网络含义或原本含义,解析出所述待识别语音的语义。
7.根据权利要求6所述的装置,其特征在于,所述识别单元,识别所述文本中是否存在网络热词,包括:
基于预先配置的网络热词库识别所述文本中是否存在网络热词。
8.根据权利要求7所述的装置,其特征在于,还包括:更新单元,用于每隔第一预设时间更新所述网络热词库;和/或,每隔第二预设时间更新所述网络热词库中保存的网络热词对应的热度。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述确定单元,包括:
第一评分子单元,用于将所述文本输入所述语义分析模型中进行分析,以得到所述网络热词在所述文本中表达网络含义和/或原本含义的第一评分;
和/或,
第二评分子单元,用于根据所述网络热词当前的热度,确定所述网络热词在所述文本中表达网络含义和/或原本含义的第二评分;
确定子单元,用于根据所述第一评分和/或所述第二评分确定所述网络热词在所述文本中表达网络含义还是原本含义。
10.根据权利要求9所述的装置,其特征在于,还包括:模型建立单元,用于建立所述语义分析模型,包括:
采集预先标记了句子结构完整程度和/或句意符合逻辑程度的句子样本;
将采集的所述句子样本输入预设的神经网络中进行神经网络模型训练,以建立语义分析模型。
11.一种存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-5任一所述方法的步骤。
12.一种语音设备,其特征在于,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5任一所述方法的步骤。
13.一种语音设备,其特征在于,包括如权利要求6-10任一所述的语音识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191079.3A CN109902306B (zh) | 2019-03-12 | 2019-03-12 | 一种语音识别方法、装置、存储介质及语音设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910191079.3A CN109902306B (zh) | 2019-03-12 | 2019-03-12 | 一种语音识别方法、装置、存储介质及语音设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902306A true CN109902306A (zh) | 2019-06-18 |
CN109902306B CN109902306B (zh) | 2021-02-02 |
Family
ID=66952150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910191079.3A Active CN109902306B (zh) | 2019-03-12 | 2019-03-12 | 一种语音识别方法、装置、存储介质及语音设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902306B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046675A (zh) * | 2019-12-26 | 2020-04-21 | 深圳市东恒达智能科技有限公司 | 一种文本识别方法、存储介质及终端 |
CN114302227A (zh) * | 2021-12-28 | 2022-04-08 | 北京智美互联科技有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN106407180A (zh) * | 2016-08-30 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
US9836454B2 (en) * | 2016-03-31 | 2017-12-05 | International Business Machines Corporation | System, method, and recording medium for regular rule learning |
CN108509449A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
-
2019
- 2019-03-12 CN CN201910191079.3A patent/CN109902306B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
US9836454B2 (en) * | 2016-03-31 | 2017-12-05 | International Business Machines Corporation | System, method, and recording medium for regular rule learning |
CN106407180A (zh) * | 2016-08-30 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
CN108509449A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
Non-Patent Citations (2)
Title |
---|
王子牛 等: "基于神经网络的词义消歧", 《软件》 * |
耿升华: "新词识别和热词排名方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046675A (zh) * | 2019-12-26 | 2020-04-21 | 深圳市东恒达智能科技有限公司 | 一种文本识别方法、存储介质及终端 |
CN114302227A (zh) * | 2021-12-28 | 2022-04-08 | 北京智美互联科技有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
CN114302227B (zh) * | 2021-12-28 | 2024-04-26 | 北京国瑞数智技术有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109902306B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN106571140B (zh) | 一种基于语音语义的电器智能控制方法及系统 | |
CN108764480B (zh) | 一种信息处理的系统 | |
CN107492379B (zh) | 一种声纹创建与注册方法及装置 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN103309846B (zh) | 一种自然语言信息的处理方法及装置 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN110895559B (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN105869640B (zh) | 识别针对当前页面中的实体的语音控制指令的方法和装置 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN111177310A (zh) | 电力服务机器人智能场景会话方法及装置 | |
CN111611382A (zh) | 话术模型训练方法、对话信息生成方法及装置、系统 | |
WO2014117553A1 (en) | Method and system of adding punctuation and establishing language model | |
CN111339268A (zh) | 实体词识别方法和装置 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN109902306A (zh) | 一种语音识别方法、装置、存储介质及语音设备 | |
CN107766565A (zh) | 对话角色区分方法与系统 | |
CN110362826A (zh) | 基于人工智能的期刊投稿方法、设备及可读存储介质 | |
US20210256220A1 (en) | Method and system for automated autonomous intent mining | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN106569996A (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN114742032A (zh) | 交互式数据分析方法、装置、设备、介质及程序产品 | |
CN112270166A (zh) | 一种快速制作创建5g消息的方法 | |
CN109871128B (zh) | 一种题型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200410 Address after: 519070 Guangdong city of Zhuhai Province Qianshan Applicant after: GREE ELECTRIC APPLIANCES,Inc.OF ZHUHAI Applicant after: GREE GREEN REFRIGERATION TECHNOLOGY CENTER Co.,Ltd. OF ZHUHAI Address before: Xiangzhou District of Guangdong city in Zhuhai province 519070 Qianshan No. 789 Applicant before: GREE ELECTRIC APPLIANCES,Inc.OF ZHUHAI |
|
GR01 | Patent grant | ||
GR01 | Patent grant |