CN109377985A - 一种领域词的语音识别增强方法和装置 - Google Patents

一种领域词的语音识别增强方法和装置 Download PDF

Info

Publication number
CN109377985A
CN109377985A CN201811424174.5A CN201811424174A CN109377985A CN 109377985 A CN109377985 A CN 109377985A CN 201811424174 A CN201811424174 A CN 201811424174A CN 109377985 A CN109377985 A CN 109377985A
Authority
CN
China
Prior art keywords
domain term
decoding
language model
term
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811424174.5A
Other languages
English (en)
Other versions
CN109377985B (zh
Inventor
张明
关磊
王东
刘荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Branch Tower Technology Co Ltd
Tsinghua University
Original Assignee
Beijing Branch Tower Technology Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Branch Tower Technology Co Ltd, Tsinghua University filed Critical Beijing Branch Tower Technology Co Ltd
Priority to CN201811424174.5A priority Critical patent/CN109377985B/zh
Publication of CN109377985A publication Critical patent/CN109377985A/zh
Application granted granted Critical
Publication of CN109377985B publication Critical patent/CN109377985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种领域词的语音识别增强方法和装置,所述方法包括:通过收集的文本语料数据,训练生成第一语言模型;将所述第一语言模型转换为第一解码图;获取所述领域词与所述文本语料数据的相似度;通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;利用所述第二解码图对用户输入的语音进行语音识别处理。本发明所述的方法处理过程简单,通过对领域词权重增强和扩展,提高了对未出现的领域词和信息较少领域词在语音识别中的识别准确率,有利于提高用户体验,也有利于语音识别在更多领域的应用。

Description

一种领域词的语音识别增强方法和装置
技术领域
本发明涉及语音识别技术领域,具体涉及一种领域词的语音识别增强方法和装置。
背景技术
近年来,随着大规模连续语音识别技术的发展,语音识别技术被运用在越来越多的应用场景上。随着应用场景的增多,用户对语音识别系统在不同领域上的领域词识别准确率要求越来越高。
现有技术中存在对领域词识别增强的方法,现有增强方法主要是采用基于类别的语言模型来解决领域词识别的问题,即将领域词预先划入不同的类别,比如可以将领域词划为歌名类、电器类、食品类等等,通过类别替换获取该类别内的领域语料,并训练得到类别语言模型,从而实现对领域词的识别。然而这种方法需要提前确定领域词的类别,处理过程较复杂,且对于那些不属于任一类别的领域词无法建模,无法进行识别,大大影响了用户体验。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种领域词的语音识别增强方法和装置。
为实现以上目的,本发明采用如下技术方案:一种领域词的语音识别增强方法,包括:
通过收集的文本语料数据,训练生成第一语言模型;
将所述第一语言模型转换为第一解码图;
获取所述领域词与所述文本语料数据的相似度;
通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
利用所述第二解码图对用户输入的语音进行语音识别处理。
可选的,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
可选的,所述第一解码图为FST图模型;
所述将所述第一语言模型转换为第一解码图是通过openFST转换工具实现的。
可选的,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
可选的,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
本发明还提供了一种领域词的语音识别增强装置,包括:
第一语言模型生成模块,用于通过收集的文本语料数据,训练生成第一语言模型;
模型转换模块,用于将所述第一语言模型转换为第一解码图;
相似度获取模块,用于获取所述领域词与所述文本语料数据的相似度;
第二语言模型生成模块,用于通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
解码图扩展模块,用于根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
识别处理模块,用于利用所述第二解码图对用户输入的语音进行语音识别处理。
可选的,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
可选的,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
可选的,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
本发明还提供了另一种领域词的语音识别增强装置,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过收集的文本语料数据,训练生成第一语言模型;
将所述第一语言模型转换为第一解码图;
获取所述领域词与所述文本语料数据的相似度;
通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
利用所述第二解码图对用户输入的语音进行语音识别处理。
本发明采用以上技术方案,所述领域词的语音识别增强方法,包括:通过收集的文本语料数据,训练生成第一语言模型;将所述第一语言模型转换为第一解码图;获取所述领域词与所述文本语料数据的相似度;通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;利用所述第二解码图对用户输入的语音进行语音识别处理。本发明所述的语音识别增强方法利用领域词之间的相似度,通过对现有领域词的第一语言模型进行扩展,形成包含有待添加领域词的第二语言模型,从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本发明所述的方法处理过程简单,能够实现对未出现的领域词和信息较少领域词的快速添加和扩展,能够满足用户在更广泛的领域内进行语音识别,从而有利于提高用户体验,也有利于语音识别在更多领域的应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明领域词的语音识别增强方法的流程示意图;
图2是本发明利用openFST转换工具将所述第一语言模型转换为第一解码图的示意图;
图3是本发明根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图的示意图;
图4是本发明领域词的语音识别增强装置的结构示意图。
图中:1、第一语言模型生成模块;2、模型转换模块;3、相似度获取模块; 4、第二语言模型生成模块;5、解码图扩展模块;6、识别处理模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明领域词的语音识别增强方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:通过收集的文本语料数据,训练生成第一语言模型;
进一步的,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
S12:将所述第一语言模型转换为第一解码图;
进一步的,所述第一解码图为FST图模型;
所述将所述第一语言模型转换为第一解码图是通过openFST转换工具实现的。
S13:获取所述领域词与所述文本语料数据的相似度;
进一步的,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
进一步的,所述相似距离可以是两个词向量的余弦距离、欧式距离或其他相似距离。
S14:通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
进一步的,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
S15:根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
S16:利用所述第二解码图对用户输入的语音进行语音识别处理。
下面举例说明本实施例所述的领域词的语音识别增强方法的处理过程。
比如,步骤S11根据现有收集的文本预料数据生成的第一语言模型中,包含各种分词,以及每个分词在各个上下文的概率信息,步骤S12利用openFST 转换工具将所述第一语言模型转换为第一解码图(FST解码图),比如得到的第一解码图如图2所示。
假设领域词w1为“副校长”,则步骤S13中,是获取所述领域词“副校长”与所述文本语料数据的相似度,具体处理过程包括:先对所述文本语料数据进行预处理,以去除掉特殊字符;再对所述文本语料数据进行分词处理;分别获取所述领域词和分词处理后的词语的词向量(可通过word2vec训练,获取词向量);最后计算所述领域词的词向量与所述文本语料分词处理后的词向量的余弦距离。再执行步骤S14,通过所述第一解码图和所述相似度信息,计算信息较少的领域词或未出现在第一语言模型中的领域词w1相对应的第二语言模型的信息。计算具体流程如下:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,假设领域词w1和领域词w2相似,通过w2的信息增强w1的语言模型信息,包括:
遍历w2在语言模型中的信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据w2的信息,计算w1在上下文cn上的概率信息,具体计算公式为: p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
以此类推,可以计算相似词汇对的概率信息。
再执行步骤S15,根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图:如下所示,校长和副校长是同义词(即 w1副校长与所述文本语料数据中的所有分词中,与分词“校长”的相似度最高),根据步骤S14的结果对第一解码图进行扩展,得到包含所述领域词w1“副校长”的第二解码图,如图3所示。
按照上述步骤得到扩展后的第二解码图后,再利用所述第二解码图对用户输入的语音进行语音识别处理。其中,所述用户输入的语音可能会包括领域词w1。当用户输入的语音中包括领域词w1时,由于通过本实施例所述的方法已经将领域词w1作为关键词增添到第二解码图中,增强了领域词w1的权重,所以,在后续对语音识别过程中,提高了对领域词的识别效果。
本实施例所述的语音识别增强方法利用领域词之间的相似度,通过对现有领域词的第一语言模型进行扩展,形成包含有待添加领域词的第二语言模型,从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本实施例所述的方法处理过程简单,能够实现对未出现的领域词和信息较少领域词的快速添加和扩展,能够满足用户在更广泛的领域内进行语音识别,从而有利于提高用户体验。
图4是本发明领域词的语音识别增强装置的流程示意图。
如图4所示,本实施例的装置包括:
第一语言模型生成模块1,用于通过收集的文本语料数据,训练生成第一语言模型;
模型转换模块2,用于将所述第一语言模型转换为第一解码图;
相似度获取模块3,用于获取所述领域词与所述文本语料数据的相似度;
第二语言模型生成模块4,用于通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
解码图扩展模块5,用于根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
识别处理模块6,用于利用所述第二解码图对用户输入的语音进行语音识别处理。
进一步的,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
进一步的,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
可以理解的是,所述相似距离可以是两个词向量的余弦距离、欧式距离或其他相似距离。
进一步的,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
本实施例所述的领域词语音识别增强装置的工作原理与上文所述的语音识别增强方法的工作原理相同,在此不再赘述。
本实施例所述的语音识别增强装置利用所述相似度获取模块获取领域词之间的相似度,再通过所述解码图扩展模块对现有领域词的第一语言模型进行扩展,形成包含有待添加领域词的第二语言模型,从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本实施例所述的装置处理过程简单,能够实现对未出现的领域词和信息较少领域词的快速添加和扩展,能够满足用户在更广泛的领域内进行语音识别,从而有利于提高用户体验。
此外,本发明还提供了一种领域词的语音识别增强装置,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过收集的文本语料数据,训练生成第一语言模型;
将所述第一语言模型转换为第一解码图;
获取所述领域词与所述文本语料数据的相似度;
通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
利用所述第二解码图对用户输入的语音进行语音识别处理。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种领域词的语音识别增强方法,其特征在于,包括:
通过收集的文本语料数据,训练生成第一语言模型;
将所述第一语言模型转换为第一解码图;
获取所述领域词与所述文本语料数据的相似度;
通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
利用所述第二解码图对用户输入的语音进行语音识别处理。
2.根据权利要求1所述的方法,其特征在于,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
3.根据权利要求1所述的方法,其特征在于,所述第一解码图为FST图模型;
所述将所述第一语言模型转换为第一解码图是通过openFST转换工具实现的。
4.根据权利要求1所述的方法,其特征在于,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
6.一种领域词的语音识别增强装置,其特征在于,包括:
第一语言模型生成模块,用于通过收集的文本语料数据,训练生成第一语言模型;
模型转换模块,用于将所述第一语言模型转换为第一解码图;
相似度获取模块,用于获取所述领域词与所述文本语料数据的相似度;
第二语言模型生成模块,用于通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
解码图扩展模块,用于根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
识别处理模块,用于利用所述第二解码图对用户输入的语音进行语音识别处理。
7.根据权利要求6所述的装置,其特征在于,所述通过收集的文本语料数据,训练生成第一语言模型,包括:
对所述文本语料数据进行清洗,过滤掉特殊字符;
将清洗后得到的数据进行分词处理;
对分词处理后的数据进行n元词频统计;
根据n元词频统计的结果生成第一语言模型。
8.根据权利要求6所述的装置,其特征在于,所述获取所述领域词与所述文本语料数据的相似度,包括:
对所述文本语料数据进行预处理,以去除掉特殊字符;
对所述文本语料数据进行分词处理;
分别获取所述领域词和分词处理后的词语的词向量;
计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。
9.根据权利要求6所述的装置,其特征在于,所述通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型,包括:
获取所述第一解码图中,现有领域词w2的概率信息;
通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息,具体处理过程包括:
遍历领域词w2在第一解码图中的概率信息,p(w2|c1),p(w2|c2)…p(w2|cn);
根据领域词w2的概率信息,计算领域词w1在上下文cn上的概率信息,具体计算公式为:
p(w1|cn)=sim(w1,w2)*p(w2|cn)*alpha
其中,alpha为可调节权重,p(w2|cn)表示领域词w2在各个上下文的概率信息,sim(w1,w2)表示领域词w1与领域词w2的相似度。
10.一种领域词的语音识别增强装置,其特征在于,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过收集的文本语料数据,训练生成第一语言模型;
将所述第一语言模型转换为第一解码图;
获取所述领域词与所述文本语料数据的相似度;
通过所述第一解码图和所述相似度,计算出与所述领域词相对应的第二语言模型;
根据所述第二语言模块对所述第一解码图进行扩展,得到包含所述领域词信息的第二解码图;
利用所述第二解码图对用户输入的语音进行语音识别处理。
CN201811424174.5A 2018-11-27 2018-11-27 一种领域词的语音识别增强方法和装置 Active CN109377985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811424174.5A CN109377985B (zh) 2018-11-27 2018-11-27 一种领域词的语音识别增强方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811424174.5A CN109377985B (zh) 2018-11-27 2018-11-27 一种领域词的语音识别增强方法和装置

Publications (2)

Publication Number Publication Date
CN109377985A true CN109377985A (zh) 2019-02-22
CN109377985B CN109377985B (zh) 2022-03-18

Family

ID=65383554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811424174.5A Active CN109377985B (zh) 2018-11-27 2018-11-27 一种领域词的语音识别增强方法和装置

Country Status (1)

Country Link
CN (1) CN109377985B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544480A (zh) * 2019-09-05 2019-12-06 苏州思必驰信息科技有限公司 语音识别资源切换方法和装置
CN110942775A (zh) * 2019-12-20 2020-03-31 北京欧珀通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111126084A (zh) * 2019-12-11 2020-05-08 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和存储介质
CN111415655A (zh) * 2020-02-12 2020-07-14 北京声智科技有限公司 语言模型构建方法、装置及存储介质
CN111583915A (zh) * 2020-04-07 2020-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN114299930A (zh) * 2021-12-21 2022-04-08 广州虎牙科技有限公司 端到端语音识别模型处理方法、语音识别方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009965A1 (en) * 2000-10-13 2006-01-12 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009965A1 (en) * 2000-10-13 2006-01-12 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544480A (zh) * 2019-09-05 2019-12-06 苏州思必驰信息科技有限公司 语音识别资源切换方法和装置
CN110544480B (zh) * 2019-09-05 2022-03-11 思必驰科技股份有限公司 语音识别资源切换方法和装置
CN111126084A (zh) * 2019-12-11 2020-05-08 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备和存储介质
CN110942775A (zh) * 2019-12-20 2020-03-31 北京欧珀通信有限公司 数据处理方法、装置、电子设备及存储介质
CN110942775B (zh) * 2019-12-20 2022-07-01 北京欧珀通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111415655A (zh) * 2020-02-12 2020-07-14 北京声智科技有限公司 语言模型构建方法、装置及存储介质
CN111415655B (zh) * 2020-02-12 2024-04-12 北京声智科技有限公司 语言模型构建方法、装置及存储介质
CN111583915A (zh) * 2020-04-07 2020-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN111583915B (zh) * 2020-04-07 2023-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN114299930A (zh) * 2021-12-21 2022-04-08 广州虎牙科技有限公司 端到端语音识别模型处理方法、语音识别方法及相关装置

Also Published As

Publication number Publication date
CN109377985B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN109377985A (zh) 一种领域词的语音识别增强方法和装置
Bavkar et al. Deep hybrid model with trained weights for multimodal sarcasm detection
Kumar et al. Deep learning based assistive technology on audio visual speech recognition for hearing impaired
CN101539994B (zh) 一种手语语音互译系统及手语语音互译方法
JP2022552662A (ja) 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN108806671B (zh) 语义分析方法、装置及电子设备
CN103077708B (zh) 一种语音识别系统中拒识能力提升方法
Abdelaziz et al. A large vocabulary system for Arabic online handwriting recognition
CN108256968B (zh) 一种电商平台商品专家评论生成方法
Pham et al. Hybrid data augmentation and deep attention-based dilated convolutional-recurrent neural networks for speech emotion recognition
Yang et al. Robust sign language recognition with hierarchical conditional random fields
CN111091000A (zh) 一种抽取用户细粒度典型意见数据处理系统及方法
CN110070859A (zh) 一种语音识别方法及装置
CN111507789A (zh) 商品属性词的确定方法、装置及计算设备
CN113626614B (zh) 资讯文本生成模型的构造方法、装置、设备及存储介质
Agarwal et al. Lidsnet: A lightweight on-device intent detection model using deep siamese network
CN112133294A (zh) 语音识别方法、装置和系统及存储介质
Jin et al. End-to-end dnn-cnn classification for language identification
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
Pratap et al. Word order does not matter for speech recognition
CN111966788B (zh) 结合rpa及ai的对话问答方法、装置、设备及存储介质
Ollagnier et al. Classification and event identification using word embedding
Fujita et al. Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech.
Liu et al. Speech emotion recognition based on low-level auto-extracted time-frequency features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant