CN106328147B - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN106328147B
CN106328147B CN201610795918.9A CN201610795918A CN106328147B CN 106328147 B CN106328147 B CN 106328147B CN 201610795918 A CN201610795918 A CN 201610795918A CN 106328147 B CN106328147 B CN 106328147B
Authority
CN
China
Prior art keywords
determining
keywords
recognized
probability
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610795918.9A
Other languages
English (en)
Other versions
CN106328147A (zh
Inventor
高建清
陈恩红
王智国
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
University of Science and Technology of China USTC
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, iFlytek Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN201610795918.9A priority Critical patent/CN106328147B/zh
Publication of CN106328147A publication Critical patent/CN106328147A/zh
Application granted granted Critical
Publication of CN106328147B publication Critical patent/CN106328147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种语音识别方法和装置。所述方法包括:获取与待识别语音数据相关的基础资料;确定所述基础资料的关键词;依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据。应用本发明提供的技术方案,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。

Description

语音识别方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语音识别方法和装置。
背景技术
语音识别是将语音转成文本的过程,近年来,随着语音识别技术的成熟,该技术已逐渐成功应用于各行各业中,尤其是针对特定领域的语音识别技术,如针对会议的录音数据进行语音识别,将接收的语音数据直接转换为会议的文本内容,大大方便了会议秘书整理会议纪要。
目前的技术中,一般直接采用通用的声学模型及通用语言模型对待识别语音数据进行语音识别,针对特定应用场景的语音数据进行语音识别时,由于经常会存在专业词汇、特定用法导致无法正确识别的问题,仅仅依靠通用语言模型往往无法满足应用需求,因此往往采用语言模型定制的方式,即预先获取用户提供的大量与该特定应用场景相关的语料后,训练相应的主题语言模型,利用该主题语言模型、通用的声学模型及通用语言模型进行语音识别。
然而,在实际应用中,往往仅知道少量应用场景信息,无法通过用户直接获取到足够数量的主题相关的语料以训练主题相关语言模型,导致语音识别的准确度比较低,识别效果较差,如待识别语音数据为会议录音时,往往仅知道会议相关的演示文稿,数据量较少,不足以训练相应的主题语言模型,导致语音识别效果较差。
发明内容
有鉴于此,本发明提供了一种语音识别方法和装置,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供了一种语音识别方法,包括:
获取与待识别语音数据相关的基础资料;
确定所述基础资料的关键词;
依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据。
可选的,所述确定所述基础资料的关键词,包括:
以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
或者以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词;
或者以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
或者所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
可选的,所述依据所述关键词确定搜索项,通过所述搜索项搜索目标语料,包括:
统计所述基础资料的每个句子中包含的所述关键词个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
依据所述关键词组和所述独立关键词确定所述搜索项,通过所述搜索项搜索所述目标语料。
可选的,还包括:
获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
可选的,还包括:
依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信;
若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
第二方面,本发明实施例提供了一种语音识别装置,包括:
获取模块,用于获取与待识别语音数据相关的基础资料;
第一确定模块,用于确定所述基础资料的关键词;
搜索模块,用于依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
第一识别模块,用于通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据。
可选的,所述第一确定模块包括:
第一确定单元,用于以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
第二确定单元,用于以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词;
第三确定单元,用于以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
第四确定单元,用于所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
可选的,所述搜索模块包括:
统计单元,用于统计所述基础资料的每个句子中包含的所述关键词个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
搜索单元,用于依据所述关键词组和所述独立关键词确定所述搜索项,通过所述搜索项搜索所述目标语料。
可选的,还包括:
更新模块,用于获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
可选的,还包括:
第二确定模块,用于依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
第一判断模块,用于以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信,所述可信度判定模型与所述领域类别相匹配;
第二判断模块,用于若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
第二识别模块,用于若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种语音识别方法和装置。本发明提供的技术方案,在用户提供的与待识别语音数据的主题相关的语料不够充分,即这些语料仅仅是一些基础资料时,通过确定所述基础资料的关键词,然后依据所述关键词确定搜索项,通过所述搜索项搜索目标语料,从而有效扩充与待识别语音数据的主题相关的语料,能够较大程度上弥补用户提供的语料不足的缺陷,然后通过搜索到的所述目标语料来训练目标主题语言模型,从而得到与待识别语音数据的主题相匹配的目标主题语言模型,最后以所述目标主题语言模型识别所述待识别语音数据,相对于现有技术,能够有效提高语音识别的准确度。因此,应用本发明提供的技术方案,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音识别方法的流程图;
图2为本发明实施例提供的Encoder-Decoder方法的示意图;
图3为本发明实施例提供的另外一种语音识别方法的流程图;
图4为本发明实施例提供的一种语音识别装置的结构图;
图5为本发明实施例提供的另外一种语音识别装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例
本发明实施例提供的语音识别方法,可以应用于计算机信息系统。请参阅图1,图1为本发明实施例提供的一种语音识别方法的流程图。如图1所示,该方法包括:
步骤S101,获取与待识别语音数据相关的基础资料;
具体的,所述与待识别语音数据相关的基础资料由用户预先提供,所述基础资料与所述待识别语音数据的内容相关性较高,可以包括与所述待识别语音数据相关的图片、文本数据等,如果所述基础资料为图片,则需要通过图像识别相关技术将图片转换为文本数据,也就是说,该步骤最终得到的是文本数据。其中,可选的,所述图像识别相关技术可以采用OCR(Optical Character Recognition,光学字符识别)技术。以所述待识别语音数据为会议录音为例,所述基础资料可以包含会议的演示文稿、演讲人信息、会议主题、主办方或用户根据会议需求自己添加的会议关键信息等。
步骤S102,确定所述基础资料的关键词;
具体的,经所述步骤S101,系统得到的所述基础资料都是文本数据,可以根据所述文本数据确定关键词,具体确定方法可以包括:
方法1:以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
具体的,计算所述基础资料中每个词作为关键词的概率时,可以使用基于神经网络的Encoder(编码)-Decoder(解码)方法。具体的,通过预先收集大量文本数据训练Encoder-Decoder模型参数后,利用所述Encoder-Decoder模型确定待识别语音数据的基础资料中每个词作为关键词的概率,将所述概率大于第一预设阈值的词确定为关键词。
请参阅图2,如图2为本发明实施例提供的Encoder-Decoder方法的示意图,输入为所述基础资料中每个词的词向量,经过Encoder层对输入特征(即所述词向量)进行编码,将编码后的特征作为Decoder层的输入,Decoder层对编码后的特征进行解码,将解码后的特征作为输出层的输入,输出层为每个词作为关键词的概率,具体过程如下所述:
输入层(Input):输入基础资料中每个词的词向量,所述词向量可以使用基于神经网络的方法训练得到,或使用Word2Vec(文本深度表示模型)的方法得到,如图2所示,输入层每个圆圈代表一个词向量,受图形大小限制,输入层仅以3个句子(sent1、sent2、sent3)做示例,每句包含3个词向量,第一个句子sent1中第一个节点表示开始节点,无实际意义。
词编码层(Word Enc):对输入层输入的词向量进行编码,具体的,可以使用单向LSTM(Long-Short Term Memory,长短时记忆神经网络)从左到右对词向量进行编码;
词解码层(Word Dec):对编码后的特征进行解码,如可以使用单向LSTM从右到左对编码后的特征进行解码;
输出层(Output):将解码后的特征作为输出层的输入,输出为每个词作为关键词的概率,如图2所示,输出层每个圆圈代表所对应的输入层的词向量作为关键词的概率。
或者方法2:以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词;
具体的,首先对基础资料的文本数据进行分词;然后计算分词后文本数据中每个词的词频及逆文档频率,所述词频即每个词在基础资料中出现的频率,可以通过每个词在基础资料中的出现次数与所有词在基础资料中出现次数之和的比值得到;所述逆文档频率是词的重性度量,可以由基础资料的总文件数除以包含每个词的文件数后,再取对数得到,具体计算方法与现有技术相同,在此不再详述;最后可以根据每个词的词频及逆文档频率对基础资料中所有词进行排序,选择所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词。
或者方法3:以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
具体的,所述TextRank得分用以描述每个词的重要度。在计算每个词的TextRank得分时,通过构建候选关键词图的方法,将相关资料中每个词作为图中每个节点,通过计算每个节点的链入边数,计算每个节点的重要度,将所述节点的重要度作为每个词的重要度,即TextRank得分,选择TextRank得分大于阈值的词作为候选关键词;所述TextRank得分的计算方法与现有技术相同,在此不再详述。
或者方法4:所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
具体的,所述方法1~方法3任意一种都可以确定所述基础资料的关键词,为了对所述关键词进行更加全面和精确地统计,可以考虑将方法1、方法2和方法3进行任意组合使用。
由于将方法1、方法2和方法3进行任意组合使用可能会得到重复的关键词,因此,若选择组合使用,需要将重复的关键词去掉。
步骤S103,依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
具体的,首先统计所述基础资料的每个句子中包含的所述关键词个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
然后依据所述关键词组和所述独立关键词确定所述搜索项,通过所述搜索项搜索所述目标语料。
具体的,所述搜索项可以为所述关键词组和/或所述独立关键词,也可以为所述关键词组与一个或多个独立关键词组合的形式,或者多个所述独立关键词的任意组合,本发明并不限制所述搜索项的具体形式。
步骤S104,通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据;
具体的,将搜索到的所述目标语料作为所述目标主题语言模型的训练语料,来训练所述目标主题语言模型,具体训练方法与现有技术相同,在此不再赘述。
本发明实施例提供的技术方案,在用户提供的与待识别语音数据的主题相关的语料不够充分,即这些语料仅仅是一些基础资料时,通过确定所述基础资料的关键词,然后依据所述关键词确定搜索项,通过所述搜索项搜索目标语料,从而有效扩充与待识别语音数据的主题相关的语料,能够较大程度上弥补用户提供的语料不足的缺陷,然后通过搜索到的所述目标语料来训练目标主题语言模型,从而得到与待识别语音数据的主题相匹配的目标主题语言模型,最后以所述目标主题语言模型识别所述待识别语音数据,相对于现有技术,能够有效提高语音识别的准确度。因此,应用本发明实施例提供的技术方案,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。
需要说明的是,如果用户提供了与待识别语音数据中的说话人相关性较高的资料,则可选的,本发明另外一个实施例提供的技术方案,可以将该资料与提取后的关键词或关键词组给合作为搜索项,搜索相关语料,以进一步提高搜索语料与主题的相关性;以待识别语音数据为会议录音为例,所述与待识别语音数据中的说话人相关性较高的资料,可以为会议说话人的姓名、单位、演讲主题等。
可选的,本发明另外一个实施例提供的技术方案,还包括:
获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
可以理解的是,在具体场景中,如谈话、报告或开会时,讨论的主题可能会切换,或者会插入新的话题,为此,本实施例提供的技术方案,能够在具体场景中获取在识别所述待识别语音数据的过程中已经得到的识别结果,从而及时将所述识别结果补充到所述基础资料,然后确定更新后的基础资料的关键词,方便后续搜索新的目标语料和训练新的目标主题语言模型,以适应具体场景讨论内容的变更,提高现场语音识别的准确度。
具体的,在具体场景现场识别所述待识别语音数据时,可以适当提高输出所述识别结果的频率,比如5分钟,以方便及时获取到现场已产生的新语料,从而能够更好的丰富所述基础语料。
可选的,请参阅图3,图3为本发明实施例提供的另外一种语音识别方法的流程图。如图3所示,该方法包括:
步骤S301,获取与待识别语音数据相关的基础资料;
步骤S302,确定所述基础资料的关键词;
步骤S303,依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
步骤S304,通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据;
步骤S305,依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
具体的,所述目标领域语言模型是指将训练模型的文本数据按照应用领域进行划分,如划分为新闻、体育、娱乐、科技等具体的领域,使用每个领域相应文本数据训练模型,得到目标领域语言模型。所述目标领域语言模型可以由系统预先收集各领域文本数据训练得到;在进行语音识别时,根据与待识别语音数据相关的基础资料确定与待识别语音数据领域相同的目标领域语言模型即可。
具体的,所述领域判定模型为预先构建的模型,关于构建所述领域判定模型的过程如下:
首先收集系统内存储的各领域类别的大量文本数据,如系统中只有“人工智能”和“医学”两个领域,则只需要收集这两个领域的文本数据,标注出文本数据所属的领域标签后,将文本数据向量化,训练所述领域判定模型,将文本数据的句子向量作为所述领域判定模型的输入特征,输出为文本数据属于每个领域类别的概率,根据文本数据所属的领域标签对模型参数进行更新,更新结束后,得到领域判定模型,所述领域判定模型使用模式识别中常用模型描述,如支持向量机、深度神经网络等。
具体的,所述步骤S305可以包括:将与待识别语音数据相关的基础资料中的文本数据向量化,得到文本数据的句子向量,具体向量化过程与现有技术相同,如使用Sec2Vec技术;将所述基础资料中的文本数据的句子向量作为领域判定模型的输入,对待识别语音数据进行领域判定,得到待识别语音数据属于每个领域的概率,对所述概率进行排序后,得到待识别语音数据属于每个领域的概率向量,所述排序方法可以为从大到小排序,也可为从小到大排序,不发明不作限定。比如待识别语音数据属于A、B、C、D、E、F和G领域的概率向量分别为{0.01,0.01,0.01,0.01,0.01,0.08,0.87}。
步骤S306,以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信;
具体的,所述判断所述概率向量是否可信便是对待识别语音数据属于系统预先存储的各所述领域类别的可信度进行判定。
具体的,所述可信度判定模型为预先构建的模型,关于构建所述可信度判定模型的过程如下:
首先预先收集大量集内、集外文本数据,标注出所述文本数据属于集内数据还是集外数据,得到所述文本数据的集内或集外标签,如标注时使用1表示文本数据的集内标签,标注时使用0表示文本数据的集外标签,所述集内数据是指系统包含的各所述领域类别的数据,所述集外数据是指非系统包含的各所述领域类别的数据;然后利用领域判定模型对收集的文本数据进行领域判定,得到文本数据属于系统内包含的每个领域类别的概率,对所述概率进行排序后,得到文本数据属于系统内包含的每个领域类别的概率向量;将所述概率向量及文本数据的集内或集外标签作为训练数据,如a1文本数据属于系统内包含的每个领域类别的概率向量{0.01,0.01,0.01,0.01,0.01,0.08,0.87}以及a1文本数据的集内标签1,便是一组训练数据,通过大量训练数据训练所述可信度判定模型,所述可信度判定模型的输入为概率向量,输出为集内或集外标签,所述可信度判定模型为模式识别中常用分类模型,如支持向量机模型、深度神经网络模型等。
需要说明的是,待识别语音数据属于系统内包含的每个领域的概率向量的排序方法必须与所述可信度判定模型构建时,文本数据属于系统内包含的每个领域的概率向量的排序方法一致,如都使用从大到小的排序方法或者从小到大的排序方法。
具体的,所述步骤S306具体包括:将所述待识别语音数据属于系统内包含的每个领域的概率向量作为可信度判定模型的输入,依据对应的可信度判定模型的输出对待识别语音数据进行可信度判定。
具体的,对待识别语音数据进行可信度判定时,直接利用预先训练好的可信度判定模型对待识别语音数据属于每个领域的概率向量进行可信度预测,所述可信度判定模型的输入为待识别语音数据属于系统内包含的每个所述领域类别的概率向量,输出表征该概率向量是否可信,如果使用1表示可信,使用0表示不可信,则可信度判定模型的输出为0或1,那么若所述可信度判定模型的输出为1,表示输入的概率向量可信,若所述可信度判定模型的输出为0,表示输入的概率向量不可信。
步骤S307,若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
具体的,如果输入的所述概率向量可信,则说明待识别语音数据属于集内数据,从而可以根据所述概率向量确定待识别语音数据属于系统内的哪个或哪些领域类别,即可以使用系统预先训练得到的目标领域语言模型;如果输入的所述概率向量不可信,则说明待识别语音数据属于集外数据,因此可以确定待识别语音数据不属于系统内包含的领域类别,也就无法使用所述目标领域语言模型。
步骤S308,若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据;
具体的,如果所述概率超过所述第五预设阈值,则使用所述概率对应领域类别的目标领域语言模型,如果有多个所述概率超过所述第五预设阈值,则可以选择多个目标领域语言模型;当然,如果待识别语音数据属于每个领域的概率都没有超过所述第五预设阈值,则不使用所述目标领域语言模型。
本实施例提供的技术方案,通过添加预先训练得到的目标领域语言模型,在获取到用户提供的与待识别语音数据相关的基础资料后,根据所述基础资料确定目标领域语言模型,经确定的所述目标领域语言模型是与待识别语音数据的领域相同或相近的语言模型,以此语言模型来识别所述待识别语音数据,相对于现有技术仅是依靠通用语言模型来识别的方式,能够提高语音识别的准确性,加强识别效果。
可选的,本发明任一实施例提供的技术方案,所述收集大量数据时可以从网络上或用户历史数据来收集,对此,本发明不做限制。
可以理解的是,在现场进行语音识别时,本发明实施例提供的技术方案可以结合现有技术中的通用语言模型来实施,所述通用语言模型即语音识别时使用的通用语言模型,训练通用语言模型的语料不局限于单个领域或单个主题,所述通用语言模型可以通过预先收集多领域多主题的文本数据训练得到。
具体的,使用目标领域语言模型、目标主题语言模型及通用语言模型对待识别语音数据进行语音识别时,可以直接将目标领域语言模型、目标主题语言模型及通用语言模型进行融合后再使用,所述融合方法如插值方法,具体过程与现有技术相同,在此不再详述;对待识别语音数据进行语音识别,需要提取语音数据的声学特征,利用预先训练的声学模型及融合后的语言模型根据提取的声学特征进行语音识别,具体过程与现有技术相同,在此不再详述。
当然,对待识别语音数据进行语音识别时,也可以先使用通用语言模型进行语音识别后,再使用目标领域语言模型或目标主题语言模型对识别结果进行二遍解码,得到最终识别结果,所述语言模型的使用方法本发明不作限定。
为了更加全面地阐述本发明提供的技术方案,对应于本发明实施例提供的语音识别方法,本发明公开一种语音识别装置。
请参阅图4,图4为本发明实施例提供的一种语音识别装置的结构图。如图4所示,该装置包括:
获取模块401,用于获取与待识别语音数据相关的基础资料;
第一确定模块402,用于确定所述基础资料的关键词;
搜索模块403,用于依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
第一识别模块404,用于通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据。
应用本发明实施例提供的语音识别装置,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。
可选的,本发明实施例提供的语音识别装置,所述第一确定模块402包括:
第一确定单元,用于以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
第二确定单元,用于以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词;
第三确定单元,用于以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
第四确定单元,用于所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
可选的,本发明实施例提供的语音识别装置,所述搜索模块403包括:
统计单元,用于统计所述基础资料的每个句子中包含的所述关键词个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
搜索单元,用于依据所述关键词组和所述独立关键词确定所述搜索项,通过所述搜索项搜索所述目标语料。
可选的,本发明另外一个实施例提供的语音识别装置,还包括:
更新模块,用于获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
可选的,请参阅图5,图5为本发明实施例提供的另外一种语音识别装置的结构图。如图5所示,该装置包括:
获取模块501,用于获取与待识别语音数据相关的基础资料;
第一确定模块502,用于确定所述基础资料的关键词;
搜索模块503,用于依据所述关键词确定搜索项,通过所述搜索项搜索目标语料;
第一识别模块504,用于通过所述目标语料训练目标主题语言模型,以所述目标主题语言模型识别所述待识别语音数据;
第二确定模块505,用于依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
第一判断模块506,用于以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信,所述可信度判定模型与所述领域类别相匹配;
第二判断模块507,用于若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
第二识别模块508,用于若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
本实施例提供的语音识别装置,系统添加了预先训练得到的目标领域语言模型,根据与待识别语音数据相关的基础资料确定目标领域语言模型,经确定的所述目标领域语言模型是与待识别语音数据的领域相同或相近的语言模型,以此语言模型来识别所述待识别语音数据,相对于现有技术仅是依靠通用语言模型来识别的方式,能够提高语音识别的准确性,加强识别效果。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种语音识别方法和装置。本发明提供的技术方案,在用户提供的与待识别语音数据的主题相关的语料不够充分,即这些语料仅仅是一些基础资料时,通过确定所述基础资料的关键词,然后依据所述关键词确定搜索项,通过所述搜索项搜索目标语料,从而有效扩充与待识别语音数据的主题相关的语料,能够较大程度上弥补用户提供的语料不足的缺陷,然后通过搜索到的所述目标语料来训练目标主题语言模型,从而得到与待识别语音数据的主题相匹配的目标主题语言模型,最后以所述目标主题语言模型识别所述待识别语音数据,相对于现有技术,能够有效提高语音识别的准确度。因此,应用本发明提供的技术方案,能够提高识别特定应用场景的语音数据的准确度,识别效果较好。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种语音识别方法,其特征在于,包括:
获取与待识别语音数据相关的基础资料;
确定所述基础资料的关键词;
统计所述基础资料的每个句子中包含的所述关键词的个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;依据所述关键词组和所述独立关键词确定搜索项,通过所述搜索项搜索目标语料;所述目标语料与所述待识别语音数据的主题相关;
通过所述目标语料训练目标主题语言模型,并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别;所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型;
获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
2.根据权利要求1所述的方法,其特征在于,所述确定所述基础资料的关键词,包括:
以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
或者以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定为所述关键词;
或者以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
或者所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
3.根据权利要求1所述的方法,其特征在于,还包括:
依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信,所述可信度判定模型与所述领域类别相匹配;
若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
4.一种语音识别装置,其特征在于,包括:
获取模块,用于获取与待识别语音数据相关的基础资料;
第一确定模块,用于确定所述基础资料的关键词;
搜索模块包括统计单元和搜索单元:
所述统计单元,用于统计所述基础资料的每个句子中包含的所述关键词的个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
所述搜索单元,用于依据所述关键词组和所述独立关键词确定搜索项,通过所述搜索项搜索目标语料;所述目标语料与所述待识别语音数据的主题相关;
第一识别模块,用于通过所述目标语料训练目标主题语言模型,并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别;所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型;
更新模块,用于获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
5.根据权利要求4所述的装置,其特征在于,所述第一确定模块包括:
第一确定单元,用于以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
第二确定单元,用于以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定为所述关键词;
第三确定单元,用于以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
第四确定单元,用于所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
6.根据权利要求4所述的装置,其特征在于,还包括:
第二确定模块,用于依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
第一判断模块,用于以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信,所述可信度判定模型与所述领域类别相匹配;
第二判断模块,用于若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
第二识别模块,用于若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
CN201610795918.9A 2016-08-31 2016-08-31 语音识别方法和装置 Active CN106328147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610795918.9A CN106328147B (zh) 2016-08-31 2016-08-31 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610795918.9A CN106328147B (zh) 2016-08-31 2016-08-31 语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN106328147A CN106328147A (zh) 2017-01-11
CN106328147B true CN106328147B (zh) 2022-02-01

Family

ID=57786546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610795918.9A Active CN106328147B (zh) 2016-08-31 2016-08-31 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN106328147B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538286A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种语音识别的方法以及计算机
CN106713899B (zh) * 2017-03-09 2017-12-19 山东师范大学 基于全息成像和语音识别的交互三维立体影像系统及方法
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107480680A (zh) * 2017-07-28 2017-12-15 顺丰科技有限公司 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备
CN109388743B (zh) * 2017-08-11 2021-11-23 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN107506434A (zh) * 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN110019832B (zh) * 2017-09-29 2023-02-24 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110444193B (zh) * 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110209804B (zh) * 2018-04-20 2023-11-21 腾讯科技(深圳)有限公司 目标语料的确定方法和装置、存储介质及电子装置
CN108595620B (zh) * 2018-04-23 2022-04-26 百度在线网络技术(北京)有限公司 转义识别方法、装置、计算机设备及存储介质
CN108711422B (zh) * 2018-05-14 2023-04-07 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN109446336B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 新闻筛选的方法、装置、计算机设备和存储介质
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
KR20200059703A (ko) 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109584882B (zh) * 2018-11-30 2022-12-27 南京天溯自动化控制系统有限公司 一种针对特定场景的语音转文字的优化方法及系统
CN110297906B (zh) * 2019-06-28 2021-10-08 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
CN110808032B (zh) * 2019-09-20 2023-12-22 平安科技(深圳)有限公司 一种语音识别方法、装置、计算机设备及存储介质
CN112992127B (zh) * 2019-12-12 2024-05-07 杭州海康威视数字技术股份有限公司 一种语音识别的方法和装置
CN111128183B (zh) * 2019-12-19 2023-03-17 北京搜狗科技发展有限公司 语音识别方法、装置和介质
CN113012685B (zh) * 2019-12-20 2022-06-07 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
CN111276149B (zh) * 2020-01-19 2023-04-18 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN111613219B (zh) * 2020-05-15 2023-10-27 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质
CN111933118B (zh) * 2020-08-17 2022-11-15 思必驰科技股份有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话系统
CN112017645B (zh) * 2020-08-31 2024-04-26 广州市百果园信息技术有限公司 一种语音识别方法及装置
CN112349289B (zh) * 2020-09-28 2023-12-29 北京捷通华声科技股份有限公司 一种语音识别方法、装置、设备以及存储介质
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112102815B (zh) * 2020-11-13 2021-07-13 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN112382295B (zh) * 2020-11-13 2024-04-30 安徽听见科技有限公司 语音识别方法、装置、设备及可读存储介质
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112562688A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 语音转写方法、装置、录音笔和存储介质
CN113077792B (zh) * 2021-03-24 2024-03-05 平安科技(深圳)有限公司 佛学主题词识别方法、装置、设备及存储介质
CN113327599B (zh) * 2021-06-30 2023-06-02 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质
CN114821305B (zh) * 2022-04-02 2024-06-11 华南理工大学 电力作业现场安全带识别方法、装置、设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统

Also Published As

Publication number Publication date
CN106328147A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106328147B (zh) 语音识别方法和装置
CN110427617B (zh) 推送信息的生成方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN110414004B (zh) 一种核心信息提取的方法和系统
CN114580382A (zh) 文本纠错方法以及装置
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Boishakhi et al. Multi-modal hate speech detection using machine learning
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113468891A (zh) 文本处理方法以及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN110738061A (zh) 古诗词生成方法、装置、设备及存储介质
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
CN108304366B (zh) 一种上位词检测方法及设备
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant