CN105654945B - 一种语言模型的训练方法及装置、设备 - Google Patents

一种语言模型的训练方法及装置、设备 Download PDF

Info

Publication number
CN105654945B
CN105654945B CN201510719243.5A CN201510719243A CN105654945B CN 105654945 B CN105654945 B CN 105654945B CN 201510719243 A CN201510719243 A CN 201510719243A CN 105654945 B CN105654945 B CN 105654945B
Authority
CN
China
Prior art keywords
language model
model
decoding
log
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510719243.5A
Other languages
English (en)
Other versions
CN105654945A (zh
Inventor
闫志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201510719243.5A priority Critical patent/CN105654945B/zh
Priority to EP16762948.4A priority patent/EP3179473A4/en
Priority to JP2016564631A priority patent/JP2018502344A/ja
Priority to PCT/CN2016/084959 priority patent/WO2017071226A1/zh
Publication of CN105654945A publication Critical patent/CN105654945A/zh
Priority to HK16107840.9A priority patent/HK1219803A1/zh
Priority to US15/242,065 priority patent/US20170125013A1/en
Application granted granted Critical
Publication of CN105654945B publication Critical patent/CN105654945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语言模型的训练方法及装置、设备,所述方法包括:采用离线训练方式获取通用语言模型,并对该通用语言模型进行裁剪,获得裁剪后的语言模型;采用在线训练方式获取预设时间段内日志的日志语言模型;将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。上述方法解决现有技术离线获取的语言模型对新的语料覆盖不好,导致语言识别率降低的问题。

Description

一种语言模型的训练方法及装置、设备
技术领域
本发明涉及一种自然语言处理技术,尤其涉及一种语言模型的训练方法及装置、设备。
背景技术
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。也就是说,语言模型是描述词汇概率分布的模型,一个能可靠反应语言识别时用词的概率分布的模型。
语言模型技术在机器学习、手写体识别、语音识别等领域得到了广泛应用。例如,利用语言模型能够得到语音识别多种词序列中可能性最大的一个词序列,或者给定若干词,预测下一个最可能出现的词语等。
目前,常见的语言模型训练方法都是离线获取通用语言模型,并利用通用语言模型同一些人名、地名等类模型进行离线插值,以获得训练的语言模型,该些语言模型未覆盖实时在线的日志更新方式,导致在使用过程中,对新的语料(如新词、热词等)覆盖不好,导致语言识别率降低。
发明内容
针对现有技术中的缺陷,本发明提供一种语言模型的训练方法及装置、设备,用于解决现有技术离线获取的语言模型对新的语料覆盖不好,导致语言识别率降低的问题。
第一方面,本发明提供一种语言模型的训练方法,包括:
采用离线训练方式获取通用语言模型,并对该通用语言模型进行裁剪,获得裁剪后的语言模型;
采用在线训练方式获取预设时间段内日志的日志语言模型;
将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;
将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
可选地,采用在线训练方式获取预设时间段内日志的日志语言模型,包括:
获取预设时间段内的日志信息,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;
对所述日志模型训练语料进行训练,获得日志语言模型。
可选地,将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型,包括:
采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型;
和/或,
将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型,包括:
采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型。
可选地,采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并之前,还包括:
根据预设规则调整所述裁剪后的语言模型中的单句概率,获得调整后的语言模型;
相应地,采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并,具体为:
采用插值方式对所述调整后的语言模型和所述日志语言模型进行插值合并;
和/或,
采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并之前,还包括:
根据预设规则调整所述通用语言模型中的单句概率,获得调整后的通用语言模型;
采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并,具体为:
采用插值方式对所述调整后的通用语言模型和所述日志语言模型进行插值合并。
可选地,所述裁剪后的语言模型为三元文法语言模型,相应地,所述第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型,相应地,所述第二融合语言模型为四元文法融合语言模型。
可选地,采用离线训练方式获取通用语言模型,包括:
收集各领域的模型训练语料;
针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;
采用插值方式将收集的所有领域对应的语言模型生成通用语言模型。
可选地,采用插值方式将收集的所有领域对应的语言模型生成通用语言模型,包括:
采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域的语言模型生成通用语言模型。
可选地,对该通用语言模型进行裁剪,获得裁剪后的语言模型,包括:
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
可选地,对该通用语言模型进行裁剪,获得裁剪后的语言模型,包括:
计算所述通用语言模型在通用测试集之上的第一困惑值,获得第一困惑值的波动范围;
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;所述语言模型二LM2的规模与所述第一困惑值的波动范围相适应;
计算所述语言模型二LM2在通用测试集之上的第二困惑值,获得第二困惑值的波动范围;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;所述语言模型三LM3的规模与所述第二困惑值的波动范围相适应;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4;以及
计算抽取的三元文法语言模型在通用测试集之上的第三困惑值,获得第三困惑值的波动范围;所述裁剪后的语言模型LM4的规模与所述第三困惑值的波动范围相适应。
第二方面,本发明提供一种解码器集群中语言模型更新方法,包括:
选取所述解码器集群中的N个待更新语言模型的解码服务器;
停止N个解码服务器的解码服务,将编译后的第一融合语言模型和编译后的第二融合语言模型加载到所述N个解码服务器中;
启动N个解码服务器,以使每一解码服务器采用编译后的第一融合语言模型进行第一遍解码,并采用编译后的第二融合语言模型进行第二遍解码;
判断每一解码服务器的解码过程中是否正常完成,如果正常完成,则对N个解码服务器中的每一个解码服务器备份所述编译后的第一融合语言模型和编译后的第二融合语言模型;以及
重复选取N个待更新语言模型的解码服务器的步骤,直至所述解码器集群中所有的解码服务器更新完成;
所述N取正整数,且小于等于所述解码器集群中解码服务器的总数的1/3。
可选地,所述方法还包括:
如果至少一个解码服务器的解码过程未正常完成,则停止该至少一个解码服务器的解码服务,加载该至少一个解码服务器中备份的原始第一语言模型和原始的第二语言模型;并启动加载原始第一语言模型和原始的第二语言模型的至少一个解码服务器。
可选地,将编译后的第一融合语言模型和编译后的第二融合语言模型加载到所述N个解码服务器中之前,所述方法还包括:
对所述第一融合语言模型和所述第二融合语言模型分别进行编译处理,获得第一融合语言模型的第一解码状态图和第二融合语言模型的第二解码状态图;采用通用测试集验证所述第一解码状态图和所述第二解码状态图的语言识别率;
若所述语言识别率在预设范围内,则确认所述第一融合语言模型和所述第二融合语言模型验证通过,并获取编译后的第一融合语言模型和编译后的第二融合语言模型。
第二方面,本发明提供一种语言模型的训练装置,包括:
通用语言模型获取单元,用于采用离线训练方式获取通用语言模型;
裁剪单元,用于对所述通用语言模型进行裁剪,获得裁剪后的语言模型;
日志语言模型获取单元,用于采用在线训练方式获取预设时间段内日志的日志语言模型;
第一插值合并单元,用于将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;
第二插值合并单元,用于将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
可选地,所述日志语言模型获取单元,具体用于
获取预设时间段内的日志信息,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;
对所述日志模型训练语料进行训练,获得日志语言模型。
可选地,所述第一插值合并单元,具体用于
采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型;
和/或,
所述第二插值合并单元,具体用于
采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型。
可选地,所述第一插值合并单元,具体用于
根据预设规则调整所述裁剪后的语言模型中的单句概率,获得调整后的语言模型;
采用插值方式对所述调整后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型;
和/或,
所述第二插值合并单元,具体用于
根据预设规则调整所述通用语言模型中的单句概率,获得调整后的通用语言模型;
采用插值方式对所述调整后的通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型。
可选地,所述裁剪后的语言模型为三元文法语言模型,相应地,所述第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型,相应地,所述第二融合语言模型为四元文法融合语言模型。
可选地,所述通用语言模型获取单元,具体用于
收集各领域的模型训练语料;
针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;
采用插值方式将收集的所有领域对应的语言模型生成通用语言模型。
可选地,所述通用语言模型获取单元,具体用于
收集各领域的模型训练语料;
针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;
采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域的语言模型生成通用语言模型。
可选地,所述裁剪单元,具体用于
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
可选地,所述裁剪单元,具体用于
计算所述通用语言模型在通用测试集之上的第一困惑值,获得第一困惑值的波动范围;
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;所述语言模型二LM2的规模与所述第一困惑值的波动范围相适应;
计算所述语言模型二LM2在通用测试集之上的第二困惑值,获得第二困惑值的波动范围;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;所述语言模型三LM3的规模与所述第二困惑值的波动范围相适应;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4;以及
计算抽取的三元文法语言模型在通用测试集之上的第三困惑值,获得第三困惑值的波动范围;所述裁剪后的语言模型LM4的规模与所述第三困惑值的波动范围相适应。
第四方面,本发明提供一种设备,包括上述任一所述的语言模型的训练装置。
由上述技术方案可知,本发明的语言模型的训练方法及装置、设备,通过离线训练方式获取通用语言模型,在线训练方式获取日志语言模型,进而通过通用语言模型、日志语言模型获得用于第一遍解码的第一融合语言模型和用于进行第二遍解码的第二融合语言模型,由于日志语言模型是通过新词、热词等的语料产生的,故可解决现有技术中离线获取的语言模型对新的语料覆盖不好,导致语言识别率降低的问题,进而可较好的提高语言识别率,提升用户体验。
附图说明
图1为本发明一实施例提供的语言模型的训练方法的流程示意图;
图2为本发明另一实施例提供的语言模型的训练方法的部分流程示意图;
图3为本发明另一实施例提供的语言模型更新方法的流程示意图;
图4为本发明实施例中语言模型更新的系统架构图;
图5为本发明一实施例提供的语言模型的训练装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
当前,基于n-gram的语言模型是语音识别技术的重要组成部分,对语音识别的正确率起着重要作用。基于n-gram的语言模型是基于这样一种假设,第n个词的出现只与前n-1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积。
图1示出了本发明一实施例提供的语言模型的训练方法的流程示意图,如图1所示,语言模型的训练方法包括下述步骤。
101、采用离线训练方式获取通用语言模型,并对该通用语言模型进行裁剪,获得裁剪后的语言模型。
举例来说,可收集各领域的模型训练语料;针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;进而采用插值方式将收集的所有领域对应的语言模型生成通用语言模型。
本实施例的模型训练语料:用于建立语言模型,确定模型参数的已知语料。
另外,上述的领域可以指数据的应用场景,如新闻、地名、网址、人名、地图导航、聊天、短信、问答、微博等常见的领域。在具体应用中,可针对特定的领域,通过专业的抓取、合作等途径获得对应的模型训练语料。本发明实施例对具体的收集各领域的模型训练语料的具体方法不加以限制。
102、采用在线训练方式获取预设时间段内日志的日志语言模型。
在本实施例中,首先,获取预设时间段内(如三天、一周或一个月等)的日志信息,如从每天更新的搜索日志中按照规则抓取相应日志;其次,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;对所述日志模型训练语料进行训练,获得日志语言模型。
该处的过滤可为将日志信息中的噪声信息删除掉。噪声信息可包括:标点符号、书名号、错别字等。可选地,还可对过滤后的日志信息进行平滑处理,最终实现去掉日志模型训练语料中的高频句子。
另外,将过滤后的日志信息进行切词处理,可通过CRF切词,前向最小切词、后向最大切词以及前向后向联合切词等方式实现。本实施例优先采用后向最大切词和前向最小切词联合的方式完成对过滤后的日志信息的切词操作。进而可兼顾了新词/热词中的中英文混合的情况。
可理解的是,本实施例中为将每天新的搜索日志信息反映到解码器集群使用的语言模型中,需要每隔预设时间段将新的搜索日志形成日志模型训练语料,进行日志语言模型的训练工作。
103、将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型。
例如,采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型。
其中,插值方式中的插值参数用于调整所述裁剪后的语言模型和所述日志语言模型在所述第一融合语言模型中的权重。
104、将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
例如,可采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型;
此时,插值方式中的插值参数用于调整所述通用语言模型和所述日志语言模型在所述第二融合语言模型中的权重。
举例来说,本实施例中裁剪后的语言模型为三元文法语言模型时,第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型时,所述第二融合语言模型为四元文法融合语言模型。
可理解的是,本实施例中最后获取的用于解码器集群的语言模型(如三元文法融合语言模型和四元文法融合语言模型)兼顾有大量新词、新结构类型的句子,使得这些新词及新结构类型的句子反映到训练得到的日志语言模型中,并将通用语言模型和在线更新得到的日志语言模型进行插值合并,从而实时覆盖一些新词和新结构类型的句子。
为此,本实施例中采用三元文法融合语言模型进行快速解码,进而再采用四元文法融合语言模型进行二遍解码有效提高语言识别率。
在另一可选的实现场景中,前述的步骤103还可具体包括下述的图中未示出的子步骤1031和子步骤1032:
1031、根据预设规则调整所述裁剪后的语言模型中的单句概率,获得调整后的语言模型;
1032、采用插值方式对所述调整后的语言模型和所述日志语言模型进行插值合并,获得用于进行第一遍解码的第一融合语言模型。
另外,前述的步骤104还可具体包括下述的图中未示出的子步骤1041和子步骤1042:
1041、根据预设规则调整所述通用语言模型中的单句概率,获得调整后的通用语言模型;
1042、采用插值方式对所述调整后的通用语言模型和所述日志语言模型进行插值合并,获得用于进行第二遍解码的第二融合语言模型。
上述步骤1031和步骤1041中调整单句概率主要是针对两个字或者三个字的句子概率做一些特殊处理,包括按照一定规则降低或者提升句子概率等。
在步骤1032和步骤1042中模型插值的具体方式举例说明如下:
假设待插值合并的两个语言模型命名为big_lm和small_lm,两个语言模型合并时的权重为λ,具体插值的实现方式可采用下述举例的1至4中的任一方式实现
1、遍历small_lm中所有的n-gram,将big_lm中对应的n-gram概率值更新为(1-λ)*P(big_lm)+λ*P(small_lm);
2、遍历lm_samll中所有的n-gram,将那些在lm_samll中找不到的n-gram插入到big_lm中,并设置其概率值为λ*P(small_lm);
3、遍历small_lm中的所有n-gram,将big_lm中对应的n-gram概率更新为max(P(big_lm),P(small_lm)),这时权重参数λ没用;
4、遍历samll_lm中的所有n-gram,将big_lm中对应的n-gram概率更新为max((1-λ)*P(big_lm),λ*P(small_lm))。
上述四种插值方式可根据实际应用中不同的应用领域需求,进行选择。在本实施例中,为了扩大语言模型对于日志信息中句子的覆盖,尤其是一些新词或者新结构类型句子的覆盖,本案选择上述第2种方法进行相应的插值操作。
本实施例的语言模型的训练方法,通过离线训练方式获取通用语言模型,在线训练方式获取日志语言模型,进而通过通用语言模型、日志语言模型获得用于第一遍解码的第一融合语言模型和用于进行第二遍解码的第二融合语言模型,由于日志语言模型是通过新词、热词等的语料产生的,故可解决现有技术中离线获取的语言模型对新的语料覆盖不好,导致语言识别率降低的问题,进而可较好的提高语言识别率,提升用户体验。
在实际应用中,通过前述图1所述的方式获得第一融合语言模型和第二融合语言模型之后,在将该两个模型应用在解码器集群之前,还需对该两个模型进行语言识别率的验证。例如,可将上述两个融合语言模型执行编译操作,获得语音识别所需的解码状态图。进而对编译并构建的解码状态图的语言模型进行模型验证。
具体地,本实施例中可使用通用测试集三条音频语料进行语音识别,并与标注文本语料进行对比。若识别文本同标注文本完全一致,则模型验证通过,进而可将上述的两个融合语言模型装载到解码器集群的解码服务器中;否则,向相关人员反馈错误信息。
为更好的说明图1中所示的语言模型的训练方法,以下采用图2对上述图1中的步骤101进行详细说明。
201、收集各领域的模型训练语料。
举例来说,可收集至少六个不同领域的模型训练语料,例如博客数据、短信数据、新闻数据、百科、小说以及用户语音输入法数据,六类模型训练语料的数据总量可大于1000G。
202、针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型。
举例来说,可预先对各领域的模型训练语料进行预处理,如语料清洗或语料分词等预处理,进而对预处理后的模型训练语料生成各自的语言模型。
需要说明的是,若某一领域的吗,模型训练语料规模非常大,但该领域训练获得的语言模型规模有限时,可在通过该领域的模型训练语料训练出该领域的第一个语言模型之后,针对该第一个语言模型,采用模型裁剪方式,或者设置较大的统计次数截止值cutoff的方式调整语言模型,使得该领域最后获得的语言模型符合预设规模的语言模型。
203、采用插值方式将收集的所有领域对应的语言模型生成通用语言模型LM1。
例如,采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域的语言模型生成通用语言模型。
204、基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2。
可选地,在具体应用中,在步骤204之前,还可计算所述通用语言模型在通用测试集之上的第一困惑值,获得第一困惑值的波动范围;
进而,在执行步骤204时,可使语言模型二LM2的规模与所述第一困惑值的波动范围相适应。
205、基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3。
举例来说,在步骤205之前,还可计算所述语言模型二LM2在通用测试集之上的第二困惑值,获得第二困惑值的波动范围;
由此,在执行步骤205时可使语言模型三LM3的规模与所述第二困惑值的波动范围相适应。
206、从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
相应地,在执行步骤206时,还可计算抽取的三元文法语言模型在通用测试集之上的第三困惑值,获得第三困惑值的波动范围;此时,使得裁剪后的语言模型LM4的规模与所述第三困惑值的波动范围相适应。
也就是说,在步骤204至步骤206中,将步骤203中的通用语言模型LM1进行一次裁剪得到语言模型二LM2,将LM2二次裁剪得到语言模型三LM3,从LM3中抽取得到3-gram语言模型并将其继续裁剪,得到规模更小的3-gram语言模型LM4。
本实施例的裁剪方式均采用下述的基于最大熵模型的裁剪方式进行裁剪。每次裁剪的语言模型规模根据通用测试集得到的ppl值的波动范围进行设定。
在本实施例不限定语言模型的裁剪方式,进一步地,本实施例中语言模型的裁剪规模大小的设置还可按照经验值进行设定,本实施例均不加以限制。另外,本实施例中为提高语言识别率的准确性,进行了三次裁剪,在其他实施例中,还可根据需要设置裁剪次数,本实施例仅为举例说明,并对其进行限定。
此外,前述步骤202中提及有模型裁剪方式,故,下面对对模型裁剪的方法进行详细说明。
模型裁剪的方法主要采用基于熵的语言模型裁剪方法。具体地,假设某n元文法在原始语言模型上的概率值为p(.|.),在裁剪后的语言模型上的概率值为p’(.|.)。计算裁剪前后两个语言模型之间的相对熵如公式(1)所示:
Figure BDA0000833508890000151
其中,公式(1)中wi表示所有出现过的词,hj表示文本历史词汇。基于熵的语言模型裁剪方法的目标就是通过选择可裁剪的n元文法来最小化D(p|p’)的值,从而确定裁剪后的语言模型及裁剪后的语言模型的规模。
另外,前述步骤202中提及的设置较大的统计次数截止值cutoff的方式可理解如下。
通常,设置cutoff值则是针对语言模型不同的阶数,在训练过程中设置不同的n元词个数门限值,将每阶语言模型中n元词个数低于该阶门限值的n元词的个数设置为零。因为通常n元词个数小于cutoff值,计算出的n元词对的统计概率值并不准确。
前述步骤202中主要采用了设置较大cutoff值的方式来控制语言模型规模。在具体应用中,每个领域不同cutoff值的设定按照经验值选择。进行在每个领域的语言模型训练的过程中,还可生成不同阶数语言模型的n元词的个数文件。
进一步地,针对前述的步骤203,可举例说明如下。
在步骤203中,将各领域训练生成的语言模型插值生成通用语言模型LM1。常用的插值方式有最大后验概率插值以及模型直接插值等方式。
最大后延概率插值方法举例说明如下:假设现在有通用训练语料集合I和待插入的训练语料集合A,最大后验概率插值的表达式如下公式(2):
Figure BDA0000833508890000152
在公式(2)中,以3元文法举例说明,3-gram的情况,当前词出现的概率只与该词的前两个词相关。其中,wi表示句子中的单词,P(wi|wi-1,wi-2)表示插值后3元文法的概率值,CI(wi-2,wi-1,wi)表示集合I中3元词的个数,CA(wi-2,wi-1,wi)表示集合A中3元文法的个数,ξ参数表示两个3元文法个数之间的插值权重。
模型直接插值方法举例说明如下:模型直接插值方法是利用生成的各领域的语言模型,根据上述公式(2),按照不同的权重插值生成新的语言模型如下公式(3):
Figure BDA0000833508890000161
在公式(3)中,以3元文法举例说明,3-gram的情况,当前词出现的概率只与该词的前两个词相关。其中,P(wi|wi-1,wi-2)表示插值后3元文法的概率值,Pj(wi|wi-1,wi-2)表示插值前语言模型j中n元文法的概率值,λj表示模型j的插值权重,n表示待插值模型的个数。
在实际应用中,可根据下述两种方法计算步骤203中各语言模型插值合并时的权重值。
第一种插值权重的计算方法是:对前述举例的六类语言模型分别在通用测试集上进行困惑度ppl估计,根据ppl的比值计算出各类语言模型插值合并时的权重。
本实施例中的困惑度反映了语言模型的好坏,通常困惑度越小,语言模型越好,其定义如下:
Figure BDA0000833508890000162
在公式(4)中,以n元文法举例说明。其中,P(wi|wi-n+1,...,wi-1)表示n元文法概率值,M表示测试句子中的词个数。
第二种插值权重的计算方法是:直接根据不同领域模型训练语料的大小比值,设置插值权重大小。
可选地,本实施例的步骤203中可采用模型直接插值方式,将个领域训练的语言模型按照上述第二种插值权重计算方法计算得到的权重,插值生成了通用语言模型,记作LM1。
结合前述图1所示的方法,本实施例中引入在线更新搜索日志语言模型,并将该模型同通用语言模型和裁剪后的语言模型进行不同方式的插值运算,生成两个不同规模的融合语言模型,并提供给后端(如解码器集群)多次解码使用,有助于提高语义理解的正确性,提升用户体验。
图3示出了本发明另一实施例提供的语言模型更新方法的流程示意图,图4示出了本发明实施例中语言模型更新的系统架构图,结合图3和图4所示,本实施例的语言模型更新方法如下所述。
301、选取所述解码器集群中的N个待更新语言模型的解码服务器。
举例来说,如图4所示的解码器集群包括六个解码服务器。
可理解的是,完成语言模型的编译与验证后,可将编译好的语言模型装载到解码器集群的每一解码服务器中。本实施例中优先选择每个解码器集群中不大于1/3数量的解码服务器作为待更新语言模型的解码服务器。
也就是说,本实施例中的N取正整数,且小于等于所述解码器集群中解码服务器的总数的1/3。
302、停止N个解码服务器的解码服务,将编译后的第一融合语言模型和编译后的第二融合语言模型加载到所述N个解码服务器中。
本实施例中的编译后的第一融合语言模型和第二融合语言模型为通过图4中所示的语言模型自动训练服务器输出的。
在具体应用中,本地服务器通过离线训练方式获取前述图1所示的通用语言模型和裁剪后的语言模型,语言模型自动训练服务器通过在训练方式获取日志语言模型,以及获取上述的第一融合语言模型和第二融合语言模型并进行编译验证,在验证通过后输出至解码器集群中进行语言模型的更新。
303、启动N个解码服务器,以使每一解码服务器采用编译后的第一融合语言模型进行第一遍解码,并采用编译后的第二融合语言模型进行第二遍解码。
例如,利用加载的语言模型进行语音识别解码。具体地,在进行一遍解码时,利用第一融合语言模型生成一个大的解码路径网络,在此解码路径的基础上利用第二融合语言模型进行二遍解码。
304、判断每一解码服务器的解码过程中是否正常完成。
305、若步骤304中每一解码服务器的解码过程均正常完成,则对N个解码服务器中的每一个解码服务器备份所述编译后的第一融合语言模型和编译后的第二融合语言模型;以及
重复选取N个待更新语言模型的解码服务器的步骤,直至所述解码器集群中所有的解码服务器更新完成。
306、如果步骤304中至少一个解码服务器的解码过程未正常完成,则停止该至少一个解码服务器的解码服务,加载该至少一个解码服务器中备份的原始第一语言模型和原始的第二语言模型;并启动加载原始第一语言模型和原始的第二语言模型的至少一个解码服务器。
也就是说,如果解码成功且解码过程均正常,则解码服务器备份更新后的语言模型。如果解码失败,则该解码服务器将删除的加载的语言模型,重新装载旧语言模型,语言模型不更新,同时将错误信息反馈,并进行错误分析。
可理解的是,在解码器集群中大多数解码服务器中的语言模型更新成功,则可人工查看出现错误的解码服务器的内容,并实现重新加载的过程。
另外,需要说明的是,在图3所示的步骤302中的将编译后的第一融合语言模型和编译后的第二融合语言模型加载到所述N个解码服务器中之前,图3所示的方法还可包括下述的图中未示出的步骤300:
300、对所述第一融合语言模型和所述第二融合语言模型分别进行编译处理,获得第一融合语言模型的第一解码状态图和第二融合语言模型的第二解码状态图;采用通用测试集验证所述第一解码状态图和所述第二解码状态图的语言识别率;
若所述语言识别率在预设范围内,则确认所述第一融合语言模型和所述第二融合语言模型验证通过,并获取编译的第一融合语言模型和编译的第二融合语言模型。
否则,可重新通过图4所示的本地服务器和语言模型自动训练服务器获取新的语言模型。
需要说明的是,在解码器集群中各解码服务器加载成功之后,还可利用测试语句实时抽样验证不同解码服务器的解码结果。或者,为保证解码器集群使用的正常,可利用通用测试集对更新语言模型后的集群进行语音识别结果监控测试,实时打印输出识别结果,以保证通用测试集的语音识别结果的正确率维持在正常的波动范围内。
也就是说,在语音解码的整个过程中,需要利用通用测试集实时对工作中的解码服务器进行抽样验证,保证每个集群中每台解码服务器的解码都是正确的,若解码服务器发生错误,则实时将错误信息反馈给用户,并进行错误分析。
由此,解码器集群可以根据一段时间内收集到的搜索日志在线更新集群内的语言模型,大幅提升新词、热词的分词准确率,提高语音识别的正确率,最终提升语义理解的用户体验。
图5示出了本发明一实施例提供的语言模型的训练装置的结构示意图,如图5所示,本实施例的语言模型的训练装置包括:通用语言模型获取单元51、裁剪单元52、日志语言模型获取单元53、第一插值合并单元54和第二插值合并单元55;
其中,通用语言模型获取单元51用于采用离线训练方式获取通用语言模型;
裁剪单元52用于对所述通用语言模型进行裁剪,获得裁剪后的语言模型;
日志语言模型获取单元53用于采用在线训练方式获取预设时间段内日志的日志语言模型;
第一插值合并单元54用于将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;
第二插值合并单元55用于将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
本实施例中,述裁剪后的语言模型为三元文法语言模型,相应地,所述第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型,相应地,所述第二融合语言模型为四元文法融合语言模型。
举例来说,所述日志语言模型获取单元53可具体用于获取预设时间段内的日志信息,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;对所述日志模型训练语料进行训练,获得日志语言模型。
在具体应用中,所述第一插值合并单元54可具体用于采用插值方式对所述裁剪后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型;
和/或,所述第二插值合并单元55可具体用于,采用插值方式对所述通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型。
在另一种可选的实现场景中,所述第一插值合并单元54可具体用于,根据预设规则调整所述裁剪后的语言模型中的单句概率,获得调整后的语言模型;
采用插值方式对所述调整后的语言模型和所述日志语言模型进行插值合并,获得所述第一融合语言模型;
和/或,所述第二插值合并单元55可具体用于,根据预设规则调整所述通用语言模型中的单句概率,获得调整后的通用语言模型;
采用插值方式对所述调整后的通用语言模型和所述日志语言模型进行插值合并,获得所述第二融合语言模型。
可选地,所述通用语言模型获取单元51可具体用于,收集各领域的模型训练语料;针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;采用插值方式将收集的所有领域对应的语言模型生成通用语言模型。
在另一可选的实现场景中,所述通用语言模型获取单元51可具体用于,收集各领域的模型训练语料;针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域的语言模型生成通用语言模型。
进一步地,前述的裁剪单元52可具体用于,基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
或者,在另一实施例中,所述裁剪单元52还可具体用于,计算所述通用语言模型在通用测试集之上的第一困惑值,获得第一困惑值的波动范围;
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;所述语言模型二LM2的规模与所述第一困惑值的波动范围相适应;
计算所述语言模型二LM2在通用测试集之上的第二困惑值,获得第二困惑值的波动范围;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;所述语言模型三LM3的规模与所述第二困惑值的波动范围相适应;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4;以及
计算抽取的三元文法语言模型在通用测试集之上的第三困惑值,获得第三困惑值的波动范围;所述裁剪后的语言模型LM4的规模与所述第三困惑值的波动范围相适应。
本实施例的语言模型的训练装置可执行前述图1至图2任一所述的方法流程,如上记载,该处不再详述。
本实施例的语言模型的训练装置通过引入在线更新的日志语言模型,并将该日志语言模型同通用语言模型、裁剪后的语言模型进行不同方式的插值运算,生成两个不同规模的融合语言模型,并提供给后端(如解码器集群)多次解码使用,有助于提高语义理解的正确性,提升用户体验。
本实施例的语言模型的训练装置可位于任一独立的设备中如服务器中。即,本发明还可提供一种设备,该设备包括上述任意所述的语言模型的训练装置。
另外,在具体应用中,本实施例还可通过两个或多个设备如多个服务器实现上述语言模型的训练装置的功能。例如,图4中所示的本地服务器可用于实现语言模型的训练装置中通用语言模型获取单元51、裁剪单元52的功能,图4中所示的语言模型自动训练服务器可实现语言模型的训练装置中日志语言模型获取单元53、第一插值合并单元54和第二插值合并单元55的功能,进而使得语言模型自动训练服务器与解码器集群连接,实现通过搜索日志获得覆盖新语料的语言模型时,更新解码器集群中各解码服务器中使用的语言模型,由此,可解决现有技术中离线获取的语言模型对新的语料覆盖不好,导致语言识别率降低的问题,进而可较好的提高语言识别率,提升用户体验。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (11)

1.一种语言模型的训练方法,其特征在于,包括:
采用离线训练方式获取通用语言模型,并对该通用语言模型进行裁剪,获得裁剪后的语言模型;其中,基于最大熵模型的裁剪方式进行裁剪,每次裁剪的语言模型规模根据通用测试集得到的困惑值pp1的波动范围进行设定;
采用在线训练方式获取预设时间段内日志的日志语言模型,包括:获取预设时间段内的日志信息,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;对所述日志模型训练语料进行训练,获得日志语言模型;
将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;
将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
2.根据权利要求1所述的方法,其特征在于,所述裁剪后的语言模型为三元文法语言模型,相应地,所述第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型,相应地,所述第二融合语言模型为四元文法融合语言模型。
3.根据权利要求1至2任一所述的方法,其特征在于,采用离线训练方式获取通用语言模型,包括:
收集各领域的模型训练语料;
针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;
采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域对应的语言模型生成通用语言模型。
4.根据权利要求3所述的方法,其特征在于,对该通用语言模型进行裁剪,获得裁剪后的语言模型,包括:
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
5.一种解码器集群中语言模型更新方法,其特征在于,包括:
选取所述解码器集群中的N个待更新语言模型的解码服务器;
停止N个解码服务器的解码服务,将编译后的第一融合语言模型和编译后的第二融合语言模型加载到所述N个解码服务器中;
启动N个解码服务器,以使每一解码服务器采用编译后的第一融合语言模型进行第一遍解码,并采用编译后的第二融合语言模型进行第二遍解码;
判断每一解码服务器的解码过程中是否正常完成,如果正常完成,则对N个解码服务器中的每一个解码服务器备份所述编译后的第一融合语言模型和编译后的第二融合语言模型;以及
重复选取N个待更新语言模型的解码服务器的步骤,直至所述解码器集群中所有的解码服务器更新完成;
所述N取正整数,且小于等于所述解码器集群中解码服务器的总数的1/3;
所述第一融合语言模型和第二融合语言模型是根据权利要求1-4中任一项所述的方法获得的。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
如果至少一个解码服务器的解码过程未正常完成,则停止该至少一个解码服务器的解码服务,加载该至少一个解码服务器中备份的原始第一语言模型和原始的第二语言模型;并启动加载原始第一语言模型和原始的第二语言模型的至少一个解码服务器。
7.一种语言模型的训练装置,其特征在于,包括:
通用语言模型获取单元,用于采用离线训练方式获取通用语言模型;
裁剪单元,用于对所述通用语言模型进行裁剪,获得裁剪后的语言模型;其中,基于最大熵模型的裁剪方式进行裁剪,每次裁剪的语言模型规模根据通用测试集得到的困惑值ppl的波动范围进行设定;
日志语言模型获取单元,用于采用在线训练方式获取预设时间段内日志的日志语言模型;具体用于获取预设时间段内的日志信息,对所述日志信息进行过滤,并将过滤后的日志信息进行切词处理,获得预设时间段内的日志模型训练语料;对所述日志模型训练语料进行训练,获得日志语言模型;
第一插值合并单元,用于将所述裁剪后的语言模型和所述日志语言模型进行融合,获得用于进行第一遍解码的第一融合语言模型;
第二插值合并单元,用于将所述通用语言模型和所述日志语言模型进行融合,获得用于进行第二遍解码的第二融合语言模型。
8.根据权利要求7所述的装置,其特征在于,所述裁剪后的语言模型为三元文法语言模型,相应地,所述第一融合语言模型为三元文法融合语言模型;
所述通用语言模型为四元文法语言模型,相应地,所述第二融合语言模型为四元文法融合语言模型。
9.根据权利要求7至8任一所述的装置,其特征在于,所述通用语言模型获取单元,具体用于
收集各领域的模型训练语料;
针对每一领域,对该领域的模型训练语料进行训练,获得该领域的语言模型;
采用最大后验概率插值方式或采用模型直接插值方式将收集的所有领域对应的语言模型生成通用语言模型。
10.根据权利要求9所述的装置,其特征在于,所述裁剪单元,具体用于
基于熵的语言模型裁剪方式对所述通用语言模型进行裁剪处理,获得语言模型二LM2;
基于熵的语言模型裁剪方式对所述语言模型二LM2进行裁剪处理,获得语言模型三LM3;
从所述语言模型三LM3中抽取三元文法语言模型,并对抽取的三元文法语言模型进行裁剪处理,获得裁剪后的语言模型LM4。
11.一种服务器,其特征在于,包括上述权利要求7至权利要求10任一所述的语言模型的训练装置。
CN201510719243.5A 2015-10-29 2015-10-29 一种语言模型的训练方法及装置、设备 Active CN105654945B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510719243.5A CN105654945B (zh) 2015-10-29 2015-10-29 一种语言模型的训练方法及装置、设备
EP16762948.4A EP3179473A4 (en) 2015-10-29 2016-06-06 Training method and apparatus for language model, and device
JP2016564631A JP2018502344A (ja) 2015-10-29 2016-06-06 言語モデルの訓練方法及び装置、機器
PCT/CN2016/084959 WO2017071226A1 (zh) 2015-10-29 2016-06-06 一种语言模型的训练方法及装置、设备
HK16107840.9A HK1219803A1 (zh) 2015-10-29 2016-07-06 種語言模型的訓練方法及裝置、設備
US15/242,065 US20170125013A1 (en) 2015-10-29 2016-08-19 Language model training method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510719243.5A CN105654945B (zh) 2015-10-29 2015-10-29 一种语言模型的训练方法及装置、设备

Publications (2)

Publication Number Publication Date
CN105654945A CN105654945A (zh) 2016-06-08
CN105654945B true CN105654945B (zh) 2020-03-06

Family

ID=56481810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510719243.5A Active CN105654945B (zh) 2015-10-29 2015-10-29 一种语言模型的训练方法及装置、设备

Country Status (6)

Country Link
US (1) US20170125013A1 (zh)
EP (1) EP3179473A4 (zh)
JP (1) JP2018502344A (zh)
CN (1) CN105654945B (zh)
HK (1) HK1219803A1 (zh)
WO (1) WO2017071226A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573697B (zh) * 2017-03-10 2021-06-01 北京搜狗科技发展有限公司 一种语言模型更新方法、装置及设备
CN107123418B (zh) * 2017-05-09 2020-12-25 广东小天才科技有限公司 一种语音消息的处理方法及移动终端
CN107346336B (zh) * 2017-06-29 2021-06-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN107945792B (zh) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN109816412B (zh) * 2017-11-21 2022-11-29 腾讯科技(深圳)有限公司 一种训练模型生成方法、装置、设备和计算机存储介质
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN108647200A (zh) * 2018-04-04 2018-10-12 顺丰科技有限公司 对话意图分类方法及装置、设备和存储介质
CN108597502A (zh) * 2018-04-27 2018-09-28 上海适享文化传播有限公司 基于对抗训练的领域语音识别训练方法
CN110472223A (zh) * 2018-05-10 2019-11-19 北京搜狗科技发展有限公司 一种输入配置方法、装置和电子设备
CN109271495B (zh) * 2018-08-14 2023-02-17 创新先进技术有限公司 问答识别效果检测方法、装置、设备及可读存储介质
CN109408829B (zh) * 2018-11-09 2022-06-24 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN110164421B (zh) * 2018-12-14 2022-03-11 腾讯科技(深圳)有限公司 语音解码方法、装置及存储介质
CN109300472A (zh) * 2018-12-21 2019-02-01 深圳创维-Rgb电子有限公司 一种语音识别方法、装置、设备及介质
CN110349569B (zh) * 2019-07-02 2022-04-15 思必驰科技股份有限公司 定制化产品语言模型的训练和识别方法及装置
US11710492B2 (en) * 2019-10-02 2023-07-25 Qualcomm Incorporated Speech encoding using a pre-encoded database
CN113012685B (zh) * 2019-12-20 2022-06-07 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
CN113096646B (zh) * 2019-12-20 2022-06-07 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
CN111143518B (zh) * 2019-12-30 2021-09-07 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN111428448B (zh) * 2020-03-02 2024-05-07 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN111402864A (zh) * 2020-03-19 2020-07-10 北京声智科技有限公司 语音处理方法及电子设备
CN111814466B (zh) * 2020-06-24 2024-09-13 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN114067815A (zh) * 2020-07-29 2022-02-18 斑马智行网络(香港)有限公司 一种离线语音增强方法及系统
CN112489646B (zh) * 2020-11-18 2024-04-02 北京华宇信息技术有限公司 语音识别方法及其装置
CN112560451B (zh) * 2021-02-20 2021-05-14 京华信息科技股份有限公司 一种自动生成训练数据的错别字校对方法及装置
CN113657461A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 基于文本分类的日志异常检测方法、系统、设备及介质
CN113744723B (zh) * 2021-10-13 2024-01-30 浙江核新同花顺网络信息股份有限公司 一种语音识别实时重打分的方法和系统
CN114141236B (zh) * 2021-10-28 2023-01-06 北京百度网讯科技有限公司 语言模型更新方法、装置、电子设备及存储介质
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质
CN113889085B (zh) * 2021-11-22 2024-07-23 北京百度网讯科技有限公司 语音识别方法、装置、设备、存储介质及程序产品
CN114187919A (zh) * 2021-12-09 2022-03-15 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质
CN117407242B (zh) * 2023-10-10 2024-04-05 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271450A (zh) * 2007-03-19 2008-09-24 株式会社东芝 裁剪语言模型的方法及装置
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103164198A (zh) * 2011-12-14 2013-06-19 深圳市腾讯计算机系统有限公司 一种裁减语言模型的方法和装置
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统
CN103871402A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
CN104572631A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477488B1 (en) * 2000-03-10 2002-11-05 Apple Computer, Inc. Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
DE60316912T2 (de) * 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US8301448B2 (en) * 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JPWO2008004663A1 (ja) * 2006-07-07 2009-12-10 日本電気株式会社 言語モデル更新装置、言語モデル更新方法、および言語モデル更新用プログラム
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
JP4928514B2 (ja) * 2008-08-27 2012-05-09 日本放送協会 音声認識装置及び音声認識プログラム
US8938391B2 (en) * 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
JP2013050605A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 言語モデル切替装置およびそのプログラム
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其系统
US9047868B1 (en) * 2012-07-31 2015-06-02 Amazon Technologies, Inc. Language model data collection
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
US9035884B2 (en) * 2012-10-17 2015-05-19 Nuance Communications, Inc. Subscription updates in multiple device language models
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US9484023B2 (en) * 2013-02-22 2016-11-01 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN103456300B (zh) * 2013-08-07 2016-04-20 科大讯飞股份有限公司 一种基于class-base语言模型的POI语音识别方法
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271450A (zh) * 2007-03-19 2008-09-24 株式会社东芝 裁剪语言模型的方法及装置
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103164198A (zh) * 2011-12-14 2013-06-19 深圳市腾讯计算机系统有限公司 一种裁减语言模型的方法和装置
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
CN103871402A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103971677A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统
CN104572631A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统

Also Published As

Publication number Publication date
HK1219803A1 (zh) 2017-04-13
EP3179473A4 (en) 2017-07-12
EP3179473A1 (en) 2017-06-14
CN105654945A (zh) 2016-06-08
US20170125013A1 (en) 2017-05-04
JP2018502344A (ja) 2018-01-25
WO2017071226A1 (zh) 2017-05-04

Similar Documents

Publication Publication Date Title
CN105654945B (zh) 一种语言模型的训练方法及装置、设备
CN110543552B (zh) 对话交互方法、装置及电子设备
CN107195303B (zh) 语音处理方法及装置
EP1696421B1 (en) Learning in automatic speech recognition
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN110930993B (zh) 特定领域语言模型生成方法及语音数据标注系统
EP3915104A1 (en) Word lattice augmentation for automatic speech recognition
CN110866100B (zh) 一种话术泛化方法、装置及电子设备
CN111310440A (zh) 文本的纠错方法、装置和系统
WO2018153316A1 (zh) 获取文本提取模型的方法及装置
US12026460B2 (en) Dialogue data generation device, dialogue data generation method, and program
EP3520036B1 (en) Processing text sequences using neural networks
JP2018128869A (ja) 検索結果表示装置、検索結果表示方法、及びプログラム
CN116361431A (zh) 模型训练方法、对话生成方法、电子设备和相关装置
CN112069818A (zh) 三元组预测模型生成方法、关系三元组提取方法和装置
CN110853627A (zh) 用于语音标注的方法及系统
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法
Swanson et al. Natural language generation with vocabulary constraints
CN114141236A (zh) 语言模型更新方法、装置、电子设备及存储介质
JP2018128577A (ja) 要約文表示装置、要約文表示方法、及びプログラム
Higashinaka et al. A method for evaluating incremental utterance understanding in spoken dialogue systems.
Koo et al. KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing
Fujii et al. Improving the readability of ASR results for lectures using multiple hypotheses and sentence-level knowledge

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1219803

Country of ref document: HK

CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 301-1, Room 301-3, Area B2, Animation Building, No. 126 Animation Road, Zhongxin Eco-city, Tianjin Binhai New Area, Tianjin

Applicant after: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

Address before: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant before: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address after: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant after: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address before: 300467 Tianjin Binhai New Area, Tianjin ecological city animation Middle Road, building, No. two, B1 District, 201-427

Applicant before: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20210201

Granted publication date: 20200306

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1219803

Country of ref document: HK

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20240201

Granted publication date: 20200306

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240313

Granted publication date: 20200306