CN107146604A - 一种语言模型优化方法及装置 - Google Patents

一种语言模型优化方法及装置 Download PDF

Info

Publication number
CN107146604A
CN107146604A CN201710289812.6A CN201710289812A CN107146604A CN 107146604 A CN107146604 A CN 107146604A CN 201710289812 A CN201710289812 A CN 201710289812A CN 107146604 A CN107146604 A CN 107146604A
Authority
CN
China
Prior art keywords
word
probability
term vector
occurrence
word group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710289812.6A
Other languages
English (en)
Other versions
CN107146604B (zh
Inventor
李健
殷子墨
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Beijing Sinovoice Technology Co Ltd
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201710289812.6A priority Critical patent/CN107146604B/zh
Publication of CN107146604A publication Critical patent/CN107146604A/zh
Application granted granted Critical
Publication of CN107146604B publication Critical patent/CN107146604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语言模型优化方法,包括:从训练的语料中获取第一词向量以及第二词向量,计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化方案,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息,利用这一信息对N‑gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。

Description

一种语言模型优化方法及装置
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语言模型优化方法及装置。
背景技术
N-gram语言模型是现阶段语音识别中最为常用的一种语言模型,可以通过对分词后的文本进行统计计算获得。这种模型基于马尔科夫假设,认为句子中第N个词的出现概率至于前面的N-1个词有关。在自然语言处理中应用广泛,主要用途为判断某句话的成句概率。
但N-gram语言模型本身具有语义孤立的缺陷,即无法认知不同单词之间的联系,仅凭统计信息决定模型参数。举例来讲,我们可以理解“高兴”与“开心”是两个语义相近的词,所以句子中可以使用“高兴”的位置,使用“开心”来代替也常常是可行的。但是,假如我们用于训练N-gram语言模型的训练语料中只有出现“高兴”而没有出现“开心”,则对于“我今天很高兴”这句话会给出较高成句概率,而对于“我今天很开心”则无法给出高的成句概率。
可见,传统N-gram语言模型对训练语料的需求量很大,且一些时候效果不尽如人意。
发明内容
本发明提供了一种语言模型优化方法及装置,以解决现有技术中的语言模型中成句概率低的问题。
为了解决上述问题,本发明公开了一种语言模型优化方法,所述方法包括:从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料中出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;计算所述第一词向量与所述第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;将所述第二词语与所述第三词语进行组合,生成第二词语组;依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;将所述第二词语组与所述第二词语组的出现概率对数对应添加至语言模型中。
优选地,所述计算所述第一词向量与所述第二词向量夹角的余弦值的步骤包括:通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:cos A=<b,c>/|b||c|,其中A为第一词向量与所述第二词向量的夹角,b为第一词向量,c为第二词向量。
优选地,所述依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数的步骤包括:依据所述第一词语组的出现概率对数计算出第一词语组的出现概率;将所述第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算所述第二词语组的出现概率;依据所述第二词语组的出现概率计算所述第二词语组的出现概率对数。
优选地,在所述从训练的语料中获取第一词向量以及第二词向量的步骤之前,所述方法还包括:对语料进行训练,生成词向量以及语言模型,其中,所述语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,所述词向量为各所述词语对应的向量。
优选地,所述余弦值的范围值为(0-1)。
为了解决上述问题,本发明还公开了一种语言模型优化装置,所述装置包括:第一获取模块,用于从从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;第一计算模块,用于计算所述第一词向量与所述第二词向量夹角的余弦值;第二获取模块,用于获取语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;第一生成模块,用于将所述第二词语与所述第三词语进行组合,生成第二词语组;第二计算模块,用于依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;添加模块,用于将所述第二词语组与所述第二词语组的出现概率对数对应添加至所述语言模型中。
优选地,所述第一计算模块具体用于:通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:cos A=<b,c>/|b||c|,其中A为第一词向量与所述第二词向量的夹角,b为第一词向量,c为第二词向量。
优选地,所述第二计算模块包括:第一计算子模块,用于依据所述第一词语组的出现概率对数计算出第一词语组的出现概率;第二计算子模块,用于将所述第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算所述第二词语组的出现概率;第三计算子模块,用于依据所述第二词语组的出现概率计算所述第二词语组的出现概率对数。
优选地,所述装置还包括:训练模块,用于在所述第一获取模块从训练的语料中获取第一词向量以及第二词向量之前,对语料进行训练,生成词向量以及语言模型,其中,所述语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,所述词向量为各所述词语对应的向量。
优选地,所述余弦值的范围值为(0-1)。
与现有技术相比,本发明具有以下优点:
本发明实施例提供的一种语言模型优化方案,从训练的语料中获取第一词向量以及第二词向量,其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语语义相近;计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,第一词语组为第一词语与第三词语组合;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化方案,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息,利用这一信息对N-gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。
附图说明
图1是本发明实施例一的一种语言模型优化方法的步骤流程图;
图2是本发明实施例二的一种语言模型优化方法的步骤流程图;
图3是本发明实施例三的一种语言模型优化装置的结构框图;
图4是本发明实施例四的一种语言模型优化装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明实施例一的一种语言模型优化方法的步骤流程图。
本发明实施例提供的语言模型优化方法包括以下步骤:
步骤101:从从训练的语料中获取第一词向量以及第二词向量。
其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,第一词语与第二词语的语义相近。
步骤102:计算第一词向量与第二词向量夹角的余弦值。
根据获取的词向量,可以利用两个向量夹角余弦值公式进行计算。
目前常用的方法为,采用分散式标识方法将每个词标识为一种低维实数向量,该向量就是词语对应的词向量。
步骤103:获取语言模型中第一词语组的出现概率对数。
例如:第一词语组为“今天天气”,在语言模型中获取“今天天气”的出现概率对数。
在语言模型中会有一条路径为:
-0.1760913今天天气,表示今天天气出现概率的对数。
通过上述路径可知,今天天气的出现概率对数为-0.1760913。
其中,第一词语组为第一词语与第三词语组合。
需要说明的是,本申请中的语言模型特指为N-gram语言模型。
步骤104:将第二词语与第三词语进行组合,生成第二词语组。
步骤105:依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数。
步骤106:将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。
将第二词组的出现概率对数添加至语言模型中,当进行语音识别时,提高成句概率。
本发明实施例提供的一种语言模型优化方法,从训练的语料中获取第一词向量以及第二词向量,其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语语义相近;计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,第一词语组为第一词语与第三词语组合;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化方法,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息。利用这一信息对N-gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。
实施例二
参照图2,示出了本发明实施例二的一种语言模型优化方法的步骤流程图。
本发明实施例提供的语言模型优化方法包括以下步骤:
步骤201:对语料进行训练,生成词向量以及语言模型。
其中,语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,词向量为各词语对应的向量。。
步骤202:从训练的语料中获取第一词向量以及第二词向量。
其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语语义相近。
步骤203:通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:
cos A=<b,c>/|b||c|,其中A为第一词向量与第二词向量的夹角,b为第一词向量,c为第二词向量。
根据获取的词向量,可以利用两个向量夹角余弦值公式进行计算。
目前常用的方法为,采用分散式标识方法将每个词标识为一种低维实数向量,该向量就是词语对应的词向量。
步骤204:获取语言模型中第一词语组的出现概率对数。
其中,第一词语组为第一词语与第三词语组合。
例如:第一词语组为“今天天气”,在语言模型中获取“今天天气”的出现概率对数。
在语言模型中会有一条路径为:
-0.1760913今天天气,表示今天天气出现概率的对数。
通过上述路径可知,今天天气的出现概率对数为-0.1760913。
步骤205:将第二词语与第三词语进行组合,生成第二词语组。
例如,第二词语和第三词语分别为“明天”、“天气”,则第二词语组为“明天天气”。
步骤206:依据第一词语组的出现概率对数计算出第一词语组的出现概率。
例如:获取的第一词组的出现概率对数为“今天天气”对应的出现概率对数,且“今天天气”的出现概率对数为-0.1760913,其小数值为10^(-0.1760913)约为0.667,则“今天天气的出现概率为0.667。
步骤207:将第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算第二词语组的出现概率。
例如:“明天天气”这个二元组的条件概率为0.78423*0.6667与等于0.5228。
对0.5228进行对数计算,则“明天天气”的出现概率对数为-0.28166。步骤209:依据第二词语组的出现概率计算第二词语组的出现概率对数。
步骤208:将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。
在语言模型中添加“-0.28166明天天气”,其中-0.28166为0.5228以十为底的对数。
这样一来,即使训练语料中没有出现过“明天”这个词,对它在句子中可能出现的概率也有一个较好的估计。依照需要,对所有语料中未出现而关心的词做这样的概率补充。这样修改后的语言模型在各类任务中都会具有更优秀的使用价值。
本发明实施例提供的一种语言模型优化方法,从训练的语料中获取第一词向量以及第二词向量,其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语语义相近;计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,第一词语组为第一词语与第三词语组合;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化方法,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息。利用这一信息对N-gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。
实施例三
参照图3,示出了本发明实施例三的一种语言模型优化装置的结构框图。
本发明实施例提供的语言模型优化装置包括:第一获取模块301,用于从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;第一计算模块302,用于计算所述第一词向量与所述第二词向量夹角的余弦值;第二获取模块303,用于获取所述语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;第一生成模块304,用于将所述第二词语与所述第三词语进行组合,生成第二词语组;第二计算模块305,用于依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;添加模块306,用于将所述第二词语组与所述第二词语组的出现概率对数对应添加至所述语言模型中。
本发明实施例提供的一种语言模型优化装置,从训练的语料中获取第一词向量以及第二词向量,其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语语义相近;计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,第一词语组为第一词语与第三词语组合;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化装置,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息。利用这一信息对N-gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。
实施例四
参照图4,示出了本发明实施例四的一种语言模型优化装置的结构框图。
本发明实施例提供的语言模型优化装置包括:第一获取模块401,用于从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;第一计算模块402,用于计算所述第一词向量与所述第二词向量夹角的余弦值;第二获取模块403,用于获取所述语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;第一生成模块404,用于将所述第二词语与所述第三词语进行组合,生成第二词语组;第二计算模块405,用于依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;添加模块406,用于将所述第二词语组与所述第二词语组的出现概率对数对应添加至所述语言模型中。
优选地,所述第一计算模块402具体用于:通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:cos A=<b,c>/|b||c|,其中A为第一词向量与所述第二词向量的夹角,b为第一词向量,c为第二词向量。
优选地,所述第二计算模块405包括:第一计算子模块4051,用于依据所述第一词语组的出现概率对数计算出第一词语组的出现概率;第二计算子模块4052,用于将所述第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算所述第二词语组的出现概率;第三计算子模块4053,用于依据所述第二词语组的出现概率计算所述第二词语组的出现概率对数。
优选地,所述装置还包括:训练模块407,用于在所述第一获取模块从训练的语料中获取第一词向量以及第二词向量之前,对语料进行训练,生成词向量以及语言模型,其中,所述语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,所述词向量为各所述词语对应的向量。
优选地,所述余弦值的范围值为(0-1)。
本发明实施例提供的一种语言模型优化装置,从训练的语料中获取第一词向量以及第二词向量,其中,第一词向量为第一词语的向量,第二词向量为第二词语的向量,第二词语在语料出现的概率低于第一词语在语料中出现的概率,且第一词语与第二词语的语义相近;计算第一词向量与第二词向量夹角的余弦值;获取语言模型中第一词语组的出现概率对数;其中,第一词语组为第一词语与第三词语组合;将第二词语与第三词语进行组合,生成第二词语组;依据第一词语组的出现概率对数以及夹角的余弦值,计算第二词语组的出现概率对数;将第二词语组与第二词语组的出现概率对数对应添加至语言模型中。可见,通过本发明提供的语言模型优化装置,用一份分好词的语料进行训练可以同时得到语言模型和词向量。词向量可以提供两个词之间的相似度信息。利用这一信息对N-gram语言模型中的条件概率进行调整,达到优化语言模型的效果,提升用户的使用体验。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种语言模型优化方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语言模型优化方法,其特征在于,所述方法包括:
从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料中出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;
计算所述第一词向量与所述第二词向量夹角的余弦值;
获取语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;
将所述第二词语与所述第三词语进行组合,生成第二词语组;
依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;
将所述第二词语组与所述第二词语组的出现概率对数对应添加至语言模型中。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一词向量与所述第二词向量夹角的余弦值的步骤包括:
通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:
cos A=<b,c>/|b||c|,其中A为第一词向量与所述第二词向量的夹角,b为第一词向量,c为第二词向量。
3.根据权利要求1所述的方法,其特征在于,所述依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数的步骤包括:
依据所述第一词语组的出现概率对数计算出第一词语组的出现概率;
将所述第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算所述第二词语组的出现概率;
依据所述第二词语组的出现概率计算所述第二词语组的出现概率对数。
4.根据权利要求1所述的方法,其特征在于,在所述从训练的语料中获取第一词向量以及第二词向量的步骤之前,所述方法还包括:
对语料进行训练,生成词向量以及语言模型,其中,所述语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,所述词向量为各所述词语对应的向量。
5.根据权利要求2所述的方法,其特征在于,所述余弦值的范围值为(0-1)。
6.一种语言模型优化装置,其特征在于,所述装置包括:
第一获取模块,用于从从训练的语料中获取第一词向量以及第二词向量,其中,所述第一词向量为第一词语的向量,所述第二词向量为第二词语的向量,所述第二词语在语料出现的概率低于所述第一词语在语料中出现的概率,且所述第一词语与所述第二词语语义相近;
第一计算模块,用于计算所述第一词向量与所述第二词向量夹角的余弦值;
第二获取模块,用于获取语言模型中第一词语组的出现概率对数;其中,所述第一词语组为第一词语与第三词语组合;
第一生成模块,用于将所述第二词语与所述第三词语进行组合,生成第二词语组;
第二计算模块,用于依据所述第一词语组的出现概率对数以及所述夹角的余弦值,计算所述第二词语组的出现概率对数;
添加模块,用于将所述第二词语组与所述第二词语组的出现概率对数对应添加至所述语言模型中。
7.根据权利要求6所述的装置,其特征在于,所述第一计算模块具体用于:
通过以下公式对第一词向量以及第二词向量夹角的余弦值进行计算:
cos A=<b,c>/|b||c|,其中A为第一词向量与所述第二词向量的夹角,b为第一词向量,c为第二词向量。
8.根据权利要求6所述的装置,其特征在于,所述第二计算模块包括:
第一计算子模块,用于依据所述第一词语组的出现概率对数计算出第一词语组的出现概率;
第二计算子模块,用于将所述第一词语组的出现概率,与第一词向量以及第二词向量夹角的余弦值相乘,计算所述第二词语组的出现概率;
第三计算子模块,用于依据所述第二词语组的出现概率计算所述第二词语组的出现概率对数。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练模块,用于在所述第一获取模块从训练的语料中获取第一词向量以及第二词向量之前,对语料进行训练,生成词向量以及语言模型,其中,所述语言模型中包含多个词语、各词语的出现概率对数、多个词语组以及各词语组的出现概率对数,所述词向量为各所述词语对应的向量。
10.根据权利要求7所述的装置,其特征在于,所述余弦值的范围值为(0-1)。
CN201710289812.6A 2017-04-27 2017-04-27 一种语言模型优化方法及装置 Active CN107146604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710289812.6A CN107146604B (zh) 2017-04-27 2017-04-27 一种语言模型优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710289812.6A CN107146604B (zh) 2017-04-27 2017-04-27 一种语言模型优化方法及装置

Publications (2)

Publication Number Publication Date
CN107146604A true CN107146604A (zh) 2017-09-08
CN107146604B CN107146604B (zh) 2020-07-03

Family

ID=59775009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710289812.6A Active CN107146604B (zh) 2017-04-27 2017-04-27 一种语言模型优化方法及装置

Country Status (1)

Country Link
CN (1) CN107146604B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021551A (zh) * 2017-10-27 2018-05-11 北京捷通华声科技股份有限公司 一种语料扩展方法及装置
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109783648A (zh) * 2018-12-28 2019-05-21 北京声智科技有限公司 一种利用asr识别结果改进asr语言模型的方法
CN110176230A (zh) * 2018-12-11 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
CN111583915A (zh) * 2020-04-07 2020-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN111626059A (zh) * 2020-04-30 2020-09-04 联想(北京)有限公司 一种信息处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895193B2 (en) * 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
JP2016024325A (ja) * 2014-07-18 2016-02-08 日本放送協会 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
TW201714167A (en) * 2015-10-09 2017-04-16 Mitsubishi Electric Corp Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895193B2 (en) * 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
JP2016024325A (ja) * 2014-07-18 2016-02-08 日本放送協会 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
TW201714167A (en) * 2015-10-09 2017-04-16 Mitsubishi Electric Corp Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021551B (zh) * 2017-10-27 2021-02-19 北京捷通华声科技股份有限公司 一种语料扩展方法及装置
CN108021551A (zh) * 2017-10-27 2018-05-11 北京捷通华声科技股份有限公司 一种语料扩展方法及装置
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN108304439B (zh) * 2017-10-30 2021-07-27 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN110176230A (zh) * 2018-12-11 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN110176230B (zh) * 2018-12-11 2021-10-08 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN109783648B (zh) * 2018-12-28 2020-12-29 北京声智科技有限公司 一种利用asr识别结果改进asr语言模型的方法
CN109783648A (zh) * 2018-12-28 2019-05-21 北京声智科技有限公司 一种利用asr识别结果改进asr语言模型的方法
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
CN110347799B (zh) * 2019-07-12 2023-10-17 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
CN111583915A (zh) * 2020-04-07 2020-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN111583915B (zh) * 2020-04-07 2023-08-25 苏宁云计算有限公司 n-gram语言模型的优化方法、装置、计算机设备和存储介质
CN111626059A (zh) * 2020-04-30 2020-09-04 联想(北京)有限公司 一种信息处理方法及装置

Also Published As

Publication number Publication date
CN107146604B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN107146604A (zh) 一种语言模型优化方法及装置
Li et al. Chinese
US20210174033A1 (en) Method and apparatus for evaluating translation quality
CN107133224B (zh) 一种基于主题词的语言生成方法
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
CN102033879B (zh) 一种中文人名识别的方法和装置
US20190043504A1 (en) Speech recognition method and device
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN106776713A (zh) 一种基于词向量语义分析的海量短文本聚类方法
US11675975B2 (en) Word classification based on phonetic features
CN105279552B (zh) 一种基于字的神经网络的训练方法和装置
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
Yuan et al. Research on language analysis of English translation system based on fuzzy algorithm
CN106297773A (zh) 一种神经网络声学模型训练方法
CN103778207A (zh) 基于lda的新闻评论的话题挖掘方法
CN103971686A (zh) 自动语音识别方法和系统
WO2021139107A1 (zh) 情感智能识别方法、装置、电子设备及存储介质
JP2014502754A (ja) インターネットにおける有害情報の遮断方法と装置
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN103729456A (zh) 一种基于微博群环境的微博多模态情感分析方法
CN105760361B (zh) 一种语言模型建立方法及装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant