CN102236639B - 更新语言模型的系统和方法 - Google Patents

更新语言模型的系统和方法 Download PDF

Info

Publication number
CN102236639B
CN102236639B CN201010171102.1A CN201010171102A CN102236639B CN 102236639 B CN102236639 B CN 102236639B CN 201010171102 A CN201010171102 A CN 201010171102A CN 102236639 B CN102236639 B CN 102236639B
Authority
CN
China
Prior art keywords
collected works
sentence
language model
topic
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010171102.1A
Other languages
English (en)
Other versions
CN102236639A (zh
Inventor
张华�
朱璇
苏腾荣
严基完
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201010171102.1A priority Critical patent/CN102236639B/zh
Publication of CN102236639A publication Critical patent/CN102236639A/zh
Application granted granted Critical
Publication of CN102236639B publication Critical patent/CN102236639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种更新语言模型的系统和方法。所述系统包括:本地文集产生单元,通过使用输入到移动装置的文本数据和移动装置接收的文本数据来产生本地文集;和LM更新单元,基于本地文集更新移动装置中预先安装的初始LM。本发明解决了现有技术中的LM和应用需求之间的不匹配的问题,根据本发明的更新LM的系统和方法能够根据特定用户的语言习惯和关心的话题以及出现的语言现象动态并经常更新LM。

Description

更新语言模型的系统和方法
技术领域
本发明涉及一种更新语言模型的系统和方法,更具体地讲,涉及一种在移动装置中利用本地资源和网络资源更新语言模型的系统和方法。
背景技术
语言模型(LM)用统计方法描述人的口语或书面语,并对其进行建模。语言模型的质量或语言模型与应用需求的符合程度极大地影响应用系统(例如,自动语音识别(ASR)系统、文本输入系统和机器翻译系统)的性能。
以ASR系统为例,如果使用旅游领域LM来识别旅游领域口语句子,则识别的字符错误率(CER)大约是10%。然而,如果在实验中在没有任何其他修改的情况下对新闻报纸领域的口语句子使用相同的LM,则CER上升到60%。该错误率过高,以至于用户不能接受。
LM和应用需求之间的不匹配主要来源于以下两方面:
首先,LM训练数据库和应用中的测试数据在话题和风格方面不匹配。人使用的实际语言随着时间不断发展,而个人移动装置中应用的已训练完毕的LM却没有被更新。
其次,LM被很好地训练为尽可能地具有通用性,以满足大多数人的语言习惯,从而LM缺少了对特定人的语言习惯和普通语言术语的描述。
第20080040099号美国专利申请提出了一种用于LM转换和调整的装置和方法。用于各种不同应用场景的若干个LM被训练,并被存储在存储器中,语言模型转换部分根据请求从所述若干个LM中选择一个或多个LM。该方法可用在汉语文本输入法,以及语音识别系统中。并由LM解码得到的用户输入文本来调整LM。
第20050165598号美国专利申请提出了一种根据用户的个人口音修改LM和字典。第20080040099号和第20050165598号美国专利申请关注于LM的修改和调整。
第20080250015号美国专利申请关注于数据收集和扩展。该专利申请提出了基于小尺寸的样本种子自动扩展大尺寸文集的文集扩展系统和方法。
因此,需要一种移动装置中的包括文本数据收集、数据扩展和更新LM的系统和方法。本发明提出了一种用于在移动装置中应用的更新定制的LM的方法和系统,其中,根据特定用户的语言习惯和关心的话题以及出现的语言现象动态并经常更新所述LM。
发明内容
根据本发明的一方面,提供了一种应用于移动装置的更新LM的系统,所述系统可包括:本地文集产生单元,通过使用输入到移动装置的文本数据和移动装置接收的文本数据来产生本地文集;和LM更新单元,基于本地文集更新移动装置中预先安装的初始LM。
所述系统还可包括:许可单元,用于确定用户是否允许通过网络收集文本数据;扩展文集产生单元,如果在许可单元用户允许通过网络收集文本数据,则扩展文集产生单元通过网络扩展本地文集,以产生扩展文集,其中,LM更新单元基于本地文集和扩展文集来更新LM。
所述本地文集产生单元可包括:收集单元,收集输入到移动装置的文本数据和移动装置接收的文本数据;文本处理单元,处理由收集单元收集的文本数据;词分割单元,将文本处理单元处理后的文本数据分割成词序列,从中选择经常使用的词语,并将词序列和经常使用的词语存储为本地文集。
所述扩展文集产生单元可包括:种子扩展单元,将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用;文本分类单元,将种子扩展单元产生的候选集分类成有用句子集和没用句子集;词分割单元,将由文本分类单元产生的有用句子集分割成词序列,将所述词序列用作扩展文集。
所述种子扩展单元可包括:网络检索单元,将种子句子作为检索文本进行网络检索单元,并从检索结果中选择与检索文本相关度最高的预定个数的网页;目标文本提取器,分析所述预定个数的网页,提取与种子句子具有相同关键字的所有句子作为目标句子,并下载作为候选集。
所述文本分类单元可包括:句子分割单元,将种子扩展单元产生的候选集中的长句分割成短句;数字转换单元,将句子分割单元产生的短句中的数字转换成字符;句子过滤器,从经数字转换单元转换后的句子去除不包含与领域有关的关键字的句子或包含垃圾词语的垃圾句子;文本分类器,基于关键字将经句子过滤器过滤后的句子分成有用句子集和没用句子集。
所述LM更新单元可包括:确定单元,确定本地文集中的文本数据的数量是否大于预定阈值;调整单元,如果确定单元确定本地文集中的文本数据的数量不大于预定阈值,则调整单元基于本地文集调整初始LM,以产生调整的LM;重新训练单元,如果确定单元确定本地文集中的文本数据的数量大于预定阈值,则重新训练单元基于本地文集重新训练LM,以产生重新训练的LM。
所述调整单元可包括:话题映射单元,通过使用矢量空间模型将本地文集映射成相应的话题;调整模块,增加所述话题在初始LM中的权重,以产生调整的LM。
所述重新训练单元可包括:文本特征提取器,从本地文集中提取文本特征,以形成文本特征集;话题聚类器,将由文本特征提取器形成的文本特征集聚类成多个话题;话题LM训练器,对由话题聚类器聚类的每个话题的话题LM进行训练;组合器,将话题LM训练器训练的每个话题的话题LM组合,以产生重新训练的LM。
所述LM更新单元可包括:确定单元,确定本地文集和扩展文集中的文本数据的数量是否大于预定阈值;调整单元,如果确定单元确定本地文集和扩展文集中的文本数据的数量不大于预定阈值,则调整单元基于本地文集和扩展文集调整初始LM,以产生调整的LM;重新训练单元,如果确定单元确定本地文集中的文本数据的数量大于预定阈值,则重新训练单元基于本地文集和扩展文集重新训练LM,以产生重新训练的LM。
所述调整单元可包括:话题映射单元,通过使用矢量空间模型将本地文集和扩展文集映射成相应的话题;调整模块,增加所述话题在初始LM中的权重,以产生调整的LM。
所述重新训练单元可包括:文本特征提取器,从本地文集和扩展文集中提取文本特征,以形成文本特征集;话题聚类器,将由文本特征提取器形成的文本特征集聚类成多个话题;话题LM训练器,对由话题聚类器聚类的每个话题的话题LM进行训练;组合器,将话题LM训练器训练的每个话题的话题LM组合,以产生重新训练的LM。
根据本发明的另一方面,提供了一种应用于移动装置的更新LM的方法,所述方法可包括以下步骤:通过使用输入到移动装置的文本数据和移动装置接收的文本数据来产生本地文集;和基于本地文集更新移动装置中预先安装的初始LM。
所述方法还可包括以下步骤:确定用户是否允许通过网络收集文本数据;
如果用户允许通过网络收集文本数据,则通过网络扩展本地文集,以产生扩展文集,其中,基于本地文集和扩展文集来更新LM。
产生本地文集的步骤还可包括以下步骤:收集输入到移动装置的文本数据和移动装置接收的文本数据;处理收集的文本数据;将处理后的文本数据分割成词序列,从中选择经常使用的词语,并将词序列和经常使用的词语存储为本地文集。
产生扩展文集的步骤还可包括以下步骤:将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用;将产生的候选集分类成有用句子集和没用句子集;将产生的有用句子集分割成词序列,将所述词序列用作扩展文集。
产生候选集的步骤可包括以下步骤:将种子句子作为检索文本进行网络检索,从检索结果中选择与检索文本相关度最高的预定个数的网页;分析所述预定个数的网页,提取与种子句子具有相同关键字的所有句子作为目标句子,并下载作为候选集。
对候选集分类的步骤可包括以下步骤:将候选集中的长句分割成短句;
将短句中的数字转换成字符;从转换后的句子去除不包含与领域有关的关键字的句子或包含垃圾词语的垃圾句子;基于关键字将过滤后的句子分成有用句子集和没用句子集。
更新步骤可包括以下步骤:确定本地文集中的文本数据的数量是否大于预定阈值;如果确定本地文集中的文本数据的数量不大于预定阈值,则基于本地文集调整初始LM,以产生调整的LM;如果确定本地文集中的文本数据的数量大于预定阈值,则基于本地文集重新训练LM,以产生重新训练的LM。
调整初始LM的步骤可包括以下步骤:通过使用矢量空间模型将本地文集映射成相应的话题;增加所述话题在初始LM中的权重,以产生调整的LM。
重新训练LM的步骤可包括以下步骤:从本地文集中提取文本特征,以形成文本特征集;根据文本特征集将本地文集聚类成多个话题;对聚类的每个话题的话题LM进行训练;将训练的每个话题的话题LM组合,以产生重新训练的LM。
更新步骤可包括以下步骤:确定本地文集和扩展文集中的文本数据的数量是否大于预定阈值;如果确定本地文集和扩展文集中的文本数据的数量不大于预定阈值,则基于本地文集和扩展文集调整初始LM,以产生调整的LM;如果确定本地文集和扩展文集中的文本数据的数量大于预定阈值,则基于本地文集和扩展文集重新训练LM,以产生重新训练的LM。
调整初始LM的步骤可包括以下步骤:通过使用矢量空间模型将本地文集和扩展文集映射成相应的话题;增加所述话题在初始LM中的权重,以产生调整的LM。
重新训练LM的步骤可包括以下步骤:从本地文集和扩展文集中提取文本特征,以形成文本特征集;通过使用文本特征集将本地文集和扩展文集聚类成多个话题;对聚类的每个话题的话题LM进行训练;将训练的每个话题的话题LM组合,以产生重新训练的LM。
本发明解决了现有技术中的LM和应用需求之间的不匹配的问题,根据本发明的更新LM的系统和方法能够根据特定用户的语言习惯和关心的话题以及出现的语言现象动态并经常更新LM。
附图说明
从下面结合附图对本发明示例性实施例的描述,本发明的这些和/或其他方面和优点将变得清楚,并更容易理解,其中:
图1是示出根据本发明示例性实施例的更新LM的系统的结构的示图;
图2示出根据本发明示例性实施例的图1中示出的本地文集产生单元;
图3示出根据本发明示例性实施例的图1中示出的扩展文集产生单元;
图4示出图3中示出的种子扩展单元;
图5是示出文本分类单元的结构的示图;
图6是示出根据本发明示例性实施例的图1中示出的LM更新单元的详细结构的框图;
图7是示出根据本发明示例性实施例的LM重新训练单元404的结构的示图;
图8示出根据本发明示例性实施例的用户界面;
图9是示出根据本发明示例性实施例的利用本地和网络资源更新LM的方法的流程图。
具体实施方式
现在将详细描述本发明的示例性实施例,其示例在附图中示出,其中,相同的标号始终表示相同的元件。下面将通过参照附图描述实施例以解释本公开。
在本申请中,移动装置以手机作为示例,但并不限于此。例如,移动装置还可以是便携式多媒体播放器(PMP)、数字广播播放器、个人数字助理(PDA)、便携式游戏终端和智能电话等。
图1是示出根据本发明示例性实施例的更新LM的系统的结构的示图。
用户购买的手机预先安装了具有通用性的普通用途的LM,该LM被称为初始LM,并将被修改,以获取用户的个人语言习惯并进行训练。
该系统包括本地文集产生单元100、许可单元200、扩展文集产生单元300和LM更新单元400。
在经SMS、移动备忘录或手机电子邮件与用户进行手机的信息交换期间,本地文集产生单元100不断收集用户的个人文本数据(本地输入的文本数据或本地接收的文本数据)作为本地数据,以产生本地文集。许可单元200用于确定用户是否同意通过网络收集文本数据。如果许可单元200确定用户同意通过网络收集文本数据,则扩展文集产生单元300搜索和收集与用户的本地数据有关的互联网中的最新文本数据作为网络数据,以产生扩展文集。将本地文集和扩展文集输入到LM更新单元400,LM更新单元400根据本地文集和扩展文集的数量更新初始LM。注意,在用户不同意网络更新的情况下,在LM更新单元400中只使用本地文集来更新初始LM。
通过持续不断地进行周期性的LM更新,LM越来越好地知道用户的语言习惯,该LM作为用户定制的LM运行。
下面将参照图2详细描述本地文集产生单元100。
图2示出根据本发明示例性实施例的图1中示出的本地文集产生单元100。
如图2所示,本地文集产生单元100包括收集单元101、文本处理单元102和词分割单元103。总的来说,本地文集产生单元100收集和处理所有可存取的输入到移动装置或移动装置接收的文本数据(例如,用户的短消息、移动备忘录、手机电子邮件、互联网日志、呼叫日志),然后将处理后的文本数据存储为本地文集。
具体地讲,收集单元101收集通过手机中的文本写入装置(例如,触摸屏)输入和/或文本记录装置记录的个人的文本数据,并将收集的文本数据发送到文本处理单元102。文本处理单元102对接收的文本数据进行处理,例如,将长句分割成短句,去除标点,删除没用的句子等。文本处理单元102将处理后的句子发送到词分割单元103。词分割单元103通过使用已知的匹配方法(例如,前向最大匹配方法)将文本处理单元102接收的句子分割成词序列,并从中选择经常使用的词语。将分割获得的词序列和经常出现的词语存储为本地文集。
下面参照图3描述扩展文集产生单元300。
图3示出根据本发明示例性实施例的图1中示出的扩展文集产生单元300。
如图3所示,扩展文集产生单元300包括种子扩展单元301、文本分类单元302和词分割单元303。
总的来说,通过使用扩展文集产生单元300通过互联网收集新文本文集来扩展本地文集,以获得扩展文集。扩展文集中的句子与本地文集中的句子具有相同的关键字,并被人们在互联网上实际使用。
具体地讲,种子扩展单元301将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用。种子扩展单元301将收集的候选集发送到文本分类单元302。文本分类单元302对候选集进行处理(稍后将参照图5进行详细描述),可基于关键字(例如,本地文集中的种子句子或垃圾词表等)将候选集分类成有用句子集和没用句子集,并将有用句子集发送到词分割单元303。词分割单元303通过使用已知的匹配方法(例如,前向最大匹配方法)将有用句子集中的有用句子分割成词序列,所述词序列被用作扩展文集。
现在将参照图4详细描述图3中示出的种子扩展单元301。
图4示出图3中示出的种子扩展单元301。参照图4,种子扩展单元301包括网络检索单元3011和目标文本提取器3012。
将本地文集中的句子作为种子句子输入到网络检索单元3011(例如,www.baidu.com)。网络检索单元3011将种子句子作为检索文本进行网络检索,从返回的检索结果中选择与检索文本相关度最高的预定个数的网页,并将所述预定个数的网页发送给目标文本提取器3012。目标文本提取器3012分析网络检索单元3011输出的前N个网页,提取与种子句子具有相同关键字的所有句子作为目标句子,并将其下载为候选集。采用网络检索单元3011从而保证收集到的文本数据是实际使用的最新的文本信息。
现在将参照图5详细描述图3中示出的文本分类单元302。
图5是示出文本分类单元302的结构的示图。参照图5,文本分类单元302包括句子分割单元3021、数字转换单元3022、句子过滤器3023、文本分类器3024。
句子分割单元3021将种子扩展单元301输出的候选集中的长句分割成短句,并将分割后获得的短句发送到数字转换单元3022。数字转换单元3022将短句中的数字(阿拉伯数字)转换成字符(例如,中文字符)。然后,句子过滤器2023从经数字转换单元3022转换的句子中去除不包含与种子句子有关的关键字的句子或包含垃圾词语的垃圾句子,并将过滤后的句子发送到文本分类器3024。文本分类器3024(例如,简单的Bayesian文本分类器)可基于关键字(例如,本地文集中的种子句子或垃圾词表等)将从句子过滤器3023输出的文本数据分成有用句子集和没用句子集,并只将有用句子集输入到词分割单元303。
下面将参照图6描述图1中示出的LM更新单元400。
图6是示出根据本发明示例性实施例的图1中示出的LM更新单元400的详细结构的框图。
参照图6,LM更新单元400包括确定单元410、话题映射单元401、调整单元402、更新单元403和LM重新训练单元404。
LM更新单元400既可对初始LM进行调整,也可重新训练LM。如图6所示,LM更新单元400可包括确定单元410,确定单元410可根据预先设定的阈值来确定是调整初始LM还是重新训练LM。如果收集的文集(包括本地文集和扩展文集,如果在许可单元200用户不同意通过网络收集数据,则只包括本地文集)中的文本数据的数量大于预定阈值,则重新训练LM,否则调整初始LM。
假设初始LM为由几个话题LM组合的集成LM,每个话题LM是集成LM的组成部分,并在集成LM中具有特定的权重。简单的集成LM可以是仅具有一个话题LM的普通LM。
在调整初始LM过程中,话题映射单元401通过使用矢量空间模型将收集的文集映射成相应的话题。其中,文集中的每个文本被表示成矢量空间中的一个矢量,由矢量相似性度量方法对全部矢量进行分类,并影射到初始模型所包含的指定的若干个话题。然后,调整单元402增加所述话题在初始LM中的权重。将调整后的LM重新存储为调整的LM。
在重新训练LM过程中,更新单元403通过收集的文集中的词序列更新用于训练LM的字典。LM重新训练单元404基于更新的字典由矢量空间模型重新聚类话题,并重新训练LM。重新聚类话题时,并不预先指定文本类别的数目及定义。将文集中的每个文本表示成矢量空间中的一个矢量,由矢量相似性度量方法对全部矢量进行无监督自动聚类,聚成若干文本类别。稍后将参照图7详细描述LM重新训练单元404的操作。
图7是示出根据本发明示例性实施例的LM重新训练单元404的结构的示图。
参照图7,LM重新训练单元404包括文本特征提取器4041、话题聚类器4042、话题LM训练器4043、组合器4044。
具体地讲,文本特征提取器4041从收集的文集中提取文本特征(例如,TF-IDF特征)以形成文本特征集。话题聚类器4042将文本特征提取器4041形成的文本特征集自动聚类成几个话题,话题LM训练器4043对每个话题的话题LM进行训练,组合器4044可通过组合话题LM产生重新训练的LM,其中,每个话题LM在重新训练的LM中具有预定权重,且每个话题LM的权重之和为1。重新训练的LM与初始LM具有不同的组成。
图8示出根据本发明示例性实施例的示例性的用户界面。
收集用户的个人文本以及从互联网扩大个人文集涉及到用户的个人隐私以及知情权,因此,在本申请中,提供了如图8所述的用户界面,以获得用户对进行个人数据收集的允许。
所述用户界面定制了LM更新策略。如图8所示,例如,在系统设置菜单的语言策略子菜单下,可包括更新源和更新频率的选择。例如,用户可选择“本地输入文本”、“本地接收文本”以及“经互联网对本地文本的自动扩展”中的至少一个更新LM。“更新频率”的选项可包括每月(表示每月更新一次)、每年(表示每年更新一次)、手动(表示手动更新)、或从不(表示不更新)。
此外,还可包括选项“更新时提醒”。
下面将参照图9描述根据本发明示例性实施例的利用本地和网络资源更新LM的方法。
参照图9,在步骤S901获得本地文集。具体地讲,收集手机中输入或接收的文本数据,并对文本数据进行处理,例如,将长句被分割成短句,去除了标点,删除没用的句子等,然后通过使用已知的匹配方法(例如,前向最大匹配方法)将处理后的句子分割成词序列,从中选择经常使用的词语,并将分割得到的句序列和经常使用的词语存储为本地文集。
在步骤S902,确定用户是否允许通过网络收集文本数据。如果在步骤S902确定用户允许通过网络收集文本数据,则在步骤S903获得扩展文集。具体地讲,将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用。对候选集进行处理,将其分类成有用句子集和没用句子集,并通过使用已知的匹配方法(例如,前向最大匹配方法)将有用句子集中的有用句子分割成词序列,所述词序列被用作扩展文集。以上已参照图4和图5分别详细描述了如何获得候选集和如何根据候选集获得扩展文集,这里将不再进行重复描述。
在步骤S904,更新LM,以获得重新训练的LM或调整的LM。具体地讲,如果收集的文集(包括在步骤S901获得的本地文集和在步骤903获得的扩展文集,如果S902确定用户不允许通过网络收集文本数据,则只包括在步骤S901获得的本地文集)大于预定阈值,则重新训练LM,否则调整LM。以上已参照图6和图7详细描述了如何更新LM,这里将不再进行重复描述。
本发明解决了现有技术中的LM和应用需求之间的不匹配的问题,根据本发明的更新LM的系统和方法能够根据特定用户的语言习惯和关心的话题以及出现的语言现象动态并经常更新LM。
需要注意的是,本发明并不限于这里示出的示例性实施例。例如,根据本发明的以上实施例的系统和方法主要通过使用本地资源和网络资源来更新LM,但还可仅仅使用本地资源或仅仅使用网络资源更新LM。
以上已参照附图详细描述了本发明的示例性实施例,本领域的技术人员应该理解,在不脱离本发明的精神和范围的情况下,可在形式和细节上进行各种改变。因此,如上所述的示例性实施例仅为了示出的目的,而不应该被解释为对本发明的限制。本发明的范围由权利要求限定。

Claims (24)

1.一种应用于移动装置的更新语言模型的系统,其特征在于所述系统包括:
本地文集产生单元,通过使用输入到移动装置的文本数据和移动装置接收的文本数据来产生本地文集;和
语言模型更新单元,根据本地文集的数量与预定阈值的比较结果调整或重新训练移动装置中预先安装的初始语言模型。
2.如权利要求1所述的系统,其特征在于所述系统还包括:
许可单元,用于确定用户是否允许通过网络收集文本数据;
扩展文集产生单元,如果在许可单元用户允许通过网络收集文本数据,则扩展文集产生单元通过网络扩展本地文集,以产生扩展文集,
其中,语言模型更新单元基于本地文集和扩展文集来更新语言模型。
3.如权利要求1所述的系统,其特征在于本地文集产生单元包括:
收集单元,收集输入到移动装置的文本数据和移动装置接收的文本数据;
文本处理单元,处理由收集单元收集的文本数据;
词分割单元,将文本处理单元处理后的文本数据分割成词序列,从中选择经常使用的词语,并将词序列和经常使用的词语存储为本地文集。
4.如权利要求2所述的系统,其特征在于扩展文集产生单元包括:
种子扩展单元,将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用;
文本分类单元,将种子扩展单元产生的候选集分类成有用句子集和没用句子集;
词分割单元,将由文本分类单元产生的有用句子集分割成词序列,将所述词序列用作扩展文集。
5.如权利要求4所述的系统,其特征在于种子扩展单元包括:
网络检索单元,将种子句子作为检索文本进行网络检索,并从返回的检索结果中选择与检索文本相关度最高的预定个数的网页;
目标文本提取器,分析所述预定个数的网页,提取与种子句子具有相同关键字的所有句子作为目标句子,并下载作为候选集。
6.如权利要求4所述的系统,其特征在于文本分类单元包括:
句子分割单元,将种子扩展单元产生的候选集中的长句分割成短句;
数字转换单元,将句子分割单元产生的短句中的数字转换成字符;
句子过滤器,从经数字转换单元转换后的句子去除不包含与领域有关的关键字的句子或包含垃圾词语的垃圾句子;
文本分类器,基于关键字将经句子过滤器过滤后的句子分成有用句子集和没用句子集。
7.如权利要求1所述的系统,其特征在于语言模型更新单元包括:
确定单元,确定本地文集中的文本数据的数量是否大于预定阈值;
调整单元,如果确定单元确定本地文集中的文本数据的数量不大于预定阈值,则调整单元基于本地文集调整初始语言模型,以产生调整的语言模型;
重新训练单元,如果确定单元确定本地文集中的文本数据的数量大于预定阈值,则重新训练单元基于本地文集重新训练语言模型,以产生重新训练的语言模型。
8.如权利要求7所述的系统,其特征在于调整单元包括:
话题映射单元,通过使用矢量空间模型将本地文集映射成相应的话题;
调整模块,增加所述话题在初始语言模型中的权重,以产生调整的语言模型。
9.如权利要求7所述的系统,其特征在于重新训练单元包括:
文本特征提取器,从本地文集中提取文本特征,以形成文本特征集;
话题聚类器,将由文本特征提取器形成的文本特征集聚类成多个话题;
话题语言模型训练器,对由话题聚类器聚类的每个话题的话题语言模型进行训练;
组合器,将话题语言模型训练器训练的每个话题的话题语言模型组合,以产生重新训练的语言模型。
10.如权利要求2所述的系统,其特征在于语言模型更新单元包括:
确定单元,确定本地文集和扩展文集中的文本数据的数量是否大于预定阈值;
调整单元,如果确定单元确定本地文集和扩展文集中的文本数据的数量不大于预定阈值,则调整单元基于本地文集和扩展文集调整初始语言模型,以产生调整的语言模型;
重新训练单元,如果确定单元确定本地文集中的文本数据的数量大于预定阈值,则重新训练单元基于本地文集和扩展文集重新训练语言模型,以产生重新训练的语言模型。
11.如权利要求10所述的系统,其特征在于调整单元包括:
话题映射单元,通过使用矢量空间模型将本地文集和扩展文集映射成相应的话题;
调整模块,增加所述话题在初始语言模型中的权重,以产生调整的语言模型。
12.如权利要求10所述的系统,其特征在于重新训练单元包括:
文本特征提取器,从本地文集和扩展文集中提取文本特征,以形成文本特征集;
话题聚类器,将由文本特征提取器形成的文本特征集聚类成多个话题;
话题语言模型训练器,对由话题聚类器聚类的每个话题的话题语言模型进行训练;
组合器,将话题语言模型训练器训练的每个话题的话题语言模型组合,以产生重新训练的语言模型。
13.一种应用于移动装置的更新语言模型的方法,其特征在于所述方法包括以下步骤:
通过使用输入到移动装置的文本数据和移动装置接收的文本数据来产生本地文集;和
根据本地文集的数量与预定阈值的比较结果调整或重新训练移动装置中预先安装的初始语言模型。
14.如权利要求13所述的方法,其特征在于所述方法还包括以下步骤:
确定用户是否允许通过网络收集文本数据;
如果用户允许通过网络收集文本数据,则通过网络扩展本地文集,以产生扩展文集,
其中,基于本地文集和扩展文集来更新语言模型。
15.如权利要求13所述的方法,其特征在于产生本地文集的步骤还包括以下步骤:
收集输入到移动装置的文本数据和移动装置接收的文本数据;
处理收集的文本数据;
将处理后的文本数据分割成词序列,从中选择经常使用的词语,并将词序列和经常使用的词语存储为本地文集。
16.如权利要求14所述的方法,其特征在于产生扩展文集的步骤还包括以下步骤:
将本地文集中的句子视为种子句子,并基于种子句子通过网络收集候选句子以产生候选集,所述候选句子与种子句子具有相同的关键字,并被人们在网络中实际使用;
将产生的候选集分类成有用句子集和没用句子集;
将产生的有用句子集分割成词序列,将所述词序列用作扩展文集。
17.如权利要求16所述的方法,其特征在于产生候选集的步骤包括以下步骤:
将种子句子作为检索文本进行网络检索,并从检索结果中选择与检索文本相关度最高的预定个数的网页;
分析所述预定个数的网页,提取与种子句子具有相同关键字的所有句子作为目标句子,并下载作为候选集。
18.如权利要求16所述的方法,其特征在于对候选集分类的步骤包括以下步骤:
将候选集中的长句分割成短句;
将短句中的数字转换成字符;
从转换后的句子去除不包含与领域有关的关键字的句子或包含垃圾词语的垃圾句子;
基于关键字将过滤后的句子分成有用句子集和没用句子集。
19.如权利要求13所述的方法,其特征在于更新步骤包括以下步骤:
确定本地文集中的文本数据的数量是否大于预定阈值;
如果确定本地文集中的文本数据的数量不大于预定阈值,则基于本地文集调整初始语言模型,以产生调整的语言模型;
如果确定本地文集中的文本数据的数量大于预定阈值,则基于本地文集重新训练语言模型,以产生重新训练的语言模型。
20.如权利要求19所述的方法,其特征在于调整初始语言模型的步骤包括以下步骤:
通过使用矢量空间模型将本地文集映射成相应的话题;
增加所述话题在初始语言模型中的权重,以产生调整的语言模型。
21.如权利要求19所述的方法,其特征在于重新训练语言模型的步骤包括以下步骤:
从本地文集中提取文本特征,以形成文本特征集;
根据文本特征集将本地文集聚类成多个话题;
对聚类的每个话题的话题语言模型进行训练;
将训练的每个话题的话题语言模型组合,以产生重新训练的语言模型。
22.如权利要求14所述的方法,其特征在于更新步骤包括以下步骤:
确定本地文集和扩展文集中的文本数据的数量是否大于预定阈值;
如果确定本地文集和扩展文集中的文本数据的数量不大于预定阈值,则基于本地文集和扩展文集调整初始语言模型,以产生调整的语言模型;
如果确定本地文集和扩展文集中的文本数据的数量大于预定阈值,则基于本地文集和扩展文集重新训练语言模型,以产生重新训练的语言模型。
23.如权利要求22所述的方法,其特征在于调整初始语言模型的步骤包括以下步骤:
通过使用矢量空间模型将本地文集和扩展文集映射成相应的话题;
增加所述话题在初始语言模型中的权重,以产生调整的语言模型。
24.如权利要求22所述的方法,其特征在于重新训练语言模型的步骤包括以下步骤:
从本地文集和扩展文集中提取文本特征,以形成文本特征集;
通过使用文本特征集将本地文集和扩展文集聚类成多个话题;
对聚类的每个话题的话题语言模型进行训练;
将训练的每个话题的话题语言模型组合,以产生重新训练的语言模型。
CN201010171102.1A 2010-04-28 2010-04-28 更新语言模型的系统和方法 Active CN102236639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010171102.1A CN102236639B (zh) 2010-04-28 2010-04-28 更新语言模型的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010171102.1A CN102236639B (zh) 2010-04-28 2010-04-28 更新语言模型的系统和方法

Publications (2)

Publication Number Publication Date
CN102236639A CN102236639A (zh) 2011-11-09
CN102236639B true CN102236639B (zh) 2016-08-10

Family

ID=44887298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010171102.1A Active CN102236639B (zh) 2010-04-28 2010-04-28 更新语言模型的系统和方法

Country Status (1)

Country Link
CN (1) CN102236639B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871402B (zh) * 2012-12-11 2017-10-10 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
CN104125548B (zh) * 2013-04-27 2017-12-22 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
CN106156056B (zh) * 2015-03-27 2020-03-06 联想(北京)有限公司 一种文本模式学习方法及电子设备
KR102413067B1 (ko) 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
CN106095845B (zh) * 2016-06-02 2021-04-06 腾讯科技(深圳)有限公司 文本分类方法和装置
CN106909656B (zh) * 2017-02-27 2019-03-08 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置
CN108573697B (zh) * 2017-03-10 2021-06-01 北京搜狗科技发展有限公司 一种语言模型更新方法、装置及设备
CN108319692B (zh) * 2018-02-01 2021-03-19 云知声智能科技股份有限公司 异常标点清洗方法、存储介质及服务器
CN111797631A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110853628A (zh) * 2019-11-18 2020-02-28 苏州思必驰信息科技有限公司 一种模型训练方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
CN101501610A (zh) * 2005-06-30 2009-08-05 谷歌公司 非标准的基于位置的文本输入

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101501610A (zh) * 2005-06-30 2009-08-05 谷歌公司 非标准的基于位置的文本输入
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统

Also Published As

Publication number Publication date
CN102236639A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN102236639B (zh) 更新语言模型的系统和方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111414479A (zh) 基于短文本聚类技术的标签抽取方法
CN106528532A (zh) 文本纠错方法、装置及终端
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN110491392A (zh) 一种基于说话人身份的音频数据清洗方法、装置和设备
CN102968987A (zh) 一种语音识别方法及系统
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN103810162A (zh) 推荐网络信息的方法和系统
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN104008132A (zh) 语音地图搜索方法及系统
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN103246655A (zh) 一种文本分类方法、装置及系统
CN106528768A (zh) 一种咨询热点分析方法及装置
CN102214227B (zh) 基于互联网层次结构存储的自动舆情监控方法
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN109508441A (zh) 数据分析方法、装置及电子设备
CN101505328A (zh) 应用语音识别的网络数据检索方法及其系统
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN106933883A (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN102521402B (zh) 文本过滤系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant