CN104823135A - 用于输入法编辑器的个人语言模型 - Google Patents

用于输入法编辑器的个人语言模型 Download PDF

Info

Publication number
CN104823135A
CN104823135A CN201280075554.7A CN201280075554A CN104823135A CN 104823135 A CN104823135 A CN 104823135A CN 201280075554 A CN201280075554 A CN 201280075554A CN 104823135 A CN104823135 A CN 104823135A
Authority
CN
China
Prior art keywords
character string
language model
latin character
latin
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280075554.7A
Other languages
English (en)
Other versions
CN104823135B (zh
Inventor
M·李
X·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201711457019.9A priority Critical patent/CN108052489A/zh
Publication of CN104823135A publication Critical patent/CN104823135A/zh
Application granted granted Critical
Publication of CN104823135B publication Critical patent/CN104823135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一些示例包括基于在文件系统中的一个或多个位置处存储的一个或多个文件的语言特性生成个人语言模型。此外,一些实现包括诸如响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于个人语言模型来预测并呈现非拉丁文字符串。

Description

用于输入法编辑器的个人语言模型
技术领域
本公开涉及计算机输入的技术领域。
背景
输入法编辑器(IME)是辅助用户将文字输入到计算设备的主机应用中的计算机功能。IME可基于从用户接收的输入提供若干个建议的词和短语作为用于插入到该主机应用中的候选。例如,用户可以输入词或短语的一个或多个开始字符,并且IME可基于所述开始字符提供一个或多个建议的词或短语以供用户选择一个想要的词或短语。
对于另一示例,IME还可以辅助用户输入非拉丁文字符,比如中文。用户可以通过键盘输入拉丁文字符。IME返回一个或多个中文字符作为供插入的候选。该用户随后可选择适当的字符并插入它。由于许多典型键盘支持输入拉丁文字符,IME有助于用户使用拉丁文字符键盘输入非拉丁文字符。
发明内容
提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
一些实现提供用于至少部分地基于个人语言模型来预测非拉丁文字符串的技术和装置。可以基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型。各位置可由用户标识。响应于经由输入法编辑器界面接收到拉丁文字符串,可以提供所预测的非拉丁文字符串。另外,响应于接收到拼音字符串,一些示例可以至少部分地基于个人语言模型来预测中文字符串。
附图说明
参考附图阐述具体实施方式。在附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在不同附图中使用同一附图标记指示相似或相同的项或特征。
图1示出根据某些实现的示例系统。
图2示出根据一些实现的输入法编辑器界面的示例。
图3示出根据一些实现的输入法编辑器界面的示例。
图4示出根据某些实现的示例流程图。
图5示出根据某些实现的示例流程图。
图6示出根据某些实现的示例位置选择界面。
图7示出某些实现可以在其中操作的示例系统。
详细描述
概述
一些示例包括用于通过输入法编辑器(IME)实现个人语言模型的技术和装置。例如,对于用户而言将字符输入进基于非拉丁文字符(例如,汉语)语言的计算机是困难的。例如,存在数千个中文字符,而典型的西方键盘受限于26个字母。本公开涉及响应于从用户接收到拉丁文字符串来预测非拉丁文字符串的IME。所预测的非拉丁文字符串至少部分地基于个人语言模型。作为解说性而非限定性的示例,IME可以用来将拼音文字(即,由拉丁文字符在语音上表示的中文字符)翻译成中文字符。应当明白,本公开不受限于中文字符。例如,其他解说性的非拉丁文字符可以包括日文字符或韩文字符,等等。
在中文输入法编辑器中,最常见的是那些基于拼音文字的。汉语拼音是一组用拉丁文字母表给中文字符的发音注音的规则。在典型的拼音IME中,用户输入他们想要输入进计算机的中文的拼音文字,并且IME负责显示所有匹配的字符。但是,许多中文字符具有相同的发音。也即,在拼音文字和对应的中文字符间存在一对多关系。为了预测非拉丁文字符窗,IME可以依赖语音模型。例如,统计语言模型(SLM)可被用来计算每个可能转换的转换概率,并选择具有最高概率的一个呈现给用户。称作N-gram SLM的特定类型的SLM可以将一串连续单词的概率分解成该串中两个、三个或更多个连续单词间条件概率之积。
可以发布具有通用用途语言模型(即,“通用”语言模型)的IME,该通用用途语言模型被训练用于最常见的打字场景。然而,这种通用语言模型对于与特定的“领域”(例如,兴趣、专业)相关联的用户而言可能是不适当的。也即,不同的用户可以与不同的领域(例如,兴趣、专业)相关联,而利用通用语言模型的IME可能建议对于来自特定领域的用户而言不合适的单词或词组。为了解说,利用通用语言模型的IME可以建议第一单词或词组(即,第一组非拉丁文字符)。该第一单词或词组可以具有与第二单词或词组(即,第二组非拉丁文字符)相同的发音。第一单词或词组对于标准用户而言是合适的,但是对于与特定领域相关联的用户而言可能较不合适。取而代之的,第二单词或词组可能对于这种与特定领域相关联的用户更加合适。
本公开描述利用个人语言模型的IME,该个人语言模型基于由特定用户在本地存储的特定文件(例如,文档)中所包括的内容被个性化地适配用于特定用户。作为解说性但非限定性的示例,软件开发者可以具有与本地存储的信息技术相关联的一个或多个文档,而记者可以具有与本地存储的报刊相关的一个或多个文档。通过本公开,可以至少部分地基于特定用户在本地存储的文档而对每个用户的语言模型进行个性化,从而使IME更准确地预测非拉丁文字符。为了解说,软件开发者的IME可以预测对于软件开发者而言相比基于通用语言模型的非拉丁文字符串更合适的非拉丁文字符串。类似地,记者的IME可以预测对于记者而言相比基于通用语言模型的非拉丁文字符串更合适的非拉丁文字符串。
本公开的IME依赖于特定用户的一个或多个可以或不可被该特定用户打字的所存储的文档。也即,可以存在对于开发个人语言模型有用但可不一定由特定用户键入的在本地存储的领域材料(例如,教科书、历史案例研究)。作为解说性示例,医生可以具有在本地存储的许多医学案例研究。这些案例研究中的一些可以由医生撰写,而另一些可以由其他人撰写或由医生为调查而收集。从这些文档可以生成反映用户的领域兴趣(即,领域专用术语以及如何构成句子)的语言特性的个人语言模型。
用户可以标识与特定用户的领域相关的文件在本地存储的一个或多个位置。为了说明,软件开发者可以在文件系统中指定存储文件的一个或多个位置,这些文件可被用来开发针对信息技术领域被个性化的语言模型。类似地,体育记者可以在文件系统中指定存储文件的一个或多个位置,这些文件可被用来开发针对体育记者领域被个性化的语言模型。尽管软件开发者可以在本地存储与体育相关的文档,但这一用户可以不将这些位置标识为将被用来个性化语言模型的位置。在特定的实施例中,可以向用户提供图形用户界面(GUI)以标识将在个性化语言模型时使用的这些位置。
示例实现
图1示出根据一些实现的系统100的示例框架。系统100包括输入法编辑器(IME)应用102,该输入法编辑器(IME)应用102在通信上耦合至个人语言模型104和通用语言模型106。系统100进一步包括自适应语言模型构建器108,该自适应语言构建器108在通信上耦合至文件系统110。一个或多个文件112存储在文件系统110中的一个或多个位置。在特定的实施例中,由用户118来标识一个或多个位置114。尽管在图1中计算设备120被示出与系统100中的上述组件分开,但是应当明白这仅仅是出于解说的目的。例如,在一些示例中,系统100的所有组件可以包括在计算设备120中,而在另一些示例中,组件可以跨能够相互通信的任何数目个计算设备分布,诸如通过一个或多个网络上或其他通信连接。
IME应用102配置成生成IME界面116,以供经由计算设备120显示给用户118。自适应语言模型构建器108配置成基于存储在文件系统110中一个或多个位置114处的一个或多个文件112的语言特性来生成个人语言模型104。IME应用106进一步配置成经由IME界面116接收拉丁文字符串122。响应于接收到拉丁文字符串122,IME应用106配置成至少部分地基于个人语言模型104预测非拉丁文字符串124。
自适应语言模型构建器108可以分析一个或多个文件112并基于一个或多个文件112的语言特性来生成个人语言模型104。例如,个人语言模型104可以包括N-gram统计语言模型。这种N-gram统计语言模型可以将一串连续单词的概率分解成该串中多个(例如,两个、三个、四个、五个,等等)连续单词间条件概率之积。可以对一个或多个文件112中的每一个执行这种分析。
一些实现提供可以检测到新内容已经被存入文件系统110的监视过程。响应于检测到已经保存了新内容,自适应语言模型构建器108可以处理新内容以更新个人语言模型104。替换地,系统服务可以周期性地监视一个或多个位置114以确定新内容是否已经保存到一个或多个位置114。响应于确定已经保存了新的内容,自适应语言模型构建器108可以处理新内容以更新个人语言模型104。
IME应用102经由IME界面116接收拉丁字符串122。作为解说性示例,拉丁文字符串122可以包括拼音文字,并且预测的非拉丁文字符串124可以包括一个或多个中文字符。
多个非拉丁文字符串可以与经由IME界面116接收到的拉丁文字符串122相关联。转换概率可以与多个非拉丁文字符串中的每个非拉丁文字符串相关联。IME应用102可以至少部分地基于个人语言模型104来预测用于显示给用户118的非拉丁文字符串124。在特定的实施例中,IME应用102通过标识具有最高转换概率的非拉丁文字符串来预测非拉丁文字符串124。IME应用102可以基于转换概率对多个非拉丁文字符传排序,并且可以经由IME界面116显示非拉丁文字符串经排序的列表。
在一些实现中,可以基于个人语言模型104和通用语言模型106来确定一个或多个预测的非拉丁文字符串。作为解说性示例,C可以表示要被预测的中文串,Pm可以表示基于通用语言模型106确定的概率,而Pd可以表示基于个人语言模型104确定的概率。可以基于加权因子(例如,在本文中被称为λ的0和1之间的值)来确定个人语言模型104的贡献。也即,可以基于公式P(C)=λPm(C)+(1-λ)Pd(C)确定C的概率。
在一些实现中,加权因子可以包括默认加权因子。也即,加权因子可以被“预调谐”成之前在多数情况下已经被验证为准确的加权因子。在另一实施例中,加权因子可以包括用户定义的加权因子。例如,可以从用户118接收用户定义的加权因子,并且加权因子可以从默认加权因子修改成用户定义的加权因子。这可以允许用户118根据个人偏好来“调谐”加权因子。
通用语言模型106可以将第一非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。个人语言模型104可以将第二非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。由通用语言模型106标识的第一非拉丁文字符串可以不同于由个人语言模型104标识的第二非拉丁文字符串。
作为解说性示例,从用户118接收的拉丁文字符串122可以是拼音文字“wan'shang'shi'shi”。对于记者而言,中文字符串“晚上十时”(意思是“10P.M.”)比通用语言模型106预测的中文字符串“晚上试试”(意思是“在晚上试试”)更合适于显示给用户118。
作为另一解说性示例,从用户118接收的拉丁文字符串122可以是拼音文字“you'xiang'tu”。对于软件开发者而言,中文字符串“有向图”(意思是“有方向的图”)比通用语言模型106预测的中文字符串“油箱图”(意思是“储油罐图”)更合适于显示给用户118。
因此,图1示出经由IME界面116显示的非拉丁文字符串124可以取决于个人语言模型104是否基于在一个或多个位置114本地存储的一个或多个文件112的语言特性将该非拉丁文字符串124标识为更适于显示给特定用户118而变。
图2示出根据一些实现的输入法编辑器(IME)界面116的示例。为了解说,图2的IME界面116可以对应于图1的IME界面116。
IME界面116包括拉丁文字符串输入窗口202和非拉丁文字符串候选窗口204。拉丁文字符串输入窗口202配置成接收拉丁文字符串(例如,图1的拉丁文字符串122)。非拉丁文字符串候选窗口204配置成显示一个或多个非拉丁文字符串候选。
图2示出多个非拉丁文(例如,中文)字符串可以与经由IME界面116接收到的拉丁文字符串相关联。转换概率可以与非拉丁文字符串中的每个非拉丁文字符串相关联。IME应用(例如,图1的IME应用102)可以基于转换概率对多个非拉丁文字符传排序,并且可以经由IME界面116显示非拉丁文字符串经排序的列表。
作为图2中示出的示例,经由拉丁文字符串输入窗口202接收的拉丁文字符串可以是拼音文字“wan'shang'shi'shi”。非拉丁文字符串候选窗口204显示第一中文字符串候选206(即,晚上十时)和第二中文字符串候选208(即,晚上试试)。例如,个人语言模型104可以标识第一中文字符串候选206(即,晚上十时)为具有最高转换概率的中文字符串。通用语言模型106可以标识第二中文字符串候选208(即,晚上试试)为具有最高转换概率的中文字符串。
如上所解释的,中文字符串“晚上十时”(意思是“10P.M.”)可能比中文字符串“晚上试试”(意思是“在晚上试试”)更合适于记者。由此,由个人语言模型104预测的第一中文字符串候选206(即,晚上十时)可以被标识为相比通用语言模型106预测的第二中文字符串候选208(即,晚上试试)具有更高的转换概率。因此,中文字符串“晚上十时”可以作为第一中文字符串候选206呈现在非拉丁文字符串候选窗口204中。
在图2中示出的示例中,提供由通用语言模型106预测的中文字符串“晚上试试”作为非拉丁文字符串候选窗口204中的第二中文字符串候选208。然而,应当明白可以呈现替换的非拉丁文字符串候选。例如,可以呈现由个人语言模型104预测的替换的中文字符串。此外,尽管在非拉丁文字符串候选窗口204中仅仅示出了两个候选,但是可以显示替换数目个候选。
图3解说接收与图2的拉丁文字符串输入不同的拉丁文字符串输入之后的示例输入法编辑器界面116。
作为图3中示出的示例,经由拉丁文字符串输入窗口202接收的拉丁文字符串可以是拼音文字“you'xiang'tu”。非拉丁文字符串候选窗口204显示第一中文字符串候选302(即,有向图)和第二中文字符串候选304(即,油箱图)。如上所解释的,中文字符串“有向图”(意思是“有方向的图”)可能比中文字符串“油箱图”(意思是“储油罐图”)更合适于软件开发者。因此,中文字符串“有向图”可以作为第一中文字符串候选302呈现在非拉丁文字符串候选窗口204中。
在图3中示出的示例中,提供中文字符串“油箱图”作为非拉丁文字符串候选窗口204中的第二中文字符串候选304。然而,应当明白可以呈现替换的非拉丁文字符串候选。此外,尽管在非拉丁文字符串候选窗口204中仅仅示出了两个候选,但是可以显示替换数目个候选。
图4和5示出根据一些实现的示例过程流。在图4和5的流程图中,每一个框表示可以用硬件、软件或其组合来实现的一个或多个操作。在软件的上下文中,各个框表示当由一个或多个处理器执行时使处理器执行既定操作的计算机可执行指令。一般而言,计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述各个框的次序并不旨在被解释为限制,并且任何数量的所述框可以按任何次序和/或并行地组合以实现该过程。许多其他变化鉴于本发明将对于本领域的技术人员显而易见。出于讨论的目的,过程流400和500参考以上描述的系统100来描述,但其他模型、框架、系统和环境可实现所解说的过程。
参考图4,在框402,过程流400包括基于在文件系统中的一个或多个位置处存储的一个或多个文件的语言特性生成个人语言模型。例如,图1的IME应用可以基于存储在文件系统110中一个或多个位置114处的一个或多个文件112的语言特性导出个人语言模型104。作为解说性而非限定性示例,可以采用N-gram统计语言模型来分析一个或多个文件112。采用这种N-gram SLM,通用语言模型106可以将第一非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。采用N-gram SLM来分析一个或多个文件112,个人语言模型104可以将第二非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。取决于一个或多个文件112的语言特性,由个人语言模型104预测的第二非拉丁文字符串可以不同于由通用语言模型106预测的第一非拉丁文字符串。因此,一个或多个文件112的内容可以影响非拉丁文字符串候选的预测。取决于个一个或多个文件112的内容,预测的非拉丁文字符串可以更准确地反映出用户118的兴趣。
在框404,过程流400包括响应于经由IME界面接收到拉丁文字符串,至少部分地基于个人语言模型预测非拉丁文字符串。例如,图1的IME应用102可以响应于经由IME界面116接收到拉丁文字符串122,至少部分地基于个人语言模型104预测非拉丁文字符串124。
多个非拉丁文字符串可以与经由IME界面116接收到的拉丁文字符串122相关联。多个非拉丁文字符串可以被显示为供用户选择的候选。转换概率可以与非拉丁文字符串候选中的每个非拉丁文字符串相关联。转换概率可以被用来确定显示非拉丁文字符串候选的次序。
作为解说性示例,图2示出响应于用户118经由拉丁文字符串输入窗口202提供拼音文字“wan'shang'shi'shi”而显示的非拉丁文字符串经排序的列表。非拉丁文字符串候选窗口204显示第一中文字符串候选“晚上十时”和第二中文字符串候选“晚上试试”。在此情况下,确定与第一中文字符串候选“晚上十时”相关联的转换概率高于与第二中文字符串候选“晚上试试”相关联的转换概率。
作为另一解说性示例,参考图3,响应于用户118经由拉丁文字符串输入窗口202提供拼音文字“you'xiang'tu”,非拉丁文字符串候选窗口204显示第一中文字符串候选“有向图”和第二中文字符串候选“油箱图”。在此情况下,确定与第一中文字符串候选“有向图”相关联的转换概率高于与第二中文字符串候选“有向图”相关联的转换概率。
在特定的实施例中,可以基于个人语言模型104和通用语言模型106来确定非拉丁文字符串124。在一个实施例中,第一中文字符串候选(例如,图2中的“晚上十时”或图3中的“有向图”)可以表示根据个人语言模型104具有最高转换概率的非拉丁文字符串。第二中文字符串候选(例如,图2中的“晚上试试”或图3中的“油箱图”)可以表示根据通用语言模型106具有最高转换概率的非拉丁文字符串。
可以基于加权因子确定个人语言模型104的贡献。例如,加权因子可以包括默认加权因子或用户定义的加权因子。在用户118确定中文字符串候选的次序不合适的情况下,用户118可以相应地调整加权因子。
图5示出根据一些实现的另一示例过程流。图5示出可以基于正被保存到文件系统中的一个或多个位置的新内容来更新个人语言模型。
在框502,过程流500包括基于在文件系统中的一个或多个位置处存储的一个或多个文件的语言特性生成个人语言模型。例如,图1的IME应用可以基于存储在文件系统110中一个或多个位置114处的一个或多个文件112的语言特性生成个人语言模型104。
在框504,过程流500包括响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于个人语言模型预测非拉丁文字符串。例如,图1的IME应用102可以响应于经由IME界面116接收到拉丁文字符串120,至少部分地基于个人语言模型104预测非拉丁文字符串112。
在框506,过程流500包括确定新内容是否已被保存。当确定新的浏览内容已被保存时,过程流500可以进行至框508。当确定新的浏览内容尚未被保存时,过程流500返回框504。
在框508,过程流500可以包括处理新内容以更新个人语言模型。
在一个实施例中,在框506,监视过程可以检测新内容何时已被存入文件系统110。例如,参考图1,监视过程可以检测新内容何时已被存入文件系统110。当新内容已经被保存时,可以触发扫描以检索新内容,并且新内容可以被处理以更新个人语言模型。例如,图1的自适应语言模型构建器108可以处理在文件系统110中保存的新内容以更新个人语言模型104。在替换性实施例中,在框506,系统服务可以针对新内容而周期性地监视文件系统,并且随后处理新内容以更新个人语言模型。例如,参考图1,系统服务可以针对新内容而监视文件系统110,并且随后处理新内容以更新个人语言模型104。
此后,可以至少部分地基于更新的个人语言模型来预测非拉丁文字符串。例如,在框510,可以经由IME界面(例如,IME界面116)接收拉丁文字符串。响应于接收到这一拉丁文字符串,可以至少部分地基于更新的个人语言模型来预测非拉丁文字符串。
在特定的解说性实施例中,在框510接收到的拉丁文字符串(即,在已经更新个人语言模型之后)可以与在框504接收到的拉丁文字符串相同。取决于由正保存的新内容引起的对个人语言模型的更新,所预测的非拉丁文字符可以相同或不同。即,对个人语言模型的更新可以影响或不影响对非拉丁文字符串的预测。为了解说,个人语言模型在更新之前(即,在502导出个人语言模型)可以已经预测了特定的非拉丁文字符串。更新的个人语言模型(即,在框508的更新之后)可以预测相同的拉丁文字符串或可以预测不同的非拉丁文字符串。
因此,更新个人语言模型可以影响与一个或多个拉丁文字符串相关联的预测但不影响与其他拉丁文字符串相关联的预测。
图6示出根据一些实现的示例位置选择界面600的示例。在特定的实施例中,位置选择界面600可以经由图1的计算设备120呈现给用户118。位置选择界面600可以允许用户118在文件系统110中指定存储文件的一个或多个位置,所述文件可被用来生成个人语言模型104。
在图6所示的示例中,第一用户标识的位置602和第二用户标识的位置604已经被用户118标识为在文件系统110中存储将用以生成个人语言模型104的文件的位置。位置选择界面600可以包括多个可选位置标识符(例如,复选框、单选按钮)。在图6所示的示例中,与第一用户标识的位置602相关联的第一可选位置标识符606以及与第二用户标识的位置604相关联的第二可选位置标识符608已经被用户118选择。在这一解说性示例中,用户118已经标识了“我的文档”文件夹下的“文章”文件夹和“项目”文件夹。但是,用户118尚未标识“体育”文件夹。也即,用户118已经指定应当使用“文章”文件夹中的文件和“项目”文件夹中的文件来生成个人语言模型104。但是,用户118已经指定不应使用“体育”文件夹中的文件来生成个人语言模型104。在此示例中,用户118可能是软件开发者,并且“体育”文件夹中的任何文件可能不合适于在生成针对信息技术领域而个性化的语言模型中使用。
示例计算设备和环境
图7示出了可用于实现此处所描述的模块和功能的计算设备700和环境的示例配置。如图7所示,计算设备700与图1中的计算设备120相对应,但应当理解,计算设备120可以按照所例示的类似方式来配置。
计算设备700可包括至少一个处理器702、存储器704、通信接口706、显示设备708(例如,触摸屏显示器)、其他输入/输出(I/O)设备710(例如,触摸屏显示器或鼠标和键盘)、以及一个或多个大容量存储设备712,它们能够诸如经由系统总线714或其他合适的连接彼此通信。
处理器702可以是单个处理单元或多个处理单元,它们都可包括单个或多个计算单元或多个核。处理器702可被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器702可被配置成取出并执行存储在存储器704、大容量存储设备712或其他计算机可读介质中的计算机可读指令,以及其他能力。
存储器704和大容量存储设备712是用于存储由处理器702执行来执行上述各种功能的指令的计算机存储介质的示例。例如,存储器704一般包括易失性存储器和非易失性存储器(例如,RAM、ROM等)。此外,大容量存储设备712一般可包括硬盘驱动器、固态驱动器、包括外部和可移动驱动器在内的可移动介质、存储卡、闪存、软盘、光盘(例如,CD、DVD)、存储阵列、网络附连存储、存储区域网络等等。存储器704和大容量存储设备712在本文中统称为存储器或计算机存储介质,并且可以是能够将计算机可读、处理器可执行程序指令作为计算机程序代码来存储的计算机可读介质,计算机程序代码可由作为被配置成执行在本文中的实现中描述的操作和功能的特定机器的处理器702执行。
计算设备700还可包括用于诸如经由网络、直接连接等与其他设备交换数据的一个或多个通信接口706,如以上所讨论的。通信接口706可便于各种各样网络和协议类型内的通信,包括有线网络(例如,LAN、电缆等)和无线网络(例如,WLAN、蜂窝、卫星等)、因特网等等。通信接口706也可提供与诸如存储阵列、网络附连存储、存储区域网络等中的外部存储(未示出)的通信。
在此的讨论涉及由特定组件或模块来发送和接收的数据。这不应被作为限制,因为这样的通信并不需要是直接的,并且该特定组件或模块并不需要必须是单个功能单元。这不应作为仅针对其中各组件直接向另一组件发送数据并从其接收数据的限制实现。这些信号可改为由分开的组件在接收到数据后来中继。此外,这些组件可以结合在一起,或者功能可以以不限于以上讨论的那些方式的各种方式而分散在各组件中。鉴于本文提供的公开,各种实现的逻辑和实际结构和框架的其他变型将对于本领域的普通技术人员显而易见。
诸如触摸屏显示器或其他显示设备之类的显示设备708可被包括在某些实现中。显示设备708可以配置成显示如上所述的IME界面116。其他I/O设备710可以是从用户接收各种输入并向用户提供各种输出的设备,并且可包括触摸屏(诸如,触摸屏显示器)、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
存储器704可包括根据本文中讨论的实现的、供计算设备700执行的模块和组件。在所示示例中,存储器704包括如上关于图1所述的IME应用102和自适应语言模型构建器108。存储器704还可包括一个或多个其他模块716,如操作系统、驱动器、应用软件、通信软件等等。存储器704还可包括其他数据718,如在执行上述功能时存储的数据以及其他模块716所使用的数据。存储器704还可以包括这里描述或提及的其他数据和数据结构。例如,存储器704可包括在导出和生成如上所述的个人语言模型104的过程中使用的信息。
此处所描述的示例系统和计算设备仅是适用于某些实现的示例,并且不旨在对可实现此处所描述的过程、组件和特征的环境、体系结构和框架的使用范围或功能提出任何限制。因此,此处的实现可用于众多环境或体系结构,并且可以在通用或专用计算系统或具有处理能力的其他设备中实现。一般而言,参考附图描述的任何功能都可使用软件、硬件(例如,固定逻辑电路)或这些实现的组合来实现。此处所使用的术语“模块”、“机制”、或“组件”一般表示可被配置成实现规定功能的软件、硬件或软件和硬件的组合。例如,在软件实现的情况下,术语“模块”、“机制”或“组件”可表示当在一个或多个处理设备(例如,CPU或处理器)上执行时执行指定任务或操作的程序代码(和/或声明型指令)。程序代码可被存储在一个或多个计算机可读存储器设备或其他计算机存储设备中。由此,此处所描述的过程、组件和模块可由计算机程序产品来实现。
虽然在图7中被示为存储在计算设备704的存储器700中,但IME应用102以及自适应学习模型构建器108或其各部分可以使用可由计算设备700访问的任何形式的计算机可读介质来实现。如此处所使用的,“计算机可读介质”包括至少两种类型的计算机可读介质,即计算机存储介质和通信介质。
计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。
相反,通信介质可在诸如载波之类的已调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的,计算机存储介质不包括通信介质。
此外,本发明提供了如在附图中描述和示出的各种示例实现。然而,本公开并不局限于此处所描述和示出的实现,如本领域的技术人员所知道的那样,可延伸至其它实现。在说明书中所引用的“一个实现”、“这个实现”、“这些实现”或“一些实现”意味着所描述的特定特征、结构或特性被包括在至少一个实现中,且在说明书中的各个位置中的这些短语的出现并不需要全部都引用同一实现。
结语
尽管用结构特征和/或方法动作专用的语言描述了本主题,但所附权利要求书中定义的主题不限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明旨在覆盖所公开的实现的任一和所有改编或变型,并且所附权利要求书不应被解释为限于说明书中所公开的具体实现。相反,本文的范围完全由所附权利要求书以及这些权利要求所授权的等效技术方案的完整范围来确定。

Claims (20)

1.一种方法,包括:
至少部分地基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型;以及
响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于所述个人语言模型来预测非拉丁文字符串。
2.如权利要求1所述的方法,其特征在于,所述一个或多个位置由用户标识。
3.如权利要求1所述的方法,其特征在于,所预测的非拉丁文字符串基于所述个人语言模型和通用语言模型来确定。
4.如权利要求3所述的方法,其特征在于,所述个人语言模型的贡献基于加权因子确定。
5.如权利要求4所述的方法,其特征在于,所述加权因子包括默认加权因子或用户定义的加权因子。
6.如权利要求1所述的方法,其特征在于,进一步包括经由所述输入法编辑器界面呈现所预测的非拉丁文字符串。
7.如权利要求1所述的方法,其特征在于:
所述拉丁文字符串包括拼音字符串;以及
所预测的非拉丁文字符串包括中文字符串。
8.如权利要求1所述的方法,其特征在于,多个非拉丁文字符串与经由所述输入法编辑器界面接收到的拉丁文字符串相关联。
9.如权利要求9所述的方法,其特征在于,转换概率与所述多个非拉丁文字符串中的每个非拉丁文字符串相关联。
10.如权利要求9所述的方法,其特征在于,预测所述非拉丁文字符串包括标识所述多个非拉丁文字符串中具有最高转换概率的非拉丁文字符串。
11.如权利要求10所述的方法,其特征在于,通用语言模型标识所述多个非拉丁文字符串中的第一非拉丁文字符串为具有所述最高转换概率的非拉丁文字符串。
12.如权利要求11所述的方法,其特征在于,所述个人语言模型将所述多个非拉丁文字符串中的第二非拉丁文字符串标识为具有所述最高转换概率的非拉丁文字符串。
13.如权利要求12所述的方法,其特征在于,由所述通用语言模型标识的所述第一非拉丁文字符串不同于由所述个人语言模型标识的所述第二非拉丁文字符串。
14.如权利要求1所述的方法,其特征在于,所述个人语言模型包括N-gram统计语言模型。
15.一种计算系统,包括:
一个或多个处理器;
一个或多个存储指令的计算机可读介质,当所述指令被一个或多个处理器执行时,致使所述一个或多个处理器以执行包括以下的动作:
基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型;以及
响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于所述个人语言模型来预测非拉丁文字符串。
16.如权利要求15所述的计算系统,其特征在于,所述动作还包括:
检测新内容已经被保存;以及
响应于检测到新内容已经被保存,处理所述新内容以更新所述个人语言模型。
17.如权利要求15所述的计算系统,其特征在于,所述动作还包括:
周期性地监视所述一个或多个位置以确定新内容是否已经被保存到所述一个或多个位置;以及
处理所述新内容以更新所述个人语言模型。
18.一个或多个维护指令的计算机可读介质,当所述指令被一个或多个处理器执行时,配置所述一个或多个处理器以执行包括以下的动作:
基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型,其中所述一个或多个位置由用户标识;
响应于经由输入法编辑器界面接收到拉丁文字符串:
基于在通用语言模型的基础上确定的第一转换概率和在所述个人语言模型的基础上确定的第二转换概率来确定多个非拉丁文字符串中每个非拉丁文字符串的总转换概率,其中所述第二转换概率对所述总转换概率的贡献基于加权因子加权;
基于所述总转换概率对所述多个非拉丁文字符串排序;以及
经由所述输入法编辑器界面显示经排序的非拉丁文字符串的列表。
19.如权利要求18所述的一个或多个种计算机可读介质,其特征在于,所述动作进一步包括:
接收用户定义的加权因子;以及
将所述加权因子从默认加权因子修改成所述用户定义的加权因子。
20.如权利要求18所述的一个或多个种计算机可读介质,其特征在于,所述一个或多个位置由用户经由位置选择界面标识。
CN201280075554.7A 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型 Active CN104823135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711457019.9A CN108052489A (zh) 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/080818 WO2014032266A1 (en) 2012-08-31 2012-08-31 Personal language model for input method editor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201711457019.9A Division CN108052489A (zh) 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型

Publications (2)

Publication Number Publication Date
CN104823135A true CN104823135A (zh) 2015-08-05
CN104823135B CN104823135B (zh) 2018-01-30

Family

ID=50182377

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201711457019.9A Pending CN108052489A (zh) 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型
CN201280075554.7A Active CN104823135B (zh) 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201711457019.9A Pending CN108052489A (zh) 2012-08-31 2012-08-31 用于输入法编辑器的个人语言模型

Country Status (4)

Country Link
US (1) US9824085B2 (zh)
EP (1) EP2891043A4 (zh)
CN (2) CN108052489A (zh)
WO (1) WO2014032266A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9424246B2 (en) * 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
WO2014000263A1 (en) * 2012-06-29 2014-01-03 Microsoft Corporation Semantic lexicon-based input method editor
CN108052489A (zh) 2012-08-31 2018-05-18 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
JP6362452B2 (ja) * 2014-07-03 2018-07-25 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
US9965569B2 (en) 2015-03-13 2018-05-08 Microsoft Technology Licensing, Llc Truncated autosuggest on a touchscreen computing device
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN108920560B (zh) * 2018-06-20 2022-10-04 腾讯科技(深圳)有限公司 生成方法、训练方法、装置、计算机可读介质及电子设备
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040201607A1 (en) * 2002-01-15 2004-10-14 Airtx, Incorporated Alphanumeric information input method
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
US20110137635A1 (en) * 2009-12-08 2011-06-09 Microsoft Corporation Transliterating semitic languages including diacritics
US20120016658A1 (en) * 2009-03-19 2012-01-19 Google Inc. Input method editor
CN102508554A (zh) * 2011-10-02 2012-06-20 上海量明科技发展有限公司 一种通信关联的输入方法、个性语库及系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701462A (en) * 1993-12-29 1997-12-23 Microsoft Corporation Distributed file system providing a unified name space with efficient name resolution
US6023697A (en) * 1997-02-24 2000-02-08 Gte Internetworking Incorporated Systems and methods for providing user assistance in retrieving data from a relational database
US6321219B1 (en) * 1998-08-14 2001-11-20 Microsoft Corporation Dynamic symbolic links for computer file systems
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US6389386B1 (en) * 1998-12-15 2002-05-14 International Business Machines Corporation Method, system and computer program product for sorting text strings
US20050065931A1 (en) * 2003-09-19 2005-03-24 Airtx, Inc. Disambiguation method and apparatus
US7478033B2 (en) 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN101286154B (zh) 2007-04-09 2016-08-10 谷歌股份有限公司 输入法编辑器用户档案
KR101465769B1 (ko) 2007-06-14 2014-11-27 구글 인코포레이티드 사전 단어 및 어구 판정
CN101256448B (zh) * 2008-03-24 2010-07-21 腾讯科技(深圳)有限公司 输入法实现方法及装置、客户端
US8407236B2 (en) 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
CN101694608B (zh) * 2008-12-04 2012-07-04 北京搜狗科技发展有限公司 一种输入法及输入法系统
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US8996550B2 (en) * 2009-06-03 2015-03-31 Google Inc. Autocompletion for partially entered query
US9104244B2 (en) 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
EP2513797A4 (en) * 2009-12-14 2016-09-28 Daj Asparna Ltd REVISION CONTROL SYSTEM AND METHOD
KR101681281B1 (ko) * 2010-04-12 2016-12-12 구글 인코포레이티드 입력 방법 에디터에 대한 확장 프레임워크
CN101847159A (zh) * 2010-05-11 2010-09-29 中兴通讯股份有限公司 终端设备及其词库更新的方法
WO2011143827A1 (en) * 2010-05-21 2011-11-24 Google Inc. Input method editor
CN102419639A (zh) * 2010-09-28 2012-04-18 英业达股份有限公司 提供扩充字词的输入系统及其方法
CN102591472B (zh) * 2011-01-13 2014-06-18 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN102426591A (zh) * 2011-10-31 2012-04-25 北京百度网讯科技有限公司 一种操作用于内容输入的语料库的方法和设备
CN108052489A (zh) 2012-08-31 2018-05-18 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040201607A1 (en) * 2002-01-15 2004-10-14 Airtx, Incorporated Alphanumeric information input method
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
US20120016658A1 (en) * 2009-03-19 2012-01-19 Google Inc. Input method editor
US20110137635A1 (en) * 2009-12-08 2011-06-09 Microsoft Corporation Transliterating semitic languages including diacritics
CN102508554A (zh) * 2011-10-02 2012-06-20 上海量明科技发展有限公司 一种通信关联的输入方法、个性语库及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术

Also Published As

Publication number Publication date
CN104823135B (zh) 2018-01-30
WO2014032266A1 (en) 2014-03-06
US20150186362A1 (en) 2015-07-02
US9824085B2 (en) 2017-11-21
EP2891043A1 (en) 2015-07-08
EP2891043A4 (en) 2015-10-14
CN108052489A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN104823135A (zh) 用于输入法编辑器的个人语言模型
US11403345B2 (en) Method and system for processing unclear intent query in conversation system
CN104813275B (zh) 用于预测文本的方法和系统
US11157693B2 (en) Stylistic text rewriting for a target author
CN104603772B (zh) 移动电子设备及移动电子设备中的方法和系统
CN101669116B (zh) 用于生成亚洲语字符的识别体系结构
US8812302B2 (en) Techniques for inserting diacritical marks to text input via a user device
US9760569B2 (en) Method and system for providing translated result
US9529898B2 (en) Clustering classes in language modeling
CN104838348B (zh) 递增的基于特征的手势键盘解码
CN101622616B (zh) 共享语言模型
TW201519075A (zh) 文字範圍的智慧選擇
US20170046330A1 (en) Context specific language model for input method editor
CN101641691A (zh) 集成拼音和笔画输入
CN112507735A (zh) 机器翻译模型的训练方法、装置和电子设备
US20160239470A1 (en) Context sensitive input tools
CN112384909A (zh) 利用无监督学习来改进文本到内容建议的方法和系统
CN112400165A (zh) 利用无监督学习来改进文本到内容建议的方法和系统
CN105630763A (zh) 用于提及检测中的消歧的方法和系统
CN115034201A (zh) 使用弱监督多奖励强化学习扩充用于句子分类的文本数据
CN103106214B (zh) 一种候选词组输出方法和电子设备
US20150199332A1 (en) Browsing history language model for input method editor
CN104813257A (zh) 用于输入法编辑器的浏览历史语言模型
US20160078013A1 (en) Fault-tolerant input method editor
KR101645674B1 (ko) 자동완성 후보 단어 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant