CN104813257A - 用于输入法编辑器的浏览历史语言模型 - Google Patents

用于输入法编辑器的浏览历史语言模型 Download PDF

Info

Publication number
CN104813257A
CN104813257A CN201280075563.6A CN201280075563A CN104813257A CN 104813257 A CN104813257 A CN 104813257A CN 201280075563 A CN201280075563 A CN 201280075563A CN 104813257 A CN104813257 A CN 104813257A
Authority
CN
China
Prior art keywords
character string
language model
latin character
browsing histories
latin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280075563.6A
Other languages
English (en)
Inventor
M·李
X·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN104813257A publication Critical patent/CN104813257A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

一些示例可以包括基于浏览历史信息生成浏览历史语言模型。此外,一些实现可以包括诸如响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于浏览历史语言模型来预测并呈现非拉丁文字符串。

Description

用于输入法编辑器的浏览历史语言模型
技术领域
本公开涉及计算机输入的技术领域。
背景
输入法编辑器(IME)是辅助用户将文字输入到计算设备的主机应用中的计算机功能。IME可基于从用户接收到的输入提供若干个建议的词和短语作为用于插入到该主机应用中的候选。例如,用户可以输入词或短语的一个或多个开始字符,并且IME可基于所述开始字符提供一个或多个建议的词或短语以供用户选择一个想要的词或短语。
对于另一示例,IME还可以辅助用户输入非拉丁文字符,比如中文。用户可以通过键盘输入拉丁文字符。IME返回一个或多个中文字符作为供插入的候选。该用户随后可选择适当的字符并插入它。由于许多典型键盘支持输入拉丁文字符,IME有助于用户使用拉丁文字符键盘输入非拉丁文字符。
发明内容
提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
一些实现提供用于至少部分地基于浏览历史语言模型来预测非拉丁文字符串的技术和装置。可以基于浏览历史信息来生成浏览历史语言模型。例如,浏览历史信息至少可以包括高速缓存的浏览内容,并且还可以包括实时浏览内容。响应于经由输入法编辑器界面接收到拉丁文字符串,可以提供所预测的非拉丁文字符串。另外,响应于接收到拼音字符串,一些示例可以至少部分地基于浏览历史语言模型来预测中文字符串。
附图说明
参考附图阐述具体实施方式。在附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在不同附图中使用同一附图标记指示相似或相同的项或特征。
图1示出根据某些实现的示例系统。
图2示出根据一些实现的输入法编辑器界面的示例。
图3示出根据一些实现的输入法编辑器界面的示例。
图4示出根据某些实现的示例流程图。
图5示出根据某些实现的示例流程图。
图6示出某些实现可以在其中操作的示例系统。
详细描述
概述
一些示例包括用于通过输入法编辑器(IME)实现浏览历史语言模型的技术和装置。例如,对于基于非拉丁文字符(例如,汉语)语言而言,用户可能难以将字符输入到计算机中。例如,存在数千个中文字符,而典型的西方键盘受限于26个字母。本公开涉及响应于从用户接收到拉丁文字符串而预测非拉丁文字符串的IME。所预测的非拉丁文字符串至少部分地基于浏览历史语言模型。作为说明性而非限定性的示例,IME可以用来将拼音文本(即,由拉丁文字符在语音上表示的中文字符)翻译成中文字符。应当明白,本公开不受限于中文字符。例如,其他说明性的非拉丁文字符可以包括日文字符或韩文字符,等等。
在中文输入法编辑器中,最常见的是那些基于拼音文字的。汉语拼音是一组用拉丁文字母表给中文字符的发音注音的规则。在典型的拼音IME中,用户输入他们想要输入进计算机的中文的拼音文字,并且IME负责显示所有匹配的字符。但是,许多中文字符具有相同的发音。也即,在拼音文字和对应的中文字符间存在一对多关系。为了预测非拉丁文字符窗,IME可以依赖语音模型。例如,统计语言模型(SLM)可被用来计算每个可能转换的转换概率,并选择具有最高概率的一个呈现给用户。称作N-gram SLM的特定类型的SLM可以将一串连续单词的概率分解成该串中两个、三个或更多个连续单词间条件概率之积。
可以发布具有通用用途语言模型(即,“通用”语言模型)的IME,该通用用途语言模型被训练用于最常见的打字场景。然而,这种通用语言模型对于特定的用户(例如,具有特定浏览历史的用户)可能是不适当的。即,不同的用户可以具有不同的偏好,而利用通用语言模型的IME可能建议对于特定用户而言不合适的单词或词组。为了解说,利用通用语言模型的IME可以建议第一单词或词组(即,第一组非拉丁文字符)。该第一单词或词组可以具有与第二单词或词组(即,第二组非拉丁文字符)相同的发音。第一单词或词组对于标准用户而言是合适的,但是对于另一用户而言可能较不合适。取而代之的,第二单词或词组可能对于这种用户更加合适。
Web浏览历史是有关用户的重要信息源。例如,用户可能浏览有关最近新闻事件的内容或者可能浏览用户感兴趣的特殊主题。例如,计算机程序可以针对各种新闻条目浏览一个或多个门户网站,并且还可以浏览一个或多个软件开发网站。由此,用户的浏览历史可以包括与编程技术以及其他信息有关的最新普遍热点主题和文字。
本公开描述了利用浏览历史语言模型来预测非拉丁文字符串的IME,利用浏览历史语言模型预测非拉丁文字符串相比基于通用语言模型预测的非拉丁文字符串对于有特定浏览历史的用户而言更加合适。
示例实现
图1示出根据一些实现的系统100的示例框架。系统100包括输入法编辑器(IME)应用102,该输入法编辑器(IME)应用102在通信上耦合至浏览历史语言模型104和通用语言模型106。系统100进一步包括自适应语言模型构建器108,该自适应语言构建器108适配成接收浏览历史信息110。浏览历史信息110至少可以包括在浏览器高速缓存114处存储的高速缓存的浏览内容112。可以经由计算设备120给用户118提供IME界面116。尽管在图1中计算设备120被示出与系统100中的上述组件分开,但是应当明白这仅仅是出于解说的目的。例如,在一些示例中,系统100的所有组件可以包括在计算设备120中,而在另一些示例中,组件可以跨能够相互通信的任何数目个计算设备分布,诸如通过一个或多个网络上或其他通信连接。
IME应用102配置成生成IME界面116,以供经由计算设备120显示给用户118。自适应语言模型构建器108配置成基于浏览历史信息110生成浏览历史语言模型104。IME应用102进一步配置成经由IME界面116接收拉丁文字符串122。响应于接收到拉丁文字符串122,IME应用102配置成至少部分地基于浏览历史语言模型104预测非拉丁文字符串124。
自适应语言模型构建器108可以基于对浏览历史信息110的分析而生成浏览历史语言模型104。例如,浏览历史语言模型104可以包括N-gram统计语言模型。这种N-gram统计语言模型可以将一串连续单词的概率分解成该串中多个(例如,两个、三个、四个、五个,等等)连续单词间条件概率之积。可以对一个或多个文件112中的每一个执行这种分析。
一些实现提供系统服务,该系统服务可以周期性地监视浏览器高速缓存114以确定新的浏览内容是否已经被存储到浏览器高速缓存114中。响应于确定已经保存了新的浏览内容,自适应语言模型构建器108可以处理新浏览内容以更新浏览历史语言模型104。在一些实现中,浏览历史信息110还可以包括实时浏览内容126,如幻影所示。例如,浏览器应用128的插件(例如,web浏览器应用)可以基本上实时地检测新的浏览内容并且向自适应语言模型构建器108提供实时浏览内容126。自适应语言模型构建器108可以处理实时浏览内容126以更新浏览历史语言模型104。在一些应用中,当浏览模式被设置成私人浏览时,浏览器应用128的插件可以不提供实时浏览信息。也即,浏览历史信息110可任选地仅包括在浏览器高速缓存处存储的高速缓存的浏览内容112。
IME应用102经由IME界面116接收拉丁字符串122。作为说明性示例,拉丁文字符串122可以包括拼音文字,并且预测的非拉丁文字符串124可以包括一个或多个中文字符。
多个非拉丁文字符串可以与经由IME界面116接收到的拉丁文字符串122相关联。转换概率可以与多个非拉丁文字符串中的每个非拉丁文字符串相关联。IME应用102可以至少部分地基于浏览历史语言模型104来预测用于显示给用户118的非拉丁文字符串124。在特定的实施例中,IME应用102通过标识具有最高转换概率的非拉丁文字符串来预测非拉丁文字符串124。IME应用102可以基于转换概率对多个非拉丁文字符传排序,并且可以经由IME界面116显示非拉丁文字符串的经排序的列表。
在一些实现中,可以基于浏览历史语言模型104和通用语言模型106来确定一个或多个预测的非拉丁文字符串。作为说明性示例,C可以表示要被预测的中文串,Pm可以表示基于通用语言模型106确定的概率,而Pb可以表示基于浏览历史语言模型104确定的概率。可以基于加权因子(例如,在本文中被称为λ的0和1之间的值)来确定浏览历史语言模型104的贡献。也即,可以基于公式P(C)=λPm(C)+(1-λ)Pt确定C的概率。.
在一些实现中,加权因子λ可以包括默认加权因子。也即,加权因子可以被“预调谐”成之前在多数情况下已经被验证为准确的加权因子。在另一实施例中,加权因子可以包括用户定义的加权因子。例如,可以从用户118接收用户定义的加权因子,并且加权因子可以从默认加权因子修改成用户定义的加权因子。这可以允许用户118根据个人偏好来“调谐”加权因子。
通用语言模型106可以将第一非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。浏览历史语言模型104可以第二非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。由通用语言模型106标识的第一非拉丁文字符串可以不同于由浏览历史语言模型104标识的第二非拉丁文字符串。
作为说明性示例,从用户118接收到的拉丁文字符串122可以是拼音文字“wan'shang'shi'shi”。基于浏览历史信息110,浏览历史语言模型104可以预测中文字符串“晚上十时”(意思是“10P.M.”)比通用语言模型106预测的中文字符串“晚上试试”(意思是“在晚上试试”)更合适于显示。
作为另一说明性示例,从用户118接收到的拉丁文字符串122可以是拼音文字“you'xiang'tu”。基于浏览历史信息110,浏览历史语言模型104可以预测中文字符串“有向图”(意思是“有方向的图”)比通用语言模型106预测的中文字符串“油箱图”(意思是“储油罐图”)更合适于显示。
因此,图1示出经由IME界面116显示的非拉丁文字符串124可以依浏览历史语言模型104是否基于浏览历史信息110标识该非拉丁文字符串124为更合适于显示而变。
图2示出根据一些实现的输入法编辑器(IME)界面116的示例。为了解说,图2的IME界面116可以对应于图1的IME界面116。
IME界面116包括拉丁文字符串输入窗口202和非拉丁文字符串候选窗口204。拉丁文字符串输入窗口202配置成接收拉丁文字符串(例如,图1的拉丁文字符串122)。非拉丁文字符串候选窗口204配置成显示一个或多个非拉丁文字符串候选。
图2示出多个非拉丁文(例如,中文)字符串可以与经由IME界面116接收到的拉丁文字符串相关联。转换概率可以与非拉丁文字符串中的每个非拉丁文字符串相关联。IME应用(例如,图1的IME应用102)可以基于转换概率对多个非拉丁文字符传排序,并且可以经由IME界面116显示非拉丁文字符串的经排序的列表。
作为图2中示出的示例,经由拉丁文字符串输入窗口202接收的拉丁文字符串可以是拼音文字“wan'shang'shi'shi”。非拉丁文字符串候选窗口204显示第一中文字符串候选206(即,晚上十时)和第二中文字符串候选208(即,晚上试试)。例如,浏览历史语言模型104可以标识第一中文字符串候选206(即,晚上十时)为具有最高转换概率的中文字符串。通用语言模型106可以标识第二中文字符串候选208(即,晚上试试)为具有最高转换概率的中文字符串。
如上所解释的,基于浏览历史信息110,中文字符串“晚上十时”(意思是“10P.M.”)比通用语言模型106预测的中文字符串“晚上试试”(意思是“在晚上试试”)更适于显示。由此,由浏览历史语言模型104预测的第一中文字符串候选206(即,晚上十时)可以被标识为相比通用语言模型106预测的第二中文字符串候选208(即,晚上试试)具有更高的转换概率。因此,中文字符串“晚上十时”可以作为第一中文字符串候选206呈现在非拉丁文字符串候选窗口204中。
在图2中示出的示例中,提供由通用语言模型106预测的中文字符串“晚上试试”作为非拉丁文字符串候选窗口204中的第二中文字符串候选208。然而,应当明白可以呈现替换的非拉丁文字符串候选。例如,可以呈现由浏览历史语言模型104预测的替换的中文字符串。此外,尽管在非拉丁文字符串候选窗口204中仅仅示出了两个候选,但是可以显示替换数目个候选。
图3解说接收与图2的拉丁文字符串输入不同的拉丁文字符串输入之后的示例输入法编辑器界面116。
作为图3中示出的示例,经由拉丁文字符串输入窗口202接收的拉丁文字符串可以是拼音文字“you'xiang'tu”。非拉丁文字符串候选窗口204显示第一中文字符串候选302(即,有向图)和第二中文字符串候选304(即,油箱图)。如上所解释的,基于浏览历史信息110,中文字符串“有向图”(意思是“有方向的图”)比中文字符串“油箱图”(意思是“储油罐图”)更合适于显示。因此,中文字符串“有向图”可以作为第一中文字符串候选302呈现在非拉丁文字符串候选窗口204中。
在图3中示出的示例中,提供中文字符串“油箱图”作为非拉丁文字符串候选窗口204中的第二中文字符串候选304。然而,应当明白可以呈现替换的非拉丁文字符串候选。此外,尽管在非拉丁文字符串候选窗口204中仅仅示出了两个候选,但是可以显示替换数目个候选。
图4和5示出根据一些实现的示例过程流。在图4和5的流程图中,每一个框表示可以用硬件、软件或其组合来实现的一个或多个操作。在软件的上下文中,各个框表示当由一个或多个处理器执行时使处理器执行既定操作的计算机可执行指令。一般而言,计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述各个框的次序并不旨在被解释为限制,并且任何数量的所述框可以按任何次序和/或并行地组合以实现该过程。许多其他变化鉴于本发明将对于本领域的技术人员显而易见。出于讨论的目的,过程流400和500参考以上描述的系统100来描述,但其他模型、框架、系统和环境可实现所解说的过程。
参考图4,在框402,过程流400包括基于浏览历史信息生成浏览历史语言模型。例如,图1的IME应用102可以基于浏览历史信息110生成浏览历史语言模型104。
作为说明性而非限定性示例,可以采用N-gram统计语言模型来分析浏览历史信息110。采用这种N-gram SLM,通用语言模型106可以将第一非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。采用N-gram SLM来分析浏览历史信息110,浏览历史语言模型104可以将第二非拉丁文字符串标识为具有最高转换概率的非拉丁文字符串。取决于浏览历史信息110的语言特性,由浏览历史语言模型104预测的第二非拉丁文字符串可以不同于由通用语言模型106预测的第一非拉丁文字符串。因此,浏览历史信息110的内容可以影响非拉丁文字符串候选的预测。取决于浏览历史信息110的内容,预测的非拉丁文字符串可以更准确地反映出用户118的兴趣。
在特定的实施例中,当用户正在进行基本上实时的浏览时,web浏览器插件过滤一个或多个网页。插件可以分析数据,把该数据与先前的浏览历史结合,以及把该数据结合进浏览历史语言模型104。这种办法的优点是实时处理能力,但是它要求快速处理以避免给用户带来可察觉的延迟。在另一实施例中,系统服务可以周期性地检查一个或多个浏览器的一个或多个高速缓存的文件夹并且可以审查高速缓存文件夹的内容以创建浏览器历史语言模型104。这一方法能够审查多个浏览器的浏览历史,但是基本上不能实时地更新浏览器历史语言模型104。替换地,web浏览器插件可以负责检测内容更新,但是系统服务可以负责构建浏览器历史语言模型104。
在框404,过程流400包括响应于经由IME界面接收到拉丁文字符串,至少部分地基于浏览历史语言模型预测非拉丁文字符串。例如,图1的IME应用102可以响应于经由IME界面116接收到拉丁文字符串122,至少部分地基于浏览历史语言模型104来预测非拉丁文字符串124。
多个非拉丁文字符串可以与经由IME界面116接收到的拉丁文字符串122相关联。多个非拉丁文字符串可以被显示为供用户选择的候选。转换概率可以与非拉丁文字符串候选中的每个非拉丁文字符串相关联。转换概率可以被用来确定显示非拉丁文字符串候选的次序。
作为说明性示例,图2示出响应于用户118经由拉丁文字符串输入窗口202提供拼音文字“wan'shang'shi'shi”而显示的非拉丁文字符串的经排序的列表。非拉丁文字符串候选窗口204显示第一中文字符串候选“晚上十时”和第二中文字符串候选“晚上试试”。在此情况下,确定与第一中文字符串候选“晚上十时”相关联的转换概率高于与第二中文字符串候选“晚上试试”相关联的转换概率。
作为另一说明性示例,参考图3,响应于用户118经由拉丁文字符串输入窗口202提供拼音文字“you'xiang'tu”,非拉丁文字符串候选窗口204显示第一中文字符串候选“有向图”和第二中文字符串候选“油箱图”。在此情况下,确定与第一中文字符串候选“有向图”相关联的转换概率高于与第二中文字符串候选“有向图”相关联的转换概率。
在特定的实施例中,可以基于浏览历史语言模型104和通用语言模型106来确定非拉丁文字符串124。在一个实施例中,第一中文字符串候选(例如,图2中的“晚上十时”或图3中的“有向图”)可以表示根据浏览历史语言模型104具有最高转换概率的非拉丁文字符串。第二中文字符串候选(例如,图2中的“晚上试试”或图3中的“油箱图”)可以表示根据通用语言模型106具有最高转换概率的非拉丁文字符串。
可以基于加权因子确定浏览历史语言模型104的贡献。例如,加权因子可以包括默认加权因子或用户定义的加权因子。在用户118确定中文字符串候选的次序不合适的情况下,用户118可以相应地调整加权因子。
图5示出根据一些实现的另一示例过程流。图5示出可以基于新的浏览内容更新浏览历史语言模型。
在框502,过程流500包括基于浏览历史信息生成浏览历史语言模型。例如,图1的IME应用102可以基于浏览历史信息110生成浏览历史语言模型104。
在框504,过程流500包括响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于浏览历史语言模型预测非拉丁文字符串。例如,图1的IME应用102可以响应于经由IME界面116接收到拉丁文字符串122,至少部分地基于浏览历史语言模型104预测非拉丁文字符串124。
在框506,过程流500包括确定浏览历史信息是否包括新的浏览内容。当确定存在新的浏览内容时,过程流500可以进行至框508。当已经检测出新的浏览内容时,过程流500返回框504。在框508,过程流500可以包括处理新的浏览内容以更新浏览历史语言模型。
在一些实现中,在框506处,插件可以基本上实时地检测新的浏览内容。例如,参考图1,与浏览器应用128相关联的插件可以提供实时浏览内容126,并且可以基本上实时地处理实时浏览器内容126以更新浏览历史语言模型104。在替换的实施例中,在框506,系统服务可以周期性地监视一个或多个浏览器高速缓存位置以确定是否已经保存新的浏览内容。新的浏览内容可以被处理以更新浏览历史语言模型104。例如,参考图1,系统服务可以针对新的浏览内容周期性地监视浏览器高速缓存114并且随后处理新的浏览内容以更新浏览历史语言模型104。
此后,可以至少部分地基于更新的浏览历史语言模型来预测非拉丁文字符串。例如,在框510,可以经由IME界面(例如,IME界面116)接收拉丁文字符串。响应于接收到这一拉丁文字符串,可以至少部分地基于更新的浏览历史语言模型来预测非拉丁文字符串。
在特定的说明性实施例中,在框510接收到的拉丁文字符串(即,在已经更新个人语言模型之后)可以与在框504接收到的拉丁文字符串相同。取决于由保存新的浏览内容引起的对浏览历史语言模型的更新,所预测的非拉丁文字符可以相同或不同。也即,对浏览历史语言模型的更新可以影响或不影响对非拉丁文字符串的预测。为了解说,浏览历史语言模型在更新之前(即,在502生成浏览历史语言模型)可以已经预测了特定的非拉丁文字符串。更新的浏览历史语言模型(即,在框508的更新之后)可以预测相同的拉丁文字符串或可以预测不同的非拉丁文字符串。
因此,更新浏览历史语言模型可以影响与一个或多个拉丁文字符串相关联的预测但不影响与其他拉丁文字符串相关联的预测。
示例计算设备和环境
图6示出了可用于实现此处所描述的模块和功能的计算设备600和环境的示例配置。如图6所示,计算设备600与图1中的计算设备120相对应,但应当理解,计算设备120可以按照所例示的类似方式来配置。
计算设备600可包括至少一个处理器602、存储器604、通信接口606、显示设备608(例如,触摸屏显示器)、其他输入/输出(I/O)设备610(例如,触摸屏显示器或鼠标和键盘)、以及一个或多个大容量存储设备612,它们能够诸如经由系统总线614或其他合适的连接彼此通信。
处理器602可以是单个处理单元或多个处理单元,它们都可包括单个或多个计算单元或多个核。处理器602可被实现为一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器602可被配置成取出并执行存储在存储器604、大容量存储设备612或其他计算机可读介质中的计算机可读指令,以及其他能力。
存储器604和大容量存储设备612是用于存储由处理器602执行来执行上述各种功能的指令的计算机存储介质的示例。例如,存储器604一般包括易失性存储器和非易失性存储器(例如,RAM、ROM等)。此外,大容量存储设备612一般可包括硬盘驱动器、固态驱动器、包括外部和可移动驱动器在内的可移动介质、存储卡、闪存、软盘、光盘(例如,CD、DVD)、存储阵列、网络附连存储、存储区域网络等等。存储器604和大容量存储设备612在本文中统称为存储器或计算机存储介质,并且可以是能够将计算机可读、处理器可执行程序指令作为计算机程序代码来存储的计算机可读介质,计算机程序代码可由作为被配置成执行在本文中的实现中描述的操作和功能的特定机器的处理器602执行。
计算设备600还可包括用于诸如经由网络、直接连接等与其他设备交换数据的一个或多个通信接口606,如以上所讨论的。通信接口606可便于各种各样网络和协议类型内的通信,包括有线网络(例如,LAN、电缆等)和无线网络(例如,WLAN、蜂窝、卫星等)、因特网等等。通信接口606也可提供与诸如存储阵列、网络附连存储、存储区域网络等中的外部存储(未示出)的通信。
在此的讨论涉及由特定组件或模块来发送和接收的数据。这不应被作为限制,因为这样的通信并不需要是直接的,并且该特定组件或模块并不需要必须是单个功能单元。这不应作为仅针对其中各组件直接向另一组件发送数据并从其接收数据的限制实现。这些信号可改为由分开的组件在接收到数据后来中继。此外,这些组件可以结合在一起,或者功能可以以不限于以上讨论的那些方式的各种方式而分散在各组件中。鉴于本文提供的公开,各种实现的逻辑和实际结构和框架的其他变型将对于本领域的普通技术人员显而易见。
诸如触摸屏显示器或其他显示设备之类的显示设备608可被包括在某些实现中。显示设备608可以配置成显示如上所述的IME界面116。其他I/O设备610可以是从用户接收各种输入并向用户提供各种输出的设备,并且可包括触摸屏(诸如,触摸屏显示器)、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
存储器604可包括根据本文中讨论的实现的、供计算设备600执行的模块和组件。在所示示例中,存储器604包括如上关于图1所述的IME应用102和自适应语言模型构建器108。存储器604还可包括一个或多个其他模块616,如操作系统、驱动器、应用软件、通信软件等等。存储器604还可包括其他数据618,如在执行上述功能时存储的数据以及其他模块616所使用的数据。存储器604还可以包括这里描述或提及的其他数据和数据结构。例如,存储器604可包括在导出和生成如上所述的浏览历史语言模型104的过程中使用的信息。
此处所描述的示例系统和计算设备仅是适用于某些实现的示例,并且不旨在对可实现此处所描述的过程、组件和特征的环境、体系结构和框架的使用范围或功能提出任何限制。因此,此处的实现可用于众多环境或体系结构,并且可以在通用或专用计算系统或具有处理能力的其他设备中实现。一般而言,参考附图描述的任何功能都可使用软件、硬件(例如,固定逻辑电路)或这些实现的组合来实现。此处所使用的术语“模块”、“机制”、或“组件”一般表示可被配置成实现规定功能的软件、硬件或软件和硬件的组合。例如,在软件实现的情况下,术语“模块”、“机制”或“组件”可表示当在一个或多个处理设备(例如,CPU或处理器)上执行时执行指定任务或操作的程序代码(和/或声明型指令)。程序代码可被存储在一个或多个计算机可读存储器设备或其他计算机存储设备中。由此,此处所描述的过程、组件和模块可由计算机程序产品来实现。
虽然在图6中被示为存储在计算设备600的存储器604中,但IME应用102以及自适应语言模型构建器108或其各部分可以使用可由计算设备600访问的任何形式的计算机可读介质来实现。如此处所使用的,“计算机可读介质”包括至少两种类型的计算机可读介质,即计算机存储介质和通信介质。
计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。
相反,通信介质可在诸如载波之类的已调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的,计算机存储介质不包括通信介质。
此外,本发明提供了如在附图中描述和示出的各种示例实现。然而,本公开并不局限于此处所描述和示出的实现,如本领域的技术人员所知道的那样,可延伸至其它实现。在说明书中所引用的“一个实现”、“这个实现”、“这些实现”或“一些实现”意味着所描述的特定特征、结构或特性被包括在至少一个实现中,且在说明书中的各个位置中的这些短语的出现并不需要全部都引用同一实现。
结语
尽管用结构特征和/或方法动作专用的语言描述了本主题,但所附权利要求书中定义的主题不限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明旨在覆盖所公开的实现的任一和所有改编或变型,并且所附权利要求书不应被解释为限于说明书中所公开的具体实现。相反,本文的范围完全由所附权利要求书以及这些权利要求所授权的等效技术方案的完整范围来确定。

Claims (20)

1.一种方法,包括:
基于浏览历史信息生成浏览历史语言模型;以及
响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于所述浏览历史语言模型来预测非拉丁文字符串。
2.如权利要求1所述的方法,其特征在于,所述浏览历史信息至少包括高速缓存的浏览内容。
3.如权利要求2所述的方法,其特征在于,所述浏览历史信息进一步包括实时浏览内容。
4.如权利要求1所述的方法,其特征在于,所预测的非拉丁文字符串基于所述浏览历史语言模型和通用语言模型来确定。
5.如权利要求4所述的方法,其特征在于,所述浏览历史语言模型的贡献基于加权因子确定。
6.如权利要求5所述的方法,其特征在于,所述加权因子包括默认加权因子或用户定义的加权因子。
7.如权利要求1所述的方法,其特征在于,进一步包括经由所述输入法编辑器界面呈现所预测的非拉丁文字符串。
8.如权利要求1所述的方法,其特征在于:
所述拉丁文字符串包括拼音字符串;以及
所预测的非拉丁文字符串包括中文字符串。
9.如权利要求1所述的方法,其特征在于:
多个非拉丁文字符串与经由所述输入法编辑器界面接收到的拉丁文字符串相关联;以及
转换概率与所述多个非拉丁文字符串中的每个非拉丁文字符串相关联。
10.如权利要求9所述的方法,其特征在于,预测所述非拉丁文字符串包括标识所述多个非拉丁文字符串中具有最高转换概率的所述非拉丁文字符串。
11.如权利要求10所述的方法,其特征在于,通用语言模型将所述多个非拉丁文字符串中的第一非拉丁文字符串标识为具有所述最高转换概率的所述非拉丁文字符串。
12.如权利要求11所述的方法,其特征在于,所述浏览历史语言模型将所述多个非拉丁文字符串中的第二非拉丁文字符串标识为具有所述最高转换概率的所述非拉丁文字符串。
13.如权利要求12所述的方法,其特征在于,由所述通用语言模型标识的所述第一非拉丁文字符串不同于由所述浏览历史语言模型标识的所述第二非拉丁文字符串。
14.如权利要求1所述的方法,其特征在于,所述浏览历史语言模型包括N-gram统计语言模型。
15.一种计算系统,包括:
一个或多个处理器;
一个或多个存储指令的计算机可读介质,当所述指令被一个或多个处理器执行时,致使所述一个或多个处理器以执行包括以下的动作:
基于浏览历史信息生成浏览历史语言模型;以及
响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于所述浏览历史语言模型来预测非拉丁文字符串。
16.如权利要求15所述的计算系统,其特征在于,所述动作还包括:
检测新的浏览内容;以及
响应于检测到新的浏览内容,处理所述新的浏览内容以更新所述浏览历史语言模型。
17.如权利要求15所述的计算系统,其特征在于,所述动作还包括:
周期性地监视一个或多个浏览器高速缓存位置以确定新的浏览内容是否已经被保存到所述一个或多个浏览器高速缓存位置;以及
处理所述新的浏览内容以更新所述浏览历史语言模型。
18.一个或多个维护指令的计算机可读介质,当所述指令被一个或多个处理器执行时,配置所述一个或多个处理器以执行包括以下的动作:
基于浏览历史信息生成浏览历史语言模型;以及
响应于经由输入法编辑器界面接收到拉丁文字符串:
基于在通用语言模型的基础上确定的第一转换概率和在所述浏览历史语言模型的基础上确定的第二转换概率来确定多个非拉丁文字符串中每个非拉丁文字符串的总转换概率,其中所述第二转换概率对所述总转换概率的贡献基于加权因子加权;
基于所述总转换概率对所述多个非拉丁文字符串排序;以及
经由所述输入法编辑器界面显示非拉丁文字符串的经排序的列表。
19.如权利要求18所述的一个或多个种计算机可读介质,其特征在于,所述动作进一步包括:
接收用户定义的加权因子;以及
将所述加权因子从默认加权因子修改成所述用户定义的加权因子。
20.如权利要求18所述的一个或多个计算机可执行指令,其特征在于,所述浏览历史信息包括存储在多个浏览器高速缓存位置处的信息,每个浏览器高速缓存位置与不同的浏览器相关联。
CN201280075563.6A 2012-08-31 2012-08-31 用于输入法编辑器的浏览历史语言模型 Pending CN104813257A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/080815 WO2014032265A1 (en) 2012-08-31 2012-08-31 Browsing history language model for input method editor

Publications (1)

Publication Number Publication Date
CN104813257A true CN104813257A (zh) 2015-07-29

Family

ID=50182376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280075563.6A Pending CN104813257A (zh) 2012-08-31 2012-08-31 用于输入法编辑器的浏览历史语言模型

Country Status (3)

Country Link
EP (1) EP2891036A4 (zh)
CN (1) CN104813257A (zh)
WO (1) WO2014032265A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918408B2 (en) * 2012-08-24 2014-12-23 Microsoft Corporation Candidate generation for predictive input using input history
CN105404401A (zh) * 2015-11-23 2016-03-16 小米科技有限责任公司 输入处理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954315A (zh) * 2004-03-16 2007-04-25 Google公司 用于将汉语拼音翻译成汉字的系统和方法
CN101681198A (zh) * 2007-05-21 2010-03-24 微软公司 提供相关文本自动完成
CN101876853A (zh) * 2009-04-29 2010-11-03 北京搜狗科技发展有限公司 拼音输入方法及装置
CN101995963A (zh) * 2010-11-19 2011-03-30 哈尔滨工业大学 词汇自适应中文输入方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954315A (zh) * 2004-03-16 2007-04-25 Google公司 用于将汉语拼音翻译成汉字的系统和方法
CN101681198A (zh) * 2007-05-21 2010-03-24 微软公司 提供相关文本自动完成
CN101876853A (zh) * 2009-04-29 2010-11-03 北京搜狗科技发展有限公司 拼音输入方法及装置
CN101995963A (zh) * 2010-11-19 2011-03-30 哈尔滨工业大学 词汇自适应中文输入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI PEI-FENG;GU PING;ZHU QIAO-MING: "《A Dynamic and Self-study Language Model Oriented to Chinese Characters Input》", 《SOFTWARE ENGINEERING, ARTIFICIAL INTELLIGENCE, NETWORKING, AND PARALLEL/DISTRIBUTED COMPUTING》 *

Also Published As

Publication number Publication date
WO2014032265A1 (en) 2014-03-06
EP2891036A1 (en) 2015-07-08
EP2891036A4 (en) 2015-10-07

Similar Documents

Publication Publication Date Title
CN104823135A (zh) 用于输入法编辑器的个人语言模型
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
US10733980B2 (en) Thematic segmentation of long content using deep learning and contextual cues
CN113590739B (zh) 基于模型的语义文本搜索
CN104813275B (zh) 用于预测文本的方法和系统
JP5923449B2 (ja) パターン認識プロセッサにおける消費電力を低減させるための方法及び装置
TWI590082B (zh) 應用程式的共享分散式詞庫
JP7235817B2 (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
JP2019511033A (ja) ニューラルネットワークを用いたテキストセグメントの係り受け解析の生成
CN101253478A (zh) 类型推理和类型导向的后期绑定
CN104412212A (zh) 输入法编辑器
US20190311039A1 (en) Cognitive natural language generation with style model
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
CN103106214B (zh) 一种候选词组输出方法和电子设备
US11544467B2 (en) Systems and methods for identification of repetitive language in document using linguistic analysis and correction thereof
CN104699744A (zh) 信息搜索方法及装置
CN101373406A (zh) 带扩展功能的输入方法及其系统
US11269971B2 (en) Providing reading insight on URLs with unfamiliar content
US20150199332A1 (en) Browsing history language model for input method editor
US11976931B2 (en) Method and apparatus for guiding voice-packet recording function, device and computer storage medium
US11144610B2 (en) Page content ranking and display
CN104813257A (zh) 用于输入法编辑器的浏览历史语言模型
US20170024405A1 (en) Method for automatically generating dynamic index for content displayed on electronic device
CN111126078B (zh) 翻译的方法和装置
KR20220113075A (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150729