CN101622616A - 共享语言模型 - Google Patents

共享语言模型 Download PDF

Info

Publication number
CN101622616A
CN101622616A CN200880006684A CN200880006684A CN101622616A CN 101622616 A CN101622616 A CN 101622616A CN 200880006684 A CN200880006684 A CN 200880006684A CN 200880006684 A CN200880006684 A CN 200880006684A CN 101622616 A CN101622616 A CN 101622616A
Authority
CN
China
Prior art keywords
input pattern
data
logograph
stroke
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880006684A
Other languages
English (en)
Other versions
CN101622616B (zh
Inventor
D·李
Q·X·J·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101622616A publication Critical patent/CN101622616A/zh
Application granted granted Critical
Publication of CN101622616B publication Critical patent/CN101622616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

可提供共享语言模型。首先,可接收第一输入。然后,响应于该第一输入,可确定包括以下输入模式中的一个的输入模式:拼音输入模式、笔画次序输入模式和笔画数输入模式。然后可基于所确定的输入模式来接收数据。所接收到的数据可使用所确定的输入模式并使用语言模型来转换。该语言模型可被配置成与以下输入模式中的每一个一起使用:拼音输入模式、笔画次序输入模式和笔画数输入模式。

Description

共享语言模型
背景
汉字是在手写中文时使用的语标。完整的汉字书写系统在3200年前的商朝时期在中国出现,从而使其被认为是最老的“现存”书写系统。因为在书写中文时使用的语标主要是象形文字,所以语言考古学家可解释与现代中文书写系统的联系。因此,因为中文中使用数千个不同的语标,所以难以使用计算机键盘来输入中文。
表示汉字的一种方式是使用“拼音”(其中“拼”的意思是“拼写”而“音”的意思是“声音”)。拼音是一种使用罗马字母表来表示汉字并表达汉语中的声音的方式。存在用于表达普通话中文的其他系统,但拼音是最被接受且被最广泛使用的。一旦学会,学过拼音的人将知道如何使用汉语字典来念普通话中的任一个字。拼音也是将汉字输入到计算机中的最常见的方式。尽管拼音和英语都使用罗马字母表,但许多字母并非用英语使用的相同声音来表达。
此外,拼音中所表达的字使用21种声音的集合来表示被称为声母的字的开头,并使用37种声音的集合来表示被称为韵母的字的结尾。这些声音组合以形成大约420种不同的声音。例如,拼音中所表达的对应于“花”的字是“huā”。在该字中,字母“h”是声母而“uā”是韵母。另外,通常组合字以形成复合字。例如,拼音中所表达的对应于“中国”的字是“zhōngguó”。Zhōng的意思是中间(声母:“zh”,韵母:“ōng”)而guó的意思是国家(声母:“g”,韵母:“uó”)。
此外,普通话中具有相同发音的字可取决于如何说这个字而具有不同的含义。中文中的字的“声调”描述在说这个字时说话者的话音的音调如何改变。在普通话中存在四种“声调”。这些声调在拼音中由字上方的标记来表示。
在具有QWERTY键盘的常规计算机上,可能仅存在用于中文输入的语音或拼音输入过程。然而,采用常规拼音输入过程,用户无法在其不知道拼音或不存在分配给特定汉字的拼音的情况下输入汉字。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征。本概述也不旨在用于限制所要求保护的主题的范围。
可提供共享语言模型。首先,可接收第一输入。然后,响应于该第一输入,可确定包括以下输入模式中的一个的输入模式:拼音输入模式、笔画次序输入模式和笔画数输入模式。然后可基于所确定的输入模式来接收数据。所接收到的数据可使用所确定的输入模式并使用语言模型来转换。该语言模型可被配置成与以下输入模式中的每一个一起使用:拼音输入模式、笔画次序输入模式和笔画数输入模式。
前述一般描述和以下详细描述两者都提供示例且都只是说明性的。因此,前述一般描述和以下详细描述不应被认为是限制性的。此外,除了此处所阐明的那些之外还可提供其它特征或变型。例如,各实施例可涉及在详细描述中描述的各种特征组合和子组合。
附图简述
合并在本发明中并构成其一部分的附图示出本发明的各种实施例。在附图中:
图1是一操作环境的框图。
图2是用于提供共享语言模型的方法的流程图;
图3是示出候选窗口的图示;以及
图4是包括计算设备的系统的框图。
详细描述
以下详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或类似的元素。尽管可能描述了本发明的各实施例,但修改、改编和其它实现也是可能的。例如,可以对附图中所示出的元素进行置换、添加、或修改,且可以通过对所公开的方法置换、重新排序、或添加阶段来修改此处所描述的方法。因此,以下详细描述并不限制本发明。相反,本发明的正确范围由所附权利要求书来定义。
可提供一种共享语言模型。使用具有QWERTY键盘的台式或膝上型计算机的常规系统只支持例如用于中文的语音或拼音输入过程。常规拼音输入过程的一个问题是用户可能无法在其不知道对应于所需汉字的拼音或不存在分配给所需汉字的拼音的情况下输入汉字。根据本发明的各实施例,基于笔画的输入过程(例如,笔画次序和笔画数输入过程)可解决该拼音输入过程问题。例如,语标(例如,汉字)可包括偏旁部分和其余笔画。偏旁部分也包括笔画。如将在以下更详细地描述的,采用基于笔画的输入过程,用户可以在不知道字符发音的情况下输入例如汉字。此外,通过使用语言模型(LM),本发明的各实施例可向用户提供较高的转换准确度。
根据本发明的各实施例,图1示出了用于集成拼音和笔画输入系统100的示例性操作环境。用户输入105可由用户输入到用户界面115的阅读窗口110中。用户输入105可指示用户希望调用哪一个编辑模型120以及对应于语标(例如,汉字)的数据。例如,用户可提供输入105以指示期望使用拼音输入模型125、笔画次序输入模型130或笔画数输入模型135。对应于语标的数据可被发送到所需编辑模型120,该编辑模型120进而可使用字典(例如,拼音字典140、笔画字典145或偏旁字典150)。所需编辑模型120可使用对应于语标的数据来在与用户界面115相关联的候选窗口155中产生多个语标候选。此外,可使用LM 160来向用户提供较高的转换准确度。例如,LM 160可用于通过使用频率或基于先前语标来预测语标。LM 160可在拼音输入模型125、笔画次序输入模型130和笔画数输入模型135之间共享。多个语标候选可由LM 160来改进并被放置在合成和预测窗口165中。
图2是阐述根据本发明的一实施例的用于提供共享语言模型的方法200中所涉及的各概略阶段的流程图。方法200可使用如将在以下参考图1更详细地描述的计算设备100来实现。以下将更详细地描述实现方法200的各阶段的方式。方法200可开始于起始框205并继续至阶段210,在那里计算设备100可接收第一输入。例如,用户可使用键盘来将该第一输入输入到计算设备400中。该输入可包括键序列,其对应于例如拼音输入模式、笔画次序输入模式或笔画数输入模式。此外,该第一输入可响应于用户用鼠标从菜单中选择项目来接收。菜单中的项目可对应于拼音输入模式、笔画次序输入模式和笔画数输入模式。如上所述,本发明的各实施例可同时支持经由键盘输入过程的主导键、经由鼠标输入过程的菜单项选择或任何其他类型的输入过程。另外,该第一输入可包括对应于用户希望输入到计算设备400中的语标的数据。虽然本发明的各实施例在汉字的上下文中描述,但可使用任何基于基于语标的语言并且本发明不限于中文。
从其中计算设备100接收第一输入的阶段210,方法200可前进至阶段220,在那里计算设备100可响应于该第一输入来确定输入模式。例如,该输入模式可包括拼音输入模式、笔画次序输入模式或笔画数输入模式。例如,计算设备可解析第一输入以确定该第一输入是否包括对应于拼音输入模式的键序列。该第一输入中的“Ctrl p”可指示用户期望调用拼音输入模式。此外,计算设备可解析第一输入以确定该第一输入是否包括对应于笔画次序输入模式的键序列。该第一输入中的“Ctrl so”可指示用户期望调用笔画次序输入模式。此外,计算设备可解析第一输入以确定该第一输入是否包括对应于笔画数输入模式的键序列。该第一输入中的“Ctrl sn”可指示用户期望调用笔画数输入模式。
一旦计算设备100在阶段220中确定输入模式,方法200就可继续至阶段230,在那里计算设备100可基于所确定的输入模式来接收数据。例如,除了如上所述的对应于用户所需模式的键序列之外,第一输入可包括对应于用户希望输入到计算设备400中的语标的数据。所接受的数据类型以及接受方式可取决于如以上参考阶段210描述的用户所指示的模式。
在计算设备100在阶段230中接收数据后,方法200可继续至阶段240,在那里计算设备100可转换接收到的数据。计算设备100可使用所确定的输入模式和语言模型160来转换接收到的数据。例如,该语言模型可被配置成与如将在以下更详细地解释的以下输入模式中的每一个一起使用:拼音输入模式、笔画次序输入模式和笔画数输入模式。
关于拼音输入模式,如上所述,拼音是可作为罗马字母来输入的中文语音系统。例如,“hua”是对应于至少以下汉字“花”、“华”和“话”的拼音。例如,当用户将“hua”输入到设备400中时,设备400可在如图3所示的候选窗口300中呈现多个汉字(例如,包括以上所提到的汉字)。用户然后可从候选窗口300中选择多个汉字中的所需的一个汉字。
对于笔画次序输入模式,例如,每一个汉字都可按次序逐笔书写。中文中所使用的笔画可包括五个基本笔画,例如,“一”、“丨”、“丿”、“丶”和“乛”。这些笔画可被分别分配对应的键盘编码,例如1、2、3、4和5。因此,在笔画次序输入的情况下,汉字“花”可由包括序列“1223235”的第一输入来产生。
关于笔画数输入模式,每一个汉字都包括偏旁部分和其余笔画。偏旁部分也可包括笔画。根据本发明的各实施例,笔画数输入可基于字典查找。汉字可首先基于偏旁,并且然后基于除偏旁以外的其余笔画来在字典中查找。因此,汉字可以按至少两种方式来以笔画数输入模式输入:i)总笔画数输入(可产生较长的候选列表);以及ii)偏旁和笔画数输入(可产生较短的候选列表)。
在总笔画数输入的情况下,汉字的总笔画数可由用户来计数。然后,用户可将笔画数输入到设备400中以产生具有该笔画数的汉字的列表。例如,“花”具有总笔画数7。结果,用户可将7输入到设备400中。因此,设备400可显示各自具有7笔的汉字的候选窗口。
在偏旁和笔画数输入的情况下,用户可计数并输入对应于偏旁部分的笔画数以便从偏旁候选列表中找出正确的偏旁。然后,用户可计数并输入其余笔画数并从候选列表中选择正确的汉字。例如,在“花”的情况下,偏旁是“艹”。另外,其余笔画是“丿”、“丨”、“乛”和“丿”(例如,“丿”+“丨”=>“亻”而“丿”+“乛”=>“匕”)。“艹”的笔画数可以是3而其余笔画可以是4。因此,用户可将3输入到设备400中以便从偏旁候选列表中找出偏旁“艹”。该用户然后可继续输入其余笔画数4以找出作为一个整体的正确的汉字。
如上所述,除了使用所确定的输入模式之外,计算设备100可使用语言模型160来转换接收到的数据。在所有输入模式(例如,拼音输入模式、笔画次序输入模式和笔画数输入模式)中可使用相同的语言模型(例如,LM 160)。换言之,根据本发明的各实施例,所有输入模式可共享同一语言模型。此外,LM 160可以按以下至少两种方式来使用,按:i)智能转换模式;以及按ii)输入预测。
关于智能转换,LM 160可包括基于大规模语言使用的语言统计知识系统。给定用户输入,LM 160可帮助考虑例如字的使用频率和输入上下文来给出最有可能的转换。例如,如图3所示,设备400可响应于用户提供第一输入来产生候选1到9。此外,通过使用LM 160,设备400可在窗口300中按候选1到9在给定语言(例如,汉语)中的使用频率来对这些候选进行排序。换言之,对于候选1到9,候选1可能是最频繁使用的字符而候选9可能是最不频繁使用的。候选2-8可分别落入候选1和9之间的使用频率中。
对于输入预测,基于用户已经输入的内容(例如,先前的字符),输入预测可帮助给出用户接着可能输入的最有可能的中文字符或单词。该预测可基于现有字典(例如,拼音字典140、笔画字典145和偏旁字典150)并且也基于最近输入历史/内容。例如,用户可能已经输入“北”。因此,通过与输入预测一起使用LM 160,“京”可被预测为下一个最有可能的字符,因为“北京”是在对应的语言中频繁使用的单词。换言之,可产生“京”作为候选(以及例如其他候选)。因此,“京”可在候选窗口中被给予最高排名(例如,相对于该候选窗口中的其他候选),因为设备400可通过与输入预测一起使用LM 160来确定“京”是用户可能在“北”之后输入的最有可能的字符。此外,本发明的各实施例可在“北”之后提供“京”以向用户显示“北京”而不将“京”放在候选窗口中并让用户从该候选窗口中选择“京”。根据本发明的各实施例,无论“北”是以拼音模式还是以笔画输入模式输入的,都可预测“京”,因为所有模式可共享LM 160。一旦计算设备100在阶段240中转换接收到的数据,方法200然后就可在阶段250处结束。
根据本发明的一实施例可包括用于提供转换的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。该处理单元可用于接收第一输入并响应于该第一输入来确定包括以下输入模式中的一个的输入模式:拼音输入模式、笔画次序输入模式和笔画数输入模式。该处理单元可用于基于所确定的输入模式来接收数据。此外,该处理单元可用于使用所确定的输入模式并使用被配置成与以下输入模式中的每一个一起使用的语言模型来转换接收到的数据:拼音输入模式、笔画次序输入模式和笔画数输入模式。
根据本发明的另一实施例可包括用于提供转换的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。该处理单元可用于确定包括以下输入模式中的一个的输入模式:笔画次序输入模式和笔画数输入模式。此外,该处理单元可用于基于所确定的输入模式来接收数据。此外,该处理单元可用于基于所确定的输入模式以及被配置成与以下输入模式中的每一个一起使用的语言模型来转换接收到的数据:拼音输入模式、笔画次序输入模式和笔画数输入模式。
根据本发明的又一实施例可包括用于提供转换的系统。该系统可包括存储器存储和耦合到该存储器存储的处理单元。该处理单元可用于接收对来自以下输入模式的第一转换模式的选择:拼音输入模式、笔画次序输入模式和笔画数输入模式。该处理单元还可用于基于第一转换模式和语言模型来转换第一数据。此外,该处理单元可用于接收对不同于该第一转换模式并选自以下输入模式的第二转换模式的选择:拼音输入模式、笔画次序输入模式和笔画数输入模式。另外,该处理单元可用于基于第二转换模式和语言模型来转换第二数据。
图4是包括计算设备400的系统的框图。根据本发明的一实施例,上述存储器存储和处理单元可以在诸如图4的计算设备400等计算设备中实现。可以使用任何合适的硬件、软件或固件的组合来实现该存储器存储和处理单元。例如,存储器存储和处理单元可以用计算设备400或结合计算设备400的任何其它计算设备418来实现。根据本发明的各实施例,上述系统、设备和处理器是示例,且其它系统、设备和处理器可以包括上述存储器存储和处理单元。此外,计算设备400可包括用于如以上参考图1描述的系统100的操作环境。系统100可以在其它环境中操作并且不限于计算设备400。
参考图4,根据本发明的一实施例的系统可以包括诸如计算设备400等计算设备。在基本配置中,计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器404可以包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存或任何组合。系统存储器404可包括操作系统405、一个或多个编程模块406,并且可包括拼音字典140、笔画字典145、偏旁字典150、语言模型160以及程序数据407。例如,操作系统405可适用于控制计算设备400的操作。在一个实施例中,编程模块406可包括例如,转换应用程序420。此外,本发明的各实施例可以结合图形库、其它操作系统、或任何其它应用程序来实践,且不限于任何特定应用程序或系统。该基本配置在图4中由虚线408内的组件示出。
计算设备400还可具有附加特征或功能。例如,计算设备400还可包括附加数据存储设备(可移动和/或不可移动),诸如,例如磁盘、光盘或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算设备400访问的任何其它介质。任何这样的计算机存储介质都可以是设备400的一部分。计算设备400还可以具有输入设备412,如键盘、鼠标、笔、声音输入设备、触摸输入设备等。也可包括诸如显示器、扬声器、打印机等输出设备414。上述设备是示例且可以使用其它设备。
计算设备400还可包含可允许设备400诸如通过例如内联网或因特网等分布式计算环境中的网络来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。通信介质通常由诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据来体现,并包括任何信息传递介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其它无线介质等无线介质。如此处所使用的术语计算机可读介质可以包括存储介质和通信介质两者。
如上所述,可以在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时,编程模块406(例如,转换应用程序420)可执行各过程,包括例如,如上所述的一个或多个方法200的阶段。前述过程是示例,且处理单元402可执行其它过程。根据本发明的各实施例可以使用的其它编程模块可以包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。
一般而言,根据本发明的各实施例,程序模块可以包括可以执行特定任务或可以实现特定的抽象数据类型的例程、程序、组件、数据结构和其它类型的结构。此外,本发明的各实施例可用其它计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的各实施例也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
此外,本发明的各实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。本发明的各实施例还可以使用能够执行诸如,例如,AND(与)、OR(或)和NOT(非)等逻辑运算的其它技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各实施例可以在通用计算机或任何其它电路或系统中实现。
例如,本发明的各实施例可被实现为计算机过程(方法)、计算系统或诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并编码用于执行计算机进程的指令的计算机程序的计算机存储介质。计算机程序产品也可以是计算系统可读并编码用于执行计算机进程的指令的计算机程序的载波上的传播信号。因此,本发明能以硬件和/或软件(包括固件、常驻软件、微码等)来具体化。换言之,本发明的各实施例可以采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可以包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。
计算机可使用或计算机可读介质可以是,例如,但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例(非穷尽列表),计算机可读介质可以包括以下:具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、和便携式压缩盘只读存储器(CD-ROM)。注意,计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质,因为程序可以经由例如对纸张或其它介质的光学扫描而电子地捕获,随后如有必要被编译、解释,或以其它合适的方式处理,并随后存储在计算机存储器中。
例如,以上参考根据本发明的各实施例的方法、系统和计算机程序产品的框图和/或操作图示描述了本发明的各实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的顺序来执行。
尽管已经描述了本发明的某些实施例,但也可能存在其它实施例。此外,虽然本发明的各实施例被描述为与存储在存储器和其它存储介质中的数据相关联,但数据还可以被存储在或读取自其它类型的计算机可读介质,如次级存储设备,像硬盘、软盘、或CD-ROM、来自因特网的载波、或其它形式的RAM或ROM。此外,所公开的各方法的各阶段可以按任何方式来修改,包括通过对各阶段重新排序和/或插入或删除阶段,而不背离本发明。
包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是该申请人的财产。申请人保持并保留此处所包括的代码中的所有权利,并授予仅关于所授权的专利的再现且未出于其它目的再现该材料的许可。
虽然本说明书包括各示例,但本发明的范围由所附权利要求书来指示。此外,尽管用对结构特征和/或方法逻辑动作专用的语言描述了本说明书,但权利要求书并不限于上述特征或动作。相反,上述具体特征和动作是作为本发明的各实施例的示例来公开的。

Claims (20)

1.一种用于提供转换的方法,所述方法包括:
接收第一输入(210);
响应于所述第一输入来确定包括以下输入模式中的一个的输入模式:拼音输入模式、笔画次序输入模式和笔画数输入模式;
基于所确定的输入模式来接收数据(230);以及
转换所接收到的数据(240),包括:
使用所确定的输入模式,以及
使用被配置成与以下输入模式中的每一个一起使用的语言模型:所述拼音输入模式(125)、所述笔画次序输入模式(130)和所述笔画数输入模式(135)。
2.如权利要求1所述的方法,其特征在于,接收所述第一输入(210)包括接收包括用户发起的键盘序列(105)的第一输入。
3.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述拼音输入模式(125)时接收包括对应于中文拼音的多个罗马字母的数据。
4.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画次序输入模式(130)时接收包括多个阿拉伯数字的数据,所述多个阿拉伯数字中的每一个都对应于与基于语标的书写系统相关联的多个基本笔画中的一个。
5.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画次序输入模式(130)时接收包括多个阿拉伯数字的数据,所述多个阿拉伯数字中的每一个都对应于包括以下笔画的多个基本中文笔画中的一个:“一”、“丨”、“丿”、“丶”和“乛”。
6.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画数输入模式(135)时接收包括对应于语标中的笔画数的整数的数据。
7.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画数输入模式(135)时接收包括对应于包括汉字的语标中的笔画数的整数的数据。
8.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画数输入模式(135)时接收包括对应于与语标字符相关联的偏旁的第一整数和对应于所述语标中除亍所述偏旁之外的笔画数的第二整数的数据。
9.如权利要求1所述的方法,其特征在于,基于所确定的输入模式来接收所述数据(230)包括在所确定的输入模式包括所述笔画数输入模式(135)时接收包括对应于与语标字符相关联的偏旁的第一整数和对应于所述语标中除了所述偏旁之外的笔画数的第二整数的数据,所述语标包括汉字。
10.如权利要求1所述的方法,其特征在于,当所确定的输入模式包括所述拼音输入模式(125)时,转换所接收到的数据(240)包括:
显示对应于中文拼音的多个语标(300),其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁使用的到所述语言中最不频繁使用的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
11.如权利要求1所述的方法,其特征在于,还包括在接收所述数据之前接收先前语标,其中,当所确定的输入模式包括所述拼音输入模式(125)时,转换所接收到的数据包括:
显示对应于中文拼音的多个语标(300),其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁用于跟随所述先前语标的到所述语言中最不频繁用于跟随所述先前语标的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
12.如权利要求1所述的方法,其特征在于,当所确定的输入模式包括所述笔画数输入模式(135)时,转换所接收到的数据(240)包括:
显示各自具有等于在所述数据中接收到的整数的笔画数的多个语标,其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁使用的到所述语言中最不频繁使用的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
13.如权利要求1所述的方法,其特征在于,还包括在接收所述数据之前接收先前语标,其中,当所确定的输入模式包括所述笔画数输入模式(135)时,转换所接收到的数据(240)包括:
显示各自具有等于在所述数据中接收到的整数的笔画数的多个语标,其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁用于跟随所述先前语标的到所述语言中最不频繁用于跟随所述先前语标的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
14.如权利要求1所述的方法,其特征在于,当所确定的输入模式包括所述笔画数输入模式(135)时,转换所接收到的数据(240)包括:
显示多个语标,每一语标具有对应于在所述数据中接收到的第一整数的偏旁以及等于在所述数据中接收到的第二整数的除了所述偏旁之外的笔画数,其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁使用的到所述语言中最不频繁使用的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
15.如权利要求1所述的方法,其特征在于,当所确定的输入模式包括所述笔画数输入模式(135)时,转换所接收到的数据(240)包括:
显示多个语标,每一语标具有对应于在所述数据中接收到的第一整数的偏旁以及等于在所述数据中接收到的第二整数的除了所述偏旁之外的笔画数,其中使用所述语言模型(160)包括使用所述语言模型(160)来按从语言中最频繁用于跟随所述先前语标的到所述语言中最不频繁用于跟随所述先前语标的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
16.一种用于提供转换的系统,所述系统包括:
存储器存储(404、409、410);以及
耦合到所述存储器存储(404、409、410)的处理单元(402),其中所述处理单元可用于:
确定包括以下输入模式中的一个的输入模式(220):笔画次序输入模式(130)和笔画数输入模式(135)
基于所确定的输入模式来接收数据(230);以及
基于所确定的输入模式以及被配置成与以下输入模式中的每一个一起使用的语言模型(160)来转换所接收到的数据(240);拼音输入模式(125)、所述笔画次序输入模式(130)和所述笔画数输入模式(135)。
17.如权利要求16所述的系统,其特征在于,可用于基于所确定的输入模式来转换所接收到的数据(240)的处理单元(402)包括可用于基于由所接收到的数据中的多个阿拉伯数字指示的笔画以及所接收到的数据中的多个阿拉伯数字的次序来创建汉字的处理单元,由所接收到的多个阿拉伯数字指示的笔画中的每一个都包括选自以下笔画的中文笔画:“一”、“丨”、“丿”、“丶”和“乛”。
18.如权利要求16所述的系统,其特征在于,可用于基于所确定的输入模式来转换所接收到的数据(240)的处理单元(402)包括可用于执行以下动作的处理单元(402):
显示各自具有等于在所述数据中接收到的整数的笔画数的多个语标(300),其中使用所述语言模型包括使用所述语言模型来按从语言中最频繁使用的到所述语言中最不频繁使用的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
19.如权利要求16所述的系统,其特征在于,可用于基于所确定的输入模式来转换所接收到的数据(240)的处理单元(402)包括可用于执行以下动作的处理单元:
显示多个语标,每一语标具有对应于在所述数据中接收到的第一整数的偏旁以及等于在所述数据中接收到的第二整数的除了所述偏旁之外的笔画数,其中使用所述语言模型包括使用所述语言模型来按从语言中最频繁用于跟随先前语标的到所述语言中最不频繁用于跟随所述先前语标的次序排列所述多个语标;以及
接收对所述多个语标中的一个的选择。
20.一种存储一组指令的计算机可读介质,所述一组指令在被执行时执行一种用于提供转换的方法,由所述一组指令执行的方法包括:
接收对来自以下输入模式的第一转换模式的选择:拼音输入模式(125)、笔画次序输入模式(130)和笔画数输入模式(135);
基于所述第一转换模式和语言模型来转换第一数据(240);
接收对不同于所述第一转换模式并选自以下输入模式的第二转换模式的选择:拼音输入模式、笔画次序输入模式和笔画数输入模式;以及
基于所述第二转换模式和所述语言模型来转换第二数据(240)。
CN2008800066849A 2007-03-01 2008-02-26 共享语言模型 Active CN101622616B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/713,255 2007-03-01
US11/713,255 US8316295B2 (en) 2007-03-01 2007-03-01 Shared language model
PCT/US2008/055045 WO2008106470A1 (en) 2007-03-01 2008-02-26 Shared language model

Publications (2)

Publication Number Publication Date
CN101622616A true CN101622616A (zh) 2010-01-06
CN101622616B CN101622616B (zh) 2013-07-31

Family

ID=39721595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800066849A Active CN101622616B (zh) 2007-03-01 2008-02-26 共享语言模型

Country Status (5)

Country Link
US (1) US8316295B2 (zh)
JP (2) JP5513898B2 (zh)
CN (1) CN101622616B (zh)
TW (1) TWI428768B (zh)
WO (1) WO2008106470A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677237B2 (en) 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US9330180B2 (en) * 2007-10-02 2016-05-03 Microsoft Technology Licensing, Llc Mobile terminal and method of controlling the same
KR101387510B1 (ko) * 2007-10-02 2014-04-21 엘지전자 주식회사 휴대 단말기 및 그 제어 방법
US9733724B2 (en) 2008-01-13 2017-08-15 Aberra Molla Phonetic keyboards
CN101719023A (zh) * 2009-03-29 2010-06-02 李春华 手持式汉字输入键盘及操作方法
TWI412955B (zh) * 2009-08-19 2013-10-21 Inventec Appliances Corp 漢字書寫筆順之提示方法、電子裝置及電腦程式產品
US20120023549A1 (en) * 2010-07-23 2012-01-26 Academia Sinica CAPTCHA AND reCAPTCHA WITH SINOGRAPHS
CN101930474A (zh) * 2010-09-14 2010-12-29 闫卫 汉字简易笔划检索方法
US20120156658A1 (en) * 2010-12-16 2012-06-21 Nicholas Fuzzell Methods for teaching and/or learning chinese, and related systems
US8996356B1 (en) * 2012-04-10 2015-03-31 Google Inc. Techniques for predictive input method editors
CN104704510B (zh) * 2012-10-10 2018-08-31 摩托罗拉解决方案公司 识别在文档中使用的语言并且基于识别的语言执行ocr识别的方法和装置
KR101337872B1 (ko) * 2013-04-04 2013-12-06 주식회사 디오텍 잉크 텍스트 데이터 편집장치 및 잉크 텍스트 데이터 편집방법
US9460344B2 (en) * 2014-10-13 2016-10-04 Lenovo (Singapore) Pte. Ltd. Generating multi-logogram phrases from logogram radicals
US9910852B2 (en) * 2015-03-12 2018-03-06 Lenovo (Singapore) Pte. Ltd. Detecting cascading sub-logograms
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1060544A (zh) * 1991-09-28 1992-04-22 肖启宏 汉字全息码计算机输入系统
US5197810A (en) * 1989-06-19 1993-03-30 Daozheng Zhang Method and system for inputting simplified form and/or original complex form of Chinese character
CN1412654A (zh) * 2001-10-19 2003-04-23 陈永康 一种联想字筛选方式
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56132664A (en) * 1980-03-19 1981-10-17 Sharp Corp Electronic dictionary for kanji (japanese character)
JPH0743709B2 (ja) * 1986-01-13 1995-05-15 カム―フー・ウォン 漢字入力処理装置
GB8629908D0 (en) * 1986-12-15 1987-01-28 Kemano Ltd Words & characters computer input device
JPH0320857A (ja) * 1989-06-19 1991-01-29 Canon Inc 文書処理装置
JPH05282294A (ja) 1992-03-30 1993-10-29 Gakken Co Ltd 漢字の検索方法
JPH07114558A (ja) * 1993-10-19 1995-05-02 Fujitsu Ltd 漢字変換訂正処理方式
JPH0896081A (ja) 1994-09-29 1996-04-12 Toshiba Corp 文字認識装置及び文字認識方法
JP3233803B2 (ja) 1994-12-22 2001-12-04 三菱重工業株式会社 難読漢字検索装置
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5966719A (en) * 1997-11-20 1999-10-12 Microsoft Corporation Method for inserting capitalized Latin characters in a non-Latin document
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
JP2001166868A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 数字キーパッドによる中国語ピンイン入力方法及び装置
WO2001090879A1 (en) * 2000-05-26 2001-11-29 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for displaying information
JP4491921B2 (ja) * 2000-06-16 2010-06-30 ブラザー工業株式会社 日本語入力装置
US7254269B2 (en) * 2000-08-31 2007-08-07 Hewlett-Packard Development Company, L.P. Character recognition system
CA2477637C (en) * 2001-08-30 2009-06-16 America Online Incorporated Component-based, adaptive stroke-order system
RU2316040C2 (ru) * 2002-07-01 2008-01-27 Сони Эрикссон Мобайл Коммьюникейшнз Аб Ввод текста в электронное устройство связи
CN1515985A (zh) * 2003-01-08 2004-07-28 时空系统有限公司 数字信息处理装置及输入汉字的方法
KR20040068031A (ko) * 2003-01-22 2004-07-30 김민겸 키패드에서의 알파벳 입력장치 및 그 방법
CA2428821C (en) * 2003-05-15 2009-03-17 Ibm Canada Limited - Ibm Canada Limitee Accessing a platform independent input method editor from an underlying operating system
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
JP2005078211A (ja) * 2003-08-28 2005-03-24 Fujitsu Ltd 中国語入力プログラム
JP2005157472A (ja) * 2003-11-20 2005-06-16 Sharp Corp 文字入力装置および文字入力方法
JP4133851B2 (ja) * 2004-01-28 2008-08-13 シャープ株式会社 電子辞書装置および電子辞書制御プログラム
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
KR20050092999A (ko) * 2004-03-17 2005-09-23 샤프전자(주) 전자사전에서의 한자검색방법
CN1704882A (zh) * 2004-05-26 2005-12-07 微软公司 使用键盘的亚洲语言输入
US20060018545A1 (en) * 2004-07-23 2006-01-26 Lu Zhang User interface and database structure for Chinese phrasal stroke and phonetic text input
TWI249688B (en) * 2004-09-29 2006-02-21 Inventec Corp Human-machine interactive interface language conversion method and system
US7263658B2 (en) * 2004-10-29 2007-08-28 Charisma Communications, Inc. Multilingual input method editor for ten-key keyboards
KR100641838B1 (ko) * 2004-11-10 2007-02-28 이병환 심벌문자를 이용한 다국언어 문자 입력 방법 및 문자 입력시스템
US7889927B2 (en) * 2005-03-14 2011-02-15 Roger Dunn Chinese character search method and apparatus thereof
CN1834865B (zh) * 2005-03-18 2010-04-28 马贤亮 一种小键盘上数字编码的汉语拼音和注音多字连续输入法
US7506254B2 (en) * 2005-04-21 2009-03-17 Google Inc. Predictive conversion of user input
US8032357B2 (en) * 2005-06-14 2011-10-04 Microsoft Corporation Phonetic input using a keypad
US7861164B2 (en) * 2005-11-03 2010-12-28 Bin Qin Method to sequentially encode PINYIN of Chinese character with few symbols
US20080211777A1 (en) 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8677237B2 (en) 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5197810A (en) * 1989-06-19 1993-03-30 Daozheng Zhang Method and system for inputting simplified form and/or original complex form of Chinese character
CN1060544A (zh) * 1991-09-28 1992-04-22 肖启宏 汉字全息码计算机输入系统
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard
CN1412654A (zh) * 2001-10-19 2003-04-23 陈永康 一种联想字筛选方式

Also Published As

Publication number Publication date
JP2010520530A (ja) 2010-06-10
TW200849038A (en) 2008-12-16
US20080215307A1 (en) 2008-09-04
WO2008106470A1 (en) 2008-09-04
TWI428768B (zh) 2014-03-01
US8316295B2 (en) 2012-11-20
JP5513898B2 (ja) 2014-06-04
JP5802292B2 (ja) 2015-10-28
CN101622616B (zh) 2013-07-31
JP2014139809A (ja) 2014-07-31

Similar Documents

Publication Publication Date Title
CN101622616B (zh) 共享语言模型
CN101641691A (zh) 集成拼音和笔画输入
CN105117376B (zh) 多模式输入法编辑器
CN100555203C (zh) 修正已输入文字的系统及方法
US9824085B2 (en) Personal language model for input method editor
CN104813275B (zh) 用于预测文本的方法和系统
CN101669116A (zh) 用于生成亚洲语字符的识别体系结构
CN101622617A (zh) 笔画数输入
CN103026318A (zh) 输入法编辑器
CN101246410A (zh) 上下文或语境输入法和系统
CN101149679A (zh) 在输入法词库中添加自定义词的方法及文字输入装置
CN1704882A (zh) 使用键盘的亚洲语言输入
van Esch et al. Writing across the world's languages: Deep internationalization for Gboard, the Google keyboard
EP4248301A1 (en) Automatic document sketching
US7197184B2 (en) ZhuYin symbol and tone mark input method, and electronic device
TW201512858A (zh) 電子裝置及其文字輸入介面顯示方法
CN102402298A (zh) 一种拼音输入法及拼音输入法的用户词添加方法和系统
CN109284012A (zh) 一种古彝文语言输入控制系统及方法、信息数据处理终端
CN100565553C (zh) 用于亚洲语言的手写输入的方法和系统
CN115586839A (zh) 用于输入全球文字的方法、系统及非暂时性计算机可读记录介质
WO2007132287A2 (en) Text composition
CN102346743A (zh) 生成候选词的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150512

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150512

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.