CN1801139A - 句子显示方法和信息处理系统 - Google Patents

句子显示方法和信息处理系统 Download PDF

Info

Publication number
CN1801139A
CN1801139A CNA2006100513953A CN200610051395A CN1801139A CN 1801139 A CN1801139 A CN 1801139A CN A2006100513953 A CNA2006100513953 A CN A2006100513953A CN 200610051395 A CN200610051395 A CN 200610051395A CN 1801139 A CN1801139 A CN 1801139A
Authority
CN
China
Prior art keywords
speech
language
fallibility
phrase
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100513953A
Other languages
English (en)
Other versions
CN1801139B (zh
Inventor
金子美和
青木和夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1801139A publication Critical patent/CN1801139A/zh
Application granted granted Critical
Publication of CN1801139B publication Critical patent/CN1801139B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的一个目的是提供一种显示用不同于用户的本国语言的语言描述的句子的方法,该方法有助于用户发现错用的词,以及一种对该错用的词的改正方法。一种使用信息处理器显示用第一语言描述的句子的方法,该方法包括以下步骤:接收用第一语言描述的句子的输入的输入接收步骤;将输入句子分离成每个构成词的分离步骤;确定构成词是否是预定的特定词的确定步骤,以及响应于确定出构成词是预定的特定词用第二语言显示该构成词的显示步骤。

Description

句子显示方法和信息处理系统
技术领域
本发明涉及一种显示用不同于使用该句子的用户的本国语言的语言描述的句子的方法,以及执行该方法的信息处理器、程序和信息处理系统。
背景技术
通常,已知一种通过计算机使用翻译程序支持使用用户的非本国语言写和读句子(下文被合适地称为“外语句子”)的方法。例如,在用于检查用户输入的外语句子中的词的拼写的程序中,通过对照外语词典检查输入词来确定输入词的拼写是否正确,并且如果存在拼写错误则将该拼写错误告知用户。
通过这种拼写检查程序,可将与拼写有关的错误告知用户。此外,已知一种检测句子中的拼写错误并显示该拼写错误的词的正确词的方法(例如专利文献1)。根据此方法,可检测拼写错误,并很准确地显示词的建议改正以改正拼写错误。
〔专利文献1〕
日本未审查的专利出版物(Kokai)号2003-223437
发明内容
但是,即使如上所述对句子中的各个词执行拼写检查,也不能警告用户关于词的错误使用(词的错用)。换句话说,当相似的词在形式或发音方面有错误而句子没有错误拼写时,拼写检查方法不能检测到该词的错误使用。
例如,当用户写句子“The register on the planar should bechanged”时,不出现任何问题,这是因为该句子中的所有词都拼写正确。但是,当用户希望输入词“resistor(芯片电阻器)”而不是“register(记录)”时,则会导致用用户不希望的错误的词来写该句子。因此,希望提供这样一种方法,当词本身被错用而同时它们被正确拼写时允许用户直观地发现这种错误以改正它们。
同时,在读该句子时,会错误地翻译易错词而同时继续阅读下去。因此,希望提供一种允许用户直观地找到这种阅读错误以改正该错误的方法。
本发明的一个目的是提供一种用于显示外语句子,提供允许用户更易于发现词的错用的句子写入支持方法和改正方法、信息处理器和信息处理系统的方法、装置和系统。本发明的另一个目的是提供一种通过在例如外语电子邮件和网站上为用户同时显示易错词的翻译来支持用户阅读外语句子的句子阅读支持方法、信息处理器和信息处理系统。
因此,根据本发明的一方面,本发明人提供了一种使用信息处理器显示用第一语言描述的句子的方法,该方法包括以下步骤:接收用第一语言描述的句子的输入,将输入句子分离成构成词,确定该构成词之一是否是预定的特定词,并且响应于确定出该构成词是预定的特定词用第二语言显示该构成词。
更具体地,提供了其中该特定词是用于第一语言的词或词组中的易错词的方法。
根据本发明,当该句子用第一语言显示时,被确定为在第一语言中易错的句子的构成词中的词或词组用第二语言显示。因此,可用第二语言显示该易错词,而不需要确定用第一语言描述的句子的构成词中的易错词。
因此,根据本发明,通过将句子分离成词,在分离的词或词组中确定用户易于错用的词或词组,并用用户的本国语言显示该确定的词,可允许用户在写外语句子时可更易于识别被错用的词或词组。另外,提供了通过将句子分离成词,在被分离的词或词组中确定用户易于错用的词或词组,并用用户的本国语言显示该被确定的词,来支持用户阅读该外语句子的句子阅读支持方法。
根据本发明,当句子用第一语言显示时,该句子的构成词中的被确定为特定词的词或词组用第二语言显示。因此,可用第二语言显示该特定词,而不需要在用第一语言描述的句子的构成词中确定该特定词。结果,浏览第一语言描述的文档的用户可看到用第二语言显示的特定词,而不需要进行特别操作。
附图说明
图1是示出信息处理器1的硬件配置的视图;
图2是根据本发明的实施例的第二词典存储部分25的示意图;
图3是示出根据本发明的实施例的易错词的词典的记录格式的视图;
图4是示出根据本发明的实施例的信息处理器1执行的操作的流程图;
图5是示出在语形(morphological)分析中执行的操作的流程图;
图6是示出当词包含相同拼写时被确定为易错的词的比率的图表;
图7是示出确定词是否易错的操作的流程图;
图8是在显示单元上显现的示出第一语言描述的句子以及被确定为易错的词的翻译的屏幕图象;
图9是示出信息处理系统100的硬件配置的视图。
具体实施方式
下文,将根据附图说明本发明的优选实施例。
图1示出信息处理器1的硬件配置。信息处理器1具有接收用户的第一语言描述的句子的输入的输入单元12,用输入的第一语言显示该句子或者用第二语言显示该句子的翻译的显示单元11,识别该第一语言描述的输入句子中的词或者进行词典搜索的控制单元10,和存储词典或其它字典的存储单元13。信息处理器1可以是一般的计算机,紧凑型个人终端(例如PDA)或移动电话。
这里,第一语言指示除了用户的本国语言之外的语言,其可以是外语。第二语言指示用户的本国语言或第二本国语言。此外,特定词指示需要用第二语言显示的第一语言描述的词或词组,该词或词组也可是例如在写和读该第一语言描述的句子时通常易错的词(或词组)。
输入单元12接收到用户的第一语言描述的句子的输入,并将输入信息发送给控制单元10或存储单元13。输入单元12可以是例如键盘、鼠标、语音输入系统(例如麦克风)等。显示单元11显示该输入的外语句子或控制单元10的操作结果。该显示单元可以是例如包括液晶显示监视器的计算机监视器。
控制单元10控制信息处理器1中的信息。控制单元10可以是传统的中央处理器(CPU),或者可具有临时存储数据、信息或标记的缓冲部分23,和编辑部分27。该缓冲部分23是例如CPU中的高速缓冲存储器或RAM。缓冲部分23可设置在存储单元13内而不是控制单元10内。缓冲部分23可存储将被确定的词或词组本身,或者与该词或词组的属性相关的信息(例如目标词或词组的词类信息,无用词信息或未知词信息:下文被称为“属性信息”)。这里,未知词信息指示与一般不熟悉的词(未知词)相关的信息。换句话说,未知词信息指示普通字典等中没有列出的词的信息。此外,无用词信息指示与不将被处理的词(例如,不将用第二语言显示的词或词组)的属性相关的信息。缓冲部分23还可存储被确定在第二语言(翻译)中易错的词或词组。
控制单元10可包括分离用户用第一语言输入的句子中的词的词分离部分20,确定每个词或词组是否为特定词或词组的确定部分22,和接受用户对用第一语言显示的句子中的被确定为特定词的词的编辑的编辑部分27。此外,词分离部分20可包括属性管理部分21和缓冲部分23。属性管理部分21可将被分离的词的属性信息与第一语言描述的词和第二语言描述的该词(翻译)一起存储在缓冲部分23内。
词分离部分20使用词边界例如间隔、逗号或冒号作为标记,将第一语言描述的句子中的词和词组分离成构成词。在这里,该构成词是单个词或由多个词构成的词组。此外,词分离部分20可分离外语句子中的词,以根据词典30中列出的词应用属性。
确定部分22确定该输入构成词是否为特定词(易错词)。在确定中,确定部分22参照存储单元13内存储的易错词词典32,并且当该词或词组存储在该易错词词典32中时确定该词或词组易错。
存储单元13存储信息处理器1中使用的数据、词典、外语句子或翻译。存储单元13可以是例如硬盘、CD-ROM、DVD-ROM等。存储单元13存储包含大量与词相关的数据的词典,并且可具有第一词典存储部分24、第二词典存储部分25和常用词词典存储部分26。第一词典存储部分24存储词典30和词组词典31。词典30是包含第一语言描述的词和与其对应的第二语言描述的该词(翻译)以及该词的词类的数据。词组词典31存储包含词组即成语或合成词(例如“trick-or-treat”)和与其对应的翻译以及该词组的词类的数据。
第二词典存储部分25包括易错词词典32。易错词词典32配置成使用其中易错词及其的第二语言的翻译注册为一组词的记录格式(见图3)。易错词词典的记录格式可由入口(entry)词(用第一语言示出的构成词)及其翻译(与该用第一语言示出的构成词相对应的用第二语言示出的词),分类码和相似词(根据例如下文所述的规则确定为与该第一语言描述的构成词相似的词)及其翻译(与该相似词相对应的用第二语言示出的词)。这里,分类码指示与构成词相关的信息,例如该词相应于下文将说明的规则中的哪一条。
易错词词典32可包括根据是否存在任何其它拼写相似的词或词组来将词分类为易错词的拼写相似性词典36,可包括根据是否存在任何其它发音相似的词或词组来将词分类为易错词的发音相似性词典37,或者可包括包含用户注册的易错词的用户定义词典38。用户定义词典38可包含形式为一组词的或者分开的(即仅有入口词、其翻译以及分类码;而不是一组词)易错词及其翻译(见图2)。
图4是示出根据本发明的实施例的信息处理器1执行的信息处理的流程图。首先,输入单元12接收到用户的第一语言描述的句子的输入(步骤S01)。可经由执行本发明的信息处理的专用应用程序或经由用于生成文档的通用应用软件接收该输入,从而执行本发明的信息处理的应用软件服从地针对该输入的外语句子进行操作。
例如,可通过从服务器接收外语句子的输入并显示该输入来实现句子输入。下面将参照图8说明该操作。
此外,步骤S02可开始于在一连串第一语言描述的句子的输入之后接收用户的翻译确认的输入(例如点击图标)。
控制单元10对第一语言描述的输入句子进行语形分析(步骤S02)。语形分析指示将第一语言描述的输入句子分离成词,并给各个词应用词类、属性、无用词属性、未知词属性等。可将常用词注册为无用词。
确定部分22根据与词相关的语形分析信息以及存储单元13内存储的各个词典,通过搜索易错词词典来确定该词是否为特定词(易错词)(步骤S03和S04)。下面将在说明易错词确定例程的部分内说明关于词是否易错的确定(图7)。接下来,确定部分22确定词是否为常用词(步骤S06)。常用词指示通常用第一语言写句子时常用的词。即,如果词是常用词则用户将不容易错用该词,从而该词可被确定为不是易错词。虽然被提取为常用词的词可注册在常用词词典33内,但是适当的名词、用片假名(Katakana)描述的词或者在例如外语学校教授的基本词也应注册在常用词词典33内。可选择地,可通过应用无用词属性来提取常用词。
在步骤S06内将词确定为常用词之后,当在第一语言描述的句子中后面仍有词时(步骤S08),确定随后的词是否为易错词(步骤S05)。当该词被确定为不是常用词时,过程转到步骤S07。如果该词被确定为是易错词,则将该词与作为该易错词的候选的第二语言描述的该词(翻译)一起存储在例如缓冲部分23内(步骤S07)。该第二语言描述的易错词可显示为该易错词的候选。
例如,用户可选择是否显示1)存储在易错词词典32内的非常用词;2)存储在易错词词典内的常用词以及3)没有存储在易错词词典内的常用词中的用第二语言描述的任何一个或者任何组合。另外,用户可改变根据下文说明的规则被确定与第一语言描述的构成词相似的上述相似词的阈值(提取率),或非常用词的阈值。
此外,由于易错词词典在记录格式中存储易错词和相似词,所以可提供编辑步骤以将用于改正的候选词显示为与易错词相关联的“词的建议改正”。换句话说,用户可通过显示词的建议改正经由编辑部分27选择该词的建议改正中的词或输入改正。
此外,在步骤S08之后接收到用户的输入时,与其翻译一起显示的易错词可被不同的词替换。即,当用户认识到该易错词拼写错误时,用户输入正确的词。可在接收到用户的输入时改正(替换)该易错词。
参照图5,下面将说明语形分析操作。词分离部分20将第一语言描述的句子分离成词(步骤S10)。将属性(例如词类、无用词或未知词)应用于被分离的词(步骤S11)。确定是否在第一词典存储部分24的字典30内发现该词(步骤S12)。如果没有发现该词,则可运行规则表达式处理、标准化处理或合成词处理(步骤S13)。标准化处理可以是如果该词包含不必要的字母、数字或符号中的任何,则在排除该不必要的字母、数字或符号之后再次在词典内搜索该词的处理。合成词处理可以是在词典内搜索包含多个词的复合词或作为一个词的成语而不是仅搜索各个词的处理。规则表达式处理指示将例如URL(统一资源定位符)识别为单个词的处理。从步骤S11开始一直重复该过程,直到对第一语言描述的句子中的所有词都进行了处理(步骤S14)。
下文说明信息处理器1对易错词的确定。易错词词典32可存储在拼写或发音方面的“相似词”及其翻译。即,根据是否存在相似词来确定该词是否为易错。用户可定制该词典以注册用户识别为易错的词或删除该词。如上文参照图3说明的,易错词词典的记录形式可由入口词;翻译;分类(;相似词:翻译)分层级地构成。
存在列出通常为识别为易错的词的文档。例如,Paul Brians的“英语中的常用错误”列出了易错词。在此文档的212组词中,其中50%或更多的拼写彼此相同的词对占94。8%(201对)(见图6中的图表50)。剩余的11对为例如accede/exceed,bare/bear,cite/sight,close/clothes,council/consul,和counsel/consul;所有这些都存在着发音相似。因此,可根据拼写和发音相似性来将被识别为易错的词分类。
可通过应用下文所述的规则来确定拼写相似性。这里,假设各个词的第一和最后一个字母中的任何一个或全部相同。这里的字母的数量指示构成词的字母的数量(例如,“adapt”和“adopt”均包含5个字母)。这里,“词对”指示“词以及另一个与其相比较的词”(例如,“adapt”和“adopt”)。一致率是用相同字母的数量除以较长的词的字母的数量得到的值。
规则1:在词的字母的数量相同或不同的情况下,处于相同位置的不同字母的数量为:
对于2到3个字母的词对:
仅有1个字母不同
对于4到5个字母的词对:
2个或更少的字母不同
对于6到7个字母的词对:
3个或更少的字母不同
对于8到9个字母的词对:
4个或更少的字母不同
对于多于或等于10个字母的词对:
5个或更少的字母不同
示例:adapt/adopt(4个字母相同)(对于词长度相同的词对:对处于相同位置的相同字母计数。对于词长度不同的词对:如果第一个字母相同则从词的开始对相同字母计数,或者如果第一字母不同而最后一个字母相同,则从词的结尾对相同的字母计数)。
规则2:在词的字母的数量相同或不同的情况下,词对的相同位置处的字母的一致率为50%或更高(对于词长度相同的词对:对处于相同位置的相同字母计数。对于词长度不同的词对:如果第一个字母相同则从词的开始对相同字母计数,或者如果第一字母不同而最后一个字母相同,则从词的结尾对相同的字母计数)。
示例:continual/continuous
      (7个字母相同;一致率为7/10=70%)
compliance/complaint
      (6个字母相同;一致率为6/10=60%)
aural/oral
      (3个字母相同;一致率为3/5=60%)
规则3:在词的字母的数量相同或不同的情况下,位于不同或相同位置处的不同字母的数量为:
对于2到3个字母的词对:
仅有1个字母不同
对于4到5个字母的词对:
2个或更少的字母不同
对于6到7个字母的词对:
3个或更少的字母不同
对于8到9个字母的词对:
4个或更少的字母不同
对于多于或等于10个字母的词对:
5个或更少的字母不同
(对于词长度相同的词对:对处于相同位置的相同字母计数。对于词长度不同的词对:如果第一个字母相同则从词的开始对相同字母计数,或者如果第一字母不同而最后一个字母相同,则从词的结尾对相同的字母计数)。
规则4:在词的字母的数量相同或不同的情况下,词对的不同或相同位置处的字母的一致率为50%或更高(对于词长度相同的词对:对处于相同位置的相同字母计数。对于词长度不同的词对:如果第一个字母相同则从词的开始对相同字母计数,或者如果第一字母不同而最后一个字母相同,则从词的结尾对相同的字母计数)。
示例:bear/bare
      (4个字母相同;一致率为4/4=100%)
close/clothes
      (5个字母相同;一致率为5/7=71%)
fiscal/physical
      (5个字母相同;一致率为5/8=63%)
规则5:在词的字母的数量相同或不同的情况下,词对的相同位置处的字母的一致率为80%或更高,并且字母的数量等于或小于5,而从每个词的开头开始的2个字母相同(对于词长度相同的词对:对处于相同位置的相同字母计数。对于词长度不同的词对:如果第一个字母相同则从词的开始对相同字母计数,或者如果第一字母不同而最后一个字母相同,则从词的结尾对相同的字母计数)。
然后,通过应用下文所述的规则确定发音的相似性。这里,假定各个词的第一和最后一个音节中的任何一个或全部相同。这里,音节的数量指示构成词的音节的数量(例如,cite/sight(sa’it/sa’it)都由4个音节构成)。这里,“词对”指示“词以及另一个与其相比较的词”(例如,“cite”和“sight”)。一致率是相同音节的数量除以包含较多数量的音节的词的音节数量得到的值。
规则6:在词的音节的数量相同或不同的情况下,处于相同位置的不同音节的数量为:
对于2到3个音节的词对:
仅有1个音节不同
对于4到5个音节的词对:
2个或更少的音节不同
对于6到7个音节的词对:
3个或更少的音节不同
对于8到9个音节的词对:
4个或更少的音节不同
对于多于或等于10个音节的词对:
5个或更少的音节不同
示例:cite/sight(4个音节相同)(对于词长度相同的词对:对处于相同位置的相同音节计数。对于词长度不同的词对:如果第一个音节相同则从词的开始对相同的音节计数,或者如果第一音节不同而最后一个音节相同,则从词的结尾对相同的音节计数)。
规则7:在词的音节的数量相同或不同的情况下,词对的相同位置处的音节的一致率为50%或更高(对于词长度相同的词对:对处于相同位置的相同音节计数。对于词长度不同的词对:如果第一个音节相同则从词的开始对相同的音节计数,或者如果第一音节不同而最后一个音节相同,则从词的结尾对相同的音节计数)。
示例:cite/sight→sa’it/sa’it(一致率为100%)
规则8:在词的音节的数量相同或不同的情况下,位于不同或相同位置处的不同音节的数量为:
对于2到3个音节的词对:
         仅有1个音节不同
对于4到5个音节的词对:
         2个或更少的音节不同
对于6到7个音节的词对:
         3个或更少的音节不同
对于8到9个音节的词对:
         4个或更少的音节不同
对于多于或等于10个音节的词对:
         5个或更少的音节不同
(对于词长度相同的词对:对处于相同位置的相同音节计数。对于词长度不同的词对:如果第一个音节相同则从词的开始对相同的音节计数,或者如果第一音节不同而最后一个音节相同,则从词的结尾对相同的音节计数)。
规则9:在词的音节的数量相同或不同的情况下,词对的不同或相同位置处的音节的一致率为50%或更高(对于词长度相同的词对:对处于相同位置的相同音节计数。对于词长度不同的词对:如果第一个音节相同则从词的开始对相同的音节计数,或者如果第一音节不同而最后一个音节相同,则从词的结尾对相同的音节计数)。
规则10:在词的音节的数量相同或不同的情况下,词对的相同位置处的音节的一致率为80%或更高,并且音节的数量等于或小于5,而从每个词的开头开始的2个音节相同(对于词长度相同的词对:对处于相同位置的相同音节计数。对于词长度不同的词对:如果第一个音节相同则从词的开始对相同的音节计数,或者如果第一音节不同而最后一个音节相同,则从词的结尾对相同的音节计数)。
作为另外的规则,可将不常用的词组(例如成语)确定为易错词。在通过例如语形分析指定词类之后规则1到10可应用于特定的词类以确定该词是否为易错的。
图7是示出确定词是否易错的操作的流程图。在拼写相似性词典36、发音相似性词典37和用户定义词典38内搜索目标词(步骤S20、S22和S25)。拼写相似性词典36和发音相似性词典37存储关于基于上述规则1到10该词是否易错的信息。根据注册的信息确定该目标词是否为易错词。换句话说,如果目标词满足规则1到5中的任何一个(步骤S21),则在拼写相似性词典36内将该目标词注册为易错词,使得该词被确定为易错的。
如果该词没有在拼写相似性词典36内注册为易错词,则然后搜索发音相似性词典37以看看该词是否注册其中(步骤S22)。如果目标词满足规则6到10中的任何一个,则在发音相似性词典37内将该目标词注册为易错词,使得该词被确定为易错(步骤S24和S23)。
如果该词没有在发音相似性词典37内注册为易错词,则然后搜索词组词典31以看看该词是否注册在其中(步骤S27)。如果该词组是例如不常用的词组,则在词组词典31内将目标词组注册为易错词,使得该词组被确定为易错(步骤S23)。该词组可以是例如“call for”的成语或例如“trick-or-treat”的合成词。合成词可作为单个词被处理,而不是被识别为词组。
如果目标词组没有在词组词典31内注册为易错词,则该词组被确定为正常的词(步骤S29),并且过程结束。
可在例如拼写相似性词典36和发音相似性词典37内搜索第一语言描述的句子中的所有词之后处理词组,而不是如图7所示在逐个词的基础上搜索词组词典31的过程。
图8是示出第一语言描述的输入句子和第一语言描述的句子中的被确定为易错的词的翻译的显示图象的示例。这种屏幕图象在信息处理器1的显示单元11内显示。如图8中所示,被确定为易错的词的翻译可与用户输入的(第一语言描述的)句子相关联地显示。
在本发明中,尽管显示图8中示出的第一语言描述的句子中的词例如“compliance”和“supervise”的翻译,但是不显示用户不容易错用的词例如“If”、“have”和“system”的翻译。因此,用户可通过仅检查易错词的翻译来防止错用词。
作为本发明的可选择实施例,信息处理系统100可包括客户终端101、服务器103以及连接该客户终端101和服务器103的通信网络102,以实现本发明的目的。
更具体地,客户终端101可以是接收用户的第一语言描述的句子的输入并显示输入结果的计算机,其具有上述的信息处理器1的显示单元11和输入单元12。即,从客户终端101的客户输入单元经由通信网络102将用户的第一语言描述的输入句子输入服务器103。服务器103具有上述的信息处理器1的控制单元10和存储单元13,以对第一语言描述的输入句子中的各个词进行语形分析或确定易错词,从而可将易错词的翻译发送给客户终端101,并在客户终端101的显示单元中显示该翻译。
此外,服务器103可具有存储单元13,以及将易错词的翻译发送给客户终端101的服务器传输部分。换句话说,服务器传输部分可将被确定部分22确定为易错的词的数据以及相互关联的翻译发送给客户终端101。此外,第一词典存储部分24、第二词典存储部分25和常用词词典存储部分26分别存储在多个服务器内。通信网络102可以是互联网,而可提供多个客户终端101。
实现前述实施例的信息处理器、句子显示方法和句子处理系统可由被计算机或服务器执行的程序实现。用于该程序的存储介质包括光学存储介质、磁带介质和半导体存储器。连接到专用通信网络或互联网的服务器系统内设置的存储设备例如硬盘或RAM也可用作该存储介质,以经由网络提供程序。
尽管已说明了本发明的实施例,但是仅打算说明特定示例而不是具体限制本发明的范围。本发明的优点并不局限于本发明的实施例内所述的优点,本发明的实施例中所述的优点仅被示出为从本发明得到的最合适的优点。
本发明中的写句子(外语句子)的第一语言并不局限于特定的语言。只要用户使用不同于本国语言的语言写句子,就可不依赖于特定语言而实现本发明。此外,本发明中的特定词并不局限于使用第一语言中的易错词,而该特定词还可包括在使用第一语言时需要用第二语言显示的词。

Claims (38)

1、一种使用信息处理器显示用第一语言描述的句子的方法,该方法包括以下步骤:
接收用第一语言描述的句子的输入;
将该句子的输入分离成构成词;
确定每一个构成词是否是预定的特定词;以及
响应于确定出构成词是预定的特定词用第二语言显示该构成词。
2、根据权利要求1的方法,其特征在于,该特定词是第一语言中使用的词或词组中的易错的词。
3、根据权利要求1的方法,其特征在于,该显示步骤包括用第一语言和/或第二语言显示与该构成词相应的词的建议改正。
4、根据权利要求1的方法,其特征在于,该方法还包括用该第一语言和/或第二语言显示词的编辑的步骤,该词与用第二语言显示的构成词相关联。
5、根据权利要求4的方法,其特征在于,该编辑步骤包括接收用户的输入以编辑构成词。
6、根据权利要求1的方法,其特征在于,该方法由计算机执行。
7、根据权利要求1的方法,其特征在于,该分离步骤包括通过语形分析将用第一语言描述的输入句子分离成词,以应用指示词的词类的词类属性、指示词是未知词的未知词属性或指示该词被排除在将被作为特定词处理的词之外的无用词属性。
8、根据权利要求2的方法,其特征在于,该确定步骤包括针对在根据词的易错性将词分类的易错词词典内列出的词或词组,确定该词是否是易错的。
9、根据权利要求8的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果词或词组的拼写相似,确定该词是否是易错的。
10、根据权利要求9的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果在词或词组中的相同位置处的不同字母的数量等于或小于预定数量,确定该词是否易错。
11、根据权利要求9的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果在词或词组中的相同位置处的不同字母的比率等于或小于预定值,确定该词是否易错。
12、根据权利要求9的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果在词或词组中的不同或相同位置处的相同字母的数量等于或大于预定数量,确定该词是否易错。
13、根据权利要求9的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果在词或词组中的不同或相同位置处的相同字母的比率等于或大于预定值,确定该词是否易错。
14、根据权利要求9的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的拼写相似性词典,如果在词或词组中的不同或相同位置处的相同字母的比率等于或大于预定值且某一数量的字母内的相同位置处的相同字母的数量等于或大于按照某一一致率的预定数量,确定该词是否易错。
15、根据权利要求8的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果词或词组的发音相似,确定该词是否易错。
16、根据权利要求15的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果在词或词组中的相同位置处具有不同发音符号的音节的数量等于或小于预定数量,确定该词是否易错。
17、根据权利要求15的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果在词或词组中的相同位置处具有不同发音符号的音节的比率等于或小于预定值,确定该词是否易错。
18、根据权利要求15的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果在词或词组中的不同或相同位置处具有相同发音符号的音节的数量等于或大于预定数量,确定该词是否易错。
19、根据权利要求15的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果在词或词组中的不同或相同位置处具有相同发音符号的音节的比率等于或大于预定值,确定该词是否易错。
20、根据权利要求15的方法,其特征在于,该确定步骤包括根据将词或词组分类为易错的发音相似性词典,如果在词或词组中的不同或相同位置处具有相同发音符号的音节的比率等于或大于预定值且某一数量或更少的音节内的处于相同位置的相同音节的数量等于或大于按照某一一致率的预定数量,确定该词是否易错。
21、根据权利要求1的方法,其特征在于,搜索构成词的词类属性,并根据搜索的词类属性确定该词为特定词。
22、根据权利要求2的方法,其特征在于,该确定步骤包括确定构成词是否是在写用第一语言描述的句子时常用的词或词组,以及响应于确定出该词不常用而确定该词或词组是否易错。
23、根据权利要求2的方法,其特征在于,该确定步骤包括根据将词或词组分类为用户定义的易错词的用户定义相似性词典,如果该构成词是用户定义的易错词,确定该构成词是否易错。
24、一种用于显示用第一语言描述的句子的计算机程序产品,其中该计算机程序产品执行以下功能:
接收用第一语言描述的句子的输入;
将输入句子分离成构成词;
确定每一个构成词是否是预定的特定词;以及
响应于确定出该构成词是预定的特定词用第二语言显示该构成词。
25、根据权利要求24的计算机程序产品,其特征在于,该特定词是第一语言中使用的词或词组中的易错的词。
26、根据权利要求24的计算机程序产品,其特征在于,该显示功能执行用第一语言和/或第二语言显示与该构成词相应的词的建议改正的功能。
27、根据权利要求24的计算机程序产品,其特征在于,该计算机程序产品还包括用该第一语言和/或第二语言显示词的编辑功能,该词与用第二语言显示的构成词相关联。
28、根据权利要求27的计算机程序产品,其特征在于,该编辑功能执行接收用户的输入以编辑构成词的功能。
29、一种用于显示用第一语言描述的句子的信息处理器,其包括:
用于接收用第一语言描述的句子的输入的输入单元;
用于将输入句子分离成构成词的词分离单元;
用于确定每一个构成词是否是预定的特定词的确定单元;以及
用于响应于确定出构成词是预定的特定词用第二语言显示该构成词的显示单元。
30、根据权利要求29的信息处理器,其特征在于,该特定词是第一语言中使用的词或词组中的易错的词。
31、根据权利要求29的信息处理器,其特征在于,该显示单元用第一语言和/或第二语言显示与构成词相应的词的建议改正。
32、根据权利要求29的信息处理器,其特征在于,该信息处理器还包括用该第一语言和/或第二语言显示词的编辑单元,该词与用第二语言显示的构成词相关联。
33、根据权利要求32的信息处理器,其特征在于,该编辑单元接收用户的输入以编辑该构成词。
34、一种使用包括服务器、客户终端以及连接该服务器和客户终端的通信网络的网络系统显示用第一语言描述的句子的信息处理系统,
其中该客户终端包括:
用于接收用第一语言描述的句子的输入的输入单元;
用于将输入句子发送到服务器的客户发送单元,
其中服务器包括:
用于将输入句子分离成构成词的词分离单元;
用于确定每一个构成词是否是预定的特定词的确定单元;以及
用于发送数据到客户终端的服务器发送单元,该数据包括构成词和在构成词中的用与其相关联的第二语言描述的特定词,
其中客户终端从服务器接收相关联的数据并显示数据。
35、根据权利要求34的信息处理系统,其特征在于,该特定词是第一语言中使用的词或词组中的易错的词。
36、根据权利要求34的信息处理系统,其特征在于,该客户终端的显示单元用第一语言和/或第二语言显示与构成词相应的词的建议改正。
37、根据权利要求34的信息处理系统,其特征在于,该系统还包括用该第一语言和/或第二语言显示词的编辑单元,该词与该用第二语言显示的构成词相关联。
38、根据权利要求37的信息处理系统,其特征在于,该客户终端的编辑单元接收用户的输入以编辑该构成词。
CN2006100513953A 2005-01-04 2006-01-04 句子显示方法和信息处理系统 Expired - Fee Related CN1801139B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005000207A JP4301515B2 (ja) 2005-01-04 2005-01-04 文章表示方法、情報処理装置、情報処理システム、プログラム
JP2005000207 2005-01-04
JP2005-000207 2005-01-04

Publications (2)

Publication Number Publication Date
CN1801139A true CN1801139A (zh) 2006-07-12
CN1801139B CN1801139B (zh) 2010-05-26

Family

ID=36641769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100513953A Expired - Fee Related CN1801139B (zh) 2005-01-04 2006-01-04 句子显示方法和信息处理系统

Country Status (3)

Country Link
US (1) US20060149557A1 (zh)
JP (1) JP4301515B2 (zh)
CN (1) CN1801139B (zh)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2008009682A2 (en) * 2006-07-17 2008-01-24 Total Recall Aps A computer-implemented translation tool
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8464150B2 (en) * 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP4993319B2 (ja) 2009-02-13 2012-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション ソフトウェアの国際化の検証を支援する装置及び方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
US8386926B1 (en) 2011-10-06 2013-02-26 Google Inc. Network-based custom dictionary, auto-correction and text entry preferences
US9330083B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US9330082B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140136184A1 (en) * 2012-11-13 2014-05-15 Treato Ltd. Textual ambiguity resolver
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN104281275B (zh) * 2014-09-17 2016-07-06 北京搜狗科技发展有限公司 一种英文的输入方法和装置
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
JP6997993B2 (ja) * 2018-09-11 2022-01-18 日本電信電話株式会社 語学学習支援装置、その方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877176A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd 外国語翻訳装置
JP3960562B2 (ja) * 1994-09-30 2007-08-15 株式会社東芝 機械翻訳の学習方法
JPH08235182A (ja) * 1995-02-28 1996-09-13 Canon Inc 文章処理方法とその装置
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU2001261505A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Machine translation techniques
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
JP4574047B2 (ja) * 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
US7272560B2 (en) * 2004-03-22 2007-09-18 Sony Corporation Methodology for performing a refinement procedure to implement a speech recognition dictionary

Also Published As

Publication number Publication date
CN1801139B (zh) 2010-05-26
US20060149557A1 (en) 2006-07-06
JP2006190006A (ja) 2006-07-20
JP4301515B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
CN1801139A (zh) 句子显示方法和信息处理系统
US9411801B2 (en) General dictionary for all languages
US9519641B2 (en) Photography recognition translation
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
CN101623202B (zh) 一种医学输入法及医疗设备
US20150309984A1 (en) Learning language models from scratch based on crowd-sourced user text input
US20060212433A1 (en) Prioritization of search responses system and method
US20140281944A1 (en) Automatic supplementation of word correction dictionaries
US8335787B2 (en) Topic word generation method and system
CN1471029A (zh) 自动检测文件中搭配错误的系统和方法
CN1269069C (zh) 字符识别装置及方法
US20090307584A1 (en) Automatic language identification for dynamic text processing
CN1232226A (zh) 句子处理装置及其方法
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1744087A (zh) 搜索文档的文档处理装置及其控制方法
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
CN1920812A (zh) 语言处理系统
CN112149680B (zh) 错字检测识别方法、装置、电子设备及存储介质
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品
US10977450B2 (en) Terminal device and method for providing additional information
CN1464431A (zh) 区分亚洲语言写入系统中姓名的系统
JP2022055305A (ja) テキスト要約を生成するテキスト処理方法、装置、デバイス及び記憶媒体
US20170351661A1 (en) System and method for understanding text using a translation of the text
JP2021149439A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20120104