CN102165435A - 使用因特网语料库的自动上下文相关语言产生、校正和增强 - Google Patents

使用因特网语料库的自动上下文相关语言产生、校正和增强 Download PDF

Info

Publication number
CN102165435A
CN102165435A CN200980138185XA CN200980138185A CN102165435A CN 102165435 A CN102165435 A CN 102165435A CN 200980138185X A CN200980138185X A CN 200980138185XA CN 200980138185 A CN200980138185 A CN 200980138185A CN 102165435 A CN102165435 A CN 102165435A
Authority
CN
China
Prior art keywords
function
speech
correction
correct
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980138185XA
Other languages
English (en)
Other versions
CN102165435B (zh
Inventor
Y·卡罗夫赞格威尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ginger Software Inc
Original Assignee
Ginger Software Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ginger Software Inc filed Critical Ginger Software Inc
Priority claimed from PCT/IL2009/000130 external-priority patent/WO2010013228A1/en
Publication of CN102165435A publication Critical patent/CN102165435A/zh
Application granted granted Critical
Publication of CN102165435B publication Critical patent/CN102165435B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种计算机辅助语言产生系统,包括:语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。

Description

使用因特网语料库的自动上下文相关语言产生、校正和增强
相关申请的引用
在此引用在2007年8月1日提交的、标题为“METHODS FOR CONTEXT SENSITIVE ERROR DETECTION AND CORRECTION”的美国临时专利申请No.60/953,209和在2008年7月31日提交的PCT专利申请PCT/IL2008/001051,特此通过引用并入它们的公开,并且特此按照37CFR1.78(a)(4)和(5)(i)来要求它们的优先权。
技术领域
本发明总体上涉及计算机辅助语言产生和校正,并且更具体地涉及适用于机器翻译的计算机辅助语言产生和校正。
背景技术
认为以下公布表示现有技术:
美国专利No.5,659,771;No.5,907,839;No.6,424,983;No.7,296,019;No.5,956,739和No.4,674,065
美国公布的专利申请No.2006/0247914和No.2007/0106937
发明内容
本发明寻求提供用于计算机辅助语言产生的改进的系统和功能。
根据本发明的优选实施例,提供了一种计算机辅助语言产生系统,包括:
语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
优选地,所述语句检索功能包括:
独立短语产生器,用于将所述输入文本划分为一个或多个独立短语;
词干产生器和分类器,用于对每一个独立短语进行操作,以产生词中出现的词干,并且向其分配重要性权重;以及
替换产生器,用于产生与所述词干对应的替换词干。
根据本发明的优选实施例,所述计算机辅助语言产生系统并且还包括词干到语句索引,所述词干到语句索引与所述因特网语料库交互,以检索所述多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词。
优选地,所述语句产生功能包括:
语句简化功能,用于简化从所述因特网语料库检索的所述语句;
简化语句分组功能,用于对由所述语句简化功能提供的类似的简化语句进行分组;以及
简化语句组分级功能,用于对所述类似的简化语句的组进行分级。
根据本发明的优选实施例,所述简化语句组分级功能使用下面的准则中的至少一些来操作:
A.在组中包含的简化语句的数量;
B.在所述组中的词的词干与在独立短语中的词干及其替换的对应度;
C.所述组包括不与在所述独立短语中的词及其替换对应的词的程度。
优选地,所述简化语句组分级功能使用下面的过程的至少一部分来操作:
定义词干的权重,以指示词在语言中的重要性;
计算与准则B对应的正匹配分级;
计算与准则C对应的负匹配分级;
基于以下项来计算复合分级:
在组中包含的简化语句的所述数量,并且所述数量对应于准则A;
所述正匹配分级;以及
所述负匹配分级。
根据本发明的实施例,所述计算机辅助语言产生系统还包括机器翻译功能,用于提供所述输入文本。
根据本发明的优选实施例,提供了一种机器翻译系统,包括:
机器翻译功能;
语句检索功能,其基于由所述机器翻译功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述机器翻译功能产生的所述输入文本的至少一个正确的语句。
优选地,所述机器翻译功能提供与在所述输入文本中的词对应的多个替换,并且所述语句检索功能用于从所述因特网语料库检索包括对应于所述替换的词的多个语句。
根据本发明的实施例,语言产生包括文本校正。
根据本发明的优选实施例,提供了一种文本校正系统,包括:
语句检索功能,其基于由所述文本校正功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句校正功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
优选地,所述系统还包括语句搜索功能,用于基于用户输入的查询词来提供所述输入文本。
根据本发明的优选实施例,提供了一种语句搜索系统,包括:
语句搜索功能,用于基于用户输入的查询词来提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语句搜索功能产生的所述输入文本的至少一个正确的语句。
优选地,所述计算机辅助语言产生系统还包括语音至文本转换功能,用于提供所述输入文本。
根据本发明的优选实施例,提供了一种语音至文本转换系统,包括:
语音至文本转换功能,用于提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语音至文本转换功能产生的所述输入文本的至少一个正确的语句。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于因特网语料库来至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
优选地,所述选择器用于基于以下校正功能中的至少一个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。
根据本发明的优选实施例,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。
另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
附加地或可替换地,通过下面的功能之一来提供所述输入语句:词处理器功能;机器翻译功能;语音至文本转换功能;光学字符识别功能;以及即时消息传送功能;并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。附加地或可替换地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
根据本发明的优选实施例,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
优选地,所述选择器包括基于上下文的评分功能,所述基于上下文的评分功能用于至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率来对所述多个替换进行分级。另外,所述基于上下文的评分功能也用于至少部分地基于在所述因特网语料库中的标准化的CFS出现频率来对所述多个替换进行分级。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括拼写校正功能、误用词校正功能、语法校正功能以及词汇增强功能中的至少一个;以及上下文特征序列功能,其与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少一个协同工作,并且使用因特网语料库。
优选地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。附加地或可替换地,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
根据本发明的优选实施例,所述计算机辅助语言校正系统包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少两个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少两个协同工作,并且使用因特网语料库。
优选地,所述计算机辅助语言校正系统还包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少三个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少三个协同工作,并且使用因特网语料库。
根据本发明的优选实施例,所述计算机辅助语言校正系统还包括所述拼写校正功能;所述误用词校正功能;所述语法校正功能;以及所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能协同工作,并且使用因特网语料库。
优选地,所述校正产生器包括校正语言产生器,所述校正语言产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用产介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于在所述语言输入中的所述多个词的至少一些的多个替换中选择的一些之间的关系,来至少在所述语言输入中的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
优选地,所述语言输入包括输入语句和输入文本中的至少一个。附加地或可替换地,所述语言输入是语音,并且所述产生器将语音形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
根据本发明的优选实施例,所述语言输入是以下项中的至少一个:文本输入;光学字符识别功能的输出;机器翻译功能的输出;以及词处理功能的输出,并且所述产生器将文本形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
优选地,所述选择器用于通过执行以下功能中的至少两个来作出所述选择:选择第一词集合或词组合,所述第一词集合或词组合包括的词少于在所述语言输入中用于初始选择的所有所述多个词;其后,对所述第一词集合或词组合的元素进行排序,以建立选择的优先级;并且其后,当在所述第一词集合的元素的多个替换中进行选择时,选择所述多个词中的其他词但是不是所有词来作为上下文,以影响所述选择。附加地或可替换地,所述选择器用于通过执行以下功能来作出所述选择:当对于具有至少两个词的元素进行选择时,结合所述至少两个词彼此的另一个词的多个替换的每一个替换来对所述至少两个词的每一个词的多个替换的每一个替换进行评估。
根据本发明的优选实施例,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来评估所述至少大多数词;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述计算机辅助语言校正系统还包括:替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择;并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。附加地或可替换地,所述计算机辅助语言校正系统还包括:可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为误用词的程度。
根据本发明的优选实施例,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
优选地,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于评估在语言输入中的词;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词中的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在因特网语料库中的所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换之间进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于评估在语言输入中的词,并且识别可疑词;替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入来产生在所述输入中的至少一个词的多个替换;选择器,用于根据多个选择准则来对每一个所述至少一个词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述至少一个词的偏置,所述偏置是用于指示人提供所述输入的不确定性的输入不确定性度量的函数;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:错误词怀疑器,用于对语言输入中的至少大多数词进行评估,所述怀疑器至少部分地对用于指示人提供所述输入的不确定性的输入不确定性度量进行响应,所述怀疑器提供可疑错误词输出;以及替换产生器,用于产生由所述可疑错误词输出识别的可疑错误词的多个替换;选择器,用于在每一个可疑错误词和由所述替换产生器产生的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,用于接收多词输入并且提供校正输出,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括替换词候选产生器,所述替换词候选产生器包括:语音相似度功能,用于基于与在所述输入中的词的语音相似度来提出替换词,并且指示语音相似度的度量;以及字符串相似度功能,用于基于与在所述输入中的词的字符串相似度来提出替换词,并且指示每一个替换词的字符串相似度的度量;以及选择器,用于通过将所述语音相似度的度量和字符串相似度的度量与基于上下文的选择功能一起使用,来选择在所述输出中的词或由所述替换词候选产生器提出的替换词候选。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:可疑词识别功能,用于接收多词语言输入,并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;特征出现功能,用于使用语料库并提供出现输出,所述出现输出按照包括所述替换的各个特征在所述语料库中的使用频率将所述各个特征进行分级;以及选择器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括下述功能中的至少一个:用于消除包含可疑错误的特征的功能;用于对包含在所述多词输入的早期校正迭代中引入的词并且具有小于置信度预定阈值的置信度的特征进行负偏置的功能;以及用于消除被包含在具有大于预定频率阈值的出现频率的另一个特征中的特征的功能。
优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:语法校正;和误用词校正;以及词汇增强。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
根据本发明的优选实施例,所述选择器也用于至少部分地基于用户输入不确定性度量来作出所述选择。另外,所述用户输入不确定性度量是基于人提供所述输入的不确定性测量的函数。附加地或可替换地,所述选择器也使用用户输入历史学习功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:可疑词识别功能,用于接收多词语言输入并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;出现功能,用于使用语料库并且提供出现输出,所述出现输出按照包括所述替换的特征在所述语料库中的使用频率将包括所述特征进行分级;以及校正输出产生器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括下述功能中的至少一个:N元语法识别功能和共现识别功能,以及略过语法识别功能、转换语法识别功能以及用户先前使用特征识别功能中的至少一个。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来对所述至少大多数词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述计算机辅助语言校正系统还包括:替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择,并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
根据本发明的优选实施例,所述计算机辅助语言校正系统还包括:可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为包含语法错误的程度。
优选地,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于对语言输入中的词进行评估;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换中进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于评估在语言输入中的词并且识别可疑词;替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率对各个替换校正进行基于上下文的评分。
优选地,所述计算机辅助语言校正系统还包括与所述基于上下文的评分协同工作的下述功能中的至少一个:拼写校正功能;误用词校正功能;语法校正功能;以及词汇增强功能。
根据本发明的优选实施例,所述基于上下文的评分也至少部分地基于在因特网语料库中的标准化的CFS出现频率。附加地或可替换地,所述基于上下文的评分也至少部分地基于CFS重要性评分。另外,所述CFS重要性评分是以下项中的至少一个的函数:词性标注和语句分析功能的操作;CFS长度;在CFS中的每一个词的出现频率和CFS类型。
根据本发明的另一优选实施例,提供了一种计算机辅助语言校正系统,包括词汇增强功能,所述词汇增强功能包括:词汇受挑战词识别功能;替换词汇增强产生功能;以及基于上下文的评分功能,其至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率,所述替换词汇增强产生功能包括用于产生替换词汇增强的同义词词典预处理功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;置信度分配器,用于向从所述多个替换选择的替换分配置信度;以及校正产生器,用于基于由所述选择器作出的选择和至少部分地基于所述置信度来提供校正输出。
优选地,基于上下文特征序列(CFS)来评估所述多个替换,并且所述置信度基于以下参数中的至少一个:所选择的CFS的数量、类型和评分;在所述CFS的上下文中,所述多个替换的出现频率的统计显著性的测量;在基于所述CFS的每一个的偏好度量和基于所述多个替换的词相似度评分而对所述多个替换之一进行的选择上的一致度;在第一预定最小阈值之上的所述多个替换中的所述一个的非上下文相似度评分;以及上下文数据的可获得的程度,所述程度由具有大于第二预定最小阈值的CFS评分并且具有在第三预定阈值之上的偏好评分的所述CFS的数量指示。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:标点错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词和标点在所述语言输入的上下文内的适合性来对所述至少一些词和标点进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述校正产生器包括下述功能中的至少一个:丢失标点校正功能、多余标点校正功能和标点替代校正功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法元素错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词在所述语言输入的上下文内的适合性来对所述至少一些词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述校正产生器包括下述功能中的至少一个:丢失语法元素校正功能、多余语法元素校正功能和语法元素替代校正功能。附加地或可替换地,所述语法元素是冠词、介词和连词之一。
附图说明
根据下面结合附图的详细描述,将更全面地理解和认识本发明,在附图中:
图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框图图示;
图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图;
图3是图示优选地在图1的系统和功能中使用的误用词和语法校正功能的简化流程图;
图4是图示优选地在图1的系统和功能中使用的词汇增强功能的简化流程图;
图5是图示优选地在图1的系统和功能中使用的上下文特征序列(CFS)功能的简化框图。
图6A是图示根据本发明的一个优选实施例的、形成图2的功能的一部分的拼写校正功能的简化流程图;
图6B是图示根据本发明的一个优选实施例的、形成图3的功能的一部分的误用词和语法校正功能的简化流程图;
图6C是图示根据本发明的一个优选实施例的、形成图4的功能的一部分的词汇增强功能的简化流程图;
图7A是图示在图2和3的功能中有用的、用于产生替换校正的功能的简化流程图;
图7B是图示在图4的功能中有用的、用于产生替换增强的功能的简化流程图;
图8是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图2的拼写校正功能中有用的;
图9是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图3、10和11的误用词和语法校正功能中和在图4的词汇增强功能中有用的;
图10是图示丢失冠词、介词和标点校正功能的操作的简化流程图;
图11是图示多余冠词、介词和标点校正功能的操作的简化流程图;
图12是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言翻译和产生的系统和功能的简化框图图示;
图13是优选地形成图12的系统和功能的一部分的语句检索功能的简化流程图;
图14A和14B一起作为图示优选地形成图12的系统和功能的一部分的语句产生功能的简化流程图;以及
图15是图示在图13、14A和14B的功能中有用的用于产生替换的功能的简化流程图。
具体实施方式
现在参考图1,图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框图图示。在图1中看出,用于校正的文本被从一个或多个来源提供到语言校正模块100,所述一个或多个来源非限制性地包括词处理器功能102、机器翻译功能104、语音至文本转换功能106、光学字符识别功能108和任何其他文本来源110,诸如即时消息或因特网。
语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114和词汇增强功能116。
本发明的一个具体特征是拼写校正功能112、误用词和语法校正功能114和词汇增强功能116的每一个与上下文特征序列(CFS)功能118交互,CFS功能118使用因特网语料库120。
为了在此描述的目的,上下文特征序列或CFS被定义为包括N元语法(N-gram)、略过语法(skip-gram)、转换语法(switch-gram)、共现(co-occurrence)、“用户先前使用特征”及其组合,它们又在后文中参考图5来定义。注意,为了描述的简单和清楚,随后的大多数示例仅使用n元语法。应当理解,本发明不限于此。
因特网语料库的使用是重要的,因为它提供了用于极大数量的上下文特征序列的重要统计数据,产生高度鲁棒的语言校正功能。实际上,超过两个词的组合在传统的非因特网语料库中具有很差的统计,但是在因特网语料库中具有可接受的或良好的统计。
因特网语料库是通常通过在因特网上抓取(crawl)并且从网页收集文本而从万维网收集的自然语言文本的大代表采样。优选地,也收集动态文本,诸如聊天副本、来自网络论坛的文本和来自博客的文本。所收集的文本用于累积关于自然语言文本的统计。与多达二十亿词的更通常的语料库大小相比,因特网语料库的大小可以例如是1万亿(1,000,000,000,000)词或几万亿词。诸如网络语料库的网络小采样包括100亿词,这远远小于由诸如GOOGLE
Figure BPA00001332695500151
的搜索引擎编入索引的网络文本的百分之一。本发明可以用诸如网络语料库的网络采样来工作,但是优选地使用大得多的网络采样来用于文本校正任务。
优选地,以下面两种方式之一来使用因特网语料库:
通过将CFS用作搜索查询来使用一个或多个因特网搜索引擎。每一个这样的查询的结果的数量提供了该CFS的出现频率。
通过对因特网进行抓取和编索引,随着时间过去而建立本地索引。每一个CFS的出现次数提供了CFS频率。本地索引以及搜索查询可以基于因特网的可选部分,并且可以用这些选择的部分来标识。类似地,因特网的部分可以被排除或被适当地加权,以便校正在因特网使用和一般语言使用之间的异常。以这种方式,在语言使用上可靠的网站(诸如新闻和政府网站)可以被赋予比其他网站(诸如聊天或用户论坛)更大的权重。
优选地,输入文本首先被提供到拼写校正功能112,之后被提供到误用词和语法校正功能114。输入文本可以是任何适当的文本,并且在词处理的环境中,优选地是文档的一部分,诸如语句。词汇增强功能116优选地按照用户选项对已经被提供到拼写校正功能112和误用词和语法校正功能114的文本进行操作。
优选地,语言校正模块100提供包括校正后的文本的输出,所述校正后的文本伴随有针对每一个被校正词或每一组被校正词的一个或多个建议的替换。
现在参见图2,图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图。如图2中所示,拼写校正功能优选地包括下面的步骤:
优选地使用传统的词典来识别在输入文本中的拼写错误,该词典具有丰富的在因特网上常用的正确的名称和词;
将拼写错误分组为簇(cluster),该簇可以包括具有拼写错误的单个或多个词(连续或几乎连续),并且选择要校正的簇。该选择试图找到包含最大量正确上下文数据的簇。优选地,选择在其附近具有最长的一个或多个正确拼写词序列的簇。后文中参考图6A更详细地描述上述步骤。
优选地基于后文参考图7A描述的算法来产生针对每一个簇的一个或优选地多个替换校正;
优选地,基于后文参考图8描述的拼写校正替换评分算法,对各个替换校正进行至少部分基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分;
对于每一个簇,基于上述评分,选择单个拼写校正,并且给出最优选的替换拼写校正;以及
提供校正后的文本输出,该校正后的文本输出包含针对每一个误拼写的簇的单个拼写校正,该单个拼写校正替代误拼写的簇。
根据对以下示例的考虑,可以更好地理解图2的功能的操作:
接收下面的输入文本:
Physical ecudation can assits in strenghing muscles.Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate。
下面的词被识别为拼写错误:
ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea。
注意,“fate”未被识别为拼写错误,因为它出现在词典中。
选择下面的簇,如表1中所示:
表1
 簇#   簇
 1   eksersiv
 2   inprove their strenth
 3   ecudation
 4   assits in strenghing
 5   helth becals thay ea
关于簇2,注意“their”被正确地拼写,但仍被包括在簇中,因为它被误拼写的词包围。
簇1“eksersiv”被选择来进行校正,因为它在其附近具有最长的一个或多个正确拼写词序列。
对于误拼写的词“eksersiv”产生下面的替换校正:
excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism。
基于与误拼写的词的发音和字符串的相似度,向每一个替换校正赋予非上下文词相似度评分,例如如表2中所示:
表2
  替换   非上下文词相似度评分
  excessive   0.90
  expressive   0.83
  exercise   0.80
  exorcism   0.56
可以以各种方式得到非上下文评分。一个示例是通过使用在http://en.wikipedia.org/wiki/Levenshtein_distance上可获得的Levelnshtein距离算法。该算法可以被施加到词串、词语音表示或两者的组合。
还基于每一个替换在输入语句上下文中的适合性向其赋予上下文评分,如表3中所示。在该示例中,所使用的上下文是“Some students should<eksersiv>daily”
表3
Figure BPA00001332695500181
上下文评分优选地如后文参考图8所描述的那样得到,并且基于在因特网语料库中的上下文特征序列(CFS)频率。
基于如后文参考图8所描述的上下文评分和非上下文词相似度评分,词“exercise”被选择为最佳的替换。
以类似的方式来校正所有簇。在根据本发明的一个优选实施例的拼写校正后,拼写校正后的输入文本是:
Physical education can assist in strengthening muscles.Some students should exercise daily to improve their strength and health because they are so fate.
注意,在拼写校正后的输入文本中仍然有误用的词。词“fate”需要通过后文参考图3所描述的误用词和语法校正算法来进行校正。
现在参见图3,图3是图示优选地在图1的系统和功能中使用的误用词和语法校正功能的简化流程图。误用词和语法校正功能提供了对正确拼写但是在输入文本的上下文中误用的词的校正和对语法错误的校正,该语法错误包括使用语法上不正确的词取代了语法上正确的词、使用了多余的词以及丢失了词和标点。
如图3中所示,误用词和语法校正功能优选地包括下面的步骤:
优选地,通过评估至少大多数词在输入语句的上下文内的适合性,在从图2的拼写校正功能输出的拼写校正后的输入文本中识别可疑的误用词和具有语法错误的词;
将可疑的误用词和具有语法错误的词分组为簇,该簇优选地是不重叠的;以及
选择要校正的簇。所述识别、分组和选择步骤优选地基于后文参考图6B所描述的算法。
优选地,基于后文参考图7A所描述的替换校正产生算法,为每一个簇产生一个或优选地多个替换校正;
基于后文参考图10描述的丢失冠词、介词和标点校正算法,为每一个簇产生一个或优选地多个替换校正;
基于后文参考图11描述的多余冠词、介词和标点校正算法,为每一个簇产生一个或优选地多个替换校正;
优选地,基于后文参考图9描述的误用词和语法校正替换评分算法,对各个替换校正进行至少部分基于上下文的评分和基于词相似度的评分;
对于每一个簇,基于也在后文参考图9描述的上述评分,选择单个误用词和语法校正,并且给出最优选的替换误用词和语法校正;以及
提供拼写、误用词和语法校正后的文本输出,该文本输出包含每一个簇的单个误用词和语法校正,所述校正替代了不正确的簇。
优选地,所述评分包括:相对于可疑词的多个替换的一些应用有利于该可疑词的偏置,该偏置是用于指示人提供该输入的不确定性的输入不确定性度量的函数。
通过考虑下面的示例,可以更好地理解图3的功能的操作:
接收到下面的输入文本:
I have money book
下面的词被识别为可疑的误用词:
money,book
产生下面的簇:
money book
下面是对于该簇产生的替换校正的示例(部分列表):
money books;money back;money box;money bulk;money Buick;money ebook;money bank;mini book;mummy book;Monet book;honey book;mannerly book;mono book;Monday book;many books;mini bike;mummy back;monkey bunk;Monday booked;Monarchy back;Mourned brook
在表4中给出了使用因特网语料库的基于上下文的至少部分上下文评分和基于非上下文词相似度的评分的结果:
表4
  簇   非上下文相似度评分   上下文评分   总体评分
  money back   0.72   0.30   0.216
  many books   0.84   1.00   0.840
  mini bike   0.47   0.75   0.352
  money box   0.79   0.40   0.316
  money bank   0.65   0.50   0.325
  Monday booked   0.70   0.50   0.350
  monkey bunk   0.54   0.00   0.000
应当意识到,存在得出总体评分的各种方式。优选的总体评分基于后文参考图9描述的算法。
基于上面的评分,选择替换“many books”。因此,校正后的文本是:
I have many books.
现在参考图4,图4是图示在图1的系统和功能中使用的词汇增强功能的简化流程图。如图4中所示,词汇增强功能优选地包括下面的步骤:
在从图3的误用词和语法校正功能输出的拼写、误用词和语法校正后的输入文本中识别具有可疑的欠佳词汇使用的词汇挑战(vocabulary-challenged)词;
将词汇受挑战词分组为簇,该簇优选地是不重叠的;
选择要校正的簇。所述识别、分组和选择步骤优选地基于后文参考图6C所描述的算法。
优选地,基于后文参考图7B所描述的词汇增强产生算法,为每一个簇产生一个或优选地多个替换词汇增强;
优选地,基于后文参考图9描述的词汇增强替换评分算法,对各个替换词汇增强进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分;
对于每一个簇,基于也在后文参考图9描述的上述评分,选择单个词汇增强,并且给出最优选的替换词汇增强;以及
为每一个欠佳词汇簇提供词汇增强建议。
通过考虑下面的示例,可以更好地理解图4的功能的操作:
提供下面的拼写、误用词和语法校正后的输入文本:
Wearing colorful clothes will separate us from the rest of the children in the school.
使用后文参考图6C描述的功能,选择下面的簇来进行词汇增强:
separate
使用后文参考图7B描述的功能,基于在图7B中描述的预处理的词典数据库来产生下面的替换簇校正,如表5中所示(部分列表):
表5
Figure BPA00001332695500211
Figure BPA00001332695500221
至少部分地基于各个替换词汇增强在输入文本的上下文内的适合性,并且也基于它们与词汇受挑战词“separate”的含义相似度,使用因特网语料库对该各个替换词汇增强进行评分。
使用后文参考图5描述的功能,产生下面的CFS(部分列表):
′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′
使用后文参考图9的阶段IIA描述的功能,为在上面的CFS列表中的替换簇校正的部分列表产生在表6中所示的在因特网语料库中的出现频率矩阵:
表6
所有替换校正具有0出现频率的所有CFS被消除。在该示例中,下面的特征语法被消除:
′clothes will separate′
其后,整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
′will separate′,′separate us′
在该示例中,剩余的CFS是特征语法:
′will separate us′,′separate us from′
使用后文参考图9在阶段IID和IIE中描述的最后的偏好评分,选择替换“differentiate”,并且增强的语句是:
Wearing colorful clothes will differentiate us from the rest of the children in the school.
现在参见图5,图5是图示在本发明的优选实施例的、用于计算机辅助语言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的简化框图。
CFS功能118优选地包括特征提取功能,该特征提取功能包括N元语法提取功能,并且可选地包括下述功能中的至少一个:略过语法提取功能;转换语法提取功能;共现提取功能;以及用户先前使用特征提取功能。
作为本领域的已知术语的术语N元语法指的是在输入文本中的N个连续词的序列。该N元语法提取功能可以使用传统的词性标注和语句分析功能,以避免产生基于语法考虑预期不以高频率出现在语料库(优选地为因特网语料库)中的特定N元语法。
为了本描述的目的,术语“略过语法提取功能”表示用于提取“略过语法”的功能,该“略过语法”是修改的N元语法,其省去了特定的非必要词或短语,诸如形容词、副词、形容词短语和副词短语,或仅包含具有预定语法关系的词,诸如主谓、谓宾、副词动词或动词时间短语。略过语法提取功能可以使用传统的词性标注和语句分析功能,以有助于决定可以在给定上下文中略过哪些词。
为了本描述的目的,术语“转换语法提取功能”表示识别“转换语法”的功能,“转换语法”是修改的N元语法,其中转换特定词的出现顺序。转换语法提取功能可以使用传统的词性标注和语句分析功能,以有助于决定可以在给定上下文中转换哪些词的出现顺序。
为了本描述的目的,术语“共现提取功能”表示在滤除诸如介词、冠词、连词和其功能主要是语法功能的其他词的常见词后识别输入语句或包含许多输入语句的输入文档中的词组合的功能,对于输入文本中与N元语法、转换语法或略过语法中包括的词不同的所有词而言,所述词组合具有输入文本词共现以及与输入词的距离和方向的指示。
为了本描述的目的,术语“由用户先前使用的特征提取功能”表示在滤除诸如介词、冠词、连词和其功能主要是语法功能的其他词的常见词后,识别由用户在其他文档中使用的词的功能。
为了本描述的目的,N元语法、略过语法、转换语法及其组合被称为特征语法。
为了本描述的目的,N元语法、略过语法、转换语法、共现、“由用户先前使用的特征”及其组合被称为上下文特征序列或CFS。
图5的功能优选地对输入文本中的单独的词或词簇进行操作。
通过考虑下面的示例,可以更好地理解图5的功能的操作:
提供下面的输入文本:
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Morti
对于在输入文本中的簇“Cherlock Homes”,产生下面的CFS:
N元语法:
2元语法:Cherlock Homes;Homes the
3元语法:Cherlock Homes the;Homes the lead
4元语法:Cherlock Homes the lead;Homes the lead character
5元语法:Cherlock Homes the lead character
略过语法:
Cherlock Homes the character;Cherlock Homes the chief inspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
Switch gram:
The lead character Cherlock Home
在输入文本中的共现:
Character;inspector;investigate;death
在包含输入文本的文档中的共现:
Arthur Conan Doyle;story
在用户的其他文档中的共现:
mystery
对于在输入文本中的簇“cold”,产生下面的CFS:
N元语法:
2元语法:been cold;cold in
3元语法:has been cold;been cold in;cold in by
4元语法:inspector has been cold;has been cold in;been cold in by;cold in by the
5元语法:chief inspector has been cold;inspector has been cold in;has been cold in by;been cold in by the;cold in by the family
略过语法:
cold in to investigate;Cherlock has been cold;cold by the doctor;cold by Dr Mortimer;character has been cold
基于以下项至少之一,优选地基于以下项中的不止一项,并且最优选地基于以下项的全部,向每一个CFS赋予“重要性评分”:
a.传统词性标注和语句分析功能的操作。向包括多个分析树节点的多个部分的CFS赋予相对低的评分。在CFS中包括的分析树节点的数量越大,该CFS的评分越低。
b.CFS的长度。CFS越长,评分越高。
c.CFS中与输入词不同的每个词的出现频率。这样的词的出现频率越高,评分越低。
d.CFS的类型。例如,N元语法比共现优选。在输入语句中的共现比在输入文档中的共现优选,并且在输入文档中的共现比“由用户先前使用的特征”优选。
参见上面的示例,典型的评分如表7中所示:
表7
Figure BPA00001332695500251
Figure BPA00001332695500261
这些CFS和它们的重要性评分在后文参考图8和9描述的功能中,用来基于在因特网语料库中的CFS出现频率,对各种替换簇校正进行基于上下文的评分。
现在参考图6A,图6A是图示用于进行以下操作的功能的简化流程图:识别在输入文本中的误拼写的词;将误拼写的词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
如图6A中所示,识别误拼写的词优选地通过使用传统的词典来进行,该传统的词典具有丰富的在因特网上常用的正确的名称和词。
将误拼写的词分组为簇优选地通过下述方式来进行:将连续或几乎连续的误拼写的词以及具有语法关系的误拼写的词分组为单个簇。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非可疑上下文数据的簇。优选地,选择在其附近具有最长的一个或多个正确拼写词序列的簇。
现在参考图6B,图6B是图示用于进行以下操作的功能的简化流程图:识别在拼写校正后的输入文本中可疑的误用词和具有语法错误的词;将可疑的误用词和具有语法错误的词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
识别可疑的误用词优选地进行如下:
为拼写校正后的输入文本中的每一个词产生特征语法;
记录每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率;
记录每一个词的可疑特征语法的数量。可疑特征语法具有比它们的预期频率低得多或者在最小频率阈值之下的频率。基于特征语法的构成元素及其组合的频率来估计特征语法的预期频率。
如果包含一词的可疑特征语法的数量超过预定阈值,则该词是可疑的。
根据本发明的一个优选实施例,判定拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率(FREQ F-G)。还确定拼写校正后的输入文本中的每一个词在该语料库中的出现频率(FREQ W),并且另外确定没有该词的每一个特征语法的出现频率(FREQ FG-W)。
每一个特征语法的预期出现频率(EFREQ F-G)被计算如下:
EFREQ F-G=FREQ F-G-W*FREQ W/(所有词在语料库中的频率总和)
如果拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率与每一个特征语法的预期出现频率的比率FREQ F-G/EFREQ F-G小于预定阈值,或如果FREQ F-G小于另一个预定阈值,则认为该特征语法是可疑特征语法。在可疑特征语法中包括的每一个词被认为是可疑的误用词或具有可疑的语法错误的词。
通过考虑下面的示例,可以更好地理解图6B中用于识别在拼写校正后的输入文本中的可疑的误用词和具有语法错误的词的功能的操作:
提供下面的拼写校正后的输入文本:
I have money book
特征语法包括下面的部分:
I;I have;I have money;I have money book
表8指示上面的特征语法在因特网语料库中的出现频率:
表8
Figure BPA00001332695500281
为每一个2元语法计算预期出现频率如下:
EFREQ F-G=(FREQ F-G-W*FREQ W)/(所有词在语料库中的频率总和)
例如,对于2元语法
2元语法(x,y)的预期2元语法频率=(x的1元语法频率*y的1元语法频率)/在因特网语料库中的词的数量。例如,一万亿(1,000,000,000,000)词。
拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率与每一个特征语法的预期出现频率的比率被计算如下:
FREQ F-G/EFREQ F-G
拼写校正后的输入文本中每一个上面的2元语法在语料库中(优选地在因特网语料库中)的出现频率与每一个上面的2元语法的预期出现频率的比率如表9中所示。
表9
  2元语法   FREQ F-G   EFREQ F-G   FREQ F-G/EFREQ F-G
  I have   154980000   4118625.7   37.60
  have money   390300   187390.8   2.08
  money book   3100   20487.9   0.15
可以看出,“money book”的FREQ F-G比其预期频率低得多,因此,可以认为FREQ F-G/EFREQ F-G小于诸如1的预定阈值,因此“money book”簇是可疑的。
可以看出,包括词“money book”的3元语法和4元语法在因特网语料库中都具有0频率。这也可以是认为“money book”可疑的基础。
将可疑的误用词和具有语法错误的词分组为簇优选地执行如下:将连续或几乎连续的可疑的误用词分组为单个簇;以及将其间具有语法关系的可疑的误用词分组到同一簇内。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非可疑上下文数据的簇。优选地,选择在其附近具有最长的一个或多个非可疑词序列的簇。
现在参见图6C,图6C是图示用于进行以下操作的功能的简化流程图:识别在拼写、误用词和语法校正后的输入文本中具有可疑的欠佳词汇使用的词汇受挑战词;将词汇受挑战词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
识别词汇受挑战词优选地进行如下:
预处理同义词词典(thesaurus),以向每一个词分配语言丰富度评分,该评分指示该词在一层级中的等级,其中,书面语言比口头语言优选;并且其中,在因特网来源中,文章和书籍例如比聊天和论坛优选,并且其中,较少使用的词比较频繁使用的词优选;
进一步预处理该同义词词典,以基于前面的预处理步骤的结果和语法规则来消除不可能成为词汇增强的候选的词;
进行另外的预处理,以为每一个剩余的词指示词汇增强的候选,该候选具有比输入词更高的语言丰富度评分;以及
检查在拼写、误用词和语法校正后的输入文本中的每一个词是否在多个经预处理的同义词词典中显现为剩余的词,并且将显现为剩余的词的每一个这样的词识别为词汇增强的候选。
将词汇受挑战词分组为优选地不重叠的簇是可选的,并且优选地进行如下:
将连续的词汇受挑战词分组为单个簇;以及
将具有语法关系的词汇受挑战词分组到同一簇内。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非词汇受挑战词的簇。优选地,选择在其附近具有最长的一个或多个非词汇受挑战词序列的簇。
现在参见图7A,图7A是图示在图2和3的功能中有用的、用于产生簇的替换校正的功能的简化流程图。
如果原始输入词拼写正确,则将其视为替换。
如图7A中所示,首先以下面的方式为簇中的每一个词产生多个替换校正:
检索(retrieve)类似于簇中的每一个词的多个词,该多个词是基于它们以字符串相似度表达的书写外观并且基于发音或语音相似度而从词典获取的。该功能是已知的,并且是在因特网上可获得的免费软件,诸如GNU Aspell和GoogleGspell。检索到并被优先化的词提供了第一多个替换校正。例如,给定输入词feezix,基于类似发音将从词典检索到词“physics”,尽管它仅具有一个共同的字符,即“i”。基于其字符串相似度将检索到词“felix”,尽管它没有类似的发音。
通过使用基于已知的替换使用以及累积的用户输入的规则,可以产生另外的替换。例如,u→you,r→are,Im→I am。
基于语法规则,优选地使用预定义的列表,可以产生另外的替换。一些示例如下:
单数/复数规则:如果输入语句是“ fall off trees in the autumn”,则产生复数替换“leaves”。
冠词规则:如果输入文本是“
Figure BPA00001332695500303
 old lady″”,则产生替换冠词“an”和“the”。
介词规则:如果输入文本是“I am interested 
Figure BPA00001332695500304
 football”,则产生替换介词“in”、“at”、“to”、“on”、“through”……。
动词屈折变化(inflection)规则:如果输入文本是“He 
Figure BPA00001332695500305
 the room”,则产生替换的动词屈折变化“left”、“leaves”、“had left”……。
合并词和划分词规则:如果输入文本是“get 
Figure BPA00001332695500306
 fitter”,则产生替换“a lot”。
如果输入文本是“we have to 
Figure BPA00001332695500311
 out”,则产生替换“watch”。
如果输入文本是“do many 
Figure BPA00001332695500312
”,则产生替换“sit ups”。
本发明的一个优选实施例的特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换校正,而不仅用于对这样的“上下文检索”的替换校正评分。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
下面的示例描述本发明的该方面:
如果输入语句是“The cat has 
Figure BPA00001332695500313
”,则词“kts”在发音或书写上与词“kittens”不足够地类似,使得在没有本发明的该方面的情况下,“kittens”不可能是一个替换。
根据本发明的该方面,通过在因特网语料库中查找在N元语法“cat has”后通常出现的词,即在查询“cat has *”中作为*找到的所有词,检索到下面的替换:
nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been
根据本发明的一个优选实施例,然后过滤“上下文检索”的替换,使得仅剩下与原始词(在本示例中为“kts”)具有一定的语音或书写相似度的上下文检索的替换。在该示例中,检索到具有最高语音和书写相似度的替换“kittens”。
在通过诸如光学字符识别、语音至文本或机器翻译系统的外部系统来自动地产生输入文本的情况下,可以从这样的系统直接地接收另外的替换。通常在这样的系统的操作过程中产生这些另外的替换。例如,在机器翻译系统中,外语词的替换翻译可以被提供到本系统以用作替换。
一旦已经为簇中的每一个词产生了所有替换,则通过下述方式来产生整个簇的簇替换:判定各个替换的所有可能组合,并且随后基于它们在语料库(优选地为因特网语料库)中的出现频率来过滤这些组合。
下面的示例是说明性的:
如果输入簇是“money book”,并且词“money”的替换是:
Monday;many;monkey
并且词“book”的替换是:
books;box;back
则产生下面的簇替换:
money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book
现在参考图7B,图7B是图示在图4的功能中有用的、用于产生簇的替换增强的功能的简化流程图。
如图7B中所示,首先以下面的方式来产生多个替换增强:
如果正确地拼写了原始输入词,则将其考虑为替换。
从在因特网上可免费获得的、诸如Princeton WordNet的同义词词典或其他词汇数据库获取的多个词被检索到,该多个词作为同义词、超集或子集与在簇中的每一个词在词法上相关。检索到并被优先化的词提供了第一多个替换增强。
通过基于已知的替换使用以及累积的用户输入而使用规则来产生另外的替换。
本发明的优选实施例的一个特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换增强,而不仅用于对这样的“上下文检索”的替换增强评分。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
一旦已经为簇内的每一个词产生了所有替换,则通过下述方式来产生整个簇的替换:判定各个词替换的所有可能组合,并且基于产生的多词组合在诸如因特网的现有语料库中的出现频率来过滤这些组合。
下面的示例说明了图7B的功能:
提供下面的输入文本:
it was nice to meet you
通过诸如Princeton WordNet的词汇数据库来产生词“nice”的以下替换(部分列表):
pleasant、good、kind、polite、fine、decent、gracious、courteous、considerate、enjoyable、agreeable、satisfying、delightful、entertaining、amiable、friendly、elegant、precise、careful、meticulous
通过应用预定规则来产生词“nice”的以下替换:
cool
例如响应于诸如“it was * to meet”的查询来产生针对词“nice”的以下上下文检索的替换:
great;a pleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
现在参见图8,图8是图示用于对各个替换增强进行基于上下文和基于词相似度的评分的功能的简化流程图,该功能是在图2的拼写校正功能中有用的。
如图8中所示,对各个替换校正进行的基于上下文和基于词相似度的评分以以下一般阶段而进行:
I.非上下文评分-根据各个簇替换的书写外观和发音相似度,基于与输入文本中簇的相似度来对各个簇替换评分。该评分不考虑在给定簇之外的任何上下文相似度。
II.使用因特网语料库的上下文评分-也基于所提取的上下文特征序列(CFS)来对各个簇替换中的每一个评分,该上下文特征序列(CFS)是如上文参考图5所描述那样而提供的。该评分包括下面的子阶段:
IIA.在如上文参考图5所描述那样提取的CFS的上下文中,对于由图7A的功能产生的各个替换簇校正,优选地使用因特网语料库来执行出现频率分析。
IIB.其中基于子阶段IIA的出现频率分析的结果来执行CFS选择和对各个CFS的加权。加权也基于各个CFS的相对固有重要性。应当意识到,可以向一些CFS赋予为0的权重,并因此不选择该一些CFS。所选择的CFS优选地被赋予相对权重。
IIC.向在子阶段IIB中所选择的每一个CFS的每一个替换校正分配出现频率度量。
IID.其中基于子阶段IIA的出现频率分析的结果、子阶段IIC的出现频率度量和子阶段IIB的CFS选择和加权来产生减小的替换簇校正集合。
IIE.从在子阶段IID中的减小的集合选择在阶段I中具有最高非上下文相似度评分的簇,以用作参考簇校正。
IIF.向在阶段IIB中选择的每一个CFS的子阶段IIE的参考簇校正分配出现频率度量。
IIG.向在子阶段IIB中选择的每一个CFS分配比率度量,该比率度量表示该特征的每一个替换校正的出现频率度量与向子阶段IIE的参考簇分配的出现频率度量之比。
III.基于阶段I的结果和阶段II的结果来选择最优选的替换簇校正。
IV.向最优选的替换簇校正分配置信度评分。
以下给出上文在阶段II-IV中描述的功能的更详细的描述:
参考子阶段IIA,如上文在图5中所描述的那样来产生包括要校正的簇的所有CFS。包含可疑错误(除了在输入簇中的错误之外)的CFS被消除。
产生矩阵,该矩阵指示在每一个CFS中的簇的每一个替换校正在语料库(优选地为因特网语料库)中的出现频率。针对其的所有替换校正都具有为0的出现频率的所有CFS被消除。其后,被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。
下面的示例说明了出现频率矩阵的产生:
提供了下面的输入文本:
I lik tw play outside a lot
使用上文参考图6A所描述的功能,选择下面的簇来用于校正:
lik tw
使用上文参考图7A所描述的功能,产生下面的替换簇校正(部分列表):
like to;like two;lick two;lack two;lack true;like true
使用上文参考图5所描述的功能,产生下面的CFS(部分列表):
‘lik tw’;‘I Lik tw’;‘Lik tw play’;‘I Lik tw play’;‘Lik tw play outside’;‘I Lik tw play outside’;‘Lik tw play outside a’
使用上文参考阶段IIA所描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表10中所示的在因特网语料库中的出现频率矩阵:
表10
Figure BPA00001332695500351
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除了下面的特征语法:
‘lik tw play outside a’
其后,被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。在该示例中,下面的特征语法被消除:
‘lik tw’;‘I lik tw’;‘lik tw play’;‘I lik tw play’;‘lik tw play outside’
在该示例中,仅剩余的CFS是特征语法:
′I lik tw play outside′。
产生的矩阵如表11中所示:
表11
  CFS/替换簇校正   ‘I lik tw play outside’
  like to   330
  like two   0
  lick two   0
  lack two   0
  lack true   0
  like true   0
上述示例说明了根据本发明的一个优选实施例的矩阵的产生。在该示例中,很清楚,“like to”是优选的替换校正。应当意识到,在实际中,选择通常不如此直截了当。因此,在下面给出的另外的示例中,提供了用于在替换校正中进行困难得多的选择的功能。
返回对子阶段IIB的考虑,可选地,每一个剩余的CFS被赋予上文参考图5所描述的评分。另外,包含在多词输入的早期校正迭代中引入的词并且具有小于预定置信度阈值的置信度的CFS被负偏置。
在一般情况下,与上文在子阶段IIC中描述的情况类似,产生标准化的频率矩阵,用于指示每一个CFS在因特网语料库中的标准化的出现频率。通常通过下述方式来从频率矩阵产生标准化的频率矩阵:将每一个CFS频率除以相关簇替换的出现频率的函数。
该标准化用于削弱在各个替换校正的整体中基本差异的影响。适当的标准化因子基于各个替换校正在语料库中作为整体的整体出现频率,而与具体的CFS无关。
下面的示例说明了标准化的出现频率矩阵的产生:
提供了下面的输入文本:
footprints of a mysterious haund said to be six feet tall
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
haund
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
hound;hand;sound
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a mysterious haund’;‘haund said’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表12中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表12
Figure BPA00001332695500371
从上述示例可以意识到,因为在各个替换校正的整体中的基本差异,所以具有最高出现频率的词可能并不一定具有最高的标准化的出现频率。在上述的示例中,“hound”具有最高的标准化的出现频率,并且从输入文本的上下文显而易见的是,正确的词是“hound”,而不是在因特网语料库中具有更高出现频率的“hand”。
本发明的一个特定特征是在替换校正中进行选择时优选地使用标准化的出现频率,该标准化的出现频率削弱了各个替换校正的整体中的基本差异。应当意识到,与标准化的出现频率不同的出现频率的其他度量可以替换或附加地被用作度量。在出现频率相对低或特别高的情况下,附加或可替换的度量是有益的。
将从随后的讨论意识到,在各个替换校正中进行选择时,另外的功能经常是有用的。下面描述这些功能。
在子阶段IID中,根据下面的两个度量,与另一个替换簇校正相比,更不优选的每一个替换簇校正被消除:
i.与另一个替换簇校正相比,具有更低的词相似度评分;以及
ii.与另一个替换簇校正相比,对于所有CFS具有更低的出现频率,并且优选地也具有更低的标准化的出现频率。
下面的示例说明了如上所述的替换校正的消除:
提供下面的输入文本:
I leav un a big house
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
leav un
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
leave in;live in;love in
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I leav un a’;‘leav un a big’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表13中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表13
Figure BPA00001332695500381
在该示例中,替换簇校正的非上下文相似度评分如表14中所示:
表14
  替换簇校正   相似度评分
  leave in   0.9
  live in   0.8
  love in   0.7
替换簇校正“love in”被消除,因为它比“live in”具有更低的相似度评分以及更低的出现频率和更低的标准化的出现频率。在该阶段,不消除替换簇校正“leave in”,因为其相似度评分比“live in”更高。
从上面的内容可以意识到,阶段IID的功能的操作结果是对于减少的多个CFS的每一个的减小的频率矩阵,并且优选地也是减小的标准化频率矩阵,该减小的频率矩阵用于指示减少的多个替换校正的每一个的出现频率,该减小的标准化频率矩阵优选地用于指示减少的多个替换校正的每一个的标准化的出现频率,其中每一个替换校正具有相似度评分。减小的替换簇校正集合优选地用于如从随后的示例看到的所有另外的替换簇选择功能。
对于在减小的频率矩阵中和优选地也在减小的标准化频率矩阵中的每一个替换校正,产生最后的偏好度量。可以使用下面的替换度量的一个或多个来产生每一个替换校正的最后偏好评分。
下面使用术语“频率函数”来指代频率、标准化频率或频率和标准化频率两者的函数。
A.一种可能的偏好度量是在减小的一个或多个矩阵中的任何CFS的减小的一个或多个矩阵中的每一个替换簇校正的最高出现频率函数。例如,各个替换簇校正将被评分如下:
提供下面的输入文本:
A big agle in the sky
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
agle
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
ogle;eagle;angel
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘big agle’;‘agle in the sky’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表15中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表15
Figure BPA00001332695500391
在该示例中,替换簇校正的非上下文相似度评分如表16中所示:
表16
  替换簇校正   相似度评分
  Ogle   0.97
  Eagle   0.91
  Angel   0.83
选择替换“eagle”,因为它包括具有最大出现频率的CFS。
B.另一种可能的偏好度量是每一个替换校正的所有CFS的平均出现频率函数。例如,各个替换校正将被评分如下:
提供下面的输入文本:
A while ago sthe lived 3 dwarfs
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
sthe
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
the;they;she;there
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘ago sthe lived’;‘sthe lived 3’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表17和18中所示的在因特网语料库中的出现频率矩阵、标准化的出现频率矩阵和平均出现频率矩阵:
表17
Figure BPA00001332695500401
表18
注意,基于平均出现频率而选择“there”。
在该示例中,替换簇校正的非上下文相似度评分如表19中所示:
表19
  替换簇校正   相似度评分
  the   0.97
  they   0.86
  she   0.88
  there   0.67
注意,具有最高相似度评分的替换簇校正未被选择。
C.另一种可能的偏好度量是每一个CFS的出现频率函数乘以由上文参考图5描述的功能计算的该CFS的评分在每一个替换校正的所有CFS上的加权和。
D.通过对在减小的一个或多个矩阵中的替换校正的以下操作中的任何一个或多个操作、更优选地大多数操作并且最优选地所有操作,如上文参考子阶段IIE-IIG所描述的,产生特定的替换校正/CFS偏好度量:
i.将具有最高非上下文相似度评分的替换簇校正选择为参考簇。
ii.产生修改的矩阵,其中,在每一个偏好矩阵中,将在每一个特征语法中的每一个替换校正的出现频率函数替代为每一个替换校正的出现频率函数与参考簇的出现频率函数之比。
iii.上文在ii中描述的类型的修改的矩阵被进一步修改,以将在每一个偏好度量中的比率替代为比率的函数:该比率的函数减小了比率中很大差异的的计算重要性。适当的此类函数是对数函数。该操作的目的是在保持最不优选的替换校正的最后偏好评分中出现频率的大差异的重要性并且因此消除最不优选的替换校正的同时,降低在最优选的替换校正的最后偏好评分中出现频率的大差异的重要性。
iv.通过将在每一个偏好度量中的适用比率或比率函数乘以适当的CFS评分来另外修改上文在ii或iii中描述的类型的修改的矩阵。这提供了基于在CFS评分中反映的正确的语法使用和其他因素的重点。
v.通过产生适用比率、比率函数、出现频率和标准化的出现频率的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。通过将在每一个偏好度量中的适用比率或比率函数乘以该CFS的出现频率来产生优选函数。
E.基于如上在D中描述的特定替换校正/CFS偏好度量,通过将替换校正的相似度评分乘以该替换校正的所有CFS的特定替换校正/CFS偏好度量之和,为每一个替换校正计算最后偏好度量。
说明此类修改的矩阵的使用的示例如下:
提供下面的输入文本:
I will be able to tach base with you next week
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
tach
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
teach;touch
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘able to tach’;‘to tach base’
使用上文参考上面的子阶段IIA和IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表20中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表20
Figure BPA00001332695500421
Figure BPA00001332695500431
注意,对于一个特征,“teach”的出现频率和标准化的出现频率均大于“touch”的频率,但是对于另一个特征,“touch”的出现频率和标准化的出现频率均大于“teach”的频率。为了进行替换校正的正确选择,优选地如下所述那样使用上文参考子阶段IIG描述的比率度量。
在该示例中,替换簇校正的非上下文相似度评分如表21中所示:
表21
  替换簇校正   相似度评分
  teach   0.94
  touch   0.89
可以看出,参考簇是“teach”,因为它具有最高的相似度评分。尽管如此,基于如上文所描述的最后偏好评分而选择“touch”。如可以从对指示“teach”具有最高出现频率和最高标准化的出现频率的上面的矩阵的考虑所意识到的,这并不是直观的。在该示例中,最后偏好评分指示选择“touch”而不是“teach”,因为其中有利于“touch”的特征的出现频率的比率比其中有利于“teach”的另一特征的出现频率的比率大得多。
F.可选地,可以使用下面的判决规则的一个或多个,基于替换校正的频率函数值和偏好度量与参考簇的频率函数值和偏好度量的比较来滤除该替换校正:
1.对于具有大于预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比参考簇的CFS频率函数小的CFS频率函数的替换校正。
2.对于具有大于另一预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比预定阈值小的偏好度量的替换校正。
3.a.判定每一个CFS的CFS评分;
b.对于每一个CFS,判定参考簇和替换校正的CFS频率函数,由此判定是参考簇还是替换校正具有针对该CFS的更高的频率函数;
c.对具有比参考簇更高的频率的替换校正的CFS的CFS评分求和;
d.对具有比替换校正更高的频率的参考簇的CFS的CFS评分求和;以及
e.如果在c中的和小于在d中的和,则滤除该替换校正。
下面的示例说明了如上所述的过滤功能。
提供下面的输入文本:
I am faelling en love
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
faelling en
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
falling on;falling in;feeling on;feeling in
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘am faelling en’;‘faelling en love’;‘am faelling en love’;‘I am faelling en’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表22中所示的在因特网语料库中的出现频率矩阵:
表22
Figure BPA00001332695500441
被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
‘am faelling en’;‘faelling en love’
在该示例中,剩余的CFS是特征语法:
‘am faelling en love’;‘I am faelling en’
在该示例中,替换簇校正的非上下文相似度评分如表23中所示:
表23
  替换簇校正   相似度评分
  falling on   0.89
  falling in   0.89
  feeling on   0.82
  feeling in   0.82
替换校正“falling on”、“feeling on”和“feeling in”被滤除,因为它们对于CFS之一具有为0的出现频率。
G.如上文参考阶段III所讨论的,基于如上文在A-E所描述那样得到的最后偏好度量,对在F中的过滤中保留下来的替换校正建立分级。具有最高最后偏好评分的替换校正被选择。
H.如上文参考阶段IV所讨论的,向所选择的替换校正分配置信度。基于以下参数中的一个或多个来计算该置信度:
a.在上面的子阶段IIB中提供的所选择的CFS的数量、类型和评分;
b.在所述CFS的上下文中,各个替换簇校正的出现频率的统计显著性;
c.在基于每一个CFS的偏好度量和各个替换校正的词相似度评分而对替换校正进行的选择上的一致度;
d.在预定最小阈值之上的所选择的替换簇校正的非上下文相似度评分(阶段I);
e.上下文数据的可获得的程度,该程度由具有大于预定最小阈值的CFS评分并且具有超过另一个预定阈值的偏好评分的减小的矩阵中的CFS的数量指示。
如果置信度大于预定阈值,则在没有用户交互的情况下实现所选择的替换校正。如果置信度小于预定阈值但是大于较低的预定阈值,则实现所选择的替换校正,但是邀请用户交互。如果置信度小于该较低的预定阈值,则邀请基于替换校正的优先化列表的用户选择。
下面的示例说明了置信度评分的使用:
提供下面的输入文本:
He was not feeling wehl when he returned
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
wehl
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
wale、well
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘was not feeling wehl’;‘not feeling wehl when’;‘feeling wehl when he’;‘wehl when he returned’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表24中所示的在因特网语料库中的出现频率矩阵:
表24
Figure BPA00001332695500461
上面的示例说明:根据上面在H中给出的所有准则,“well”而不是“wale”的选择具有高置信度。
在下面的示例中,置信度在一定程度上较小,因为在CFS‘bech in the summer’中,替换校正‘back’具有比‘beach’更高的出现频率,但是在CFS‘on the beech in’和‘the bech in the’中‘beach’具有比‘back’更高的出现频率。基于准则H(c)选择具有中间置信度的替换校正‘beach’。
提供下面的输入文本:
I like to work on the bech in the summer
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
bech
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
beach;beech;back
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘on the bech in’;‘the bech in the’;‘bech in the summer’
使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表25中所示的在因特网语料库中的出现频率矩阵:
表25
Figure BPA00001332695500471
基于准则H(c)选择具有中间置信度的替换校正‘beach’。
在下面的示例中,基于准则H(a),置信度更小:
接收下面的输入文本:
Exarts are restoring the British Museum′s round reading room
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
Exarts
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
Experts;Exerts;Exits
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘Exarts are’;‘Exarts are restoring’;‘Exarts are restoring the’;‘Exarts are restoring the British’
使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表26中所示的在因特网语料库中的出现频率矩阵:
表26
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除下面的特征语法:
‘Exarts are restoring’;‘Exarts are restoring the’;‘Exarts are restoring the British’
在该示例中,仅剩余的CFS是特征语法:
‘Exarts are’
可以从上述示例看出,在过滤处理中保留下来的唯一CFS是“exarts are”。结果,置信度相对低,因为该选择仅基于单个CFS,该单个CFS相对短,并且除了可疑词之外仅包括一个词,而该词为频繁出现的词。
现在参见图9,图9是图示用于对各个替换校正进行基于上下文评分和基于词相似度评分的功能的简化流程图,该功能是在图3、10和11的误用词和语法校正功能中和在图4的词汇增强功能中有用的。
如图9中所示,对各个替换校正的基于上下文和基于词相似度的评分以下面的一般阶段进行:
I.非上下文评分-根据各个簇替换的书写外观和发音相似度,基于与输入文本中簇的相似度来对各个簇替换评分。该评分不考虑在给定簇之外的任何上下文相似度。
II.使用因特网语料库的上下文评分-也基于所提取的上下文特征序列(CFS)来对各个簇替换中的每一个评分,该上下文特征序列(CFS)是如上文参考图5所描述那样而提供的。该评分包括下面的子阶段:
IIA.在如上文参考图5所描述那样提取的CFS的上下文中,对于由图7A或7B的功能产生的各个替换簇校正,优选地使用因特网语料库来执行出现频率分析。
IIB.其中基于子阶段IIA的出现频率分析的结果来执行CFS选择和对各个CFS的加权。加权也基于各个CFS的相对固有重要性。应当意识到,可以向一些CFS赋予为0的权重,并因此不选择该一些CFS。所选择的CFS优选地被赋予相对权重。
IIC.向在子阶段IIB中所选择的每一个CFS的每一个替换校正分配出现频率度量。
IID.其中基于子阶段IIA的出现频率分析的结果、子阶段IIC的出现频率度量和子阶段IIB的CFS选择和加权来产生减小的替换簇校正集合。
IIE.输入簇被选择来用作参考簇校正。
IIF.向在阶段IIB中选择的每一个CFS的子阶段IIE的参考簇校正分配出现频率度量。
IIG.向在子阶段IIB中选择的每一个特征分配比率度量,该比率度量表示该特征的每一个替换校正的出现频率度量与向子阶段IIB的参考簇分配的出现频率度量之比。
III.基于阶段I的结果和阶段II的结果来选择最优选的替换簇校正。
IV.向最优选的替换簇校正分配置信度评分。
以下给出上文在阶段II-IV中描述的功能的更详细的描述:
参考子阶段IIA,如上文在图5中所描述的那样来产生包括要校正的簇的所有CFS。包含可疑错误(除了在输入簇中的错误之外)的CFS被消除。
产生矩阵,该矩阵指示在每一个CFS中的簇的每一个替换校正在语料库(优选地为因特网语料库)中的出现频率。针对其的所有替换校正都具有为0的出现频率的所有CFS被消除。其后,被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。
下面的示例说明了出现频率矩阵的产生:
提供了下面的输入文本:
I lick two play outside a lot
使用上文参考图6A所描述的功能,选择下面的簇来用于校正:
lick two
使用上文参考图7A所描述的功能,产生下面的替换簇校正(部分列表):
like to;like two;lick two;lack two;lack true;like true
使用上文参考图5所描述的功能,产生下面的CFS(部分列表):
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two play outside’;‘I lick two play outside’;‘lick two play outside a’
使用上文参考子阶段IIA所描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表27中所示的在因特网语料库中的出现频率矩阵:
表27
Figure BPA00001332695500501
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除了下面的特征语法:
‘lick two play outside a’
其后,被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two play outside’
在该示例中,仅剩余的CFS是下面的特征语法:
′I lick two play outside′.
产生的矩阵如表28中所示:
表28
  CFS/替换簇校正   ‘I lick two play outside’
  like to   330
  like two   0
  lick two   0
  lack two   0
  lack true   0
  like true   0
上述示例说明了根据本发明的一个优选实施例的矩阵的产生。在该示例中,很清楚,“like to”是优选的替换校正。应当意识到,在实际中,选择通常不如此直截了当。因此,在下面给出的另外的示例中,提供了用于在替换校正中进行困难得多的选择的功能。
返回对子阶段IIB的考虑,可选地,每一个剩余的CFS被赋予上文参考图5所描述的评分。另外,包含在多词输入的早期校正迭代中引入的词并且具有小于预定置信度阈值的置信度的CFS被负偏置。
在一般情况下,与上文在子阶段IIC中描述的情况类似,产生标准化的频率矩阵,用于指示每一个CFS在因特网语料库中的标准化的出现频率。通常通过下述方式来从频率矩阵产生标准化的频率矩阵:将每一个CFS频率除以相关簇替换的出现频率的函数。
该标准化用于削弱在各个替换校正的整体中基本差异的影响。适当的标准化因子基于各个替换校正在语料库中作为整体的整体出现频率,而与CFS无关。
下面的示例说明了标准化的出现频率矩阵的产生:
典型地,通过语音识别提供了下面的输入文本:
footprints of a mysterious[hound/hand]said to be six feet tall
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
hound
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
hound;hand;sound
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a mysterious hound’;‘hound said’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表29中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表29
Figure BPA00001332695500521
从上述示例可以意识到,因为在各个替换校正的整体中的基本差异,所以具有最高出现频率的词可能并不一定具有最高的标准化的出现频率。在上述的示例中,“hound”具有最高的标准化的出现频率,并且从输入文本的上下文显而易见的是,正确的词是“hound”,而不是在因特网语料库中具有更高出现频率的“hand”。
本发明的一个特定特征是在替换校正中进行选择时使用标准化频率,该标准化频率削弱了各个替换校正的整体中的基本差异。应当意识到,与标准化的出现频率不同的出现频率的其他度量可以替换或附加地被用作度量。在出现频率相对低或特别高的情况下,附加或可替换的度量是有益的。
将从随后的讨论意识到,在各个替换校正中进行选择时,另外的功能经常是有用的。下面描述这些功能。
在子阶段IID中,根据下面的两个度量,与另一个替换簇校正相比,更不优选的每一个替换簇校正被消除:
i.与另一个替换簇校正相比,具有更低的词相似度评分;以及
ii.与另一个替换簇校正相比,对于所有CFS具有更低的出现频率,并且优选地也具有更低的标准化的出现频率。
下面的示例说明了如上所述的替换校正的消除:
提供下面的输入文本:
I leave on a big house
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
leave on
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
leave in;live in;love in;leave on
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I leave on a’;‘leave on a big’
在此使用上文参考阶段IIE描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表30中所示在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表30
Figure BPA00001332695500531
在该示例中,替换簇校正的非上下文相似度评分如表31中所示:
表31
  替换簇校正   相似度评分
  leave in   0.90
  live in   0.78
  love in   0.67
  leave on   1.00
替换簇校正“love in”被消除,因为它比“live in”具有更低的相似度评分以及更低的出现频率和更低的标准化的出现频率。在该阶段不消除替换簇校正“leave in”,因为其相似度评分比“live in”更大。
从上面的内容可以意识到,子阶段IID的功能的操作结果是对于减少的多个CFS的每一个的减小的频率矩阵,并且优选地也是减小的标准化频率矩阵,该减小的频率矩阵用于指示减少的多个替换校正的每一个的出现频率,该减小的标准化频率矩阵优选地用于指示减少的多个替换校正的每一个的标准化的出现频率,其中每一个替换校正具有相似度评分。减小的替换簇校正集合优选地用于如从随后的示例看到的所有另外的替换簇选择功能。
对于在减小的频率矩阵中和优选地也在减小的标准化频率矩阵中的每一个替换校正,产生最后的偏好度量。可以使用下面的替换度量的一个或多个来产生每一个替换校正的最后偏好评分。
下面使用术语“频率函数”来指代频率、标准化频率或频率和标准化频率两者的函数。
A.一种可能的偏好度量是在减小的一个或多个矩阵中的任何CFS的减小的一个或多个矩阵中的每一个替换簇校正的最高出现频率函数。例如,各个替换簇校正将被评分如下:
提供下面的输入文本:
I am vary satisfied with your work
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
vary
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
vary;very
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘am vary’;‘vary satisfied’;‘I am vary satisfied with’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表32和33中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表32
表33
Figure BPA00001332695500552
在该示例中,可以从出现频率和标准化的出现频率二者看出,“very”具有最高的出现频率函数。
B.另一种可能的偏好度量是每一个替换校正的所有CFS的平均出现频率函数。例如,各个替换校正将被评分如下:
提供下面的输入文本:
A while ago the lived 3 dwarfs
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
the
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
the;they;she;there
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘ago the lived’;‘the lived 3’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表34和35中所示的在因特网语料库中的出现频率矩阵、标准化的出现频率矩阵和平均出现频率矩阵:
表34
Figure BPA00001332695500561
表35
Figure BPA00001332695500562
注意,基于平均出现频率而选择“they”,尽管“there”具有其出现频率是在矩阵中的最大出现频率的CFS。
在该示例中,替换簇校正的非上下文相似度评分如表36中所示:
表36
  替换簇校正   相似度评分
  the   1.00
  they   0.86
  she   0.76
  there   0.67
注意,具有最高相似度评分的替换簇校正未被选择。
C.另一种可能的偏好度量是每一个CFS的出现频率函数乘以由上文参考图5描述的功能计算的该CFS的评分在每一个替换校正的所有CFS上的加权和。
D.通过对在减小的一个或多个矩阵中的替换校正的以下操作中的任何一个或多个操作、更优选地大多数操作并且最优选地所有操作,如上文参考子阶段IIE-IIG所描述的,产生特定的替换校正/CFS偏好度量:
i.从原始输入文本中选择来校正的簇被选择为参考簇。
ii.产生修改的矩阵,其中,在每一个偏好矩阵中,将在每一个特征语法中的每一个替换校正的出现频率函数替代为每一个替换校正的出现频率函数与参考簇的出现频率函数之比。
iii.上文在ii中描述的类型的修改的矩阵被进一步修改,以将在每一个偏好度量中的比率替代为比率的函数:该比率的函数减小了比率中很大差异的的计算重要性。适当的此类函数是对数函数。该操作的目的是在保持最不优选的替换校正的最后偏好评分中出现频率的大差异的重要性并且因此消除最不优选的替换校正的同时,降低在最优选的替换校正的最后偏好评分中出现频率的大差异的重要性。
iv.通过将在每一个偏好度量中的适用比率或比率函数乘以适当的CFS评分来另外修改上文在ii或iii中描述的类型的修改的矩阵。这提供了基于在CFS评分中反映的正确的语法使用和其他因素的重点。
v.通过将在每一个偏好度量中的适用比率或比率函数乘以用户不确定性度量的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。用户输入不确定性度量的一些示例包括:在词处理器中执行的与输入词或簇相关的、相对于对文档的其他词的编辑行为的编辑行为的数量;在词处理器中执行的输入词或簇的、相对于文档的其他词的写入定时的写入定时;以及在语音识别输入功能中执行的输入词或簇的、相对于该用户对于其他词的讲出定时的讲出定时。用户输入不确定性度量提供了用户对于词的该选择有多确定的指示。该步骤将所计算的偏置用于参考簇,并且通过关于该簇的用户确定性或不确定性的函数来对其进行修改。
vi.通过产生适用比率、比率函数、出现频率和标准化的出现频率的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。通过将在每一个偏好度量中的适用比率或比率函数乘以该CFS的出现频率来产生优选函数。
E.基于如上在D中描述的特定替换校正/CFS偏好度量,通过将替换校正的相似度评分乘以该替换校正的所有CFS的特定替换校正/CFS偏好度量之和,为每一个替换校正计算最后偏好度量。
这样的修改的矩阵的示例如下:
提供下面的输入文本:
I will be able to teach base with you next week
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
teach
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
teach;touch
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘able to teach’;‘to teach base’
使用上文参考上面的子阶段IIA和IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表37中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表37
注意,对于一个特征,“teach”的出现频率和标准化的出现频率均大于“touch”的频率,但是对于另一个特征,“touch”的出现频率和标准化的出现频率均大于“teach”的频率。为了进行替换校正的正确选择,优选地如下所述那样使用上文参考子阶段IIG描述的比率度量。
在该示例中,替换簇校正的非上下文相似度评分如表38中所示:
表38
  替换簇校正   相似度评分
  teach   1.00
  touch   0.89
可以看出,参考簇是“teach”,因为它具有最高的相似度评分。尽管如此,基于如上文所描述的最后偏好评分而选择“touch”。如可以从对指示“teach”具有最高出现频率和最高标准化的出现频率的上面的矩阵的考虑所意识到的,这并不是直观的。在该示例中,最后偏好评分指示选择“touch”而不是“teach”,因为其中有利于“touch”的特征的出现频率的比率比其中有利于“teach”的另一特征的出现频率的比率大得多。
F.可选地,可以使用下面的判决规则的一个或多个,基于替换校正的频率函数值和偏好度量与参考簇的频率函数值和偏好度量的比较来滤除该替换校正:
1.对于具有大于预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比参考簇的CFS频率函数小的CFS频率函数的替换校正。
2.对于具有大于另一预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比预定阈值小的偏好度量的替换校正。
3.a.判定每一个CFS的CFS评分;
b.对于每一个CFS,判定参考簇和替换校正的CFS频率函数,由此判定是参考簇还是替换校正具有针对该CFS的更高的频率函数;
c.对具有比参考簇更高的频率的替换校正的CFS的CFS评分求和;
d.对具有比替换校正更高的频率的参考簇的CFS的CFS评分求和;以及
e.如果在c中的和小于在d中的和,则滤除该替换校正。
下面的示例说明了如上所述的过滤功能。
通常通过语音识别功能来提供下面的输入文本:
I want[two/to/too]items,please.
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
[two/to/too]
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
too;to;two
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I want two’;‘want two items’
在此使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表39中所示的在因特网语料库中的出现频率矩阵:
表39
Figure BPA00001332695500601
替换校正“too”和“to”被滤除,因为它们对于CFS之一具有为0的出现频率,尽管它们具有另一个CFS的高出现频率。因此,在此,保留下来的CFS是“two”。
G.如上文参考阶段III所讨论的,基于如上文在A-E所描述那样得到的最后偏好度量,对在F中的过滤中保留下来的替换校正建立分级。具有最高最后偏好评分的替换校正被选择。
H.如上文参考阶段IV所讨论的,向所选择的替换校正分配置信度。基于以下参数中的一个或多个来计算该置信度:
a.在上面的子阶段IIB中提供的所选择的CFS的数量、类型和评分;
b.在所述CFS的上下文中,各个替换簇校正的出现频率的统计显著性;
c.在基于每一个CFS的偏好度量和各个替换校正的词相似度评分而对替换校正进行的选择上的一致度;
d.在预定最小阈值之上的所选择的替换簇校正的非上下文相似度评分(阶段I);
e.上下文数据的可获得的程度,该程度由具有大于预定最小阈值的CFS评分并且具有超过另一个预定阈值的偏好评分的减小的矩阵中的CFS的数量指示。
如果置信度大于预定阈值,则在没有用户交互的情况下实现所选择的替换校正。如果置信度小于预定阈值但是大于较低的预定阈值,则实现所选择的替换校正,但是邀请用户交互。如果置信度小于该较低的预定阈值,则邀请基于替换校正的优先化列表的用户选择。
下面的示例说明了置信度评分的使用:
提供下面的输入文本:
He was not feeling wale when he returned
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
wale
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
wale;well
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘was not feeling wale’;‘not feeling wale when’;‘feeling wale when he’;‘wale when he returned’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表40中所示的在因特网语料库中的出现频率矩阵:
表40
上面的示例说明:根据上面在H中给出的所有准则,“well”而不是“wale”的选择具有高置信度。
在下面的示例中,置信度在一定程度上较小,因为在CFS‘bech in the summer’中,替换校正‘back’具有比‘beach’更高的出现频率,但是在CFS‘on the beech in’和‘the bech in the’中‘beach’具有比‘back’更高的出现频率。基于准则H(c)选择具有中间置信度的替换校正‘beach’。
提供下面的输入文本:
I like to work on the beech in the summer
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
beech
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
beach;beech;back
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘on the beech in’;‘the beech in the’;‘beech in the summer’
使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表41中所示的在因特网语料库中的出现频率矩阵:
表41
Figure BPA00001332695500621
基于准则H(c)选择具有中间置信度的替换校正‘beach’。
在下面的示例中,基于准则H(a),置信度更小:
接收下面的输入文本:
Exerts are restoring the British Museum′s round reading room
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
Exerts
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
Expert;Exerts;Exits
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘Exerts are’;‘Exerts are restoring’;‘Exerts are restoring the’;‘Exerts are restoring the British’
使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表42中所示的在因特网语料库中的出现频率矩阵:
表42
Figure BPA00001332695500631
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除下面的特征语法:
‘Exerts are restoring’;‘Exerts are restoring the’;‘Exerts are restoring the British’
在该示例中,仅剩余的CFS是特征语法:
‘Exerts are’
可以从上述示例看出,在过滤处理中保留下来的唯一CFS是“Exerts are”。结果,置信度相对低,因为该选择仅基于单个CFS,该单个CFS相对短,并且除了可疑词之外仅包括一个词,而该词为频繁出现的词。
下面的示例说明了在上面的阶段D和E中描述的最后偏好评分度量的使用。
提供下面的输入文本:
Some kids don′ t do any sport and sit around doing nothing and getting fast so you will burn some calories and get
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
fast
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
fat;fast
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘and getting fast’;‘getting fast so’;‘fast so you’;‘fast so you will’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表43中所示的在因特网语料库中的出现频率矩阵:
表43
Figure BPA00001332695500641
在该示例中,替换簇校正的非上下文相似度评分如表44中所示。
表44
  替换簇校正   相似度评分
  fast   1
  fat   0.89
使用在上面的阶段D和E中所述的最后偏好评分度量,选择具有低置信度的替换校正“fat”。
现在参见图10,图10是图示丢失项目校正功能的操作的详细流程图。丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要具有语法功能的其他项目。该功能优选地对从图1的拼写校正功能输出的拼写校正后的输入文本进行操作。
优选地以下面的方式执行可疑丢失项目的识别:
首先针对拼写校正后的输入文本产生特征语法。判定拼写校正后的输入文本中的每一个特征语法在语料库(优选地为因特网语料库)中的出现频率(FREQ F-G)。
计算每一个特征语法的预期出现频率(EFREQ F-G)如下:
假定特征语法包含被识别为W1-Wn的n个词。
Wi指示在特征语法中的第i个词。
给定特征语法的预期出现频率被取为:该特征语法的基于特征语法中的词被划分为跟随词W1、...、Wn-1的每一个的两个连续部分而得到的预期频率中的最高者。
特征语法基于在该特征语法中的词被划分为跟随词Wi的两个连续部分的划分的预期频率可以被表达如下:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(所有词在语料库中的频率的总和)
计算每一个特征语法基于在该特征语法中的词被划分为两个连续部分的所有可能划分的预期频率。
如果关于Wi的FREQ F-G/EFREQ F-G小于预定阈值,则认为关于Wi的特征语法在以下方面是可疑的:在该特征语法的Wi和Wi+1之间存在丢失的冠词、介词或标点。
优选地通过试图找到被最大数量的非可疑上下文数据围绕的词连接(word junction),来选择在拼写校正后的输入文本中的两个连续词之间的可疑词连接来校正。优选地,选择在其附近具有最长的一个或多个非可疑词连接序列的词连接。
优选地基于预定义的可能丢失的标点、冠词、介词、连词或其他项目(通常不包括名词、动词或形容词)的集合,对于每一个词连接产生一个或优选地多个替换插入。
下文中,优选地基于如上参考图9所述的校正替换评分算法来提供对各个替换插入的至少部分基于上下文和基于词相似度的评分。
下面的示例是说明性的:
提供下面的输入文本:
I can′t read please help me
使用上文参考图5描述的功能,产生下面的特征语法(部分列表):
I can′t read;can′t read please;read please help;please help me
使用如上所述的功能,针对上面的特征语法列表产生在因特网语料库中的出现频率矩阵,该出现频率矩阵典型地如表45所示:
表45
  特征语法   出现频率
  I can′t read   5600
  can′t read please   0
  read please help   55
  please help me   441185
根据下面的表达式,对于每一个特征语法,计算关于在该特征语法中的每一个词Wi的预期出现频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(所有词在语料库中的频率的总和)
这些计算的一些的示例性结果如表46和47中所示:
表46
Figure BPA00001332695500661
表47
  特征语法   出现频率
  read   157996585
  please help   1391300
从上面的结果看出,每一个特征语法的实际出现频率小于其预期出现频率。这指示怀疑存在诸如标点的项目缺失。
产生跟随词“read”的替换插入列表。该列表优选地包括标点、冠词、连词和介词的预定列表。具体地说,它将包括句号“.”。
替换的部分列表是:
‘read please’;‘read.Please’;‘read of please’;‘read a please’
使用上文参考图5描述的功能,产生下面的CFS:
‘I can’t read[?]’;‘read[?]please help’;‘[?]please help me’
使用在图9的阶段IIA中所述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表48中所示的在因特网语料库中的出现频率矩阵:
当在簇中包括‘.’时,针对在‘.’前后的文本分别检索包括具有‘.’的簇的CFS出现频率,即,将不产生特征语法“can’t read.Please”,因为它包括两个独立的分析短语。
表48
Figure BPA00001332695500671
*注意:当计算特征语法在语料库中的出现频率时,从该特征语法的开头忽略‘.’。例如,“.Please help me”的频率与“Please help me”的频率相同。
使用在图9的阶段D和E中所述的功能,最后偏好度量选择替换校正“read.Please”,并且校正后的输入文本是:
I can′t read.Please help me.
下面的示例说明了添加丢失的介词的功能。
提供下面的输入文本:
I sit the sofa
使用下面描述的功能,选择下面的簇来用于校正:
‘sit the’
使用下面描述的功能,产生下面的替换簇校正(部分列表):
sit on the;sit of the;sit the
使用上文参考图5描述的功能,产生下面的CFS:
‘I sit the’;‘sit the sofa’
使用参考图9在阶段IIA中所述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表49中所示的在因特网语料库中的出现频率矩阵:
表49
  CFS/替换簇校正   ‘I sit[?]the’   ‘sit[?]the sofa’
  sit on the   26370   7400
  sit of the   0   0
  sit the   2100   0
使用在图9的阶段IID和IIE中所述的功能,最后偏好度量选择替换校正“sit on the”,并且校正后的输入文本是:
I sit on the sofa.
现在参考图11,图11是图示多余项目校正功能的操作的详细流程图。多余项目校正功能用于校正多余冠词、介词、标点和在输入文本中主要具有语法功能的其他项目。该功能优选地对从图1的拼写校正功能输出的拼写校正后的输入文本进行操作。
应当意识到,图11的功能可以与图10的功能组合,或可替换地与其并行地被执行、在其之前被执行或在其操作之后被执行。
优选地以下面的方式来执行可疑多余项目的识别:
对于拼写校正后的输入文本执行搜索,以识别属于预定义的可能多余标点、冠词、介词、连词和其他项目(通常不包括名词、动词或形容词)的集合的项目。
对于每一个这样的项目,针对包含该项目的误用词和语法校正后、拼写校正后的输入文本的所有部分产生特征语法。对于每一个这样的特征语法并且对于其中省略该项目的对应特征语法计算出现频率。
如果其中省略了该项目的特征语法的出现频率超过其中存在该项目的对应特征语法的出现频率,则该项目被认为可疑。
优选地通过试图找到由最大量的非可疑上下文数据围绕的项目,来选择在误用词和语法校正后、拼写校正后的输入文本中的可疑项目以进行校正。优选地,在其附近具有最长的一个或多个非可疑词序列的项目被选择。
对于每一个可疑项目产生可能的项目删除。下面优选地基于上文参考图9描述的校正替换评分算法,来提供各个替换(即删除项目或不删除项目)的至少部分地基于上下文和基于词相似度的评分。
下面的示例是说明性的。
提供下面的输入文本:
It is a nice,thing to wear.
搜索输入文本以识别属于常见的多余项目的预定列表的任何项目,该常见的多余项目例如是标点、介词、连词和冠词。
在该示例中,逗号“,”被识别为属于这样的列表。
使用上文参考图5描述的功能,产生包括逗号“,”的在表50中所示的特征语法,并且也产生没有逗号的相同特征语法(部分列表)。
表50
  具有逗号的特征语法   没有逗号的特征语法
  is a nice,thing   is a nice thing
  a nice,thing to   a nice thing to
  nice,thing to wear   nice thing to wear
使用如上文所描述的功能,针对上面的特征语法列表产生在因特网语料库中的出现频率矩阵,典型地如表51所示:
表51
Figure BPA00001332695500701
如在上面的矩阵中所示,省略了“,”的特征语法的出现频率超过具有“,”的对应特征语法的出现频率。因此,将“,”认为可疑多余。
基于下面的保持逗号和省略逗号的替换的基于上下文的评分来考虑逗号的可能删除:
‘nice,’;‘nice’
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a nice,’;‘nice,thing’;‘is a nice,’;‘a nice,thing’;‘nice,thing to’
使用上文参考图9的阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表52中所示的在因特网语料库中的出现频率矩阵。
表52
Figure BPA00001332695500702
被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。例如,消除下面的特征语法:
‘a nice,’;‘nice,thing’
在该示例中,剩余的CFS是特征语法:
‘is a nice,’;‘a nice,thing’;‘nice,thing to’
使用在上面的图9的阶段D和E中所述的最后偏好评分,选择没有逗号的替换校正“nice”。在逗号删除后的输入文本是:
It is a nice thing to wear.
下面的示例说明了移除多余冠词的功能。
提供下面的输入文本:
We should provide them a food and water.
使用上文参考图11描述的功能,选择下面的簇来用于校正:
a food
使用上文参考图11描述的功能,产生下面的替换簇校正(部分列表):
a food;food
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘provide them a food’;‘them a food and’;‘a food and water’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表53中所示的在因特网语料库中的出现频率矩阵:
表53
Figure BPA00001332695500711
使用在图9中所述的评分功能,最后偏好度量选择替换校正“food”,并且校正后的输入文本是:
We should provide them food and water.
现在参考图12,图12是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言翻译和产生的系统和功能的简化框图图示。如图12中所示,输入文本从一个或多个来源被提供到语言产生模块200,该一个或多个来源包括但不限于:
语句搜索功能201,其通过使得用户能够输入包括几个词的查询并且接收包含这些词的完整语句来帮助用户构造语句;
机器文本产生功能202,其从诸如知识库或逻辑形式的机器表示系统产生自然语言语句;
词处理器功能203,其可以产生任何适当的文本,优选地产生文档的一部分,诸如语句;
机器翻译功能204,其将源语言的文本转换为目标语言的文本,并且能够提供目标语言的多个替换翻译文本、短语和/或词,该目标语言的多个替换翻译文本、短语和/或词可以被语言产生模块处理为替换输入文本、替换短语和/或替换词;
语音至文本转换功能205,其将语音转换为文本,并且能够提供多个替换词,该多个替换词可以被语言产生模块处理为具有每一个词的替换的输入文本;
光学字符识别功能206,其将字符转换为文本,并且能够提供每一个词的多个替换,该每一个词的多个替换可以被语言产生模块处理为具有每一个词的替换的输入文本;以及
任何其他文本源210,诸如在因特网上传送的即时消息或文本。
语言产生模块200优选地包括语句检索功能212和语句产生功能214。
本发明的一个具体特征是语句检索功能212与使用因特网语料库220的词干到语句索引216交互。
因特网语料库的使用重要在:它提供了极大数量的语句,导致高度鲁棒的语言产生功能。
因特网语料库是通常通过在因特网上抓取(crawl)并且从网页收集文本而从万维网收集的自然语言文本的大代表采样。优选地,也收集动态文本,诸如聊天副本、来自网络论坛的文本和来自博客的文本。所收集的文本用于累积关于自然语言文本的统计。与多达二十亿词的更通常的语料库大小相比,因特网语料库的大小可以例如是1万亿(1,000,000,000,000)词或几万亿词。诸如网络语料库的网络小采样包括100亿词,这远远小于由诸如GOOGLE
Figure BPA00001332695500721
的搜索引擎编入索引的网络文本的百分之一。本发明可以用诸如网络语料库的网络采样来工作,但是优选地使用大得多的网络采样来用于文本产生任务。
优选地,以下面两种方式之一来使用因特网语料库:
通过将修改的输入文本用作搜索查询来使用一个或多个因特网搜索引擎。可以从搜索结果提取包括在搜索查询中包含的词的语句。
通过对因特网进行抓取和编索引,随着时间过去而建立词干到语句索引216。优选地,这是通过下述方式进行的:将在因特网语料库中出现的屈折变化词缩小到它们各自的词干,并且列出在语料库中包括具有这样的词干的词的所有语句。词干到语句索引以及搜索查询可以基于因特网的可选部分,并且可以使用这些所选择的部分来标识。类似地,因特网的部分可以被排除或被适当地加权,以便校正在因特网使用和一般语言使用之间的异常。以这种方式,在语言使用上可靠的网站(诸如新闻和政府网站)可以被赋予比其他网站(诸如聊天或用户论坛)更大的权重。
优选地,输入文本被首先提供到语句检索功能212。下面另外参考图13来描述语句检索功能212的操作。
语句检索功能212用于将输入文本划分为独立短语,该独立短语然后在语句产生模块214中被独立地处理。对于在每一个独立短语中的所有词产生词干。可替换地,对于在每一个独立短语中的一些或所有词产生词干,并且在该情况下,在词至语句索引中使用词本身来从因特网语料库检索语句。
词干然后被分类为强制词干或可选词干。可选词干是形容词、副词、冠词、介词、标点和在输入文本中主要具有语法功能的其他项目以及在可选词的预定义列表中的项目的词干。强制词干是不作为可选词干的所有词干。可选词干可以针对它们在输入文本中的重要程度而被分级。
对于每一个独立短语,使用词干到语句索引216来在因特网语料库220中检索包括所有词干的所有语句。
对于每一个独立短语,如果检索到的语句数量小于预定阈值,则使用词干到语句索引216来在因特网语料库220中检索包括所有强制词干的所有语句。
对于每一个独立短语,如果检索到的包括所有强制词干的语句数量小于另一个预定阈值,则使用词干替换产生器来产生所有强制词干的替换,如下文参考图15所描述。
其后,对于每一个独立短语,使用词干到语句索引216在因特网语料库220中检索所有这样的语句,该语句包括尽可能多的强制词干,但是不少于一个强制词干,并且还包括所有剩余强制词干的替换。
语句检索功能212的输出优选地如下:
独立短语;
对于每一个独立短语:
强制和可选词干以及它们的分级;
从因特网语料库212检索的语句。
语句检索功能212的上面的输出被提供到语句产生功能214。下面另外参考图14A和14B来描述语句产生功能214的操作。
对于每一个独立短语,如下文所描述那样执行对从因特网语料库212获取的语句的简化:
如图14A中所示,首先优选地使用用于分类在独立短语中的词干的相同准则,来将从因特网语料库获取的语句中的所有词分类为强制的或非必需的。删除非必需的词,除非它们的词干出现在对应的独立短语中或是替换词干之一。
使用标准分析功能来从所有的语句提取短语。删除不包括在对应的独立短语中出现或为替换词干的任何词干的短语。
对于每一个独立短语,从上述步骤产生的如此简化的语句被分组为至少具有预定相似度的组,并且在每组中的简化语句的数量被计数。
如图14B中所示,使用下面的准则来对每一个这样的组分级:
A.其中包含的简化语句的数量;
B.在组中的词的词干与在独立短语中的词干及其替换的匹配度;
C.组包括不与在独立短语中的词及其替换匹配的词的程度。
优选地提供基于准则A、B和C的适当复合分级。
根据所有准则A、B和C单独获取的分级低于预定阈值的组被消除。另外,根据所有准则A、B和C的分级低于另一个组的分级的组被消除。
剩余的组被串接,以对应于输入文本,并且以其加权的复合分级的顺序优选地与该分级的指示一起被呈现给用户。
如果最高分级组的复合分级大于预定阈值,则它被确认用于自动文本产生。
现在参见图15,图15是图示在图12和13的功能中有用的用于产生词干替换的功能的简化流程图。
如图15中所示,对于每一个词干,首先以下面的方式来产生多个替换:
检索类似于每一个词干的多个词,该多个词是基于以字符串相似度表达的书写外观并且基于发音或语音相似度而从词典获取的。该功能是已知的,并且是在因特网上可获得的免费软件,诸如GNU Aspell和Google
Figure BPA00001332695500741
Gspell。检索到并被优先化的词提供了第一多个替换。
通过使用基于已知的替换使用以及累积的用户输入的规则,可以产生另外的替换。例如,u→you,r→are,Im→I am。
从在因特网上可免费获得的、诸如Princeton WordNet的同义词词典或其他词汇数据库获取的多个词被检索到,该多个词例如作为同义词、超集或子集与词干在词法上相关。
本发明的优选实施例的一个特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换。经常在同一上下文中出现的词干可以是有效的替换。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
在通过诸如光学字符识别、语音至文本或机器翻译系统的外部系统来自动地产生输入文本的情况下,可以从这样的系统直接地接收另外的替换。通常在这样的系统的操作过程中产生这些另外的替换。例如,在机器翻译系统中,外语词的替换翻译可以被提供到本系统以用作替换。
下面的示例说明了图12-15的功能:
从词处理器或机器翻译功能接收下面的输入文本:
Be calling if to problem please
在该情况下,输入文本由单个独立短语构成。强制/可选词干的词干产生和分类提供了下面的结果:
强制词干:call,if,problem,please
可选词干:be,to
在下文的表中给出了对于上面的结果从因特网语料库检索的语句、对应的简化语句、简化语句的组和组分级信息中的一些但是不是全部。
在该示例中,使用下面的分级过程,应当理解,本发明不限于使用该过程,该过程仅是一个示例:
限定词干的权重,以指示该词在语言中的重要性。对于在独立短语中的词干,如果词干是强制的,则权重等于1,而如果词干的可选的,则权重等于或小于1。
在表中,在每一个词干后的括号中指示权重。例如,“you(0.5)”表示词干‘you’具有0.5的重要性权重。
计算正匹配分级(对应于准则B(图14B)),该正匹配分级等于在独立短语中和在对应的简化语句组中出现的词干的上面的权重之和除以在独立短语中出现的所有词干的权重之和。
计算负匹配分级(对应于准则C(图14B)),该负匹配分级等于1-在对应的简化语句组中出现但是未在独立短语中出现的词干的上面的权重之和除以在对应的简化语句组中出现的所有词干的权重之和。
基于组计数(准则A(图14B))和基于正负匹配分级来计算复合分级(对应于2(图14B))。通过下面的一般表达式来给出优选的复合分级:
复合分级=组计数乘以正负匹配分级的加权和的函数。
通过下面的表达式来给出的更具体的示例,应当理解,本发明不限于上面的一般表达式或下面的具体表达式:
复合分级=SquareRoot(组计数)*(0.8*正匹配分级+0.2*负匹配分级)
Figure BPA00001332695500771
Figure BPA00001332695500781
Figure BPA00001332695500791
Figure BPA00001332695500801
Figure BPA00001332695500811
Figure BPA00001332695500821
Figure BPA00001332695500831
基于复合分级,选择第二组。
从上面可以意识到,如上参考图12-15所描述的本发明能够将下面的输入文本:
Be calling if to problem please
转换为下面的语句:
If you have any problems,please call
尽管该语句未以此精确形式出现在从因特网语料库检索的语句中。
本领域内的技术人员将意识到,本发明不限于以上具体示出和描述的内容。相反,本发明的范围包括以上描述和示出的各种特征的组合和子组合,以及本领域内的技术人员在阅读了以上描述后将对其作出的并且未在现有技术中的修改。

Claims (81)

1.一种计算机辅助语言产生系统,包括:
语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
2.根据权利要求1所述的计算机辅助语言产生系统,并且其中,所述语句检索功能包括:
独立短语产生器,用于将所述输入文本划分为一个或多个独立短语;
词干产生器和分类器,用于对每一个独立短语进行操作,以产生词中出现的词干,并且向其分配重要性权重;以及
替换产生器,用于产生与所述词干对应的替换词干。
3.根据权利要求2所述的计算机辅助语言产生系统,并且还包括词干到语句索引,所述词干到语句索引与所述因特网语料库交互,以检索所述多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词。
4.根据前述权利要求中任一项所述的计算机辅助语言产生系统,并且其中,所述语句产生功能包括:
语句简化功能,用于简化从所述因特网语料库检索的所述语句;
简化语句分组功能,用于对由所述语句简化功能提供的类似的简化语句进行分组;以及
简化语句组分级功能,用于对所述类似的简化语句的组进行分级。
5.根据权利要求4所述的计算机辅助语言产生系统,并且其中,所述简化语句组分级功能使用下面的准则中的至少一些来操作:
A.在组中包含的简化语句的数量;
B.在所述组中的词的词干与在独立短语中的词干及其替换的对应度;
C.所述组包括不与在所述独立短语中的词及其替换对应的词的程度。
6.根据权利要求5所述的计算机辅助语言产生系统,并且其中,所述简化语句组分级功能使用下面的过程的至少一部分来操作:
定义词干的所述权重,以指示词在语言中的重要性;
计算与准则B对应的正匹配分级;
计算与准则C对应的负匹配分级;
基于以下项来计算复合分级:
在组中包含的简化语句的所述数量,并且所述数量对应于准则A;
所述正匹配分级;以及
所述负匹配分级。
7.根据前述权利要求中任一项所述的计算机辅助语言产生系统,并且还包括:
机器翻译功能,用于提供所述输入文本。
8.一种机器翻译系统,包括:
机器翻译功能;
语句检索功能,其基于由所述机器翻译功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述机器翻译功能产生的所述输入文本的至少一个正确的语句。
9.根据权利要求7和8中任一项所述的系统,并且其中,所述机器翻译功能提供与在所述输入文本中的词对应的多个替换,并且所述语句检索功能用于从所述因特网语料库检索包括对应于所述替换的词的多个语句。
10.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,其中,所述语言产生包括文本校正。
11.一种文本校正系统,包括:
语句检索功能,其基于由所述文本校正功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句校正功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
12.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,并且还包括:
语句搜索功能,用于基于用户输入的查询词来提供所述输入文本。
13.一种语句搜索系统,包括:
语句搜索功能,用于基于用户输入的查询词来提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语句搜索功能产生的所述输入文本的至少一个正确的语句。
14.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,并且还包括:
语音至文本转换功能,用于提供所述输入文本。
15.一种语音至文本转换系统,包括:
语音至文本转换功能,用于提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语音至文本转换功能产生的所述输入文本的至少一个正确的语句。
16.根据前述权利要求中任一项所述的系统,并且还包括:
替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;
选择器,用于至少部分地基于因特网语料库来至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;以及
校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
17.根据权利要求16所述的计算机辅助语言校正系统,其中,所述选择器用于基于以下校正功能中的至少一个来作出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
18.根据权利要求16所述的系统,其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
19.根据权利要求18所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:
在误用词校正、语法校正和词汇增强的至少一个之前进行拼写校正;以及
在词汇增强之前进行误用词校正和语法校正。
20.根据权利要求16-19中任一项所述的系统,并且其中:
通过下面的功能之一来提供所述输入语句:
词处理器功能;
机器翻译功能;
语音至文本转换功能;
光学字符识别功能;以及
即时消息传送功能;并且
所述选择器用于基于以下校正功能中的至少一个来作出所述选择:
误用词校正;
语法校正;以及
词汇增强。
21.根据权利要求17-20中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
22.根据权利要求17-21中任一项所述的系统,并且其中,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
23.根据权利要求17-22中任一项所述的系统,并且其中,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
24.根据权利要求16-23中任一项所述的系统,其中,所述选择器包括基于上下文的评分功能,所述基于上下文的评分功能用于至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率来对所述多个替换进行分级。
25.根据权利要求24所述的系统,并且其中,所述基于上下文的评分功能也用于至少部分地基于在所述因特网语料库中的标准化的CFS出现频率来对所述多个替换进行分级。
26.根据权利要求1-15中任一项所述的系统,并且还包括:
以下功能中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能;以及
上下文特征序列功能,其与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少一个协同工作,并且使用因特网语料库。
27.根据权利要求26所述的系统,并且其中,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
28.根据权利要求26或权利要求27所述的系统,并且其中,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
29.根据权利要求26-28中任一项所述的系统,并且包括:
以下功能中的至少两个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能,并且
其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少两个协同工作,并且使用因特网语料库。
30.根据权利要求25-29中任一项所述的系统,并且包括:
以下功能中的至少三个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;
所述词汇增强功能,并且
其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少三个协同工作,并且使用因特网语料库。
31.根据权利要求25-30中任一项所述的系统,并且包括
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能,并且
其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能协同工作,并且使用因特网语料库。
32.根据权利要求25-31中任一项所述的系统,并且其中,所述校正产生器包括校正语言产生器,所述校正语言产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
33.根据权利要求1-15中任一项所述的系统,并且包括:
替换产生器,用于基于语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;
选择器,用于至少部分地基于在所述语言输入中的所述多个词的至少一些的多个替换中选择的一些之间的关系,来至少在所述语言输入中的所述多个词的每一个的所述多个替换中进行选择;以及
校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
34.根据权利要求33所述的系统,并且其中,所述语言输入包括输入语句和输入文本中的至少一个。
35.根据权利要求33或权利要求34所述的系统,并且其中,所述语言输入是语音,并且所述产生器将语音形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
36.根据权利要求33或权利要求34所述的系统,并且其中,
所述语言输入是以下项中的至少一个:
文本输入;
光学字符识别功能的输出;
机器翻译功能的输出;以及
词处理功能的输出,并且
所述产生器将文本形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
37.根据权利要求32-36中任一项所述的系统,并且其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
38.根据权利要求37所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:
在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及
在词汇增强之前进行误用词校正和语法校正。
39.根据权利要求33-38中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:
误用词校正;
语法校正;以及
词汇增强。
40.根据权利要求33-39中任一项所述的系统,并且其中,所述选择器用于通过执行以下功能中的至少两个来作出所述选择:
选择第一词集合或词组合,所述第一词集合或词组合包括的词少于在所述语言输入中用于初始选择的所有所述多个词;
其后,对所述第一词集合或词组合的元素进行排序,以建立选择的优先级;并且
其后,当在所述第一词集合的元素的多个替换中进行选择时,选择所述多个词中的其他词但是不是所有词来作为上下文,以影响所述选择。
41.根据权利要求33-40中任一项所述的系统,并且其中,所述选择器用于通过执行以下功能来作出所述选择:
当对于具有至少两个词的元素进行选择时,结合所述至少两个词彼此的另一个词的多个替换的每一个替换来对所述至少两个词的每一个词的多个替换的每一个替换进行评估。
42.根据权利要求33-41中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
43.根据权利要求1-15中任一项所述的系统,并且还包括:
误用词怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来评估所述至少大多数词;以及
校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
44.根据权利要求43所述的系统,并且还包括:
替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及
选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择;并且其中
所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
45.根据权利要求43或44所述的系统,并且还包括:
可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为误用词的程度。
46.根据权利要求43-45中任一项所述的系统,并且其中,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
47.根据权利要求43-46中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:
误用词校正;
语法校正;以及
词汇增强。
48.根据权利要求1-15中任一项所述的系统,并且还包括:
误用词怀疑器,用于评估在语言输入中的词;
替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词中的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在因特网语料库中的所述语言输入中的所述词的上下文特征一致;
选择器,用于至少在所述多个替换之间进行选择;以及
校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
49.根据权利要求1-15中任一项所述的系统,并且还包括:
误用词怀疑器,用于评估在语言输入中的词,并且识别可疑词;
替换产生器,用于产生所述可疑词的多个替换;
选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及
校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
50.根据权利要求1-15中任一项所述的系统,并且还包括:
替换产生器,用于基于输入来产生在所述输入中的至少一个词的多个替换;
选择器,用于根据多个选择准则来对每一个所述至少一个词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述至少一个词的偏置,所述偏置是用于指示人提供所述输入的不确定性的输入不确定性度量的函数;以及
校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
51.根据权利要求1-15中任一项所述的系统,并且还包括:
错误词怀疑器,用于对语言输入中的至少大多数词进行评估,所述怀疑器至少部分地对用于指示人提供所述输入的不确定性的输入不确定性度量进行响应,所述怀疑器提供可疑错误词输出;以及
替换产生器,用于产生由所述可疑错误词输出识别的可疑错误词的多个替换;
选择器,用于在每一个可疑错误词和由所述替换产生器产生的所述多个替换中进行选择;以及
校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
52.根据权利要求1-15中任一项所述的系统,并且还包括:
拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,用于接收多词输入并且提供校正输出,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括:
替换词候选产生器,所述替换词候选产生器包括:
语音相似度功能,用于基于与在所述输入中的词的语音相似度来提出替换词,并且指示语音相似度的度量;以及
字符串相似度功能,用于基于与在所述输入中的词的字符串相似度来提出替换词,并且指示每一个替换词的字符串相似度的度量;以及
选择器,用于通过将所述语音相似度的度量和字符串相似度的度量与基于上下文的选择功能一起使用,来选择在所述输出中的词或由所述替换词候选产生器提出的替换词候选。
53.根据权利要求1-15中任一项所述的系统,并且还包括:
可疑词识别功能,用于接收多词语言输入,并且提供指示可疑词的可疑词输出;
特征识别功能,用于识别包括所述可疑词的特征;
替换选择器,用于识别对于所述可疑词的替换;
特征出现功能,用于使用语料库并提供出现输出,所述出现输出按照包括所述替换的各个特征在所述语料库中的使用频率将所述各个特征进行分级;以及
选择器,用于使用所述出现输出来提供校正输出,
所述特征识别功能包括特征过滤功能,所述特征过滤功能包括下述功能中的至少一个:
用于消除包含可疑错误的特征的功能;
用于对包含在所述多词输入的早期校正迭代中引入的词并且具有小于置信度预定阈值的置信度的特征进行负偏置的功能;以及
用于消除被包含在具有大于预定频率阈值的出现频率的另一个特征中的特征的功能。
54.根据权利要求48-53中任一项所述的系统,并且其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
55.根据权利要求54所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:
在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及
在词汇增强之前进行误用词校正和语法校正。
56.根据权利要求48-55中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:
语法校正;和
误用词校正;以及
词汇增强。
57.根据权利要求48-56中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
58.根据权利要求48、49和52-57中任一项所述的系统,并且其中,所述选择器也用于至少部分地基于用户输入不确定性度量来作出所述选择。
59.根据权利要求58所述的系统,并且其中,所述用户输入不确定性度量是基于人提供所述输入的不确定性测量的函数。
60.根据权利要求48-59中任一项所述的系统,并且其中,所述选择器也使用用户输入历史学习功能。
61.根据权利要求1-15中任一项所述的系统,并且还包括:
可疑词识别功能,用于接收多词语言输入并且提供指示可疑词的可疑词输出;
特征识别功能,用于识别包括所述可疑词的特征;
替换选择器,用于识别对于所述可疑词的替换;
出现功能,用于使用语料库并且提供出现输出,所述出现输出按照包括所述替换的特征在所述语料库中的使用频率将包括所述特征进行分级;以及
校正输出产生器,用于使用所述出现输出来提供校正输出,
所述特征识别功能包括:
下述功能中的至少一个:
N元语法识别功能;和
共现识别功能;以及
下述功能中的至少一个:
略过语法识别功能;
转换语法识别功能;以及
用户先前使用特征识别功能。
62.根据权利要求1-15中任一项所述的系统,并且还包括:
语法错误怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来对所述至少大多数词进行评估;以及
校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
63.根据权利要求62所述的系统,并且还包括:
替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及
选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择,并且其中
所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
64.根据权利要求62或63所述的系统,并且还包括:
可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为包含语法错误的程度。
65.根据权利要求62-64中任一项所述的系统,并且其中,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
66.根据权利要求1-15中任一项所述的系统,并且还包括:
语法错误怀疑器,用于对语言输入中的词进行评估;
替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在所述语言输入中的所述词的上下文特征一致;
选择器,用于至少在所述多个替换中进行选择;以及
校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
67.根据权利要求1-15中任一项所述的系统,并且还包括:
语法错误怀疑器,用于评估在语言输入中的词并且识别可疑词;
替换产生器,用于产生所述可疑词的多个替换;
选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及
校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
68.根据权利要求66或权利要求67所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
69.根据权利要求1-15中任一项所述的系统,并且还包括:
至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率对各个替换校正进行基于上下文的评分。
70.根据权利要求69所述的系统,并且还包括与所述基于上下文的评分协同工作的下述功能中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能。
71.根据权利要求69或权利要求70所述的系统,并且其中,所述基于上下文的评分也至少部分地基于在因特网语料库中的标准化的CFS出现频率。
72.根据权利要求69-71中任一项所述的系统,并且其中,所述基于上下文的评分也至少部分地基于CFS重要性评分。
73.根据权利要求69-71中任一项所述的系统,并且其中,所述CFS重要性评分是以下项中的至少一个的函数:
词性标注和语句分析功能的操作;CFS长度;在CFS中的每一个词的出现频率和CFS类型。
74.根据权利要求1-15中任一项所述的系统,并且还包括词汇增强功能,所述词汇增强功能包括:
词汇受挑战词识别功能;
替换词汇增强产生功能;以及
基于上下文的评分功能,其至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率,
所述替换词汇增强产生功能包括用于产生替换词汇增强的同义词词典预处理功能。
75.根据权利要求1-15中任一项所述的系统,并且还包括:
替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;
选择器,用于至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;
置信度分配器,用于向从所述多个替换中选择的替换分配置信度;以及
校正产生器,用于基于由所述选择器作出的选择和至少部分地基于所述置信度来提供校正输出。
76.根据权利要求75所述的系统,并且其中,基于上下文特征序列(CFS)来评估所述多个替换,并且所述置信度基于以下参数中的至少一个:
所选择的CFS的数量、类型和评分;
在所述CFS的上下文中,所述多个替换的出现频率的统计显著性的测量;
在基于所述CFS的每一个的偏好度量和基于所述多个替换的词相似度评分而对所述多个替换中的一个进行的选择上的一致度;
在第一预定最小阈值之上的所述多个替换中的所述一个的非上下文相似度评分;以及
上下文数据的可获得的程度,所述程度由具有大于第二预定最小阈值的CFS评分并且具有在第三预定阈值之上的偏好评分的所述CFS的数量指示。
77.根据权利要求1-15中任一项所述的系统,并且还包括:
标点错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词和标点在所述语言输入的上下文内的适合性来对所述至少一些词和标点进行评估;以及
校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
78.根据权利要求77所述的系统,并且其中,所述校正产生器包括下述功能中的至少一个:丢失标点校正功能、多余标点校正功能和标点替代校正功能。
79.根据权利要求1-15中任一项所述的系统,并且还包括:
语法元素错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词在所述语言输入的上下文内的适合性来对所述至少一些词进行评估;以及
校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
80.根据权利要求79所述的系统,并且其中,所述校正产生器包括下述功能中的至少一个:丢失语法元素校正功能、多余语法元素校正功能和语法元素替代校正功能。
81.根据权利要求79或权利要求80所述的系统,并且其中,所述语法元素是冠词、介词和连词之一。
CN200980138185.XA 2007-08-01 2009-02-04 使用因特网语料库的自动上下文相关语言产生、校正和增强 Expired - Fee Related CN102165435B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US95320907P 2007-08-01 2007-08-01
ILPCT/IL2008/001051 2008-07-31
PCT/IL2008/001051 WO2009016631A2 (en) 2007-08-01 2008-07-31 Automatic context sensitive language correction and enhancement using an internet corpus
PCT/IL2009/000130 WO2010013228A1 (en) 2008-07-31 2009-02-04 Automatic context sensitive language generation, correction and enhancement using an internet corpus

Publications (2)

Publication Number Publication Date
CN102165435A true CN102165435A (zh) 2011-08-24
CN102165435B CN102165435B (zh) 2014-12-24

Family

ID=40305018

Family Applications (3)

Application Number Title Priority Date Filing Date
CN200880101405.7A Active CN101802812B (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN201510351019.5A Pending CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN200980138185.XA Expired - Fee Related CN102165435B (zh) 2007-08-01 2009-02-04 使用因特网语料库的自动上下文相关语言产生、校正和增强

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN200880101405.7A Active CN101802812B (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN201510351019.5A Pending CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强

Country Status (6)

Country Link
US (5) US8914278B2 (zh)
EP (1) EP2183685A4 (zh)
JP (2) JP5638948B2 (zh)
CN (3) CN101802812B (zh)
CA (2) CA2694327A1 (zh)
WO (1) WO2009016631A2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366741A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入纠错方法及系统
WO2014036827A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 一种文本校正方法及用户设备
CN104813318A (zh) * 2012-09-26 2015-07-29 谷歌公司 用于翻译的基于上下文对消息分组的技术
CN105893626A (zh) * 2016-05-10 2016-08-24 中广核工程有限公司 一种用于核电工程的索引库创建方法及其采用其方法的索引系统
CN105912712A (zh) * 2016-04-29 2016-08-31 华南师范大学 基于大数据的机器人对话控制方法和系统
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备
TWI667579B (zh) * 2015-06-09 2019-08-01 日商富士通股份有限公司 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment

Families Citing this family (341)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721987B2 (ja) * 1991-07-16 1995-03-08 株式会社愛知電機製作所 真空切替遮断器
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8799776B2 (en) 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
CA2721157A1 (en) * 2008-04-16 2009-12-03 Ginger Software, Inc. A system for teaching writing based on a user's past writing
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20110161072A1 (en) * 2008-08-20 2011-06-30 Nec Corporation Language model creation apparatus, language model creation method, speech recognition apparatus, speech recognition method, and recording medium
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9871916B2 (en) 2009-03-05 2018-01-16 International Business Machines Corporation System and methods for providing voice transcription
EP2406731A4 (en) * 2009-03-13 2012-08-22 Invention Machine Corp SYSTEM AND METHOD FOR THE AUTOMATIC SEMANTIC MARKING OF NATURAL LANGUAGE TEXTS
JP5244661B2 (ja) * 2009-03-17 2013-07-24 株式会社教育測定研究所 文末句読点の欠落検出装置及び欠落検出プログラム
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
JP5752150B2 (ja) * 2010-02-01 2015-07-22 ジンジャー ソフトウェア、インコーポレイティッド 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US8782556B2 (en) 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102193939B (zh) * 2010-03-10 2016-04-06 阿里巴巴集团控股有限公司 信息导航的实现方法、信息导航服务器和信息处理系统
US20110239111A1 (en) * 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US11989659B2 (en) 2010-05-13 2024-05-21 Salesforce, Inc. Method and apparatus for triggering the automatic generation of narratives
US8355903B1 (en) 2010-05-13 2013-01-15 Northwestern University System and method for using data and angles to automatically generate a narrative story
US9208147B1 (en) 2011-01-07 2015-12-08 Narrative Science Inc. Method and apparatus for triggering the automatic generation of narratives
CN104484319A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
US9377373B2 (en) * 2010-10-05 2016-06-28 Infraware, Inc. System and method for analyzing verbal records of dictation using extracted verbal features
KR20120048140A (ko) * 2010-11-05 2012-05-15 한국전자통신연구원 자동 번역 장치 및 그 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10657201B1 (en) 2011-01-07 2020-05-19 Narrative Science Inc. Configurable and portable system for generating narratives
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US8527451B2 (en) 2011-03-17 2013-09-03 Sap Ag Business semantic network build
US20120239381A1 (en) * 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9734153B2 (en) * 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US9760920B2 (en) * 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9703781B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9706247B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9697265B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing digital content
US9697871B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing recorded audio content and companion content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
EP2511831A1 (en) * 2011-04-14 2012-10-17 James Lawley Text processor and method of text processing
US20120304124A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Context aware input engine
US8725760B2 (en) 2011-05-31 2014-05-13 Sap Ag Semantic terminology importer
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US20140163969A1 (en) * 2011-07-20 2014-06-12 Tata Consultancy Services Limited Method and system for differentiating textual information embedded in streaming news video
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130060560A1 (en) * 2011-09-01 2013-03-07 Google Inc. Server-based spell checking
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR101522522B1 (ko) 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9122673B2 (en) 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
US8849676B2 (en) 2012-03-29 2014-09-30 Audible, Inc. Content customization
US9037956B2 (en) 2012-03-29 2015-05-19 Audible, Inc. Content customization
JP5994366B2 (ja) * 2012-04-27 2016-09-21 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8661049B2 (en) 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9099089B2 (en) 2012-08-02 2015-08-04 Audible, Inc. Identifying corresponding regions of content
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9087508B1 (en) 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
WO2014071330A2 (en) 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method
CN103853702B (zh) * 2012-12-06 2016-08-17 富士通株式会社 校正语料中的成语错误的装置和方法
KR101374900B1 (ko) * 2012-12-13 2014-03-13 포항공과대학교 산학협력단 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
JP6086714B2 (ja) * 2012-12-14 2017-03-01 日本放送協会 音声認識装置、誤り修正モデル学習方法、及びプログラム
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9218819B1 (en) 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9183195B2 (en) * 2013-03-15 2015-11-10 Disney Enterprises, Inc. Autocorrecting text for the purpose of matching words from an approved corpus
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US10073839B2 (en) 2013-06-28 2018-09-11 International Business Machines Corporation Electronically based thesaurus querying documents while leveraging context sensitivity
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
JP2015069334A (ja) * 2013-09-27 2015-04-13 富士通株式会社 文字変換プログラム、文字変換装置、及び文字変換方法
US8831969B1 (en) * 2013-10-02 2014-09-09 Linkedin Corporation System and method for determining users working for the same employers in a social network
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN105095826B (zh) * 2014-04-17 2019-10-01 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US9607032B2 (en) 2014-05-12 2017-03-28 Google Inc. Updating text within a document
US9959296B1 (en) 2014-05-12 2018-05-01 Google Llc Providing suggestions within a document
US9251141B1 (en) 2014-05-12 2016-02-02 Google Inc. Entity identification model training
US9881010B1 (en) 2014-05-12 2018-01-30 Google Inc. Suggestions based on document topics
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US20160110327A1 (en) * 2014-10-20 2016-04-21 Lenovo (Singapore) Pte. Ltd. Text correction based on context
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US11288328B2 (en) 2014-10-22 2022-03-29 Narrative Science Inc. Interactive and conversational data exploration
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10140293B2 (en) * 2015-05-18 2018-11-27 Google Llc Coordinated user word selection for translation and obtaining of contextual information for the selected word
EP3298367B1 (en) 2015-05-18 2020-04-29 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
JP6898298B2 (ja) 2015-07-07 2021-07-07 バーコード リミティド 電子品質表示指標
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10565351B2 (en) * 2015-08-24 2020-02-18 3M Innovative Properties Company Analysis and rule generation of medical documents
US10515152B2 (en) * 2015-08-28 2019-12-24 Freedom Solutions Group, Llc Mitigation of conflicts between content matchers in automated document analysis
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9818405B2 (en) * 2016-03-15 2017-11-14 SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
CN107291683A (zh) * 2016-04-11 2017-10-24 珠海金山办公软件有限公司 一种拼写检查方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10083171B1 (en) * 2017-08-03 2018-09-25 Gyrfalcon Technology Inc. Natural language processing using a CNN based integrated circuit
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US11416509B2 (en) * 2016-11-07 2022-08-16 Equifax Inc. Data processing systems and methods for efficiently transforming entity descriptors in textual data
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106847288B (zh) * 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
KR20190004525A (ko) * 2017-07-04 2019-01-14 주식회사 마인즈랩 문장 학습 시스템 및 문장 학습 방법
US11263399B2 (en) 2017-07-31 2022-03-01 Apple Inc. Correcting input based on user context
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11423208B1 (en) * 2017-11-29 2022-08-23 Amazon Technologies, Inc. Text encoding issue detection
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US10942954B2 (en) * 2017-12-22 2021-03-09 International Business Machines Corporation Dataset adaptation for high-performance in specific natural language processing tasks
US11042708B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language generation
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10963649B1 (en) 2018-01-17 2021-03-30 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics
US11625630B2 (en) 2018-01-26 2023-04-11 International Business Machines Corporation Identifying intent in dialog data through variant assessment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11030408B1 (en) 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108595431B (zh) * 2018-04-28 2020-09-25 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11232270B1 (en) 2018-06-28 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to numeric style features
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
US10311149B1 (en) * 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
GB2577879B (en) 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
GB2579554A (en) * 2018-12-03 2020-07-01 Audiogum Uk Ltd Content playback system
US10331967B1 (en) * 2018-12-05 2019-06-25 Gyrfalcon Technology Inc. Machine learning via a two-dimensional symbol
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10909973B2 (en) * 2019-01-04 2021-02-02 International Business Machines Corporation Intelligent facilitation of communications
US11341330B1 (en) 2019-01-28 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding with term discovery
US11151317B1 (en) * 2019-01-29 2021-10-19 Amazon Technologies, Inc. Contextual spelling correction system
US11392853B2 (en) 2019-02-27 2022-07-19 Capital One Services, Llc Methods and arrangements to adjust communications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11281911B2 (en) 2019-04-27 2022-03-22 Gyrfalcon Technology Inc. 2-D graphical symbols for representing semantic meaning of a video clip
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US10713830B1 (en) 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11526723B2 (en) 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11301626B2 (en) 2019-11-11 2022-04-12 International Business Machines Corporation Artificial intelligence based context dependent spellchecking
US20210182663A1 (en) * 2019-12-17 2021-06-17 Sony Interactive Entertainment LLC Methods and systems for defining emotional machines
JP7259992B2 (ja) * 2019-12-18 2023-04-18 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233222A1 (en) * 2002-03-26 2003-12-18 Radu Soricut Statistical translation using a large monolingual corpus
CN101065746A (zh) * 2004-12-01 2007-10-31 怀斯莫克有限公司 文件自动丰富的方法和系统

Family Cites Families (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPH0778165B2 (ja) 1986-06-27 1995-08-23 東芝ケミカル株式会社 成形用耐熱性樹脂組成物
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
JPH07325825A (ja) * 1994-06-01 1995-12-12 Mitsubishi Electric Corp 英文法チェックシステム装置
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5659771A (en) 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
EP0801786B1 (en) * 1995-11-04 2000-06-28 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6085206A (en) 1996-06-20 2000-07-04 Microsoft Corporation Method and system for verifying accuracy of spelling and grammatical composition of a document
US5956739A (en) 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5907839A (en) 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6181909B1 (en) 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
CN1311881A (zh) 1998-06-04 2001-09-05 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000019410A1 (en) * 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
AU5299700A (en) * 1999-05-27 2000-12-18 America Online, Inc. Keyboard system with automatic correction
JP2003505778A (ja) * 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
DE10124429B4 (de) 2000-07-07 2008-11-27 International Business Machines Corp. System und Verfahren für eine verbesserte Rechtschreibprüfung
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
JP3396734B2 (ja) * 2000-09-14 2003-04-14 独立行政法人通信総合研究所 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
CN100568222C (zh) * 2001-01-31 2009-12-09 微软公司 歧义消除语言模型
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7117144B2 (en) * 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
FR2824978B1 (fr) 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7296019B1 (en) 2001-10-23 2007-11-13 Microsoft Corporation System and methods for providing runtime spelling analysis and correction
NO316480B1 (no) 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030210249A1 (en) 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
GB2388940A (en) * 2002-05-22 2003-11-26 Sharp Kk Method and apparatus for the correction or improvement of word usage
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
ATE508455T1 (de) * 2002-09-27 2011-05-15 Callminer Inc Verfahren zur statistischen analyse von sprache
US7542908B2 (en) * 2002-10-18 2009-06-02 Xerox Corporation System for learning a language
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US20050043940A1 (en) 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US7475015B2 (en) * 2003-09-05 2009-01-06 International Business Machines Corporation Semantic language modeling and confidence measurement
US20050053900A1 (en) 2003-09-05 2005-03-10 Steven Kaufmann Method of teaching a foreign language to a student providing measurement in a context based learning system
US20050120002A1 (en) 2003-10-02 2005-06-02 Hassan Behbehani Automated text generation process
US7447627B2 (en) 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
JP4584148B2 (ja) 2003-11-28 2010-11-17 株式会社言葉の森 作文小論文の評価採点装置
US7254774B2 (en) 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7779354B2 (en) * 2004-05-13 2010-08-17 International Business Machines Corporation Method and data processing system for recognizing and correcting dyslexia-related spelling errors
WO2006009727A2 (en) 2004-06-16 2006-01-26 Harcourt Assessment, Inc. Language disorder assessment and associated methods
US8321786B2 (en) * 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US7387457B2 (en) * 2004-08-13 2008-06-17 5 Examples, Inc. One-row keyboard and approximate typing
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7401293B2 (en) 2004-11-19 2008-07-15 Spelldoctor, Llc System and method for teaching spelling
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8131746B2 (en) 2005-06-23 2012-03-06 International Business Machines Corporation Dynamic language checking
US8433711B2 (en) * 2005-09-09 2013-04-30 Kang Jo Mgmt. Limited Liability Company System and method for networked decision making support
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8126700B2 (en) * 2006-03-29 2012-02-28 International Business Machines Corporation Computer-assisted comprehension of texts
US8608477B2 (en) 2006-04-06 2013-12-17 Vantage Technologies Knowledge Assessment, L.L.C. Selective writing assessment with tutoring
US20070265831A1 (en) 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
WO2008053466A2 (en) 2006-10-30 2008-05-08 Cellesense Technologies Ltd. Context sensitive, error correction of short text messages
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
EP1936606B1 (en) * 2006-12-21 2011-10-05 Harman Becker Automotive Systems GmbH Multi-stage speech recognition
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US7957955B2 (en) * 2007-01-05 2011-06-07 Apple Inc. Method and system for providing word recommendations for text input
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US20120239834A1 (en) * 2007-08-31 2012-09-20 Google Inc. Automatic correction of user input using transliteration
WO2009040790A2 (en) 2007-09-24 2009-04-02 Robert Iakobashvili Method and system for spell checking
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US8232973B2 (en) * 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090198671A1 (en) * 2008-02-05 2009-08-06 Yahoo! Inc. System and method for generating subphrase queries
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
KR101491581B1 (ko) 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
CA2721157A1 (en) 2008-04-16 2009-12-03 Ginger Software, Inc. A system for teaching writing based on a user's past writing
WO2009130692A2 (en) 2008-04-22 2009-10-29 Robert Iakobashvili Method and system for user-interactive iterative spell checking
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
JP5584212B2 (ja) 2008-07-31 2014-09-03 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
US8219905B2 (en) 2008-11-17 2012-07-10 International Business Machines Corporation Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
JP5752150B2 (ja) 2010-02-01 2015-07-22 ジンジャー ソフトウェア、インコーポレイティッド 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
US8838453B2 (en) * 2010-08-31 2014-09-16 Red Hat, Inc. Interactive input method
US10747963B2 (en) * 2010-10-31 2020-08-18 Speech Morphing Systems, Inc. Speech morphing communication system
US8484218B2 (en) * 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233222A1 (en) * 2002-03-26 2003-12-18 Radu Soricut Statistical translation using a large monolingual corpus
CN101065746A (zh) * 2004-12-01 2007-10-31 怀斯莫克有限公司 文件自动丰富的方法和系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366741A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入纠错方法及系统
WO2014036827A1 (zh) * 2012-09-10 2014-03-13 华为技术有限公司 一种文本校正方法及用户设备
CN103678271A (zh) * 2012-09-10 2014-03-26 华为技术有限公司 一种文本校正方法及用户设备
CN103678271B (zh) * 2012-09-10 2016-09-14 华为技术有限公司 一种文本校正方法及用户设备
CN104813318A (zh) * 2012-09-26 2015-07-29 谷歌公司 用于翻译的基于上下文对消息分组的技术
CN104813318B (zh) * 2012-09-26 2018-11-27 谷歌有限责任公司 用于翻译的基于上下文对消息分组的技术
TWI667579B (zh) * 2015-06-09 2019-08-01 日商富士通股份有限公司 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式
CN105912712A (zh) * 2016-04-29 2016-08-31 华南师范大学 基于大数据的机器人对话控制方法和系统
CN105893626A (zh) * 2016-05-10 2016-08-24 中广核工程有限公司 一种用于核电工程的索引库创建方法及其采用其方法的索引系统
US11120895B2 (en) 2018-06-19 2021-09-14 Ellipsis Health, Inc. Systems and methods for mental health assessment
US10748644B2 (en) 2018-06-19 2020-08-18 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11942194B2 (en) 2018-06-19 2024-03-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备
CN109614499B (zh) * 2018-11-22 2023-02-17 创新先进技术有限公司 一种词典生成方法、新词发现方法、装置及电子设备
CN111859946A (zh) * 2019-04-22 2020-10-30 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质

Also Published As

Publication number Publication date
WO2009016631A2 (en) 2009-02-05
US20140122062A1 (en) 2014-05-01
CA2731899C (en) 2016-10-25
CA2694327A1 (en) 2009-02-05
JP2015057716A (ja) 2015-03-26
US8914278B2 (en) 2014-12-16
EP2183685A2 (en) 2010-05-12
WO2009016631A3 (en) 2010-03-04
US20100286979A1 (en) 2010-11-11
US20150186336A1 (en) 2015-07-02
US8645124B2 (en) 2014-02-04
CA2731899A1 (en) 2010-02-04
JP2010535377A (ja) 2010-11-18
EP2183685A4 (en) 2012-08-08
CN105045777A (zh) 2015-11-11
US20150142422A1 (en) 2015-05-21
US9026432B2 (en) 2015-05-05
CN102165435B (zh) 2014-12-24
CN101802812B (zh) 2015-07-01
US20110184720A1 (en) 2011-07-28
CN101802812A (zh) 2010-08-11
JP5638948B2 (ja) 2014-12-10

Similar Documents

Publication Publication Date Title
CN102165435B (zh) 使用因特网语料库的自动上下文相关语言产生、校正和增强
JP5584212B2 (ja) インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
CN106156204B (zh) 文本标签的提取方法和装置
JP5752150B2 (ja) 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
CN102298576A (zh) 文档关键词生成方法和装置
CN107908712A (zh) 基于术语提取的跨语言信息匹配方法
CN112035506A (zh) 一种语义识别方法及其设备
CN112860781A (zh) 一种词汇搭配提取和语义分类相结合的挖掘和展示方法
Singh et al. Unity in diversity: Learning distributed heterogeneous sentence representation for extractive summarization
Mollaei et al. Question classification in Persian language based on conditional random fields
Nilsson Hybrid methods for coreference resolution in Swedish
Preiss Probabilistic word sense disambiguation: Analysis and techniques for combining knowledge sources
Flor et al. ETS Lexical Associations System for the COGALEX-4 Shared Task
Faulhaber Enhancing hypernym extraction for named entities using machine learning based classification
Saggion et al. Experiments in passage selection and answer identification for Question Answering
Gerbscheid et al. Personalized news conversations with the Softbank Pepper
van Halteren et al. Tijdschrift voor Nederlandse Taal-en Letterkunde. Jaargang 131

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1161646

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1161646

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141224

Termination date: 20180204