CN103324609B - 文本校对装置和文本校对方法 - Google Patents
文本校对装置和文本校对方法 Download PDFInfo
- Publication number
- CN103324609B CN103324609B CN201210574520.4A CN201210574520A CN103324609B CN 103324609 B CN103324609 B CN 103324609B CN 201210574520 A CN201210574520 A CN 201210574520A CN 103324609 B CN103324609 B CN 103324609B
- Authority
- CN
- China
- Prior art keywords
- sentence
- correction
- check
- proofreading
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种文本校对装置以及文本校对方法。根据实施例的一种日文较对装置具有校正历史文集、校对候选者生成单元、校对可用性确定单元和自动校对单元。校正历史文集彼此关联地存储作为校对前文句的反面文句以及作为校对后文句的正例文句。校对候选者生成单元根据校对对象文句的特性,从校正历史文集获取与校对前文句对应的校对后文句。校对可用性确定单元从校对候选者生成单元获取的校对后文句中选择校对对象文句和校对后文句之间的相似度等于或大于预定阈值的校对后文句作为校对候选者。自动校对单元使用校对可用性确定单元选择的校对后文句中的、具有最高相似度的校对后文句来对校对对象文句进行校对。
Description
技术领域
根据本发明的实施例涉及文本校对装置和文本校对方法。
背景技术
近年来,随着公司全球化等的发展,日文不是母语的人有日益增多的书写日文文本的机会。因此,为了向这些人提供书写日文文本的支持,已开发了文本校对装置,其检测并校正所创建的日文文本中的错误和不恰当的表述。作为文本校对装置,例如,一种软件应用被商业化,其对日文文本执行形态分析,并且基于分析结果,自动地校对文本中的不恰当的术语并且指出送假名(okuri-gana),即添加到汉字的假名的变位(conjugational)结尾和词尾的滥用。此外,建议了一种用于文本校对的技术,其中预先定义用于措辞差异校对的统一标准,并且如果检测到文句中的任何措辞不满足标准,则提示书写者校正措辞。此外,存在一种基于学习的用于文本校对的技术,其中基于与动词相关联的助词(particle)的使用规则以及与助词相连的名词的含义来确定在日文文句中是否使用了正确的助词,并且如果存在任何不正确的助词,则将该助词自动地校正为适当的助词。
专利文献1:日本公开专利公布第07-085050号
专利文献2:日本公开专利申请第05-120275号
然而,上述文本校对技术具有例如如下文所述的问题。就是说,待校对的日文文本可能不仅包括送假名的错误以及可以通过参考词典等通过字面分析校正的措辞的差异,还包括难于仅通过文句字面分析进行校正的诸如助词错误的错误。例如,对于助词的校正,惯用方法是预先准备包括大量的关于助词使用的对动词和名词的约束条件的有组织的数据的词典。然而,该方法旨在确定与文句中的动词相关联的助词的有效性。因此,如果在动词的使用中存在任何错误,则难于通过该方法校正动词。
具体地,假设给出例如日文文句“冬は、雪を降ります。”作为校对对象。在该情况下,在不会改变动词“降ります”的校对方法中,有可能提供诸如“冬は、雪が降ります。”的助词校正的候选者,但是难于同时将两个助词(复合助词错误的校正)校正为“冬には、雪が降ります。”。
此外,在不会改变动词的校对方法中,有可能提供候选者“冬は、雪が降ります。”,但是难于建议另一可能的校正短语“冬は、雪を降らせます。”。该问题可以通过提供具有用于校对的词典的文本校对装置来解决,其中登记替换前和替换后字符串,以便将原始文本(待校对文句)与词典比较并且自动地校对检测到的错误。例如,通过登记用于将短语“を降ります”替换为文本校对装置的校对词典中的“を降らせます”,可以解决上述问题。然而,在诸如“彼の実家は、2月に沢山の雪を降ります。”的文句的情况下,难于通过上述方法区分适于替换为“降らせます”的文句和适于替换为“降らせます”的文句。结果,可能出现不应被替换的词被替换的问题。这使得文本校对的准确性劣化。
此外,上述约束条件通常由人手工制订,这需要大量的人工和时间以创建用于校对的词典。此外,存在制定者的输出易于变化的另一问题。这抑制了文本校对的准确性的提高。
因此,在本发明的实施例的一个方面,目的在于提供一种文本校对装置和文本校对方法,其允许准确地和容易地校对文句。
发明内容
根据实施例的一个方面,一种文本校对装置包括:存储单元,其彼此关联地存储校对前文句和校对后文句;获取单元,其根据来自存储单元的校对对象文句的特性,获取与校对前文句对应的校对后文句;选择单元,其从获取单元获取的校对后文句中选择校对对象文句和校对后文句之间的相似度等于或大于预定阈值的校对后文句;以及校对单元,其使用选择单元选择的校对后文句中的具有最高相似度的校对后文句来对校对对象文句进行校对。
附图说明
图1是图示根据实施例的文本校对装置的功能配置的示图;
图2是图示校正历史文集中的数据存储示例的示图;
图3是图示根据实施例的文本校对装置的硬件配置的示图;
图4是用于描述根据实施例的文本校对装置的操作的流程图;
图5是用于描述文本校对装置执行的校对可用性确定处理的流程图;
图6A是用于描述对象示例文句1的校对处理的示图;
图6B是用于描述将对象示例文句1校正为另一文句的处理的示图;
图7是用于描述由校对候选者生成单元执行的、用于生成对象示例文句1的校对候选者的处理的前一半的示图;
图8A是用于描述由校对候选者生成单元执行的、用于生成对象示例文句1的校对候选者的处理的后一半的示图;
图8B是用于描述由校对候选者生成单元执行的、用于生成对象示例文句1的另一校对候选者的处理的示图;
图9A是用于描述由校对可用性确定单元执行的、用于确定对象示例文句1的校对候选者的校对可用性的处理的示图;
图9B是用于描述由校对可用性确定单元执行的、用于确定对象示例文句1的另一校对候选者的校对可用性的处理的示图;
图10A是用于描述由自动校对单元执行的、用于校对对象示例文句1的处理的示图;
图10B是用于描述由自动校对单元执行的、用于将对象示例文句1校对成另一文句的处理的示图;
图11是用于描述对象示例文句2的校对处理的示图;
图12是用于描述用于在对象示例文句2的校对处理中确定重叠部分的方法的示图;
图13是用于描述由校对候选者生成单元执行的、用于生成对象示例文句2的校对候选者的处理的前一半的示图;
图14是用于描述由校对候选者生成单元执行的、用于生成对象示例文句2的校对候选者的处理的后一半的示图;
图15是用于描述由校对可用性确定单元执行的、用于确定对象示例文句2的校对候选者的校对可用性的处理的示图;
图16是用于描述由自动校对单元执行的、用于校对对象示例文句2的处理的示图;
图17是用于描述对象示例文句3的校对处理的示图;
图18是用于描述由校对候选者生成单元执行的、用于生成对象示例文句3的校对候选者的处理的前一半的示图;
图19是用于描述由校对候选者生成单元执行的、用于生成对象示例文句3的校对候选者的处理的后一半的示图;
图20是用于描述由校对可用性确定单元执行的、用于确定对象示例文句3的校对候选者的校对可用性的处理的示图;
图21是用于描述由自动校对单元执行的、用于校对对象示例文句3的处理的示图;
图22是用于描述对象示例文句4的校对处理的示图;
图23是用于描述由校对候选者生成单元执行的、用于生成对象示例文句4的校对候选者的处理的前一半的示图;
图24是用于描述由校对候选者生成单元执行的、用于生成对象示例文句4的校对候选者的处理的后一半的示图;
图25是用于描述由校对可用性确定单元执行的、用于确定对象示例文句4的校对候选者的校对可用性的处理的示图;以及
图26是用于描述由自动校对单元执行的、用于校对对象示例文句4的处理的示图。
具体实施方式
将参照附图解释优选实施例。然而,本申请中公开的文本校对装置和文本校对方法不限于以下实施例。
首先,将描述根据实施例的文本校对装置的配置。图1是图示根据实施例的文本校对装置的功能配置的示图。如图1中所示,文本校对装置10具有对象文句输入单元11;校正历史文集12;校对候选者生成单元13;校对可用性确定单元14;校对候选者组织单元15;自动校对单元16;和校对结果输出单元17。这些部件在单向或双向方向上连接在一起以允许各种信号和数据的输入/输出。
对象文句输入单元11读取校对对象文档D1,将文档D1中的文本分成文句,并且将文句逐个输出到后继级中的校对候选者生成单元13。校正历史文集12是可更新的数据库,其按校正前和校正后数据成对地、逐个文句地存储将人在校对期间发现的不正确的文句校正为正确文句的历史(校正历史)。
图2是图示校正历史文集12中的数据存储示例的示图。如图2中所示,校正历史文集12彼此关联地存储作为反例的包括错误的校正前文句以及作为正例的错误被校正的校正后文句。将校正前文句(反例)“ここでは、参考程度で図をあげろだけです。”取作示例,该文句包括助词“で”和“だけ”的使用错误,并且因此将文句“ここでは、参考程度に図だけを記載します。”登记为正例。上述错误不限于语法错误,而且可以是语义错误。例如,在反例“第1試合は、相手が昨年の優勝校の東高校でした。”的情况下,该文句包括助词和标点错误,文句“第1試合相手は、昨年の優勝校の東高校でした”被登记为正例。
如图2中所示,反例和正例不一定一对一地彼此关联。具体地,如果一个反例可以通过多种方式校正,则该反例可以与多个正例关联地存储。将反例“冬は、雪を降ります。”取作示例,文本校对装置10可以具有预先登记为正例的三个文句“冬は、雪が降ります。”、“冬には、雪が降ります。”和“冬は、雪を降らせます。”。相反地,校正历史文集12可以针对多个反例存储一个共同的正例。
校对候选者生成单元13搜索校正历史文集12以从校正历史创建可能用于自动校对的候选者列表,并且将该候选者列表存储在可更新的校对候选者临时存储单元131中。校对候选者生成单元13使文本分析单元132对从对象文句输入单元11输入的对象文句以及作为搜索校正历史文集12的结果的反面文句执行形态分析,从而逐个词地识别对象文句和反例之间的共同的字符串(共同字符串)。校对候选者生成单元13还使文本分析单元132对与反例对应的正例执行形态分析,从而逐个词地识别反例和正例之间的不同的字符串(不同字符串)。此外,校对候选者生成单元13将对象文句和反例文本之间的共同部分以及反例文本和正例文本之间的不同部分视为替换字符串,并且将包括替换字符串的反例和正例的对作为校对候选者保存在校对候选者临时存储单元131中。
校对可用性确定单元14检查校对候选者临时存储单元131中保存的用于校对的候选者是否可用于对象文句的校对。具体地,校对可用性确定单元14使文本分析单元132执行语法分析以从校对候选者生成单元13创建的候选者列表中包括的校对候选者中选择假设可用在对象文句的实际校对中的校对候选者,从而缩窄候选者。此外,校对可用性确定单元14使短语兼容性确定单元141对对象文句和正例执行语法分析以缩窄校对候选者。如上述形态分析中的那样,参照可更新的词典141a执行该语法分析。
具体地,作为语法分析的结果,如果确定替换字符串是独立词,则校对可用性确定单元14评估替换词和被替换词之间的语法和语义的相似度。此外,如果替换字符串是助词或者词尾,则校对可用性确定单元14评估包括替换字符串的短语中的核心词之间的相似度。此外,如果替换字符串是独立词,则校对可用性确定单元14评估与包括替换字符串的短语相关的词之间的相似度。基于从上述评估获得的词之间的相似度的结果,校对可用性确定单元14给出针对替换候选者的评分。随后,校对可用性确定单元14从上述校对候选者中排除评分在预定阈值以下的任何替换候选者(不可用于校对的候选者)。因此,仅评分等于或大于阈值的校对候选者留在校对候选者临时存储单元131中。
校对候选者组织单元15根据校对候选者临时存储单元131中存储的校对候选者的评分按照评分的降序对校对候选者分类。自动校对单元16将位于顶部的校对候选者识别为校对候选者组织单元15的校对候选者分类结果,并且将校对对象文句的适当部分(字符串)替换为校对候选者的替换字符串。自动校对单元16可以自动地将字符串替换为所识别的校对候选者,但不限于此,自动校对单元16可以在替换字符串之前等待来自用户的指令。校对结果输出单元17经由显示设备10d向用户建议通过校对候选者校对的文句。
接下来,将描述文本校对装置10的硬件配置。图3是图示根据实施例的文本校对装置10的硬件配置的示图。如图3中所示,文本校对装置10具有处理器10a、存储设备10b、输入设备10c和显示设备10d,它们连接在一起以允许经由总线输入/输出各种信号和数据。处理器10a是例如中央处理单元(CPU)或数字信号处理器(DSP)。存储设备10b包括例如,诸如硬盘(HD)、只读存储器(ROM)和闪速存储器的非易失性存储设备,以及诸如同步动态随机存取存储器(SDRAM)的RAM。输入设备10c由例如键盘、鼠标和触摸板形成,并且显示设备10d由例如液晶显示器(LCD)、电致发光显示器(ELD)或阴极射线管(CRT)形成。
图1中所示的文本校对装置10的对象文句输入单元11由作为硬件的输入设备10c实现。校正历史文集12、校对候选者临时存储单元131和词典141a由作为硬件的存储设备10b实现。校对候选者生成单元13、校对可用性确定单元14、校对候选者组织单元15、自动校对单元16、文本分析单元132和短语兼容性确定单元141由作为硬件的处理器10a实现。校对结果输出单元17由作为硬件的显示设备10d实现。
接下来,将描述文本校对装置10的操作。图4是用于描述根据实施例的文本校对装置10的操作的流程图。
首先在S1,在对象文句输入单元11输入校对对象文句时,校对候选者生成单元13对对象文句执行形态和语法分析。作为形态分析的结果,校对候选者生成单元13获取构成对象文句的形态素的列表以及对象文句的分离短语的列表。此外,作为语法分析的结果,校对候选者生成单元13获取作为形态分析结果获得的包括被修饰形态素和修饰形态素的概念结构。
在S2,校对候选者生成单元13基于经历S1的文本分析(形态分析、语法分析等)的校对对象文句的特性,搜索校正历史文集12中存储的反例文本。因此,校对候选者生成单元13从校正历史文集12提取对应于具有与在S1输入的对象文句的特性相同的特性的反例的正例,并且连同对应的反例一起在校正历史列表上表示所提取的正例。作为搜索结果,如果在校正历史文集12中不存在具有对象文句的特性相同的特性的反例(S3:否),则文本校对装置10终止系列步骤。如果存在任何反例(S3:是),则校对候选者生成单元13指令校对可用性确定单元14使用反例确定校对的可用性。
在接收到来自校对候选者生成单元13的关于校对可用性的确定的指令时,校对可用性确定单元14根据指令执行后面描述的步骤S4至S7。在S4,校对可用性确定单元14执行校对可用性确定处理以从校正历史列表上的多个校对候选者中选择可用于实际校对的候选者。对校正历史列表上的所有校对候选者独立地执行系列步骤S3至S7,并且当对列表上的所有校对候选者完成该系列步骤时,终止处理。
图5是用于描述在文本校对装置上执行的校对可用性确定处理的流程图。在该校对可用性确定处理中,首先,校对可用性确定单元14对构成从校正历史文集12提取的校对候选者数据的每个反例和正例执行形态分析(S401)。接下来,校对可用性确定单元14将关于校对对象文句的形态分析结果与关于反例文本的形态分析结果进行比较,从而识别重叠字符串(S402)。随后,校对可用性确定单元14将关于反例文本的形态分析结果与关于正例文本的形态分析结果进行比较,从而识别不同字符串(S403)。在S404,校对可用性确定单元14将在S402识别的重叠字符串与在S403确定的不同字符串进行比较,从而识别其中所比较的字符串重叠的字符串。
作为在S404的识别的结果,如果不存在重叠部分(S405:否),则校对可用性确定单元14前往后面描述的步骤S419。如果存在任何重叠部分(S405:是),则校对可用性确定单元14对对象文句中包括的所有重叠部分重复地执行后面描述的系列步骤S406至S417。
具体地,在将相似度设定为初值(例如,100)(S406)之后,校对可用性确定单元14进一步从对象文句、反例文本和正例文本识别与在S404识别的重叠部分对应的短语(S407)。接下来,校对可用性确定单元14确定重叠部分是依赖词还是独立词(S408)。作为确定结果,如果重叠部分是依赖词(S408:是),则校对可用性确定单元14评估对象文句和反例文本之间的包括重叠部分(在S404识别的重叠部分)的短语的核心词的差异度(S409)。另一方面,如果重叠部分是独立词(S408:否),则校对可用性确定单元14评估对象文句和反例文本之间的包括重叠部分的短语(在S407识别的短语)的差异度(S410)。
在S411,校对可用性确定单元14计算校对对象文句和正例文本之间的相似度。由于相似度的初值被设定为例如100,因此这里的相似度被设定为通过从100减去(减少点)在S409或S410计算的差异度的估值而获得的值(S411)。
在S412,校对可用性确定单元14确定对象文句中的重叠部分(以下称为“RPC1”)的词类是否是助词。作为确定结果,如果RPC1不是助词(S412:否),则校对可用性确定单元14评估RPC1的作为被修饰词的独立词和正例中的重叠部分的作为修饰词的独立词(以下称为“RPC3”)之间的差异度(S413)。
相反,作为在S412的确定结果,如果RPC1的词类是助词(S412:是),则校对可用性确定单元14将RPC1中的助词替换为RPC3中的助词,并且随后对对象文句执行语义分析(S414)。在S415,校对可用性确定单元14对通过助词替换获得的暂时校正短语(以下称为“RPC4”)执行与步骤S413相同的操作。具体地,校对可用性确定单元14评估RPC4中的作为被修饰词的独立词和RPC3中的作为被修饰词的独立词之间的差异度(S415)。
这里,将具体地描述暂时校正短语的创建。如果与重叠部分对应的短语包括依赖词,则校正后短语中的被修饰词可以不同于校正前短语中的被修饰词。因此,当评估与重叠部分对应的短语中的作为被修饰词的独立词之间的差异度时,校对可用性确定单元14需要评估经校正的RPC1中的被修饰词。因此,为了识别校正后的被修饰词,校对可用性确定单元14将RPC1中的依赖词校正为与反例中的重叠部分对应的RPC3中的依赖词(以下称为“RPC2”),从而创建暂时校正短语(RPC4)。因此,校对可用性确定单元14可以分析包括RPC4的对象文句并且识别RPC4中的被修饰词。结果,校对可用性确定单元14可以使用RPC4中的被修饰词来评估独立词之间的差异度。
在S416,校对可用性确定单元14再次计算校对对象文句和正例文本之间的相似度。具体地,校对可用性确定单元14将新的相似度设定为通过从在S411计算的相似度减去在S413或S415计算的差异度的估值而获得的值(S416)。
接下来,校对可用性确定单元14将在S416设定的相似度与预先设定的预定阈值进行比较(S417)。如果相似度等于或大于阈值(S417:否),则可以确定校对对象文句和正例文本之间的相似度是高的,并且当前校对候选者在执行校对时是有效的。因此,校对可用性确定单元14将通过作为确定对象的校对候选者进行的校对设定为“可能”(S418),并且随后执行图4中说明的步骤S5。另一方面,如果相似度小于阈值(S417:否),则可以确定校对对象文句和正例文本之间的相似度是低的,并且当前校对候选者在执行校对时不是有效的。因此,校对可用性确定单元14将通过作为确定对象的校对候选者进行的校对设定为“不可能”(S419),执行图4中说明的步骤S5。如果在S405中确定不存在重叠部分(S405:否),则校对可用性确定单元14前往如上文所述的步骤S419。
当对作为确定对象的对象文句中包括的所有重叠部分完成校对可用性确定时,校对可用性确定单元14也将通过作为确定对象的校对候选者进行的校对设定为“可能”。此后,校对可用性确定单元14前往图4中说明的步骤S5。
返回图4,作为在S4的校对可用性确定处理的结果,如果确定通过校对候选者进行的校对是可能的(S5:是),则校对可用性确定单元14引用校正历史文集12以识别对象文句中的待校对部分并且生成与待校对部分对应的校对候选者文本(S6)。校对可用性确定单元14使用在S6创建的校对候选者文本来自动地评估校对的有效性,并且设定评分(S7)。如果在S5确定通过校对候选者进行的校对是不可能的(S5:否),则校对可用性确定单元14返回步骤S3至S7的循环的起点。文本校对装置10再次执行S3以及后继步骤。
当对校正历史列表上的所有校对候选者完全执行校对可用性的确定和校对有效性的评估时,校对可用性确定单元14指令后继级中的校对候选者组织单元15对在S6创建的校对候选者文本分类。根据指令,校对候选者组织单元15按在S7评级的有效性估值的降序将校对候选者文本分类(S8)。
在S9,自动校对单元16确定当前校对模式用于自动校对还是用户进行的手工校对。在自动校对模式中(S9:是),自动校对单元16通过位于在S8按估值的降序分类的校对候选者的顶部的校对候选者来自动地重写对象文句(S10)。重写结果作为校对结果被显示在校对结果输出单元17上。另一方面,在手工校对模式中(S9:否),自动校对单元16使校对结果输出单元17按校对有效性的估值的降序显示在S8分类的所有校对候选者(S11),并且等待用户的选择操作。
随后,将更详细地描述用于评估词和短语之间的差异度的方法(图5中所示的步骤S409和S410)。差异度的评估可以例如根据文本(Txt)、语法特性(Syn)、语义类(Sem)、语义关系(Re1)和它们的组合来执行。在通过文本评估差异度时,校对可用性确定单元14根据文本中的字符串的重叠度来确定相似度。例如,可以使用执行诸如插入、删除和替换的操作以将一个字符串编辑为另一字符串时的所请求的最小次数(Levenshtein距离)来执行通过文本进行的差异度的评估。在通过语法特性评估差异度时,校对可用性确定单元14使用词典中包含的语法属性,基于词类之间的所需格的总数和所需格之间的重叠来对差异度打分。例如,当使用关于动词的词典时,如果对于动词1和动词2,所需格的总数是“5”并且所需格之间的重叠是“1”,则差异度被计算为“4(=5-1)”。
例如可以通过使用词典中包含的语义属性的方法、使用外部数据的方法或者使用关于正例的聚类的信息的方法来执行通过语义类进行的差异度评估。在使用词典中包含的语义属性的方法中,校对可用性确定单元14将在从根追踪辞典时分支达到的辞典的深度定义为词之间的相似度,并且将通过从辞典的最大深度减去相似度而获得的值设定为差异度的估值。例如,假设辞典具有最大深度“5”。如果词A和B之间的相似度是“0”,则差异度被计算为“5(=5-0)”。相似地,如果词B和C之间的相似度是“2”,则差异度被计算为“3(=5-2)”。在使用外部数据的方法中,校对可用性确定单元14将可外部引用的源用作辞典。在使用关于正例的聚类的信息的方法中,校对可用性确定单元14使用聚类技术对大量的正例文本中的词分类,并且将属于同一类的词设定为语义接近的词。
在通过语义关系进行差异度评估时,校对可用性确定单元14不评估词本身,而是添加词之间的修饰关系作为评估对象。例如,校对可用性确定单元14使用关系弧之间的重叠,并且如果修饰标记相同,则将差异度确定为“0”,并且如果修饰标记不同,则将差异度确定为“5”。
通过例如下文表示的计算式(1),使用系数a、b、c和d来计算差异度的估值。通过复合地组合上述四类用于评估差异度的方法来生成计算式(1),但并非必须使用所有方法。计算式(1)可以根据校对所需的精度和时间组合地或依次地进行适当的修改。
差异度的估值=a*Txt/word length+b*Syn+c*Sem+d*Rel (1)
如上文所述,文本校对装置10具有被设定为100的相似度初值,并且当对象文句和正例文句之间的当前相似度(=先前相似度-差异估值)小于阈值时,从校对候选者排除正例文句。
下文将使用四个对象示例文句更详细地描述文本校对装置10上的用于自动校对的方法。
对象示例文句1
首先,将参照图6A至10B描述同时校对对象示例文句1中包括的两个助词的实施例。对象示例文句1是“梅雨は雨を降ります。”。对象示例文句1具有多个助词“は”和“を”的复合错误,其可以通过两种方式校正。
图6A是用于描述对象示例文句1的校对处理的示图。如图6A中所示,当给出校对对象文句“梅雨は雨を降ります。”时,文本校对装置10从校正历史文集12取回具有与对象文句的特性相似的特性的校对前文句“冬は雪を降ります”,并且随后识别校对前文句和对象文句之间的共同部分A1和A2。接下来,文本校对装置10识别校正历史文集12中的与校对前文句相关联地存储的校对后文句“冬には雪が降ります。”和校对前文句之间的不同部分B1和B2。此外,文本校对装置10在对象文句和校对前文句之间检查独立词C1至C4的语法和语义相似度。如果所检查的相似度已达到预定相似度,则文本校对装置10确定通过校对前文句进行校对是可能的。结果,文本校对装置10采用校对前文句作为用于自动校对的文句,并且输出自动校对后文句“梅雨には雨が降ります。”。在自动校对后文句中,具有向右下降的斜线(“には”和“が”)的字符串表示通过校对改变的字符串。此外,箭头Y1和Y2表示词“降ります”由具有下划线的字符串(“冬には”和“雪が”)修饰。
接下来,将描述对象示例文句1的第二校对候选者。图6B是用于描述将对象示例文句1校正为另一文句的处理的示图。如图6B中所示,当给出校对对象文句“梅雨は雨を降ります。”时,文本校对装置10从校正历史文集12取回具有与对象文句的特性相似的特性的校对前文句“冬は雪を降ります。”,并且识别校对前文句和对象文句之间的共同部分A1和A2。接下来,文本校对装置10识别校正历史文集12中的与校对前文句相关联地存储的校对后文句“冬は雪を降らせます。”和相对校对前文句的不同部分B3。此外,文本校对装置10在对象文句和校对前文句之间检查独立词C1至C4的语法和语义相似度。如果所检查的相似度已达到预定相似度,则文本校对装置10确定通过校对前文句进行校对是可能的。结果,文本校对装置10采用校对前文句作为用于自动校对的文句,并且输出自动校对后文句“梅雨は雨を降らせます。”。此外,在自动校对后文句中,具有向右下降的斜线(“らせ”)的字符串表示通过校对改变的字符串。此外,箭头Y3和Y4表示词“降ります”由具有下划线的字符串(“冬は”和“雪を”)修饰。
参照图7至10A,下文将更具体地描述范围从输入对象文句到输出自动校对后文句的处理。图7是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句1的校对候选者的处理的前一半的示图。如图7中所示,校对候选者生成单元13对对象示例文句1执行形态分析以将其分离成形态素“梅雨/は/雨/を/降/り/ます/。”。此外,校对候选者生成单元13对对象示例文句1执行语法分析以识别形态素之间的修饰关系。因此,校对候选者生成单元13将具有修饰关系的三个形态素“梅雨、降、雨”选择为用于搜索校正历史文集12的关键词。具体地,校对候选者生成单元13从对象示例文句1中提取两个式样的搜索关键词“梅雨(季节)&降”和“雨(天气)&降”。在校正历史文集12的搜索中,即使不存在文本中的匹配,通过语义类(扩号中的字符串)进行搜索也是可能的。在对象示例文句1的情况下,词“梅雨”的语义类是季节,其与词“冬”的语义类相同,并且因此存在“梅雨”和“冬”之间的匹配。词“雨”属于天气的语义类,其与词“雪”的语义类相同,并且存在“雨”和“雪”之间的匹配。
在对对象文句执行形态和语法分析之后,校对候选者生成单元13使用分析结果来分析对象文句和反例文本之间的对应性,从而识别对象文句和反例文本之间的共同部分E1、E2和E3。还通过考虑语义类来识别共同部分。因此,词“梅雨”和“冬”以及词“雨”和“雪”在文本中不同,但是被分类成同一语义类,并且因此被识别为关于词“降”的共同部分。作为一个反例文本,文句“冬は雪を降ります。”被登记在校正历史文集12中。因此,如图7中所示,校对候选者生成单元13使用两对搜索关键词“梅雨(季节)&降”和“雨(天气)&降”来提取包括文句中的两对关键词的反例文本以及与该反例文本对应的正例文本。对于对象示例文句1,登记与反例文本“冬は雪を降ります”对应的两类正例文本。因此,校对候选者生成单元13从校正历史文集12读取两类正例文本α和β“冬には雪が降ります”和“冬は雪を降らせます”。在该示例中,与一个修饰相关的两个词被用作搜索关键词。然而,本发明不限于此,并且校对候选者生成单元13可以将与两个修饰相关的三个词或者与三个修饰相关的四个词设定为搜索关键词。
图8A是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句1的校对候选者的处理的后一半的示图。作为一个反例文本,文句“冬は雪を降ります”被登记在校正历史文集12中。因此,如图8A中所示,校对候选者生成单元13使用两个搜索关键词“梅雨&降”和“雨&降”来提取包括“冬”和“降”两者的反例文本以及正例文本。在对反例文本执行语法分析之后,校对候选者生成单元13使用分析结果来分析反例文本和对象文句之间的对应性,从而识别对象文句和反例文本之间的共同部分。此外,校对候选者生成单元13分析反例文本和正例文本之间的对应性,从而识别反例文本和正例文本之间的不同部分。
校对候选者生成单元13还对其他正例文本“冬/は/雪/を/降/らせ/ます/。”执行前述对应性分析。在图8A和8B中,具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。具有下划线的字符串是反例文本和对象文句之间的共同字符串(共同部分),并且具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分)。如果对象文句和反例之间的共同部分(具有下划线)包括反例和正例之间的任何不同部分(具有向右下降的斜线),则校对候选者生成单元13将该字符串添加到可用于替换的候选者历史,并且从候选者中排除与所添加的字符串不同的字符串。结果,在图8A和8B中所示的示例中,在具有下划线的部分中,具有向右下降的斜线的字符串“は、を”和“り”被添加作为校对候选者。
接下来,图9A是用于描述由校对可用性确定单元14执行的、用于确定对象示例文句1的校对候选者的校对可用性的处理的示图。如图9A中所示,校对可用性确定单元14首先在反例文本和对象文句之间比较词。具体地,校对可用性确定单元14识别反例文本中的校对字符串(具有向右下降的斜线)与对象文句和反例文本之间的重叠字符串(具有下划线)之间的重叠词。在对象示例文句1中,“は”和“を”是适用的。
接下来,校对可用性确定单元14检查对象文句和反例文本之间的不同短语。具体地,如果所识别的词的词类是依赖词(例如,助词、助动词、词尾等),则校对可用性确定单元14识别构成由词形成的短语的核心的独立词。校对可用性确定单元14进一步识别与反例文本中的所识别的词对应的对象文句中的词。在对象示例文句1中,如图9A中所示,校对可用性确定单元14将词“梅雨”识别为对象文句中的独立词,并且将词“冬”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为第一对应词。相似地,校对可用性确定单元14将词“雨”识别为对象文句中的独立词,并且将词“雪”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为第二对应词。校对可用性确定单元14评估前述两个对应词之间的相似度。在对象示例文句1中,词“梅雨”和“冬”两者属于季节的语义类并且其间具有高相似度。因此,校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的词“には”清除了用于校对可用性条件的检查。相似地,词“雨”和“雪”两者属于天气的语义类并且其间具有高相似度。因此,校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的词“が”清除了用于校对可用性条件的检查。
校对可用性确定单元14还对另一正例文本“冬/は/雪/を/降/らせ/ます/。”执行前述校对可用性确定处理。图9B是用于描述由校对可用性确定单元14执行的、用于确定对象示例文句1的另一校对候选者的校对可用性的处理的示图。如图9B中所示,对于第二正例文本,校对可用性确定单元14将词“降”识别为对象文句中的独立词,并且将词“降”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为对应词。校对可用性确定单元14评估对应词之间的相似度。在对象示例文句1中,词“降”和“降”相同并且其间具有高相似度。因此,校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的词“らせ”清除了用于校对可用性条件的检查。
图10A是用于描述由自动校对单元16执行的、用于校对对象示例文句1的处理的示图。如图10A中所示,自动校对单元16使反例文本和正例文本之间的不同字符串从反例文本移位到对象文句。结果,对象文句具有带向右下降的斜线的词“は”和“を”。此后,自动校对单元16将对象文句和正例文本之间的不同字符串替换为正例文本中的对应字符串。因此,自动校对单元16创建并输出校对后文句“梅雨には雨が降ります。”。在图10A中,具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分),并且具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。优先向作为不同部分并且与搜索关键词匹配的字符串提供向右下降的斜线。
自动校对单元16还对另一正例文本“冬/は/雪/を/降/らせ/ます/。”执行前述自动校对处理。图10B是用于描述由自动校对单元16执行的、用于将对象示例文句1校对成另一文句的处理的示图。如图10B中所示,自动校对单元16使反例文本和正例文本之间的不同字符串从反例文本移位到对象文句。结果,对象文句具有带向右下降的斜线的词“り”。此后,自动校对单元16将反例文本和正例文本之间的不同字符串替换为正例文本中的对应字符串。因此,自动校对单元16创建并输出校对后文句“梅雨は雨を降らせます。”。
对象示例文句2
接下来,将描述同时校对对象示例文句2中包括的助词和动词的方面。对象示例文句2是“パラメ一タの文字列転換はされていない。”。对象示例文句2具有助词“の”和动词“転換”的复合错误。
图11是用于描述对象示例文句2的校对处理的示图。如图11中所示,当给出校对对象文句“パラメ一タの文字列転換はされていない。”时,文本校对装置10从校正历史文集12取回具有与对象文句的特性相同的特性的校对前文句“引数のエンコ一ド転換はされていない。”,并且识别校对前文句和对象文句之间的共同部分A3和A4。接下来,文本校对装置10识别校正历史文集12中的与校对前文句相关联地存储的校对后文句“引数がエンコ一ド変換されていない。”,以及校对后文句相对校对前文句的不同部分B4和B5。此外,文本校对装置10在对象文句和校对前文句之间检查独立词C5至C8的语法和语义相似度。如果所检查的相似度已达到预定相似度,则文本校对装置10确定通过校对前文句进行校对是可能的。结果,文本校对装置10采用校对前文句作为用于自动校对的文句,并且输出自动校对后文句“パラメ一タが文字列変換されていない。”。在自动校对后文句中,具有向右下降的斜线的字符串(“が”和“変換”)表示通过校对改变的字符串。此外,箭头Y11表示词“変換”由具有下划线的词“引数が”修饰。
图12是用于描述用于在对象示例文句2的校对处理中确定重叠部分的方法的示图。文本校对装置10使自动校对单元16参照重叠部分识别表格161来校对对象文句。如图12中所示,对象示例文句2“パラメ一タの文字列転換はされていない。”包括九个词。自动校对单元16逐个词地将对象示例文句2与反例文本“引数のエンコ一ド転換はされていない。”进行比较,并且针对每个共同词“の”、“転換”和“は”设定共同部分标志“1”。接下来,自动校对单元16逐个词地将反例文本与正例文本“引数がエンコ一ド変換されていない。”进行比较。并且对于每个不同词“の、が”、“転換、変換,”和“は、一”设定不同部分标志“0”。随后,自动校对单元16通过替换正例文本来校对具有共同部分标志“1”和不同部分标志“0”的Z1、Z2和Z3。此时,对于没有标志的词(例如,“引数、エンコ一ド”)、仅具有共同部分标志的词(例如,“され、ていな、い、。”)和仅具有不同部分标志的词,自动校对单元16如原始文本中的那样使用对象文句中的词(例如,“パラメ一タ、文字列、され、ていな、い、。”)。结果,自动校对单元16生成自动校对后对象文句“パラメ一タが文字列変換されていない。”。
参照图13至16,下文将更具体地描述范围从输入对象文句到输出自动校对后文句的处理。图13是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句2的校对候选者的处理的前一半的示图。如图13中所示,校对候选者生成单元13对对象示例文句2执行形态分析以将其分离成形态素“パラメ一タ/の/文字列/転換/は/され/ていな/い/。”。此外,校对候选者生成单元13对对象示例文句2执行语法分析以识别形态素之间的修饰关系。因此,校对候选者生成单元13将具有修饰关系的四个形态素“パラメ一タ、文字列、転换、され”选择为用于搜索校正历史文集12的关键词。具体地,校对候选者生成单元13从对象示例文句2中提取三个式样的搜索关键词“パラメ一タ&文字列”、“文字列&転換”和“転換&され”。在该示例中,与一个修饰相关的两个词被用作搜索关键词。然而,本发明不限于此,并且校对候选者生成单元13可以将与两个修饰相关的三个词或者与三个修饰相关的四个词设定为搜索关键词。
图14是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句2的校对候选者的处理的后一半的示图。作为一个反例文本,文句“引数のエンコ一ド転換はされていない。”被登记在校正历史文集12中。因此,如图14中所示,校对候选者生成单元13使用第三搜索关键词“転換&され”来提取在文句中包括“転換”和“され”两者的反例文本以及对应的正例文本。在对反例文本执行语法分析之后,校对候选者生成单元13使用分析结果来分析反例文本和对象文句之间的对应性,以识别对象文句和反例文本之间的共同部分。此外,校对候选者生成单元13分析反例文本和正例文本之间的对应性,以识别反例文本和正例文本之间的不同部分。
在图14中,具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。此外,具有下划线的字符串是反例文本和对象文句之间的共同字符串(共同部分),并且具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分)。如果对象文句和反例之间的共同部分(具有下划线)包括反例和正例之间的任何不同部分(具有向右下降的斜线),则校对候选者生成单元13将适用的字符串添加到可用于替换的候选者历史,并且从候选者中排除与所添加的字符串不同的字符串。结果,在图14中所示的示例中,在具有下划线的部分中,具有向右下降的斜线的字符串“の、転換、け”被添加到校对候选者。
接下来,图15是用于描述由校对可用性确定单元14执行的、用于确定对象示例文句2的校对候选者的校对可用性的处理的示图。如图15中所示,校对可用性确定单元14首先在反例文本和对象文句之间比较词。具体地,校对可用性确定单元14识别反例文本中的校对字符串(具有向右下降的斜线)与对象文句和反例文本之间的重叠字符串(具有下划线)之间的重叠词。在对象示例文句2中,词“の”和“転換”是适用的。
校对可用性确定单元14随后检查对象文句和反例文本之间的不同短语。具体地,如果所识别的词的词类是依赖词(例如,助词、助动词、词尾等),则校对可用性确定单元14识别构成由所识别的词形成的短语的核心的独立词。校对可用性确定单元14进一步识别与反例文本中的所识别的词对应的对象文句中的词。在对象示例文句2中,如图15中所示,校对可用性确定单元14将词“パラメ一タ”识别为对象文句中的独立词,并且将词“引数”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为第一对应词。相反,如果所识别的词的词类是独立词(例如,名词、动词等),则校对可用性确定单元14识别词(独立词)。校对可用性确定单元14进一步识别对象文句中的与反例文本中的所识别的词对应的词。在对象示例文句2中,如图15中所示,校对可用性确定单元14将词“転換”识别为对象文句中的独立词,并且将词“変換”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为第二对应词。校对可用性确定单元14评估前述两个对应词之间的相似度。
接下来,校对可用性确定单元14检查修饰词和被修饰词。具体地,校对可用性确定单元14对正例文本执行语法分析以检测与所识别的词对应的词之间的修饰结构。如图15中所示,对象示例文句2具有由词“の”修饰的词“転換”(箭头18)。在对象示例文句2中,如图15中所示,校对可用性确定单元14检测其中词“変換”由词“引数”修饰(箭头19)并且还由词“エンコ一ド”修饰(箭头20)的修饰结构。校对可用性确定单元14评估正例文本中的与在对象文句中识别的词对应的词和对象文句中的词之间的修饰词和被修饰词的相似度。在对象示例文句2中,如图15中所示,如箭头Y19所示的被修饰的词“変換”和“転換”具有其间的高相似度,并且因此校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的如箭头Y19所示的被修饰的词“変換”清除了用于校对可用性条件的检查。相似地,如箭头Y20所示的被修饰的词“エンコ一ド”和“文字列”具有其间的高相似度,并且因此校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的如箭头Y20所示的被修饰的词“エンコ一ド”也清除了用于校对可用性条件的检查。
图16是用于描述由自动校对单元16执行的、用于校对对象示例文句2的处理的示图。如图16中所示,自动校对单元16使反例文本和正例文本之间的不同字符串从反例文本移位到对象文句。结果,对象文句具有带向右下降的斜线的词“の”、“転換”和“は”。此后,自动校对单元16将对象文句和正例文本之间的不同字符串替换为正例文本中的对应字符串。因此,自动校对单元16生成并输出校对后文句“パラメ一タが文字列転換されていない。”。在图16中,具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分),并且具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。优先向构成不同部分并且与搜索关键词匹配的字符串提供向右下降的斜线。
对象示例文句3
接下来,参照图17至21,将描述将连体修饰助词校正为连用修饰助词的实施例。
图17是用于描述对象示例文句3的校对处理的示图。如图17中所示,如果给出校对对象文句“ロ一カルとリモ一トの流れが大きく異はる。”,则文本校对装置10从校正历史文集12取回具有与对象文句的特性相同的特性的校对前文句“ロ一カルとリモ一トの流れが違いますので、で注意。”,并且随后识别校对前文句和对象文句之间的共同部分A5。接下来,文本校对装置10识别校正历史文集12中的与校对前文句相关联地存储的校对后文句“ロ一カルとリモ一トで流れが違いますので、注意しこください。”,以及校对后文句和校对前文句之间的不同部分B6至B8。此外,文本校对装置10在对象文句和校对前文句之间检查独立词C9和C10的语法和语义相似度。如果所检查的相似度已达到预定相似度,则文本校对装置10确定通过校对前文句进行校对是可能的。结果,文本校对装置10采用校对后文句作为用于自动校对的文句,并且随后输出自动校对后文句“ロ一カルとリモ一トの流れが大きく異はる。”。在自动校对后文句中,具有向右下降的斜线的字符串“で”表示通过校对改变的字符串。
参照图18至21,下文将更具体地描述范围从输入对象文句到输出自动校对后文句的处理。图18是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句3的校对候选者的处理的前一半的示图。如图18中所示,校对候选者生成单元13对对象示例文句3执行形态分析以将其分离成形态素“ロ一カル/と/リモ一ト/の/流れ/が/大きく/異なる/。”。作为语法分析的结果,校对候选者生成单元13识别对象示例文句3中的形态素之间的修饰关系。校对候选者生成单元13将具有修饰关系的五个形态素“ロ一カル、リモ一ト、流れ、大きく、異なる”选择为用于搜索校正历史文集12的关键词。具体地,校对候选者生成单元13从对象示例文句3中提取四个式样的搜索关键词“ロ一カル&リモ一ト”、“リモ一ト&流れ”、“流れ&異なる”和“大きく&異なる”。在该示例中,校对候选者生成单元13将与一个修饰相关的两个词设定为搜索关键词。然而,本发明不限于此,并且校对候选者生成单元13可以将与两个修饰相关的三个词或者与三个修饰相关的四个词设定为搜索关键词。
图19是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句3的校对候选者的处理的后一半的示图。作为一个反例文本,文句“ロ一カルとリモ一トの流れが違いますので、注意しこください。”被登记在校正历史文集12中。因此,如图19中所示,校对候选者生成单元13使用第一搜索关键词“ロ一カル&リモ一ト”来提取在文句中包括“ロ一カル”和“リモ一ト”两者的反例文本以及对应的正例文本。在对反例文本执行语法分析之后,校对候选者生成单元13使用分析结果来分析反例文本和对象文句之间的对应性,以识别对象文句和反例文本之间的共同部分。校对候选者生成单元13进一步分析反例文本和正例文本之间的对应性,以识别反例文本和正例文本之间的不同部分。此外,在反例文本中还包括第二搜索关键词“リモ一ト&流れ”,并且因此可以获得与前述(反例和正例)相同的搜索结果。因此,省略了后继分析处理以避免重叠。
在图19中,具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。此外,具有下划线的字符串是反例文本和对象文句之间的共同字符串(共同部分),并且具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分)。如果对象文句和正例之间的共同部分(具有下划线)包括反例和正例之间的不同部分(具有向右下降的斜线),则校对候选者生成单元13将适用的字符串添加到历史中的可用于替换的候选者,并且从候选者中排除与所添加的字符串不同的字符串。结果,在图19中所示的示例中,校对候选者生成单元13将具有下划线的部分中的、具有向右下降的斜线的字符串“の”添加到校对候选者。
接下来,图20是用于描述由校对可用性确定单元14执行的、用于确定对象示例文句3的校对候选者的校对可用性的处理的示图。如图20中所示,校对可用性确定单元14首先在反例文本和对象文句之间比较词。具体地,校对可用性确定单元14识别反例文本中的校对字符串(具有向右下降的斜线)与对象文句和反例文本之间的重叠字符串(具有下划线)之间的重叠词。在对象示例文句3中,词“の”是适用的。
校对可用性确定单元14随后检查对象文句和反例文本之间的不同短语。具体地,如果所识别的词的词类是依赖词(例如,助词、助动词、词尾等),则校对可用性确定单元14识别构成由所识别的词形成的短语的核心的独立词。校对可用性确定单元14进一步识别与反例文本中的所识别的词对应的对象文句中的词。在对象示例文句3中,如图20中所示,对于正例文本,校对可用性确定单元14将词“リモ一ト”识别为对象文句中的独立词,并且将词“リモ一ト”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为对应词。校对可用性确定单元14评估对应词之间的相似度。在对象示例文句3中,词“リモ一ト”和“リモ一ト”是相同的并且具有其间的高相似度。因此,校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的词“リモ一ト”清除了用于校对可用性条件的检查。
接下来,校对可用性确定单元14检查修饰词和被修饰词。具体地,校对可用性确定单元14对正例文本执行语法分析以检测与所识别的词对应的词之间的修饰结构。对于语法分析,对象文句具有由正例文本中的助词“で”替换的助词。校对可用性确定单元14评估正例文本中的与在对象文句中识别的词对应的词和对象示例文句中的词之间的修饰词和被修饰词的相似度。在对象示例文句3中,正例文本中的词“違の”和对象文句中的词“異たる”经历相似度的评估。这些词属于同一语义类并且在格约束条件方面是相似的,并且因此被确定为可校正的。因此,这些词清除了用于校对可用性条件的检查。
图21是用于描述由自动校对单元16执行的、用于校对对象示例文句3的处理的示图。如图21中所示,自动校对单元16使反例文本和正例文本之间的不同字符串从反例文本移位到对象文句。结果,对象文句具有带向右下降的斜线的词“の”。此后,自动校对单元16将对象文句和正例文本之间的不同字符串替换为正例文本中的对应字符串。因此,自动校对单元16生成并输出校对后文句“ロ一カルとリモ一トの流れが大きく異たる。”。在图21中,具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分),并且具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。优先向构成不同部分并且与搜索关键词匹配的字符串提供向右下降的斜线。
对象示例文句4
接下来,下文将描述用于校对动词表述的实施例。
图22是用于描述对象示例文句4的校对处理的示图。如图22中所示,如果给出校对对象文句“彼は次と奇跡を見せていゐ。”,则文本校对装置10从校正历史文集12取回具有与对象文句的特性相同的特性的校对前文句“数の奇跡を見せてきた。”,并且随后识别校对前文句和对象文句之间的共同部分A6。接下来,文本校对装置10识别校正历史文集12中的与校对前文句相关联地存储的校对后文句“数の奇跡を演じてきた。”,以及校对后文句和校对前文句之间的不同部分B9。此外,文本校对装置10在对象文句和校对前文句之间检查独立词C11和C12的语法和语义相似度。如果所检查的相似度已达到预定相似度,则文本校对装置10确定通过校对前文句进行校对是可能的。结果,文本校对装置10采用校对后文句作为用于自动校对的文句,并且随后输出自动校对后文句“彼は次と奇跡を演じていゐ。”。在自动校对后文句中,具有向右下降的斜线的字符串“演じ”表示通过校对改变的字符串。
参照图23至26,下文将更具体地描述范围从输入对象文句到输出自动校对后文句的处理。图23是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句4的校对候选者的处理的前一半的示图。如图23中所示,校对候选者生成单元13对对象示例文句4执行形态分析以将其分离成形态素“彼/は/次/と/奇跡/を/見せ/てい/ゐ/。”。作为语法分析的结果,校对候选者生成单元13识别对象示例文句4中的形态素之间的修饰关系。校对候选者生成单元13将具有修饰关系的四个形态素“彼、見せ、次、奇跡”选择为用于搜索校正历史文集12的关键词。具体地,校对候选者生成单元13从对象示例文句4中提取三个式样的搜索关键词“彼&見せ”、“次&見せ”和“奇跡&見せ”。在该示例中,校对候选者生成单元13将与一个修饰相关的两个词设定为搜索关键词。然而,本发明不限于此,并且校对候选者生成单元13可以将与两个修饰相关的三个词或者与三个修饰相关的四个词设定为搜索关键词。
图24是用于描述由校对候选者生成单元13执行的、用于生成对象示例文句4的校对候选者的处理的后一半的示图。作为一个反例文本,文句“数の奇跡を見せてきた”被登记在校正历史文集12中。因此,如图24中所示,校对候选者生成单元13使用第三搜索关键词“奇跡&見せ”来提取在文句中包括“奇跡”和“見せ”两者的反例文本以及对应的正例文本。在对反例文本执行语法分析之后,校对候选者生成单元13使用分析结果来分析反例文本和对象文句之间的对应性,从而识别对象文句和反例文本之间的共同部分。校对候选者生成单元13进一步分析反例文本和正例文本之间的对应性,以识别反例文本和正例文本之间的不同部分。
在图24中,具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。此外,具有下划线的字符串是反例文本和对象文句之间的共同字符串(共同部分),并且具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分)。如果对象文句和正例之间的共同部分(具有下划线)包括反例和正例之间的不同部分(具有向右下降的斜线),则校对候选者生成单元13将适用的字符串添加到历史中的可用于替换的候选者,并且从候选者中排除与所添加的字符串不同的字符串。结果,在图24中所示的示例中,校对候选者生成单元13将具有下划线的部分中的、具有向右下降的斜线的字符串“見せ”添加到校对候选者。
接下来,图25是用于描述由校对可用性确定单元14执行的、用于确定对象示例文句4的校对候选者的校对可用性的处理的示图。如图25中所示,校对可用性确定单元14首先在反例文本和对象文句之间比较词。具体地,校对可用性确定单元14识别反例文本中的校对字符串(具有向右下降的斜线)与对象文句和反例文本之间的重叠字符串(具有下划线)之间的重叠词。在对象示例文句4中,词“見せ”是适用的。
校对可用性确定单元14随后检查对象文句和反例文本之间的不同短语。具体地,如果所识别的词的词类是依赖词(例如,助词、助动词、词尾等),则校对可用性确定单元14识别构成由所识别的词形成的短语的核心的独立词。校对可用性确定单元14进一步识别与反例文本中的所识别的词对应的对象文句中的词。在对象示例文句4中,如图25中所示,对于正例文本,校对可用性确定单元14将词“見せ”识别为对象文句中的独立词,并且将词“見せ”识别为反例文本中的独立词。校对可用性确定单元14将这些词设定为对应词。校对可用性确定单元14评估对应词之间的相似度。在对象示例文句4中,词“見せ”和“見せ”是相同的并且具有其间的高相似度。因此,校对可用性确定单元14确定使用校正历史数据的自动校对是可能的。因此,正例文本中的词“見せ”清除了用于校对可用性条件的检查。
接下来,校对可用性确定单元14检查修饰词和被修饰词。具体地,校对可用性确定单元14对正例文本执行语法分析以检测与所识别的词对应的词之间的修饰结构。校对可用性确定单元14评估正例文本中的与在对象文句中识别的词对应的词和对象示例文句中的词之间的修饰词和被修饰词的相似度。在对象示例文句4中,正例文本中的词“奇跡”和对象文句中的词“奇跡”经历相似度的评估。这些词是相同的并且具有其间的高相似度。因此,这些词清除了用于校对可用性条件的检查。
图26是用于描述由自动校对单元16执行的、用于校对对象示例文句4的处理的示图。如图26中所示,自动校对单元16使反例文本和正例文本之间的不同字符串从反例文本移位到对象文句。结果,对象文句具有带向右下降的斜线的词“見せ”。此后,自动校对单元16将对象文句和正例文本之间的不同字符串替换为正例文本中的对应字符串。因此,自动校对单元16生成并输出校对后文句“彼は次と奇跡を演じていゐ”。在图26中,具有向右下降的斜线的字符串是反例文本和正例文本之间的不同字符串(不同部分),并且具有向左下降的斜线的字符串是与搜索关键词匹配的字符串。优先向构成不同部分并且与搜索关键词匹配的字符串提供向右下降的斜线。
如上文所述,文本校对装置10具有校正历史文集12、校对候选者生成单元13、校对可用性确定单元14和自动校对单元16。校正历史文集12彼此关联地存储校对前文句(反例)和校对后文句(正例)。校对候选者生成单元13根据校对对象文句的特性,从校正历史文集12获取与校对前文句对应的校对后文句。校对可用性确定单元从校对候选者生成单元13获取的校对后文句中选择校对对象文句和校对后文句之间的相似度等于或大于预定阈值的校对后文句作为校对候选者。自动校对单元16使用校对可用性确定单元选择的校对后文句中的、具有最高相似度的校对后文句来对校对对象文句进行校对。
如上文所述,文本校对装置10搜索彼此关联地保存包括错误的示例文句(反例)和错误被校正的示例文句(正例)的校正历史文集12,从而允许参照过去的校正历史自动地校正诸如助词、动词词尾和独立词的各种短语。具体地,文本校对装置10基于校正历史文集12的搜索结果识别共同字符串和不同字符串,并且将两类字符串之间的共同部分(重叠部分)视为校对所需的部分。此时,文本校对装置10对对象文句和正例执行形态分析和语法分析,并且评估被修饰词和修饰词之间的语法和语义相似度。因此,文本校对装置10确定对象文句的校对的可用性。
文本校对装置10具有作为文句对数据库的校正历史文集12,其中由人手工准备并积累校正前文句和校正后文句,并且文本校对装置10使用校正历史文集12执行文句的自动校正。因此,与传统情况不同,可以同时检测多个助词错误(复合错误)并且将它们校正为正确的表述,而无需预先准备用于校对的词典。这使得可以通过简单的配置高精度地校正文句。
此外,在文本校对装置10中,自动校对单元16将校对对象文句和校对前文句之间共同的字符串(共同字符串)与校对前文句和校对后文句之间不同的字符串(不同字符串)之间的、校对前文句中的重叠部分的字符串替换为与适用字符串对应的校对后文句中的字符串。因此,自动校对单元16对校对对象文句进行校对。
如果共同字符串和不同字符串之间的重叠部分对应于校对对象文句,但是不同于校对后文句(正例),则可以设想,重叠部分是不正确的字符串(需要校正的字符串)。另一方面,如果字符串包括在校对前文句(反例)中但是并未构成重叠部分,则可以设想,这种字符串是可用的字符串,因为它们来自原始文句(对象文句)(不需要校正的字符串)。因此,自动校对单元16仅根据校对后文句(正例)替换共同字符串和不同字符串之间的重叠字符串,从而在没有过量或不足的情况下实现高效的文句校对。结果,文本校对装置10具有减少的处理负担并且提高了校对处理速度。
此外,在文本校对装置10中,校对可用性确定单元14可以基于校对对象文句和校对后文句之间的语法或语义相似度,确定通过校对后文句进行的校对的可用性。换言之,校对可用性确定单元14评估前述相似度,从而不仅在对象文句和正例文句彼此语法相似的情况下,而且在对象文句和正例文句彼此语义相似的情况下,通过自动校对单元16将正例文句选择为校对候选者。具体地,如果对象文句和正例文句之间的相似度低,则校对可用性确定单元14确定使用正例文句的校对是不可能的,并且如果对象文句和正例文句之间的相似度高,则校对可用性确定单元14确定使用正例文句的校对是可能的。因此,从校对候选者排除与对象文句不相似的正例文句。因此,可以防止使用与对象文句不相似的正例文句来校对对象文句。这导致了不正确校对的减少和校对精度的提高。
对于文本校对装置10的使用应用,例如,文本校对装置10可用于改进由日文不是母语的人等书写的日文文句的质量并且提高校对由日文不是母语的人等书写的日文文句的效率。此外,文本校对装置10可用于促进在日本公司的海外机构的非日本人的工作人员的日文学习等。
此外,在确定使用在S2列出的校对候选者的可用性之后,文本校对装置10评估校对的有效性(参照图4)。然而,本发明不限于该实施例,并且文本校对装置10首先可以评估所列出的校对候选者的校对有效性,并且随后确定通过被确定为有效的校对候选者进行校对的可用性。此外,文本校对装置10不必执行根据有效性估值对校对候选者分类的步骤(图4中所示的S8),而是可以仅选取具有最高有效性估值的校对候选者并且将其建议给用户。
文本校对装置10的构成元件不需要如图中所示的那样进行物理配置。具体地,设备的分布和集成的具体实施例不限于图中所示的情况,并且所有或一些设备可以根据各种负载、使用条件等在功能上或物理上分布或集成在任意单元中。例如,校对候选者临时存储单元131和文本分析单元132被描述和图示为与校对候选者生成单元13和校对可用性确定单元14分立的部件。然而,校对候选者临时存储单元131和文本分析单元132可以包括在这些部件中。相似地,短语兼容性确定单元141和词典141a可以包括在校对可用性确定单元14中。此外,校对可用性确定单元14和校对候选者组织单元15或者校对候选者生成单元13和校正历史文集12可以集成到一个构成元件中。
相反,校对可用性确定单元14可以分布到确定校对候选者的可用性的部分以及评估(评级)被确定为可用的各个校对候选者的有效性的部分。相似地,文本分析单元132可以分成执行语法分析的部分和执行形态分析的部分。此外,储存设备10b可以作为文本校对装置10的外部设备经由网络或线缆连接。
根据本申请中公开的文本校对装置的一个实施例,可以以准确和容易的方式校对文句。
Claims (3)
1.一种文本校对装置,包括:
存储单元,其彼此关联地存储校对前文句和校对后文句;
获取单元,其根据来自所述存储单元的校对对象文句的特性,获取与所述校对前文句对应的所述校对后文句;
选择单元,其从所述获取单元获取的所述校对后文句中选择所述校对对象文句和所述校对后文句之间的相似度等于或大于预定阈值的校对后文句;以及
校对单元,其使用所述选择单元选择的所述校对后文句中的、具有最高相似度的校对后文句来对所述校对对象文句进行校对,
其中所述存储单元彼此关联地保存包括错误的反例和所述错误被校正后的正例,从而允许参照过去的校正历史自动地校正短语,以及
其中如果对象文句和正例文句之间的相似度低,则所述选择单元确定使用正例文句的校对是不可能的,并且如果对象文句和正例文句之间的相似度高,则所述选择单元确定使用正例文句的校对是可能的,因此从校对候选者排除与对象文句不相似的正例文句,
所述校对单元将所述校对前文句中的、所述校对对象文句和所述校对前文句之间的共同字符串与所述校对前文句和所述校对后文句之间的不同字符串之间的重叠部分的字符串替换为所述校对后文句中的、与所述重叠字符串对应的字符串,从而校对所述校对对象文句,
所述校对单元根据校对后文句仅替换所述共同字符串与所述不同字符串之间的重叠字符串,从而进行没有过量或不足的文本校对。
2.根据权利要求1所述的文本校对装置,其中
所述选择单元基于所述校对对象文句和所述校对后文句之间的语法相似度或语义相似度来确定通过所述校对后文句进行校对的可用性。
3.一种文本校对方法,包括:
从彼此关联地保存校对前文句和校对后文句的存储单元,根据校对对象文句,获取与校对前文句对应的校对后文句;
从所获取的校对后文句中选择所述校对对象文句和所述校对后文句之间的相似度等于或大于预定阈值的校对后文句;
使用所选择的校对后文句中的、具有最高相似度的校对后文句来对所述校对对象文句进行校对;以及
所述存储单元彼此关联地保存包括错误的反例和所述错误被校正后的正例,从而允许参照过去的校正历史自动地校正短语,
其中如果对象文句和正例文句之间的相似度低,则确定使用正例文句的校对是不可能的,并且如果对象文句和正例文句之间的相似度高,则确定使用正例文句的校对是可能的,因此从校对候选者排除与对象文句不相似的正例文句,
将所述校对前文句中的、所述校对对象文句和所述校对前文句之间的共同字符串与所述校对前文句和所述校对后文句之间的不同字符串之间的重叠部分的字符串替换为所述校对后文句中的、与所述重叠字符串对应的字符串,从而校对所述校对对象文句,
根据校对后文句仅替换所述共同字符串与所述不同字符串之间的重叠字符串,从而进行没有过量或不足的文本校对。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-062759 | 2012-03-19 | ||
JP2012062759A JP5870790B2 (ja) | 2012-03-19 | 2012-03-19 | 文章校正装置、及び文章校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103324609A CN103324609A (zh) | 2013-09-25 |
CN103324609B true CN103324609B (zh) | 2017-05-03 |
Family
ID=49158467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210574520.4A Expired - Fee Related CN103324609B (zh) | 2012-03-19 | 2012-12-26 | 文本校对装置和文本校对方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9087047B2 (zh) |
JP (1) | JP5870790B2 (zh) |
CN (1) | CN103324609B (zh) |
Families Citing this family (179)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) * | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9679554B1 (en) * | 2014-06-23 | 2017-06-13 | Amazon Technologies, Inc. | Text-to-speech corpus development system |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
JP6505421B2 (ja) | 2014-11-19 | 2019-04-24 | 株式会社東芝 | 情報抽出支援装置、方法およびプログラム |
EP3062212A1 (en) * | 2015-02-25 | 2016-08-31 | Kyocera Document Solutions Inc. | Text editing apparatus and print data storage apparatus |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10740129B2 (en) * | 2015-06-05 | 2020-08-11 | International Business Machines Corporation | Distinguishing portions of output from multiple hosts |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
JP6775935B2 (ja) | 2015-11-04 | 2020-10-28 | 株式会社東芝 | 文書処理装置、方法、およびプログラム |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP6490607B2 (ja) | 2016-02-09 | 2019-03-27 | 株式会社東芝 | 材料推薦装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
JP6675078B2 (ja) * | 2016-03-15 | 2020-04-01 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
JP6602243B2 (ja) | 2016-03-16 | 2019-11-06 | 株式会社東芝 | 学習装置、方法、及びプログラム |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP2018067159A (ja) * | 2016-10-19 | 2018-04-26 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像形成装置 |
JP6622172B2 (ja) | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
CN106708801B (zh) * | 2016-11-29 | 2020-08-28 | 深圳市天朗时代科技有限公司 | 用于文本的校对方法 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN107895251A (zh) * | 2016-12-24 | 2018-04-10 | 上海壹账通金融科技有限公司 | 数据纠错方法及装置 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JP6979294B2 (ja) * | 2017-07-06 | 2021-12-08 | 株式会社朝日新聞社 | 校正支援装置、校正支援方法及び校正支援プログラム |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
JP6992584B2 (ja) * | 2018-02-21 | 2022-01-13 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11151307B2 (en) | 2018-11-13 | 2021-10-19 | Adobe Inc. | Mapping annotations to ranges of text across documents |
WO2020100018A1 (en) * | 2018-11-15 | 2020-05-22 | Bhat Sushma | A system and method for artificial intelligence-based proof reader for documents |
KR101983517B1 (ko) * | 2018-11-30 | 2019-05-29 | 한국과학기술원 | 주어진 문서가 독자에게 보다 높은 신뢰를 받을 수 있도록 하는 문서 신뢰도 증강 방법 및 그 시스템 |
CN111259897B (zh) * | 2018-12-03 | 2024-05-31 | 杭州翼心信息科技有限公司 | 知识感知的文本识别方法和系统 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP2020166720A (ja) * | 2019-03-29 | 2020-10-08 | 富士通株式会社 | 表示プログラム、表示方法、表示装置及び作成プログラム |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11132505B2 (en) * | 2019-08-22 | 2021-09-28 | Culture Com Technology (Macau), Limited | Chinese composition reviewing system |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP7374215B2 (ja) * | 2019-12-03 | 2023-11-06 | 富士フイルム株式会社 | 文書作成支援装置、方法およびプログラム |
US11776529B2 (en) * | 2020-04-28 | 2023-10-03 | Samsung Electronics Co., Ltd. | Method and apparatus with speech processing |
KR20210132855A (ko) * | 2020-04-28 | 2021-11-05 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111709247B (zh) * | 2020-05-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN111709228B (zh) * | 2020-06-22 | 2023-11-21 | 中国标准化研究院 | 一种字词重复错误的自动识别方法 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR102365341B1 (ko) * | 2021-03-04 | 2022-02-23 | 주식회사 팀플백 | 인공지능 기반의 글쓰기 첨삭 시스템 및 그 방법 |
CN116306558B (zh) * | 2022-11-23 | 2023-11-10 | 北京语言大学 | 一种计算机辅助中文文本改编的方法及装置 |
US11853708B1 (en) * | 2023-05-10 | 2023-12-26 | Holovisions LLC | Detecting AI-generated text by measuring the asserted author's understanding of selected words and/or phrases in the text |
CN116502614B (zh) * | 2023-06-26 | 2023-09-01 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484173A (zh) * | 2003-08-10 | 2004-03-24 | 卢小林 | 基于汉字形状的中文单词拼写错误校正方法 |
CN1764944A (zh) * | 2003-03-26 | 2006-04-26 | 皇家飞利浦电子股份有限公司 | 语音识别系统 |
CN101369285A (zh) * | 2008-10-17 | 2009-02-18 | 清华大学 | 一种中文搜索引擎中查询词的拼写校正方法 |
WO2011092691A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02159674A (ja) * | 1988-12-13 | 1990-06-19 | Matsushita Electric Ind Co Ltd | 意味解析装置と構文解析装置 |
JPH05120275A (ja) | 1991-10-29 | 1993-05-18 | Matsushita Electric Ind Co Ltd | 文章校正方法およびその装置 |
JPH0785050A (ja) | 1993-09-17 | 1995-03-31 | Nec Corp | 自動校正方式 |
US6125377A (en) * | 1996-03-18 | 2000-09-26 | Expert Ease Development, Ltd. | Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
JP3387437B2 (ja) * | 1999-03-08 | 2003-03-17 | セイコーエプソン株式会社 | 機械翻訳校正装置 |
US7383172B1 (en) * | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
JP4645242B2 (ja) * | 2005-03-14 | 2011-03-09 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4654745B2 (ja) * | 2005-04-13 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US7640158B2 (en) * | 2005-11-08 | 2009-12-29 | Multimodal Technologies, Inc. | Automatic detection and application of editing patterns in draft documents |
JP5321583B2 (ja) * | 2008-04-01 | 2013-10-23 | 日本電気株式会社 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
JP2011008754A (ja) * | 2009-05-29 | 2011-01-13 | Toshiba Corp | 文書処理装置およびプログラム |
JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
-
2012
- 2012-03-19 JP JP2012062759A patent/JP5870790B2/ja not_active Expired - Fee Related
- 2012-12-11 US US13/711,144 patent/US9087047B2/en not_active Expired - Fee Related
- 2012-12-26 CN CN201210574520.4A patent/CN103324609B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1764944A (zh) * | 2003-03-26 | 2006-04-26 | 皇家飞利浦电子股份有限公司 | 语音识别系统 |
CN1484173A (zh) * | 2003-08-10 | 2004-03-24 | 卢小林 | 基于汉字形状的中文单词拼写错误校正方法 |
CN101369285A (zh) * | 2008-10-17 | 2009-02-18 | 清华大学 | 一种中文搜索引擎中查询词的拼写校正方法 |
WO2011092691A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
Also Published As
Publication number | Publication date |
---|---|
US20130246048A1 (en) | 2013-09-19 |
US9087047B2 (en) | 2015-07-21 |
JP2013196374A (ja) | 2013-09-30 |
JP5870790B2 (ja) | 2016-03-01 |
CN103324609A (zh) | 2013-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103324609B (zh) | 文本校对装置和文本校对方法 | |
CN109597994B (zh) | 短文本问题语义匹配方法和系统 | |
CN106448675B (zh) | 识别文本修正方法及系统 | |
CN103077164B (zh) | 文本分析方法及文本分析器 | |
CN101655837B (zh) | 一种对语音识别后文本进行检错并纠错的方法 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
Ceska et al. | Multilingual plagiarism detection | |
CN107330071A (zh) | 一种法律咨询信息智能答复方法及平台 | |
CN104679728A (zh) | 一种文本相似度检测方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN103853738A (zh) | 一种网页信息相关地域的识别方法 | |
CN104503998A (zh) | 针对用户查询句的类型识别方法及装置 | |
US20150112981A1 (en) | Entity Review Extraction | |
CN108108344B (zh) | 一种联合识别和连接命名实体的方法及装置 | |
CN109271201A (zh) | 一种智能功能点识别的软件计价系统 | |
WO2021089129A1 (en) | Analysis and comparison of character-coded digital data, in particular for job matching | |
CN105975639A (zh) | 搜索结果排序方法和装置 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
Mohamed et al. | Arabic Part of Speech Tagging. | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN109614623A (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN106484676B (zh) | 基于句法树和领域特征的生物文本蛋白质指代消解方法 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170503 Termination date: 20181226 |
|
CF01 | Termination of patent right due to non-payment of annual fee |