CN103678476A - 文档处理装置以及文档处理方法 - Google Patents
文档处理装置以及文档处理方法 Download PDFInfo
- Publication number
- CN103678476A CN103678476A CN201310443274.3A CN201310443274A CN103678476A CN 103678476 A CN103678476 A CN 103678476A CN 201310443274 A CN201310443274 A CN 201310443274A CN 103678476 A CN103678476 A CN 103678476A
- Authority
- CN
- China
- Prior art keywords
- word
- connects
- mentioned
- compound
- connect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种文档处理装置以及文档处理方法。文档处理装置具有解析输入的文档数据的句子的解析部(32);从解析部(32)的解析结果中提取规定的接词的接词提取部(33);存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则、及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置(20);当包含从解析结果提取的接词的词语满足接词检测规则中的判断标准的情况下,将提取的接词判定为容易误译的接词的检查部(34);当包含从解析结果提取的接词的词语满足复合词检查规则的情况下,将作为依据该规则的复合词的包含提取的接词的复合词作为容易误译的复合词来提取的复合词提取部(35)。
Description
本申请是以日本专利申请2012-2011368(申请日:2012年9月25日)为基础,从该申请享有优先的权利。本申请通过参照该申请而包含该申请的全部内容。
技术领域
本发明的实施方式涉及为了机器翻译文档数据而被使用的文档处理装置以及文档处理方法。
背景技术
以往,在进行文档数据的机器翻译时,如果在未登记到翻译词典中的复合词中包含难以直译的接词、例如“可(可)”、“未(未)”、“無(无)”等,则机器翻译引擎难以判别复合词的意思。因此,容易发生误译。
原本所谓复合词是独立的2个以上的单词结合,新成为具有作为一个词的意思和功能那样的词。特别是在技术文章中,经常使用作为复合词的术语。一般地复合词的种类多。因此,在词典中人工收罗地登记复合词是困难的。
对于作为容易误译的复合词的第1个例子的“文書管理システム未導入部門(文档管理系统未导入部门)”,如果采用日英机器翻译进行翻译,则翻译结果有可能误译为“Department introduced a documentmanagement system not”。作为该误译的原因而举出如下原因:机器翻译引擎不能正确理解上述的“文書管理システム未導入部門(文档管理系统未导入部门)”中的“未導入(未导入)”的接词“未(未)”的意思。
另外,对于上述的复合词“文書管理システム未導入部門(文档管理系统未导入部门)”如果采用日中机器翻译进行翻译,则翻译结果有可能误译为“文件管理系统绵羊引进部门”。在该翻译中,翻译引擎将上述的“未導入(未导入)”的接词“未(未)”翻译成“绵羊”了。
另外,作为容易误译的复合词的第2个例子,当用日英机器翻译对“変換元パターン(变换源图案)”进行翻译时,根据所使用的机器翻译引擎的种类,译文将变成以下的译文A或者译文B。
译文A:the former pattern of conversion.
译文B:the pattern of a changing agency.
由于所使用的机器翻译引擎的种类不同而导致译文不同的原因可以举出如下原因:机器翻译引擎对于上述的“変換元パターン(变换源图案)”中的“変換元(变换源)”的接词“元(源)”的理解针对机器翻译引擎的每一类别而不同。在译文A所示的例子中,机器翻译引擎将“変換元パターン(变换源图案)”理解为“変換の元パターン(变换的原图案)”。另一方面,在译文B所示的例子中,机器翻译引擎将“変換元パターン(变换源图案)”理解为“変換元のパターン(变换源的图案)”。这样针对原文的理解的摇摆不定不仅在机器翻译中发生,在由人工进行翻译中也发生。
为了解决这种误译的问题,举出了在用机器翻译处理复合词之前,自动从翻译源的文章中发现容易误译的复合词的处理。如果将在此发现的复合词登记到翻译词典,则能够提高翻译的精度。
关于诊断容易误译的复合词的处理,有如下技术:例如使用以词类和字符类型等排列为标准频繁出现的字符串信息,提取未登记到词典中的术语(包含复合词)。
另外,有如下技术:利用翻译的目标语言的单词共生信息,将针对原语言的原样的未翻译字符串的翻译候补输出到译文中。
进而,有如下技术:从翻译原文中检测插入连字符号等的特殊字符而结合成的复合词,对每个构成要素根据词典得到未登记复合词,使用从该结果中得到的复合词的构造信息,输出翻译用的知识。
在上述的提取未登记在词典中的术语的技术中没有考虑接词。因此,在该技术中,将全部的未登记词作为提取对象,还输出能直译的复合词、即不需要对词典进行登记的复合词(例如,“変換パターン(变换图案)”)。因而,在将复合词登记到词典中时,因为需要人工除去不需要登记的词,所以耗费时间。
另外,在上述的将针对原语言的原样的未翻译字符串的翻译候补输出到译文的技术中,只将保持原语言原样而被输出到译文中的未翻译词作为诊断对象。因此,在本技术中,如上述的易误译的复合词的第1个例子和第2个例子那样,无法在翻译结果发现不包含未翻译词的复合词。
进而,在上述的使用复合词的构造信息输出翻译用的知识的技术中,将连字符号等的特殊字符作为诊断线索。因此,在该以往技术中,不能发现日语的汉字和假名连续的复合词。
发明内容
本发明要解决的课题在于提供一种可以判断在文档数据中的容易误译的地方的文档处理装置以及文档处理方法。
实施方式的文档处理装置具有:输入文档数据的输入部;解析由上述输入部输入的文档数据的句子的解析部;从上述解析部的解析结果中提取规定的接词的接词提取部。该文档处理装置具有存储装置,该存储装置存储将包含上述规定的接词的词语是否是容易误译的判断标准与上述规定的接词对应起来的接词检查规则、以及用于提取包含容易误译的接词的复合词的复合词提取规则。文档处理装置具有检查部,在包含从上述解析结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,将上述提取出的接词判断为是容易误译的接词。文档处理装置具有复合词提取部,当包含从上述解析结果中提取出的接词的词语满足上述复合词检查规则的情况下,将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词来提取。
根据上述构成的文档处理装置,能够判断在文档数据中的容易误译的地方。
附图说明
图1是表示第1实施方式中的文档处理装置的硬件构成的一个例子的框图。
图2是表示第1实施方式中的文档处理装置的功能构成例子的框图。
图3是以表形式来表示保存在第1实施方式中的文档处理装置的接词词典保存部中的接词词典的一个例子的图。
图4是以表形式来表示保存在第1实施方式中的文档处理装置的诊断规则保存部中的接词检查规则的一个例子的图。
图5是以表形式来表示保存在第1实施方式中的文档处理装置的诊断规则保存部中的复合词提取规则的一个例子的图。
图6是表示第1实施方式中的文档处理装置的处理动作顺序的一个例子的流程图。
图7是表示由第1实施方式中的文档处理装置进行的输入句子的句法解析结果的一个例子的图。
图8是表示由第1实施方式中的文档处理装置进行的容易误译的复合词的诊断结果的一个例子的图。
图9是表示第2实施方式中的文档处理装置的功能构成例子的框图。
图10是以表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的接词检查规则的一个例子的图。
图11是以表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的复合词提取规则的一个例子的图。
图12是表示由第2实施方式中的文档处理装置进行的处理动作的一个例子的流程图。
图13是表示由第2实施方式中的文档处理装置进行的输入句子的词素解析结果的一个例子的图。
具体实施方式
以下,参照附图说明实施方式。
(第1实施方式)
首先,说明第1实施方式。
图1是表示第1实施方式中的文档处理装置的硬件构成的一个例子的框图。
如图1所示,第1实施方式中的文档处理装置30具有计算机10以及外部存储装置20。计算机10和外部存储装置20连接。该外部存储装置20保存由计算机10执行的程序(文件处理程序)21。外部存储装置20是硬盘驱动器和非易失性存储器等。
文档处理装置30具有如下功能:例如提示由用户指定的句子,受理用于诊断容易误译的复合词的指示,并输出诊断结果。
图2是表示第1实施方式中的文档处理装置的功能构成例子的框图。如图2所示,计算机10包含:输入部31、句法解析部32、接词提取部33、接词检查部34、复合词提取部35、输出部36、接词词典保存部37以及诊断规则保存部38。在本实施方式中,这些各部的功能能够通过计算机10执行保存在图1所示的外部存储装置20中的程序21来实现。
程序21可以通过预先保存在计算机可读取的存储介质中的状态来分发。另外,该程序21可以设置成例如经由网络用计算机10下载的形态。另外,在本实施方式中,接词词典保存部37、诊断规则保存部38例如保存在图1所示的外部存储装置20中。
在接词词典保存部37中预先保存有接词词典。该接词词典是登记了接词和其类型的词典。图3是以表形式来表示在第1实施方式中的文档处理装置的接词词典保存部37所保存的接词词典的一个例子的图。
如图3所示,在接词词典中记述有多种词条、与该词条对应的接词类型。在接词词典中记述的词条是当与其他词之间有规定的关联的情况下容易误译的接词。接词类型表示接词的种类。该接词类型在参照以后说明的接词检查规则时被使用。在图3的例子中,接词类型是“A”、“B”、“C”这3种。接词的词条“当(当)”、“非(非)”属于接词类型“A”。接词的词条“未(未)”、“無(无)”、“時(时)”、“前(前)”属于接词类型“B”。接词的词条“可(可)”、“元(源)”属于接词类型“C”。
在诊断规则保存部38中预先保存有接词检查规则和复合词提取规则。
接词检查规则是用于检查输入句子中的作为检查对象的接词是否容易误译的规则。
图4是以表形式来表示保存在第1实施方式中的文档处理装置的诊断规则保存部38中的接词检查规则的一个例子的图。
如图4所示,在接词检查规则中,为每个接词类型准备作为与记述在接词词典中的接词类型对应的标准的用于判定作为检查对象的接词是否容易误译的判定标准。在图4所示的例子中,接词类型为“A”时的判定标准是“当接词节点和母节点是“連語(词组)”的关联的情况下,判定为容易误译”。
另外,也可以使用将图3所示那样的接词词典和图4所示那样的接词检查规则一体化,不确定接词类型,而对接词自身分别准备判定标准的规则。另外,如上所述,当确定接词类型并分别使用接词词典和接词检查规则的情况下,能够简化接词检查规则的构成。
图5是以表形式来表示保存在第1实施方式中的文档处理装置的诊断规则保存部38中的复合词提取规则的一个例子的图。
图5所示的复合词提取规则是用于判断包含容易误译的接词的复合词的边界来提取复合词的规则。
输入部31例如根据用户对键盘或者鼠标等的操作,受理文档数据的输入。
句法解析部32对由输入部31输入的文档数据中的输入句子进行句法解析,然后输出解析结果。
接词提取部33根据保存在接词词典保存部37中的接词词典,判断应作为检查对象的接词是否包含在输入句子中。接词提取部33在应作为检查对象的接词包含在输入句子中的情况下,提取该接词。该接词成为接词检查的对象。
接词检查部34使用作为从句法解析部32的句法解析结果中由接词提取部33提取出的接词类型的成为接词检查对象的接词的接词类型,参照保存在诊断规则保存部38中的接词检查规则。当作为句法解析部32的句法解析结果所表示的词的包含作为检查对象的接词的词、与作为接词检查规则中的判定标准的与作为该检查对象的接词的接词类型对应的判定标准吻合的情况下,接词检查部34假设该吻合的词中的相应的接词是容易误译的接词。
复合词提取部35根据保存在诊断规则保存部38中的复合词提取规则,判断包含容易误译的接词的复合词的边界,提取容易误译的复合词。
输出部36将相对于输入句子的复合词诊断的结果、即作为接词检查部34的检查结果的容易误译的接词以及由复合词提取部35提取出的容易误译的复合词向使用者输出。
接着,参照图6所示的流程图,说明根据针对由用户输入的句子的句法解析结果进行复合词诊断并生成诊断结果,在输出到用户时的本实施方式中的文档处理装置的处理顺序。
(1)输入句子的取得
如果由用户对输入部31进行用于输入作为检查对象的句子的操作,则输入部31取得该输入的句子(步骤S1)。该句子既可以是用户从键盘等直接输入,也可以从现有的文件中读入。
(2)句法解析
句法解析部32对输入句子进行句法解析(步骤S2)。
图7是表示第1实施方式中的文档处理装置的输入句子是“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”时的句法解析结果的一个例子的图。
在图7所示的句法解析结果中的椭圆之中记入输入句子的各短语的词干。将该词干称为节点。在图7中,用箭头连结处于关联关系的2个节点。将该箭头称为弧。将和箭头前端连接的节点称为母节点。将与箭头尾部连接的节点称为子节点。在椭圆之中,用尖括号(<>)括起的词是与该椭圆的对应的节点的词类。
另外,在节点间的箭头上附加用该箭头连结的2个节点的关联关系的说明。例如,如图7所示,当在子节点“パターン(图案)”和母节点“出力する(输出)”之间的箭头上标注“ヲ格”时,表示用该箭头连结的子节点“パターン(图案)”和母节点“出力する(输出)”的关联关系是ヲ格。
另外,如图7所示,当在子节点“名詞(名词)”和母节点“前(前)”之间的箭头上附加“連語(词组)”时,表示用该箭头连结的子节点“登録(登记)”和母节点“前(前)”是词组关系。同样地对箭头附加“連語(词组)”的子节点“変換(变换)”和母节点“元(源)”也表示是词组关系。另外,对箭头附加“連語(词组)”的子节点“元(源)”和母节点“パターン(图案)”也表示是词组关系。所谓词组关系是指在由多种词素组成的语言表达中,以集合的形式与单词一样地被使用的词语表达。
(3)(接词提取)
接词提取部33一边参照保存在接词词典保存部37中的接词词典的词条,一边判断登记在接词词典中的接词是否包含在输入句子的句法解析结果中(步骤S3)。当登记在接词词典中的接词包含在句法解析结果中的情况下,接词提取部33将该接词作为检查对象。
例如,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”的句法解析结果中,包含登记在接词词典中的接词“元(源)”和接词“前(前)”。在图3所示的接词词典中,因为包含在输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中的接词“元(源)”和接词“前(前)”都包含在接词词典中,所以接词提取部33将两者都作为接词的检查对象。
(4)接词检查
当在输入句子中包含作为检查对象的接词时,接词检查部34根据输入句子的句法解析结果,应用保存在诊断规则存储部38中的接词检查规则。接词检查部34检查句法解析结果是否与作为该接词检查规则中的接词类型的与作为检查对象的接词的接词类型对应的判断标准吻合(步骤S4)。当句法解析结果与判断标准吻合时,接词检查部34判断作为该检查对象的接词是容易误译的接词。
例如,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中作为检查对象的接词“元(源)”的接词类型是图3所示的接词词典中的“C”。因此,接词检查部34对照与图4所示的接词检查规则的接词类型“C”对应的判定标准和句法解析结果。在图4所示的例子中,与接词类型“C”对应的判定标准是“当接词节点和其子节点是“連語(词组)”的关联关系的情况下,判断为容易误译”。
如图7所示,作为在句法解析结果中的检查对象的作为接词的“元(源)”的节点、和将该节点作为母节点时的子节点“変換(变换)”的关联关系是“連語(词组)”。因此,接词检查部34判断为作为在句法解析结果中的检查对象的作为接词的“元(源)”是容易误译的接词。
另一方面,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中作为检查对象的接词“前”的接词类型是图3所示的接词词典中的“B”。由此,接词检查部34对照与图4所示的接词检查规则的接词类型“B”对应的判断标准和句法解析结果。在图4所示的例子中,接词类型“B”的判定标准是“当接词节点的母节点、子节点都是“連語(词组)”的关联关系的情况下,判断为容易误译”。详细地说,该判断标准表示当接词节点和其母节点的关联关系是“連語(词组)”,该接词节点和其子节点的关联关系也是“連語(词组)”的情况下,判断为容易误译。
如图7所示,作为在句法解析结果中的检查对象的作为接词的“前(前)”的节点和将该节点作为母节点时的子节点“登録(登记)”的关联关系是“連語(词组)”。但是,作为在句法解析结果中的接词的“前(前)”的节点和将该节点作为子节点时的母节点“変換(变换)”的关联关系不是“連語(词组)”。因而,接词检查部34不将作为在句法解析结果中的检查对象的作为接词的接词“前(前)”判断为容易误译的接词。
(5)复合词提取
接词检查部34的处理结果,当在输入句子中包含容易误译的接词的情况下,复合词提取部35根据输入句子的句法解析结果,使用保存在诊断规则保存部38中的复合词提取规则,决定包含该接词的复合词的边界,从输入句子中提取复合词(步骤S5)。
例如,复合词提取部35对于图7所示的句法解析结果,根据图5所示的复合词提取规则判断包含上述那样被设为容易误译的接词“元(源)”的复合词的边界。图5所示的复合词提取规则是“根据接词,将处于词组关系的节点与母子一起汇集作为一个复合词”。在图7所示的句法解析结果中,处于与接词“元(源)”的词组关系的子节点是“変換(变换)”,处于与接词“元(源)”的词组关系的母节点是“パターン(图案)”。因此,复合词提取部35按照复合词提取规则,将输入句子的“変換元パターン(变换源图案)”作为包含接词“元(源)”的复合词。该复合词因为包含容易误译的接词,所以变成容易误译的复合词。
(6)输出
输出部36输出诊断结果(步骤S6)。该诊断结果包含在接词检查部34中发现的容易误译的接词以及在复合词提取部35中提取出的复合词。诊断结果的输出的方式例如是在液晶显示器上进行显示、用CSV文件输出诊断结果一览、在文档文件中作为评论包含指出消息。
图8是表示由第1实施方式中的文档处理装置进行的容易误译的复合词的诊断结果的一个例子的图。
如图8所示,在诊断结果中示出在翻译词典中未登记的复合词包含在输入句子中。另外,在该诊断结果中示出在该复合词中显示表示包含容易误译的接词的消息、以及该复合词是容易误译的复合词。
如上所述,在第1实施方式的文档处理装置中,用户根据输入句子的句法解析结果,能够发现容易误译的接词以及容易误译的复合词。而后,用户根据诊断结果,通过在翻译词典中登记容易误译的复合词,能够提高以后的机器翻译的精度。这样,在第1实施方式的文档处理装置中,能够自动地提取应该登记到翻译词典中的术语。因此,能够减轻用于扩展翻译词典而给用户造成的负担。进而,因为用户能够从输入句子中发现难以判明的复合词,所以能够支援文档品质的提高。
(第2实施方式)
以下,说明第2实施方式。而且,省略在本实施方式所涉及的文档处理装置的构成中与第1实施方式相同的部分的说明。
图9是表示第2实施方式中的文档处理装置的功能构成例子的框图。如图9所示,第2实施方式中的文档处理装置30的计算机10包含:输入部311、词素解析部312、接词提取部313、接词检查部314、复合词提取部315、输出部316、接词词典保存部317以及诊断规则保存部318。
与第1实施方式比较,第2实施方式中的文档处理装置具备词素解析部312而代替句法解析部32。在第2实施方式中,接词词典保存部317、诊断规则保存部318例如保存在图1所示的外部存储装置20中。在接词词典保存部317中与第1实施方式一样,保存有图3所示那样的接词词典。
另外,在本实施方式中,保存在诊断规则保存部318中的接词检查规则和复合词提取规则是依据词素解析的结果的规则。这些规则与在第1实施方式中说明的作为依据句法解析结果的规则的接词检查规则和复合词提取规则不同。
图10是用表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的接词检查规则的一个例子的图。
图10所示的接词检查规则准备用于针对每个接词类型来判断作为与记述在接词词典中的接词类型对应的接词的作为检查对象的接词是否容易误译的判断标准。在图10所示的例子中,在接词类型是“A”时,有“在紧接接词之后的词素的词类是“名詞(名词)”的情况下,判定为容易误译”这一判定标准。
图11是用表形式来表示保存在第2实施方式中的文档处理装置的诊断规则保存部中的复合词提取规则的一个例子的图。
图11所示的复合词提取规则是判断包含容易误译的接词的复合词的边界而提取复合词的规则。
输入部311和输入部31一样,例如与针对键盘或者鼠标等的用户操作相应地受理来自用户的指示。
词素解析部312对输入句子进行词素解析,输出解析结果。
接词提取部313根据保存在接词词典保存部317中的接词词典,在应该作为检查的对象的接词包含在输入句子中时,提取该接词。该接词成为接词检查的对象。
接词检查部314对于词素解析部312的词素解析的结果,使用作为由接词提取部313提取并包含在输入句子中的接词的成为检查对象的接词的接词类型,参照保存在诊断规则保存部318中的接词检查规则。当作为在词素解析部312的词素解析的结果所表示的词语的包含作为检查对象的接词的词语与作为在接词检查规则中的判定标准的与作为该检查对象的接词的接词类型对应的判定标准吻合的情况下,接词检查部314将该吻合的词语中的相应的接词判断为是容易误译的接词。
复合词提取部315根据保存在诊断规则保存部318中的复合词提取规则,判断包含容易误译的接词的复合词的边界,并提取容易误译的复合词。
输出部316将针对输入句子的复合词诊断的结果向使用者输出。该诊断的结果是作为接词检查部314的检查结果的容易误译的接词、以及用复合词提取部315提取的容易误译的复合词。
图12是表示由第2实施方式中的文档处理装置进行的处理动作的一个例子的流程图。
(1)输入句子的取得
首先,如果由用户输入作为检查对象的句子,则输入部311取得该输入的句子(步骤S1)。该句子既可以是用户从键盘等直接输入的句子,也可以是从现有的文件中读入的句子。
(2)词素解析
以下,词素解析部312对输入句子进行词素解析(步骤S12)。在此,输入句子假设是在第1实施方式中也说明过的“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”。
图13是表示由第2实施方式中的文档处理装置进行的输入句子是“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”时的词素解析结果的一个例子的图。
如图13所示,在词素解析结果中,用斜线“/”以词素为单位划分输入句子。在词素解析结果中,用尖括号(<>)括起的词是词素的词类。
(3)接词提取
接词提取部313根据输入句子的词素解析结果,和第1实施方式一样地,一边参照保存在接词词典保存部317中的接词词典的词条,一边判断登记到接词词典中的接词是否包含在输入句子的词素解析结果中。当登记在接词词典中的接词包含在词素解析结果中的情况下,接词提取部313将该接词作为成为检查对象的接词提取(步骤S13)。
例如,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”的词素解析结果中,包含登记到接词词典中的接词“元(源)”和接词“前(前)”。如果参照图3所示的接词词典,则因为包含在输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中的接词“元(源)”和接词“前(前)”都包含在接词词典中,所以,接词提取部313将双方都作为接词的检查对象。
(4)接词检查
在输入句子中包含作为检查对象的接词时,接词检查部314根据输入句子的词素解析结果,应用保存在诊断规则保存部318中的接词检查规则。接词检查部314检查词素解析结果是否与在该接词检查规则中的与作为检查对象的接词的接词类型对应的判定标准吻合(步骤S14)。在词素解析结果与判定标准吻合时,接词检查部314将该接词判断为容易误译的接词。
例如,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中作为检查对象的接词“元(源)”的接词类型是图3所示的接词词典中的“C”。由此,接词检查部314对照与图10所示的接词检查规则的接词类型“C”对应的判定标准和词素解析结果。
在图10所示的例子中,与接词类型“C”对应的判定标准是“当紧接接词之前的词素的词类是“名詞(名词)”的情况下,判定为容易误译”。在图13所示的词素解析结果中,紧接作为检查对象的接词“元(源)”之前的词素“変換(变换)”的词类是“名詞(名词)”。由此,接词检查部314将在词素解析结果中的作为检查对象的接词“元(源)”判断为容易误译的接词。
另一方面,在上述的输入句子“登録前の変換元パターンを出力する(输出登记前的变换源图案)。”中作为检查对象的接词“前(前)”的接词类型是图3所示的接词词典中的“B”。由此,接词检查部314对照与图10所示的接词检查规则的接词类型“B”对应的判定标准和词素解析结果。
在图10所示的例子中,当接词类型“B”的判定标准是“当紧接接词之前以及之后的词素的词类双方都是“名詞(名词)”的情况下,判定为容易误译”。如图13所示,作为词素解析结果中的检查对象的作为接词的接词“前(前)”跟前的词素“登録(登记)”的词类是“名詞(名词)”。但是,在紧接接词“前(前)”之后的词素“の(的)”的词类不是“名詞(名词)”。因而,接词检查部314不将在词素解析结果中的作为检查对象的接词“前(前)”判断为容易误译的接词。
(5)复合词提取
复合词提取部315根据接词检查部314进行的处理结果,当在输入句子中包含容易误译的接词的情况下,根据输入句子的词素解析结果,使用保存在诊断规则保存部318中的复合词提取规则,决定包含该容易误译的接词的复合词的边界,并提取复合词(步骤S15)。
例如,复合词提取部315对图13所示的词素解析结果,根据图11所示的复合词提取规则判断包含接词“元(源)”的复合词的边界。图11所示的复合词提取规则是“将在紧接接词的前后的词类是名词的词素汇集作为一个复合词”。因此,复合词提取部315按照该规则将输入句子的“変換元パターン(变换源图案)”作为包含容易误译的接词的“元(源)”的复合词提取。该复合词因为包含容易误译的接词,所以成为容易误译的复合词。
(6)输出
输出部316如图8所示那样输出诊断结果(步骤S16)。该诊断结果和第1实施方式一样,包含由接词检查部314发现的容易误译的接词以及由复合词提取部315提取出的复合词。
如上所述,在第2实施方式中的文档处理装置即使不使用在第1实施方式中说明那样的句法解析,而只使用输入句子的词素解析结果,也能够发现输入句子中的容易误译的复合词。另外,如果使用词素解析,则和句法解析相比能够降低用于实现发现输入句子中的容易误译的复合词的成本。即,在第2实施方式中,和第1实施方式相比,具有能够降低用于实现发现输入句子中的容易误译的复合词的成本的优点。
而且,在第1实施方式中利用句法解析,在第2实施方式中利用词素解析,而解析方法并不限于这些。例如,在未登记到词典中的复合词中,只要是知道提取包含在进行翻译时要注意的接词所需要的信息的解析即可。
根据上述说明的至少一个实施方式的文档处理装置,由于具有:从输入的文档数据的句子解析结果中提取规定接词的接词提取部;存储将包含规定的接词的词语是否容易误译的判断标准和规定的接词对应起来的接词检查规则以及用于提取包含容易误译的接词的复合词的复合词提取规则的存储装置;当包含从解析结果中提取的接词的词语满足在接词检查规则中的判断标准的情况下,将提取的接词判定为容易误译的接词的检查部;当包含从解析结果中提取出的接词的词语满足复合词检查规则的情况下,将作为依据该规则的复合词的包含提取出的接词的复合词作为容易误译的复合词来提取的复合词提取部,从而可以判断在文档数据中的容易误译的位置。
虽然说明了本发明的几个实施方式,但这些实施方式是作为例子提示的,并不意图限定发明的范围。这些新的实施方式可以用其他各种方式来实施,在不脱离发明的主旨的范围中,可以进行各种省略、置换、变更。这些实施方式和其变形包含在发明的范围和主旨中,并且包含在权利要求书所述的发明和其均等的范围中。
Claims (5)
1.一种文档处理装置,其特征在于,具备:
输入部(31),输入文档数据;
解析部(32),对由上述输入部(31)输入的文档数据的句子进行解析;
接词提取部(33),从上述解析部(32)的解析结果中提取规定的接词;
存储装置(20),存储(a)将包含上述规定的接词的词语是否容易误译的判断标准和上述规定的接词对应起来的接词检查规则、以及(b)用于提取包含容易误译的接词的复合词的复合词提取规则;
检查部(34),当包含从上述解析结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,将上述提取出的接词判定为容易误译的接词;以及
复合词提取部(35),当包含从上述解析结果中提取出的接词的词语满足上述复合词检查规则的情况下,将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词来提取。
2.根据权利要求1所述的文档处理装置,其特征在于:
上述存储装置(20)存储将规定的接词的词条和上述词条的接词的类型对应起来的接词词典,
当包含在上述解析部(32)的解析结果中的词语与上述接词词典中的规定的接词的词条一致的情况下,上述接词提取部(33)将上述一致的词语作为上述规定的接词进行提取。
3.根据权利要求1所述的文档处理装置,其特征在于:
上述解析部(32)进行由上述输入部(31)输入的文档数据的句子的句法解析,
当包含从上述句法解析的结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,上述检查部(34)将上述提取出的接词判定为容易误译的接词,
当包含从上述句法解析的结果中提取出的接词的词语满足上述复合词检查规则的情况下,上述复合词提取部(35)将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词进行提取。
4.根据权利要求1所述的文档处理装置,其特征在于:
上述解析部(32)进行由上述输入部(31)输入的文档数据的句子的词素解析,
当包含从上述词素解析的结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,上述检查部(34)将上述提取出的接词判定为容易误译的接词,
当包含从上述词素解析的结果中提取出的接词的词语满足上述复合词检查规则时,上述复合词提取部(35)将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词进行提取。
5.一种文档处理方法,是应用于文档处理装置的文档处理方法,该文档处理装置具有存储装置(20),该存储装置(20)存储将包含规定的接词的词语是否容易误译的判定标准和上述规定的接词对应起来的接词检查规则、以及用于提取包含容易误译的接词的复合词的复合词提取规则,该文档处理方法的特征在于:
输入文档数据,
对上述输入的文档数据的句子进行解析,
从上述解析的结果中提取规定的接词,
当包含从上述解析的结果中提取出的接词的词语满足在上述接词检查规则中的判断标准的情况下,将上述提取出的接词判定为容易误译的接词,以及
当包含从上述解析的结果中提取出的接词的词语满足上述复合词检查规则的情况下,将作为依据该规则的复合词的包含上述提取出的接词的复合词作为容易误译的复合词进行提取。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012211368A JP2014067179A (ja) | 2012-09-25 | 2012-09-25 | 文書処理装置及び文書処理プログラム |
JP2012-211368 | 2012-09-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103678476A true CN103678476A (zh) | 2014-03-26 |
Family
ID=50316024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310443274.3A Pending CN103678476A (zh) | 2012-09-25 | 2013-09-25 | 文档处理装置以及文档处理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2014067179A (zh) |
CN (1) | CN103678476A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209759A (zh) * | 2015-01-23 | 2017-09-26 | 国立研究开发法人情报通信研究机构 | 注解辅助装置及用于其的计算机程序 |
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN108899016A (zh) * | 2018-08-02 | 2018-11-27 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020123227A (ja) * | 2019-01-31 | 2020-08-13 | 富士通株式会社 | 単語出力方法、単語出力プログラム及び情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004103037A (ja) * | 2003-11-10 | 2004-04-02 | Omron Corp | 日本語文解析装置および日本語文解析方法 |
CN1656477A (zh) * | 2002-06-17 | 2005-08-17 | 国际商业机器公司 | 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 |
US8095673B2 (en) * | 2007-12-13 | 2012-01-10 | Google Inc. | Generic format for efficient transfer of data |
CN102681985A (zh) * | 2012-05-16 | 2012-09-19 | 中国科学院计算技术研究所 | 一种面向形态丰富语言的翻译方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3539479B2 (ja) * | 1999-03-11 | 2004-07-07 | シャープ株式会社 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
JP3983000B2 (ja) * | 2001-02-27 | 2007-09-26 | 株式会社リコー | 複合語分割装置、及び日本語辞書作成装置 |
-
2012
- 2012-09-25 JP JP2012211368A patent/JP2014067179A/ja active Pending
-
2013
- 2013-09-25 CN CN201310443274.3A patent/CN103678476A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1656477A (zh) * | 2002-06-17 | 2005-08-17 | 国际商业机器公司 | 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络 |
JP2006512629A (ja) * | 2002-06-17 | 2006-04-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 1つまたは複数の自然言語において語およびその品詞を認識するためのシステム、方法、プログラム製品、およびネットワーク上での使用 |
JP2004103037A (ja) * | 2003-11-10 | 2004-04-02 | Omron Corp | 日本語文解析装置および日本語文解析方法 |
US8095673B2 (en) * | 2007-12-13 | 2012-01-10 | Google Inc. | Generic format for efficient transfer of data |
CN102681985A (zh) * | 2012-05-16 | 2012-09-19 | 中国科学院计算技术研究所 | 一种面向形态丰富语言的翻译方法和系统 |
Non-Patent Citations (2)
Title |
---|
MOHANMMED MOSHIUI HOQUE ET AL.: "An Empirical Framework for Translating of Phrasal Verbs of English Sentence into Bangla", 《PROCESSINGS OF 11TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFOMATION TECHNOLOGY(ICCIT2008)》 * |
韦燕 等: "日语提示助词"こそ"的日中机器翻译规则", 《机器翻译研究进展——第七届全国机器翻译研讨会论文集》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209759A (zh) * | 2015-01-23 | 2017-09-26 | 国立研究开发法人情报通信研究机构 | 注解辅助装置及用于其的计算机程序 |
CN107209759B (zh) * | 2015-01-23 | 2020-09-18 | 国立研究开发法人情报通信研究机构 | 注解辅助装置及记录介质 |
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN108899016A (zh) * | 2018-08-02 | 2018-11-27 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
CN108899016B (zh) * | 2018-08-02 | 2020-09-11 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2014067179A (ja) | 2014-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mandera et al. | Subtlex-pl: subtitle-based word frequency estimates for Polish | |
JP5235344B2 (ja) | 機械翻訳を行う装置、方法およびプログラム | |
Costumero et al. | An approach to detect negation on medical documents in Spanish | |
US8655641B2 (en) | Machine translation apparatus and non-transitory computer readable medium | |
Haque et al. | Analysing terminology translation errors in statistical and neural machine translation | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
JP2017510924A5 (zh) | ||
US20200302124A1 (en) | Translation device, translation method, and program | |
JP2013105321A (ja) | 文書処理装置、文書構成要素間の関係解析方法およびプログラム | |
US20160124943A1 (en) | Foreign language sentence creation support apparatus, method, and program | |
CN103678476A (zh) | 文档处理装置以及文档处理方法 | |
Pradet et al. | WoNeF, an improved, expanded and evaluated automatic French translation of WordNet | |
Van Der Goot et al. | Lexical normalization for code-switched data and its effect on POS-tagging | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
JP6160438B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
Villavicencio et al. | A Multilingual Database of Idioms. | |
JP2017151553A (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
Gromann et al. | A cross-lingual correcting and completive method for multilingual ontology labels | |
Tachicart et al. | Towards automatic normalization of the Moroccan dialectal Arabic user generated text | |
ElFqih et al. | Towards a Linguistic Annotation of Arabic Legal Texts: A Multilingual Electronic Dictionary for Arabic | |
Elsherif et al. | Arabic Rule-based Named Entity Recognition System Using GATE. | |
Van Zaanen et al. | The development of Dutch and Afrikaans language resources for compound boundary analysis | |
Strobl et al. | Enhanced Entity Annotations for Multilingual Corpora | |
Grundkiewicz | Automatic extraction of polish language errors from text edition history |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140326 |