CN1187651A - 字典管理方法以及装置 - Google Patents
字典管理方法以及装置 Download PDFInfo
- Publication number
- CN1187651A CN1187651A CN98104203A CN98104203A CN1187651A CN 1187651 A CN1187651 A CN 1187651A CN 98104203 A CN98104203 A CN 98104203A CN 98104203 A CN98104203 A CN 98104203A CN 1187651 A CN1187651 A CN 1187651A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- dictionary
- translation
- word
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种机器翻译方法包括:当确认不能翻译的未知词语时,将语法单位的翻译知识的询问发送到网络;继续翻译接着上述语法单位的语法;当接收到对应上述询问的应答时,用该应答完成翻译上述语法单位。
Description
本发明涉及管理分布存在于网络上的对译字典的方法以及利用该方法的机器翻译方法。
对于字典检索、翻译知识、URL、HTML、字典分布式服务器/客户机系统,已公开在U.S.专利No.4,641,264、JP-A-6-259600、JP-A-5-120336,以及U.S.专利No.4,502,128中。
目前,随着网络的发达,特别是因特网的普及,很容易访问以英语为主的外语信息。
另外,作为利用网络共同利用机器翻译的字典的例子,有上述的特开平6-259600号。它提出通过网络连接字典的系统。在适用于翻译的情况下,将英语·俄语等的各国语言的翻译字典连接在系统上,在识别输入的语句是何种语言后,向具有相应的翻译字典的中心转送输入数据(文字的图像数据)。在这种以往的技术中,翻译特定的领域和特定的语言的字典受到限制,不能用该字典翻译的词语作为不能翻译的词语处理。
在机器翻译中,字典的质量和语句的覆盖率大大影响翻译质量。但是,由于在因特网上的信息,覆盖了非常广阔的领域,而且由于信息的日新月异,因而存在这样的问题,即,与广阔的领域中的语句和新词等相对应地增补字典的工作成本非常高。
另外,作为立足提供从其它的服务器进行增补的字典的机器翻译机制造商,在如以往那样每隔数月提供新修订的字典的方法中,存在不能及时的提供给用户所需要的字典的问题。
在翻译处理中,由于频繁地进行字典的访问,所以字典的访问速度对处理速度影响很大。在因特网中,与LAN比较,因为不能期望线路速度快,所以在翻译处理中,如果通过因特网访问很多字典,则不能高速地完成翻译。另外,现在,为了从安装在一般家庭中的客户与因特网连接,利用如电话线路那样与LAN等相比速度非常低的线路,因此,通过因特网的字典访问需要很多时间,不能面向一般家庭。
本发明的目的在于:提供一种字典服务器,在有字典信息检索要求时,当有检索要求的词条未在字典服务器上的情况下,对于具有该词条的字典信息,或者,具有的可能性高的其它的字典服务器给予高的优先顺序,按照优先顺序高的顺序进行要求的检索,从而可以抑制用于检索要求的字典信息的成本。
本发明的另一目的在于:提供一种计算机系统中的可以读取的记录媒体,存储适用于一般的信息处理装置中的将自然语言机器翻译处理成另一种自然语言的处理顺序(程序、命令代码的集合体)和必要的数据。
本发明的另一目的在于:提供一种机器翻译方法,在客户端进行翻译处理时,即使在通过网络的字典检索的处理速度不很快时,也可以通过网络检索字典信息制成高品质的译文。
本发明的另一目的在于:提供一种字典服务器的字典信息收集方法,其在字典服务器中,通过在客户端有字典信息检索要求前,准备下次检索要求的可能性高的未知词语,就可以支援字典构筑作业,以在字典信息检索要求来时高速地响应。
根据本发明,用翻译知识翻译文本的机器翻译方法包括:·当识别到在翻译文本中不能翻译的未知词语时,将对于翻译包括该未知词语、在语法上连贯的语法单位的翻译知识的询问传送到该网络的步骤;·继续翻译与上述语法单位连接的语法的步骤;·在接收到对应于上述询问的应答时,用上述应答完成翻译上述语法单位的步骤。·上述询问步骤,可以包括当识别到不能进行上述翻译的上述未知词语时,输出包括有以处理上述未知词语的形式所翻译的上述语法单位的第1子步;·上述语法完成步骤,可以包括输出用上述接收到的应答所翻译的上述语法单位中的上述未知词语的语法单位的第2子步。·上述第1子步,可以包括通过推测上述未知词语属于哪种词类,将上述在语法上连贯的语法单位翻译成包括以处理上述未知词语的形式翻译的上述语法单位的子步;·上述第2子步,可以包括比较上述推测出的词类和包括在上述应答中的上述未知词语的词类,如果一致则对上述未知词语进行翻译,如果不一致则根据上述应答再次翻译上述语法单位的子步。
根据本发明,提供了一种在连接于网络的信息处理装置中,对应于要求检索保持在存储装置中的字典的检索方法,包括以下步骤:·在接收到与文本的词条有关的字典检索要求时,检索上述信息处理装置的上述字典的步骤;·在上述词条不存在于上述字典中时,从上述信息处理装置向上述网络发送检索要求的步骤,·上述发送步骤包括,用对应于过去的多个检索要求而接收到的检索结果确定给予其它的多个字典服务器的优先顺序,以及根据上述词条的领域确定发送上述检索要求的发送地址的步骤。
为了构筑字典,可以执行:·根据对于上述网络上的多个文本的检索要求的各自的频率确定上述多个文本的重要度的步骤;·按照上述确定步骤,为了识别未知词语,在上述多个文本中检索重要的未知词语的步骤;·将重要的未知词语与对应的翻译词语的输入要求同时输出到输出装置的步骤;·将在上述输出装置上输入的翻译词语存储在上述字典中的步骤。
进而,根据本发明,提供了一种连接网络,用翻译知识翻译文本的信息处理装置内使用的计算机可读媒体,它是一种包括以下命令代码的计算机可读存储媒体,·用于在识别到翻译文本中不能翻译的未知词语时,将对于翻译包括该未知词语在语法上的语法单位的翻译知识的询问传送到该网络的命令代码;·用于继续翻译接着上述语法单位的语法的命令代码;·用于在接收到对应于上述询问的应答时,用上述应答完成翻译上述语法单位的命令代码。
图1是本发明的实施例的构成图。
图2是URL翻译频率表的概念图。
图3是分布式字典索引的概念图。
图4是新登录词语信息发送处理的处理流程图。
图5是新登录词语信息的概念图。
图6是新登录词语信息接收处理的处理流程图。
图7是字典信息收集处理的处理流程图。
图8是检索要求数据的概念图。
图9是检索结果送回数据的概念图。
图10是字典目标词语抽出处理的处理流程图。
图11是词条推测规则的例子。
图12是字典查找目标词语候补查找处理的处理流程图。
图13是两字组单词列保持用数据的概念图。
图14是字典服务器评价表的概念图。
图15是最适宜字典服务器表的概念图。
图16是在翻译处理中的客户端的处理的处理流程图。
图17是词类推测规则的例子。
图18是展示包括未知部分的显示画面的例子的图。
图19是假设记录文件的概念图。
图20是密码键表的概念图。
图21展示译文的显示画面的例子的图。
图22是在翻译处理中的服务器端的处理的处理流程图。
图23是语法的不确定性的例子。
图24是在URL对应字典制成处理中的客户端的处理的处理流程图。
图25是由系统选择的翻译词语有错误的译文的显示例子。
图26是候补翻译词语的显示例子。
图27是翻译词语变更后的译文的显示例子。
图28是在URL对应字典制成处理中的服务器端的处理的处理流程图。
图29是URL对应字典的概念图。
用图面说明本发明的实施例。
(a)系统整体构成
图1展示本实施例的整体的构成。多个字典服务器1以及客户机11连接在网络上。客户机11利用客户字典14以及语法15可以单独实行翻译处理,进而在实行翻译时,向字典服务器1提出检索要求,要求检索与客户字典14中不存在的词条有关的字典信息,合并使用送回的字典信息和客户字典14实行翻译。字典服务器1从客户机11接收对应某个词条的字典信息检索要求,送回与该词条有关的字典信息。
以下,说明字典服务器1的构成。CPU2选取存储器3以及各种文件,进行处理。在存储器3中,存储在字典服务器1上进行各种处理所需要的程序。
服务器字典4是在字典服务器1中具有的翻译用字典,当有客户提出字典信息检索要求时,首先检索该字典。这里,服务器字典4只用一个进行说明,但是,实际中即使分成多个文件也没关系。
远程字典高速缓冲存储器5是存储来自存在于网络上的其它字典服务器的检索结果的字典文件。通过使用远程字典高速缓冲存储器5,当再次有同样的词条检索要求出现时,不对其它的字典服务器提出检索要求,就可以取得字典信息。
字典服务器表6是在网络上的其它字典服务器的表。但是,并不需要记载网络上的全部的字典服务器。
URL翻译频率表7表示作为被委托翻译的HTML文本的ID使用的URL和与各URL对应的每单位时间的翻译要求的频率。URL翻译频率表的例子如图2所示。图2展示了每1天的翻译要求的频率。总之,例如,对于1个URL“http://info…/robots.htm1”,表示在X月Y日有60次翻译委托。
字典服务器评价表8,存储在字典服务器表6中的各字典服务器与过去的检索要求有关的履历信息。
分布式字典索引9是管理服务器字典4、远程字典高速缓冲存储器5、其它的服务器字典的词条信息和自身的词条信息的索引文本。图3展示分布式字典索引9的结构。分布式字典索引9,由词条和表示存储与词条对应的字典信息的位置的字典信息指示字构成。字典信息指示字由字典信息指示字的种类和指示字的值构成。字典信息指示字的种类表示字典信息的存储地址,服务器字典时是L,远程字典高速缓冲存储器时是C,除此以外的字典是R。指示字值的含义根据种类而不同。例如,当种类是L的情况下,字典信息指示字表示局部字典中的字典数据的字节位置。当种类是C的情况下,字典信息指示字表示远程字典高速缓冲存储器中的字典数据的字节位置。当种类是R的情况下,字典信息指示字表示字典服务器ID(这里是Internal Protocol IP地址)。例如,在词条Big Blue的情况下,字典信息存储在2个地方。1个作为从远程字典高速缓冲存储器的开头,从44825字节的位置开始的数据,另一个IP地址被存储在133.144.18.152的字典服务器中。
URL对应字典10是在每个URL中登录了包括词条和翻译词语的一个一个字典信息的字典。例如,如president→“大統領”(DAITORYO在英语中是the president)、“社長”(SHATYO选出的领导团体中的1人),在具有多个日语译文的词条的情况下,当在某个URL中president并不只使用“社長”的含义时,将称为president→“社長”的字典信息存储在该URL对应字典10中。
在客户机11中,CPU选取存储器13和文本执行的处理也和字典服务器1相同。在存储器13上,存储着在客户一端执行翻译的程序以及数据。客户字典14以及语法15,是用于翻译处理的数据。另外,从字典服务器中检索出的字典信息存储在客户字典14中。由此,当其后有同样的单词出现时,不需要向字典服务器提出检索要求,另外,并不局限于如领域那样的固定的分类,而是可以得到用户所需要的单词的信息。
(b)在字典服务器中的未知词语收集
以下,说明在字典服务器1中的字典信息管理方法。各字典服务器,为了字典信息管理,通过网络进行与其它的字典服务器间的信息的交换。在本实施例中,用以下的2种方法进行字典服务器间的信息的交换。
首先,作为第1种方式,说明在字典服务器间新登录的词语的发送接收处理。各字典服务器,为了增加语汇将新登录在服务器字典4上的词条传送到其它的字典服务器。作为传送目标的字典服务器,可以参照字典服务器表6确定。在接收到新登录词语信息的字典服务器中,可以知道保持词条和该翻译词语的字典服务器的ID。以下,用图4说明在字典服务器中的新登录词语信息传送处理。在字典服务器1中,如果在服务器字典4上发生新词条的字典信息登录时,将新词条登录在新表(未图示)中(步骤11)。该登录也可以代替在每次发生时进行,而用固定数的字典信息或定时器进行。新登录可以由字典服务器的管理者进行,也可以将用户制成的字典登录在字典服务器中。寄存在存储器3上的新登录词语信息接收程序,由定时器每隔一定时间起动(步骤12),检测新词条表中是否已经登录了词条(步骤13)。如果已登录,则新登录词语信息发送接收程序,向字典服务器表6中的字典服务器传送新登录词语信息(步骤14)。新登录词语信息具有图5那样的结构。在图5中,字典服务器ID是发送新登录词语信息后的字典服务器的ID号码(IP地址),进而,新登录后的词语的词条表进行排列。
在任意的字典服务器中,用图6所示的顺序进行新登录词语接收处理,登录词条。其它的字典服务器,判断是否接收到已发送的登录词条信息(步骤15),当接收到时,进行词条登录处理(步骤16)。即,比较接收到的新登录词语信息和字典,当新登录词语是未知词语时,将新登录词语信息中的词条和服务器的ID号码存储在分布式字典索引9中。这样,各字典服务器就可以知道分布式连接在系统中的多个其它字典服务器所具有的字典的词条信息。这时,对于接收到新登录信息的字典服务器,因为新登录的信息只是词条和内部通信规定IP地址,所以与还包括翻译词语、词类的区别、抽象化属性、词条的领域登录的情况相比,可以节约字典容量。另外,对于发送新登录词语信息的字典服务器,可以防止自身无端被新登录的字典的翻译词语的信息复写。由此,对于在字典服务器间通信翻译词语、词类、属性、领域进行收费的情况也可以适用本方法。
以下,作为第2种方式,说明在字典服务器中收集字典信息的处理。字典信息收集处理,通过字典服务器为了自动地收集未知的字典信息,用与过去积累的URL翻译频率有关的统计信息自动地推测今后利用的可能性高的词语,用与其它的服务器有关的所积累的统计信息自动地推测具有推测出的词语的字典信息的可能性高的其它字典服务器,就可以在抑制通信成本下收集需要的字典信息。以下,用图7说明字典信息收集处理的整个处理流程。
可以用定时器监视时间,每隔一定时间起动字典信息收集程序(步骤21)。字典信息收集程序,根据URL翻译频率7预测今后翻译的频率高的高翻译频率文本(步骤22)。该预测根据对文本的URL的字典检索要求次数的统计分析结果进行。例如,在本实施例中,说明以下2种预测方法。
(1)每单位时间对字典检索要求次数的平均值在阈值以上的URL
(2)每单位时间对字典检索要求次数的变化率在阈值以上的URL
这里,(1)例如是用于选择如一直有名望的杂志的主页那样的,经常有很多需要翻译的文本的方法。(2)是用于在新设置的URL中选择名望高的文本的方法。
这里,设定成选择阈值以上的URL,但是,除此以外,也可以采用以预先设定了翻译频率的平均值以及变化率高的顺序的个数的URL为对象等的方法。另外,在URL翻译频率表中,在实际翻译频率以外,也可以预先由人工设定表示有最优先标志的代码(例如,-1),与实际翻译频率无关地,将其作为未知词语收集处理对象。
进而,在本实施例中,根据对URL的翻译要求的频率,对以后翻译的可能性高的文本进行预测,但可以将字典服务器与WWW的代理服务器兼用,这种情况下,因为可以取得对URL的访问的频率信息,所以也可以根据访问频率信息和表示HTML文本的语言的信息进行同样的处理。
接着,选择一次翻译频率高的URL,取得与该URL对应的HTML文本(步骤23)。这里,取得该文本全部的例子,除此以外,还可以采用预先保存前一次选取时的HTML文本,取差分,只将新增加的部分作为处理对象的方法,或采用取得用预先设定的字符串(例如,“What’s New”等)表示的HTML文本作为处理对象。
如果取得了HTML文本,则确定该文本中的字典查找目标词语(步骤24)。这里,成为字典查找目标词语的词语,是在确定的HTML文本中所出现的单词中,不能从服务器字典4得到正确的字典信息的单词。这里说明以下3种情况。
(1)单词未登录在字典上的情况:可以称作机器翻译中所谓的未知词语。
(2)固有名词的情况:虽然作为单词登录在字典中,但是在具有特殊含义情况下的单词。
(3)复合词语的情况:虽然对于每个单词登录在字典上,但是复合词语具有特殊含义的情况。例如,如Big Apple(纽约)那样的复合词语,包括big和apple,但不包括叫做Big Apple的复合词语的。
对于字典查找目标词语选择处理,在以后详细说明(图10)。
确定完字典查找目标词语后,确定其它的字典服务器的优先度(步骤24)。进而,对于本步骤24,在以后详细说明。
对于其它的字典服务器,按照已经确定的优先度进行与字典查找目标词语有关的字典信息的检索(步骤26)。图8展示在步骤26中使用的检索要求数据的结构。要求检索数据,由检索对象种类、检索深度、词条、URL、检索时刻构成。检索对象种类是L或R的2种。L的情况是,将接收到检索要求的字典服务器上的字典,即,只将服务器字典和远程字典高速缓冲存储器作为检索对象,R的情况是将接收到检索要求的字典服务器上的字典和其它字典服务器的双方作为检索对象。检索深度,表示对于来自某个客户的字典检索要求,是经由几个字典服务器来到的。某个字典服务器如果平均向n个字典服务器发出检索要求,则因为接收检索要求的服务器的数,是检索深度的指数函数的阶,所以信息量激增。因此,不能进行比预定的值更深的检索要求。词条是作为检索对象的词条的字符串。URL,在翻译对象文本是网络上的HTML文本的情况下,存储该文本的URL,在其它情况下,设定缺省值。检索时刻,对于该词条存储来自客户端的最初的检索进行的时间,废弃从最初的检索开始经过一定的时间检索要求。或者,也可以在客户中,不是检索进行的时刻,而是设定送回检索结果的截至时刻,在该时刻废弃不在此间的检索要求。
接收在步骤26中的检索结果送回数据,当检索成功时,更新字典数据(步骤27)。检索结果送回数据的结构如图9所示。检索结果送回数据,由字典服务器名、成功标志、内容种类、密码化标志、字典信息构成。字典服务器名是存储该字典信息的字典服务器ID。成功标志是表示检索是否成功的标志。内容种类表示字典信息的内容的种类,E的情况只表示该词条存在于字典服务器ID所示的字典服务器中,C的情况表示得到了与该词条有关的字典信息。密码化标志是表示该字典信息是否加密。
在此,当检索成功时,进行以下3种处理。第1,当发送出其它字典服务器未加密的字典信息时,将复写字典信息的部分存储在远程字典高速缓冲存储器中,更新分布式字典索引9。第2,当只发送与该词条有关的字典信息有无的情况下,在发送字典索引9中追加该词条,将字典服务器的名称作为指示字存储。
第3,当得到加密的字典信息时,有存储到远程字典高速缓冲存储器中的方法和废弃数据的方法。当证实具有译码经作为客户的用户加密后的字典信息的键时,例如,在字典之间预先规定了交换字典信息的情况下,将加密的数据原样保持,根据来自客户的检索要求,通过与字典服务器ID同时发送字典信息,就可以在客户端利用译码后的字典信息。在其它的情况下,因为不能利用字典信息,所以废弃数据。
调查是否完全处理了URL,如果未完全处理,则返回步骤23,反复处理。如果已经完全处理,则返回步骤21(步骤28)。通过以上的处理,用在字典服务器中不存在的词语,就可以取得与翻译所需要的可能性高的词语有关的字典信息。
以下,用图10详细说明字典查找目标词语抽出处理(图7中的步骤24)。
在字典查找目标词语抽出处理中,通过边检索服务器字典,边进行词素解析,抽出字典查找目标词语。在本实施例中,由于以英语作为对象,所以说明采用以空白为单词的的单纯的方法,但是本发明,例如也可以适用如特开昭58-40684号公报上记载的词素解析处理方法。
首先,从HTML文本中消除HTML标记,只截出作为字典查找目标词语采用抽出处理的对象的字符串(步骤301)。
从开头检索截出的处理对象字符串,如果发现了空白、句点、逗点等文字,则将从此前的空白文字之后到现在的空白文字之前的字符串作为候补单词截出(步骤302)。
根据截出的单词进行该单词词条的候补的推测(步骤303)。这时,用图11所示的规则。这是因为当单词是规则变化的单词时,一般是只将原形作为字典词条登录,在截出的单词是规则变化的单词的活用形时,截出的单词不能作为字典词条登录的缘故。对于不规则变化动词,即使是活用形,也可以在词条上登录。
以下,调查词条的候补是否已经登录在字典上(步骤304)。如果登录了则进到步骤307。
在未登录的情况下,调查是否适用全部的词条推测规则(步骤305),如果有不适用的规则,则返回步骤303,重复词条候补的推测处理。当全部规则都适用时,判断该词条候补为字典查找目标词语,将词条作为字典查找目标词语登录(步骤306)。
将取得的单词的词条登录在单词表(未图示)上(步骤307)。单词表是按出现顺序存储包括在目前正在处理的文本中的单词的词条的表。
接着,抽出作为未知词语的字典查找目标词语的候补(步骤308)。此处理在以后详细说明(图12、图13)。
当字典查找目标词语是复合词时,检查是否已经在字典登录。如果复合词已经登录,则从字典查找目标词语表中消除(步骤309)。
判断是否已处理了全部正文,如果有未处理的正文则重复处理(步骤310)。
以下,用图12详细说明非未知词语字典查找候选词语候补查找处理(图10的步骤308)。
首先,判断该词条是否是固有的名词(步骤3081)。当单词在文头以外的位置时,如果正文中的词条的字符串是大写体,判断为是固有名词,如果不是大写体,判断为不是固有名词。
在步骤3081的判断结果中,当词条是固有名词时,将该词条作为字典查找目标词语候补登录(步骤3082)。
接着,将该词条和此前出现的单词作为两字组单词列存储(步骤3083)。图13是两字组单词列存储表的概念图。两字组单词列存储表是将在正文中相邻出现的两字组单词列的全部和出现频率一同存储的表。两字组单词列存储表由第1词单词表和第2词单词表构成。第i词单词表,由出现在两字组单词列的第i个上的单词的字符串、在第i个之前的单词列的出现频率、与第i个之前的单词列挨着的i+1单词列的第i+1的出现单词的指示字构成。例如,在图13的情况下,从第1单词表可知,Big出现2次,通过查找Big的指示字,作为从Big开始的2词单词,就表示称为Big Blue的排列出现2次。
计数发现的两字组单词列的出现频率(步骤3084),如果频率在预定的阈值以上,则作为查辞典目标词语的候补登录(步骤3085)。
以下,说明图7的步骤25中的其它辞典服务器的优先度确定处理。
本发明的辞典服务器,在词条未在自己的服务器辞典上的情况下,通过向其它的辞典服务器发出检索词条的要求,就可以利用分布存在于网络上的辞典。这时,当知道作为检索对象的词条在某个服务器辞典上时,即词条存在于分布式辞典索引9中的情况下,对该辞典服务器进行检索要。但是,当不知道具有词条的辞典信息的辞典服务器时,即词条不存在于分布式辞典索引9中时,向辞典服务器表6中的其它辞典服务器发出询问。这时,如果向辞典服务器表6中的任意辞典服务器发出询问,则效率极低。另外,如果各辞典服务器同时向多个辞典服务器发出询问,则由于信息量呈指数性地增大,所以成为大问题。因而,在本实施例的辞典服务器中作了这样的准备,即在翻译作为翻译对象的文本时,设置确定辞典服务器优先度的功能,按照优先度高的顺序查找。辞典服务器的优先度确定处理用以下3种方法进行。
在第1种方法中,用辞典服务器评价表8确定辞典服务器。辞典服务器评价表8的例子如图14所示。辞典服务器评价表8对于辞典服务器表6中的各辞典服务器存储过去进行过的检索的结果的履历。在本实施例中,作为履历存储表示检索要求的次数的检索频率、表示检索成功的次数的成功频率。表示由用户变更检索后的译文的次数的译文变更频率。这里,对各辞典服务器计算下一次的值,按照它们从大到小的顺序进行检索。(评价值)=(成功频率)×((检索频率)-(译文变更频率))/(检索频率)2
在第2种方法中,确定认为对于现在已经得到的翻译作为处理对象的HTML文本特别适宜的辞典服务器。处理对象HTML文本,从检索要求数据的URL栏抽出。在图10的步骤307中,当在单词表上登录词条时,通过检索分布式辞典索引9,根据已知在远程辞典高速缓冲存储器或其它辞典服务器中辞典信息存在的单词,制成最适宜辞典服务器表。最适宜辞典服务器表的例子如图15所示。辞典服务器表表示辞典服务器的ID和存储在各辞典服务器中的单词在该HTML文本中出现过几次。因而可以推测更多地包括HTML文本中的单词的辞典服务器。可以参照该最适宜辞典服务器表,按照出现频率高的顺序进行检索。
在第3种方法中,与第2种方法一样,确定认为对于翻译当前作为处理对象的HTML文本特别适宜的辞典服务器。在辞典中,存储该词语使用的领域,在步骤307中,对于在服务器辞典中存在词条的词语抽出它们的领域,判断正文整体的领域。而后,如第1种方法那样,存储在每个文本的领域对于辞典服务器的检索频率、成功频率、译文频率。而后,当进行对于新的文本的辞典信息检索要求时,首先,判断文本的领域,在该领域中选择成功的可能性高的辞典服务器。检索成功的可能性可以在每个领域用与第1种方法同样的算式计算。
以上,说明辞典服务器自动地收集未知词语的方法。通过这样的处理,就可以在抑制通信成本的同时,在服务器辞典中不存在的未知词语中,收集今后使用可能性高的词语的信息。另外,辞典服务器的利用者,因为只从自己选择的辞典服务器中,能得到辞典信息的可能性高,所以可以抑制参照其它的辞典服务器时的通信成本。
(c)机器翻译
下面说明使用辞典服务器的机器翻译方法。在本实施例的机器翻译方法中,在客户端,在使用字典、语法进行翻译期间,在进行未知词语等的不能翻译部分的识别的同时,对此前说明过的字典服务器发出进行如字典信息那样的翻译知识的检索要求。这时,不限制立刻从字典服务器送回字典信息。在此,在客户端,设定与未知词语等的不能翻译部分有关在翻译中需要的信息的假设,根据该假设进行翻译,显示翻译结果。而后,在从字典服务器送回字典信息等的翻译知识的时刻,通过根据送回的翻译知识变更译文,输出与客户单独进行翻译的情况相比质量好的翻译结果。首先,用图16说明客户端的处理。以下,说明将包括“135 is FIFO buffer in which memory access requests arelatched”这段话的文本翻译成日语时的例子。在该例子中,假设latchFIFO是客户字典14中的未知词语。
首先,只利用客户字典14,对输入文本进行词素解析(步骤401)。词素解析用存储器13中的词素解析程序在CPU中处理。这时,成为未知词语的单词存储在字典查找目标词语表中。
接着,起动字典查找目标词语抽出处理(步骤402)。该处理的内容由于与图7中的步骤24所示的字典服务器的处理相同,故而省略说明。在例文中,作为字典查找目标词语,抽出作为未知词语的FIFO、latch。
如果在步骤402中抽出字典查找目标词语,则客户对字典服务器提出与该字典查找目标词语有关的字典信息的检索要求(步骤403)。向字典服务器发送的检索要求数据的结构,与字典服务器向其它的字典服务器提出字典信息的检索要求时的数据结构(图8)一样。成为检索要求的目标的词条(在例子的情况下是FIFO、latch)被存储在检索结果等待表(未图示)中。客户一边向字典服务器询问未知词语的字典信息,一边不需要等待结果,继续对翻译目标文本进行翻译处理。
对未知词语的翻译部分,进行字典查找目标词语假设设定处理(步骤404)。该处理是为了与检索字典服务器非同步地执行包括作为向字典服务器发出的字典查找目标词语的文本的翻译处理,用存储器13中的假设设定程序执行。在该处理中,在作为词素解析的结果得到的单词表中,存储对于字典查找目标词语所推测词类的结果,用该单词表执行翻译。作为词类假设设定规则,使用图17所示的规则。假设设定处理通过组合图11所示的词条推测规则和图17的假设设定规则进行。即,进行这样的处理,用词条推测规则推测词条,调查对于该词条假设设定规则是否适用。在是FIFO时,由于在图17中表示副词、形容词、动词的规则(条件)不匹配,所以根据此外的条件设定叫做名词的假设。用同样的处理,在latched的情况下,设定叫做动词的过去形的假设。
如果设定假设,则利用该假设执行语法解析(步骤405)、语法变化(步骤406)、生成处理(步骤407),得到译文。具体地说,用存储器13中的语法解析程序、语法变化程序、生成程序在CPU中执行处理。
在此时刻,因为FIFO、latch是未知词语,因为没有得到全部译文,所以如图18所示,表示包括翻译前的单词的译文(步骤408)。在图18中,也可以将FIFO、latch的部分设置成空格或记号。另外,因为表示是在向字典服务器的字典检索要求中,所以还具有强调表示的效果。
接着,制成假设记录文件(步骤409)。假设记录文件是当在作为翻译的对象的文本中应该查字典的候选词语存在时,存储与字典查找目标词语有关设立的假设的文本。假设记录文件的例子如图19所示。假设记录文件,对于每个字典查找目标词语,在各个出现位置上存储该词语出现的语句在原文文本中的位置、在翻译结果文本的译文文本中的位置、字典查找目标词语的译文的位置、假设的词类等。图19的例子表示如下。
输入的语句“135 is FIFO buffer in which memory accessrequests are latched”在翻译目标文本中,是从第115字节开始,到176字节结束,译文“135はメモリアケセス要求ガlatchされる FIFOバツフアてあゐ”(在汉语中,译为“135是锁存存储器存取要求的先进先出缓冲存储器。”),是从译文文本中的第120字节开始到177字节结束。另外,未知词语latched的译文“latchされる”是从第147字节开始到第151字节结束,未知词语FIFO的译文“FIFO”是从第158字节开始到到第161字节结束。
接着,在步骤403中对于对字典服务器发送的检索要求,调查是否从字典服务器接收到检索结果(步骤410)。检索结果被存储在临时字典(未图示)。客户在临时字典中检索检索结果等待表中的词语,如果已作为词条存储,则判断为检索结果已经接收。检索结果的结构,与对应服务器字典发送到其它的字典服务器的检索要求接收到的结果的数据结构(图9)相同。但是,内容种类总是C,设置成存储字典信息的情况。当加密标志是0的情况下,将字典信息原样复制到临时字典。当加密标志是1的情况下,参照译码键表处理从该字典服务器的字典服务器ID中取得密码键,进行译码处理,将译码处理后的信息复制在临时字典上。图20展示密码键表的例子。密码键表是译码字典服务器ID和来自该字典服务器的字典信息所需要的密码键表。密码键通过作为客户的用户预先与各字典服务器的管理者签约取得。因此,在该字典服务器中,可以只对签约后的客户端的用户提供字典信息。
如果已接收检索结果,则用存储器13中的假设检定程序,参照假设记录文件,进行检索结果和假设的比较,进而,从检索结果等待表中消除该词条(步骤411)。如果未接收检索结果,则进入下文继续处理。如果假设正确,则从假设记录文件中,取得字典查找目标词语的译文的字符串位置,对于检索到的译文,根据假设记录文件中的属性置换成实施语言变化的词语(步骤412)。如果假设是错误的,则取得原文的文件顺序,用检索后的字典信息进行再次翻译,置换译文的字符串的全部(步骤413)。而后,显示变更后的译文(步骤414)。译文的显示如图21所示。
以下,用图22说明服务器端的处理。
在客户端的处理(图16的步骤403)中,如果对服务器要求对某个词条进行检索,则字典服务器检索分布式字典索引9,调查该词条是否存在(步骤101)。在不存在的情况下,进入步骤109。在存在的情况下,进入步骤102,取得对应的字典信息指示字(步骤102),调查指示字的种类,如果指示服务器字典则进入步骤104,如果指示远程字典高速缓冲存储器则进入步骤105,如果指示其它字典服务器则进入步骤106(步骤103)。
当指示字种类指示服务器字典时,从服务器字典读出字典信息(步骤104),但是,当与检索要求数据中的URL栏的值对应的URL对应字典存在时,检测在URL对应字典中词条是否存在,当存在时读出URL对应字典中的字典信息。
当指示字种类指示远程字典高速缓冲存储器时,从远程字典高速缓冲存储器读出字典信息(步骤105)。当词条存在,指示字种类指示其它的字典服务器时,用检索目标种类L对其它字典服务器进行字典检索要求(步骤106)。这里,设检索目标种类为L是因为判断出有检索要求的其它字典服务器具有字典信息的缘故。此后,调查对其它字典服务器的检索要求是否成功(步骤107)。如果成功则进行步骤108的处理,如果失败则进行步骤109的处理。
将得到的检索结果送回到检索要求源的客户(步骤108)。送回数据的结构与图9所示的相同。另外,这里,说明当在字典服务器中的检索要求循环的进行时,将得到的检索结果直接送回到原本要求检索的客户端的方法,但是除此以外,还可以经过介入检索要求的字典服务器送回。
当在步骤106中用其它的辞典服务器的检索失败的情况下,调查检索目标种类是否是R(步骤109)。如果是R,则进入步骤110。如果不是R,则进入步骤113。
当检索目标种类是R的情况下,判断是否切断向其它辞典服务器器的辞典检索,在未切断的情况下,向其它的字典服务器请求该词条的字典信息检索(步骤110)。字典服务器切断的判断是根据检索要求数据中的检索深度以及检索时刻进行。检索目标字典服务器的确定是根据步骤25中叙述的优先度进行。因为详细的过程已在步骤25中叙述过,所以省略说明。而后,调查检索要求是否成功(步骤111),如果成功则更新字典服务器评价表8(步骤112)。字典服务器评价表8与图14所示的相同。对于用户对译文的变更,在以后说明。这里,增加1次相应的字典服务器的检索频率,则增加1次成功频率。
当在步骤109中检索种类不是R时,以及,在步骤110中的检索要求失败时,更新字典服务器评价表8(步骤113)。在此,只增加检索频率1次。而后,将错码送回检索要求源(步骤114)。最后,更新URL翻译频率表7(步骤115),结束处理。
通过以上的处理,就可以将与客户有字典信息的检索要求的词条有关的字典信息送回客户。
上述实施例是用将英语翻译成日语的例子进行说明,但是对于将英语翻译成中文的装置以及方法也同样适用。
在本实施例中的客户端,不需要翻译专用的装置。建立在具有信息处理功能的一般的信息处理装置上附加通信功能和翻译功能的计算机程序,可以进行同等的处理。
用具有通信功能的通信程序,就可以向通过网络连接的其它信息处理装置要求检索,或接收某些信息。翻译的情况下,可以考虑接收语句的含义、语法上的作用、派生词和其它语句产生的背景等等的信息。
附加翻译功能的程序指示以下的处理。
首先,词素解析应该翻译的翻译目标文本(对应于图16中的步骤401),用自身终端具有的字典调查字典查找目标语句的含义(对应图16中的步骤402、403)。字典可以作为翻译程序的一部分准备,也可以与翻译程序一同安装在客户端的信息处理装置中,也可以个别准备希望的语言的字典数据库。总之,字典作为客户端装置被设定在封闭的范围内,必须使得字典查找目标能容易地执行。
当使用在客户端装置中具备的字典查找成功的情况下,使用从查找字典得到的译文,进行语法解析、语法变化、译文生成、译文显示(对应图16中的步骤405~408),结束翻译单位(文本、词组、语法的、含义的等的规定的连贯)的翻译处理,对以下的翻译单位也进行同样的处理,陆续将翻译语句显示在客户端的信息处理终端的显示装置上。
在翻译处理中,当在客户端的终端的字典中没有找到语句(查字典词语)的译文时,对该译文(未知词语)设定假设(或假设译文)(对应图16的步骤404)。
而后,作为客户端的装置的处理,就该假设(或假设译文)正确而言,连续进行语法解析~译文显示(但是,假设(或假设译文)部分或改变下线文字颜色和背景颜色或原样显示翻译前的语句)。
另一方面,设定了假设的语句,停止一次如上述在客户端装置中的翻译确定。而后,继续进行其后续部分的翻译,但是在进行后续部分的翻译处理期间,客户端的装置通过网络委托其它的信息处理装置检索与未知词语有关的信息(对应图16中的步骤403)。
与未知词语相关联的信息,是在字典中的未知词语的含义,或语法性的规则等,总之,是翻译需要的信息,并且意味着只在客户端的装置中是得不到的信息。
在客户端装置中,针对其它的信息处理装置询问中的未知词语而设定的假设进行表格化管理(对应图16的步骤409)。
客户端装置并不在对未知词语的翻译设定假设过程中中断,而是继续文本的翻译,而对于向其它的信息处理装置发送的与未知词语有关的信息检索,监视结果的接收。当接收到检索结果时(对应图16中的步骤410),比较对该未知词语的翻译设定的假设和接收到的检索结果,其结果,当假设错误时,以得到的信息为基础进行翻译。当假设正确时,确定根据该假设的翻译(对应图16中的步骤411~413)。而后,在修正最终的译文显示等结束翻译目标文本的翻译之前,读入翻译单位、是否需要假设、询问假设和翻译的同时合并进行与假设有关的信息的判定和翻译结果。
进行以上处理的程序,保持在软盘等的磁记录媒体、CD-ROM、DVD盘、光卡等的光记录媒体、光磁记录媒体、闪光存储器(flash memory)、IC卡等的半导体存储器中,通过被读入计算机系统的CPU,或通过网络从其它的信息处理装置的存储装置向自身终端的存储器下载,就可以在CPU中进行处理。
进而,在本实施例中,当不能翻译的部分是未知词语的情况下,以检索未知词语的字典信息的情况为例进行说明,但是,本发明也能很容易扩大到除此以外的翻译知识的检索上。以从翻译知识服务器中检索用于语法解析的共起数据的情况为例进行说明。
所谓共起数据,是容易同时出现的在意思上相关的词组,通过积累这样的共起数据,就可以消除机器翻译处理中的不确定性。图23展示了例子。图23的例文在语法上具有2个不确定性。即,前置词句withfour doors或修饰叫做a car的名词语句,或者修饰叫做bought a car的动词语句。这种情况下,通过存储叫做(car、door)的共起(表示车上有门),就可以得到正确的解答。
这样的共起数据由于是词组的信息,所以需要字典信息的平方的数,因而比字典的规模大。因此,用户单独持有共起信息是不现实的。
如果将本发明适用于这种情况,则通过在翻译处理中的语法解析时发生不确定性时刻,向字典服务器要求共起信息的检索,与此同时根据缺省信息(通常,判定为修饰最近的下文)暂时执行翻译处理输出结果,在共起信息送回时刻,比较省略的解析结果和根据共起信息的解析结果,如果正确则继续执行处理,如果不正确,则用共起信息执行解析处理,由此就可以得到正确的译文。
进而,也可以设置成这样的构成,即,当在客户端确认了不能翻译的部分时,将包括不能翻译部分的语句传送到字典服务器,在字典服务器中执行翻译处理,将其结果送回,在由客户端产生的结果和由服务器端产生的结果一致时,原样执行处理,在不一致时,用服务器端产生的结果进行置换。
如上所述,本发明不仅限定适用于字典信息,而且通过组合客户和提供翻译知识的上位的服务器,提供经网络的高品质的翻译。
(d)字典信息的共有
以下,说明在使用字典服务器的机器翻译方法中由用户进行的翻译变更信息共有处理。在对译字典中,对于一个词条有时存在多种翻译。这种情况下,在翻译时机器翻译系统选择的翻译词语有时出错。这时,根据用户的指示,显示其它的翻译词语,让用户选择的系统以往已众所周知。进而,由于通过学习这种由用户进行的选择信息,正确地进行以后的翻译选择处理,所以可以将在以后编辑中的翻译词语选择时新的词语自动地存储在以后字典中。这种技术在用户希望翻译的某个特定领域中,可以基于翻译词语确定为一个意思的可能性高的考虑方法。但是,在以往的方法中,不能得到高翻译精度。例如,英语中叫做president的词语,在日语中具有叫做“社長”、“大統領”这样的2个意思。但是,在领域比较复杂的捕捉方法中,不能正确地确定如president那样的单词的译法。
在本发明中,设置了很多客户共用字典服务器的构成,通过着眼于多次进行涉及同一HTML文本的字典信息的检索,对每个文本保存用户指定的翻译词语选择信息,就可以以高精度进行词语的选择。以下,说明翻译词语变更信息共用处理。
首先,用图24的处理流程说明客户端的处理。以下,如图25所示,用president的译文有误,成为“大統領”的例子说明。
用户,如果在读译文显示时发现译文有误,或意思有疑问的地方时,用如鼠标器那样的指点器指示画面上的该位置。在例子的情况下,用户指示president。这时,系统检测出用户在显示画面上指示的单词(步骤501)。进而,当用户指示“大統領”的情况下,参照用日英的字典和翻译处理得到的英语单词和日语单词的对应关系,很容易如得到president那样地扩展系统。以下,将该单词作为词条检索字典,检查字典,调查是否有词条(步骤502)。这时,对于变形的处理进行步骤303中所述的处理。另外,这里成为字典检索目标的是从字典服务器检索到的临时字典和客户具有的字典两方。假如在其中有词条,则全部显示翻译词语的候补(步骤504)。图26指示了翻译词语候补的显示例子。假如在字典中没有发现词条,则在将其意旨显示给用户后,等待用户指定的单词。
当显示翻译词语候补的情况下,用户查看翻译词语候补的显示,如果有正确的翻译词语,则用鼠标等指示该词语。系统检测出用户是否指示了翻译词语的变更(步骤505),如果指示了翻译词语的变更,则变更翻译词语后显示(步骤506)。由此,译文如图27所示那样地变更。最后,系统将用户指定的词条和选择的译文的组发送到字典服务器(步骤507)。
以下,用图28说明在翻译词语变更信息共有处理中的字典服务器一侧的处理。字典服务器如果接收翻译词语变更信息,则在分布式字典索引9中检索接收到的词条。如果没有该词条则进入步骤607。如果有则取得字典信息指示字(步骤602),判定指示字的种类,如果是C则进入步骤604,如果是R则进入步骤605,如果是L则进入步骤607(步骤603)。从远程字典高速缓冲存储器取得字典服务器名(步骤604)。从分布式字典索引9取得字典服务器名(步骤605)。在字典服务器评价表8中检索取得的字典服务器名,增加1次翻译词语变更频率(步骤606)。从接收到的数据制成URL对应字典(步骤607)。URL对应字典如图29那样构成。进而,在此将URL对应字典构成为另一文件,但即使设置成将翻译词语登录在远程字典高速缓冲存储器中,将URL记为翻译词语选择条件那样的构成,也可以得到同样的结果。
如上所述,通过在URL对应字典上反映在客户端由用户进行的翻译词语的变更,其它客户就可以共用某个用户对某个URL选择的正确的翻译词语信息。进而,在本发明的实施例中,设置成对于客户端的检索要求发送字典信息的构成,但是URL对应字典中的字典信息即使对于客户端的未知词语以外的词语的翻译也有用。因此,也可以采取这样的构成,即,在客户的翻译开始时刻,将与未知词语的有无无关的翻译目标文本的URL发送到字典服务器,当翻译目标文本的URL对应的字典存在时,连贯URL对应字典中的字典信息,发送到客户。
通过以上的处理,用户就可以利用在字典服务器上的大规模的字典,与只利用局部的客户具有的字典相比,可以得到高品质的译文。进而,即使在网络的速度慢的情况下,由于也可以以得到字典信息的顺序显示译文,所以,与得到全部信息后进行处理相比,用户使用顺手。另外,将用户变更翻译词语的信息送回服务器端,通过共用该信息,就可以得到更高品质的译文。进而,字典服务器通过预先收集从客户端发送来要求检索的可能性高的词语,就可以高速地应答来自客户的检索要求,进而,即使在字典服务器上没有字典信息的情况下,通过推测有检索要求的词条的可能性高的其它字典服务器,就可以以少的通信成本将所希望的字典信息送回客户。
字典服务器具备存储服务器字典和服务器字典中的单词以及在其它字典服务器中存在的字典的词条的字典索引,对于来自客户的检索要求,根据存在于服务器字典中的词语,送回服务器字典中的字典信息,对存在于其它字典服务器中的词语,向其它字典服务器发出检索要求。进而,当不知到在哪个字典服务器中存在成为检索目标的词语时,统计性地推测具有字典信息的可能性高的服务器,进行检索要求。由此,可以高效率地进行分布在网络上的字典的字典信息检索。
客户确认在客户翻译处理执行中有未知词语等的不能翻译部分,向字典服务器要求检索翻译包括上述不能翻译部分、在语法上连贯的语法单位的翻译知识,继续执行接着上述语法单位的内容的翻译,在从字典服务器送回翻译知识时刻,制成包括上述不能翻译部分的翻译目标文本的全部译文。由此,即使在网络速度慢,对字典服务器的检索要求时间长的情况下,也可以提供对用户来说使用顺手的翻译系统。
另外,通过将用户指定的翻译词语变更信息与作为翻译目标的HTML的文本的URL对应地存储,就可以在另一用户再次翻译同样的文本时,提供更高品质的翻译。
Claims (19)
1、一种机器翻译方法,它是在连接于网络的信息处理装置中,用保持在存储装置中的翻译知识翻译文本的机器翻译方法,包括以下步骤:当在翻译文本中识别出不能翻译的未知词语时,向网络发送关于翻译包括该未知词语、在语法上连贯的语法单位的翻译知识的询问;继续翻译接着上述语法单位的语法;当接收到对应上述询问的应答时,用上述应答完成对上述语法单位的翻译。
2、如权利要求1的机器翻译方法,包括如下步骤:上述询问步骤,包括在确认上述不能翻译的上述未知词语时,输出包括以暂时处理上述未知词语的形式翻译的上述语法单位的第1子步;上述语法完成步骤,包括输出用上述接收到的应答翻译上述语法单位中的上述未知词语的语法单位的第2子步。
3、如权利要求2的机器翻译方法,其中上述第1子步,包括通过推测上述未知词语属于哪种词类,将上述语法连贯的语法单位翻译成包括以暂时处理上述未知词语的形式翻译的上述语法单位的子步;上述第2子步,包括比较上述推测后的词类和包括在上述应答中的上述未知词语的词类,如果一致就对上述未知词语进行翻译,如果不一致就根据上述应答再次翻译上述语法单位的子步。
4、如权利要求1的机器翻译方法,其中上述翻译步骤,包括通过推测上述未知词语属于哪种词类,将上述语法连贯的语法单位翻译成包括以暂时处理上述未知词语的形式翻译的上述语法单位的子步;上述完成步骤,包括比较上述推测后的词类和包括在上述应答中的上述未知词语的词类,如果一致就对上述未知词语进行翻译,如果不一致就根据上述应答再次翻译上述语法单位的子步。
5、如权利要求1的机器翻译方法,包括以下步骤:在上述文本翻译中,在对与上述文本的语法中的词条对应的多个翻译词语选择其一的同时输出到输出装置;在将由来自上述输出装置的用户输入指定的翻译词语用于上述语法的翻译文中的同时,将上述指定的翻译词语存储在上述存储装置中的字典中。
6、一种检索方法,它是在连接于网络的信息处理装置中,与检索要求对应地检索保持在存储装置中的字典的检索方法,包括以下步骤:在接收到与文本的词条有关的字典检索要求时,检索上述信息处理装置的上述字典;在上述词条不存在于上述字典中时,从上述信息处理装置向上述网络发送检索要求;上述发送步骤,包括用对应过去的多个检索要求接收到的检索成果确定给予其它的多个字典服务器的优先顺序,以及根据上述词条的领域确定发送上述检索要求的发送目的地址的步骤。
7、如权利要求6的检索方法,进一步具有以下步骤:根据对应的发送到其它字典服务器的检索要求的应答的内容以及包括在上述检索要求中的词条的领域,确定上述其它的字典服务器的各优先顺序。
8、一种字典构筑方法,它是在连接于网络上的信息处理装置中,构筑保持在存储装置中的字典的字典构筑方法,还具有以下步骤:根据对上述网络上的多个文本的检索要求的各个频率,确定上述多个文本的重要度;根据上述确定步骤,为了确认未知词语,在上述多个文本中检索重要的未知词语;将重要的未知词语与对应的翻译词语的输入要求同时输出到输出装置;将在上述输出装置中输入的翻译语句存储在上述字典中。
9、如权利要求8的构筑方法,还具有以下步骤:
将与在上述检索步骤中确认的未知词语有关的要求字典信息的询
问输出到上述网络;
将对应上述询问得到的应答存储在上述字典中。
10、如权利要求9的构筑方法,进一步具有:
将存储在上述字典中的未知词语和上述信息处理装置的识别符发
送到与上述网络连接的其它的信息处理装置的步骤。
11、一种计算机可读存储媒体,它是连接在网络上,在使用翻译知识
翻译文本的信息处理装置内使用的计算机可读媒体,包括:
用于在翻译文本中识别出不能翻译的未知词语时,将关于翻译包括
该未知词语、在语法上连贯的语法单位的翻译知识的询问发送到该
网络的命令代码;
用于连续翻译接着上述语法单位的语法的命令代码;
用于在接收到对应上述询问的应答时用上述应答完成翻译上述语
法单位的命令代码。
12、如权利要求11的媒体,其中
上述询问发送命令代码,包括在确认上述不能翻译的未知词语时,
输出包括以暂时处理上述未知词语的形式翻译的上述语法单位的
第1命令代码;
上述语法完成命令代码,包括输出用上述接收到的应答翻译的上述
语法单位中的上述未知词语的语法单位的第2命令代码。
13、一种信息处理装置,它是连接在网络上,用翻译知识翻译文本的
信息处理装置,包括:
字典;
在翻译文本中识别出不能翻译的未知词语时,将关于翻译包括该未
知词语、在语法上连贯的语法单位的翻译知识的询问发送到该网络
的询问设备;
继续翻译接着上述语法单位的语法的翻译设备;
上述翻译设备,在接收到对应上述询问的应答时用上述应答翻译上
述语法单位。
14、如权利要求13的信息处理装置,其中
上述询问设备,在确认上述不能翻译的上述未知词语时,输出包括
以暂时处理上述未知词语的形式翻译的上述语法单位;
上述翻译设备,输出用上述接收到的应答翻译上述语法单位中的上
述未知词语后的语法单位。
15、上述信息处理装置,它是连接在网络上,与要求对应地检索保持
在存储装置中的字典的信息处理装置,包括:
检索设备,在接收到与文本的词条有关的字典检索要求时检索上述
信息处理装置的上述字典;
发送设备,在上述词条不存在于上述字典中时从上述信息处理装置
向上述网络发送检索要求;
上述发送设备,用对应过去的多个检索要求所接收到的检索成果确
定给予其它的多个字典服务器的优先顺序,以及根据上述词条的领
域确定发送上述检索要求的发送目的地址。
16、如权利要求15的信息处理装置,其特征在于:
根据对应发送到其它的字典服务器的检索要求的应答内容以及包
括在上述检索要求中的词条的领域,确定上述其它字典服务器的各
个优先顺序。
17、一种网络分布式机器翻译系统,用于将连接在网络上的文本翻译
成其它自然语言,具有以下特征:
具有多个字典服务器,各个字典服务器具有通过字典和网络、根据
可能访问的文本的统计信息制成的分布式字典索引,当上述文本包
括的语句的词条在上述字典中不存在时,参照上述分布式字典索
引,从其它字典服务器得到与词条有关的信息,执行该文本的翻
译。
18、一种网络分布式机器翻译系统,用于将连接于网络的文本翻译成
其它的自然语言,其特征在于:
具有多个字典服务器,各个字典服务器具有通过字典和网络、根据
可能访问的文本的频率信息制成的分布式字典索引,当上述文本包
括的语句的词条在上述字典中不存在时,参照上述分布式字典索
引,从其它字典服务器得到与词条有关的信息,执行该文本的翻
译。
19、一种计算机可读媒体,它是在一边参照字典一边将用自然语言表
示的文本翻译成其它种类的自然语言的计算机系统中使用的计算
机可读媒体,其特征在于:保持包括以下命令代码的计算机程序,
第1命令代码,用于读入以自然语言表示的翻译目标文本;
第2命令代码,用于从上述翻译目标文本中抽出查字典目标语句;
第3命令代码,用于从预先准备的字典得到上述查字典目标语句的
含义,翻译成其它的自然语言;
第4命令代码,用于在上述字典没有保持上述查字典语句的含义
时,将该查字典目标语句认定为未知词语,在停止该未知词语部分
的翻译的状态下继续后续部分的翻译;
第5命令代码,用于对连接在网络上的其它信息终端询问与上述未
知词语有关的信息;
第6命令代码,用于根据从上述其它的信息终端得到的与上述未知
词语有关的信息,确定上述未知词语部分的翻译,并合并其它的翻
译部分作为翻译结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP000547/1997 | 1997-01-07 | ||
JP000547/97 | 1997-01-07 | ||
JP9000547A JPH10198680A (ja) | 1997-01-07 | 1997-01-07 | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1187651A true CN1187651A (zh) | 1998-07-15 |
CN1156773C CN1156773C (zh) | 2004-07-07 |
Family
ID=11476763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB981042031A Expired - Fee Related CN1156773C (zh) | 1997-01-07 | 1998-01-06 | 字典管理方法以及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6789057B1 (zh) |
JP (1) | JPH10198680A (zh) |
CN (1) | CN1156773C (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770458A (zh) * | 2009-01-07 | 2010-07-07 | 三星电子(中国)研发中心 | 基于实例短语的机器翻译方法 |
CN101042692B (zh) * | 2006-03-24 | 2010-09-22 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN103714051A (zh) * | 2013-12-30 | 2014-04-09 | 传神联合(北京)信息技术有限公司 | 一种待译文档的预处理方法 |
CN103678301B (zh) * | 2012-08-30 | 2017-02-08 | 英业达科技有限公司 | 高级查询并新增翻译内容的翻译查询系统及其方法 |
CN112347794A (zh) * | 2020-10-27 | 2021-02-09 | 深圳前海微众银行股份有限公司 | 数据翻译方法、装置、设备及计算机存储介质 |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3515027B2 (ja) * | 1999-10-14 | 2004-04-05 | 三菱電機株式会社 | 無線端末管理装置 |
KR100372582B1 (ko) * | 2000-02-23 | 2003-02-17 | 가부시키가이샤 히타치세이사쿠쇼 | 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체 |
JP2001350754A (ja) * | 2000-06-07 | 2001-12-21 | Dainippon Printing Co Ltd | サービス提供システム |
JP2002108858A (ja) * | 2000-09-20 | 2002-04-12 | Internatl Business Mach Corp <Ibm> | 機械翻訳方法、機械翻訳装置および記録媒体 |
JP2002197102A (ja) * | 2000-12-25 | 2002-07-12 | Sony Corp | 情報検索装置 |
JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
US7103534B2 (en) * | 2001-03-31 | 2006-09-05 | Microsoft Corporation | Machine learning contextual approach to word determination for text input via reduced keypad keys |
US7231460B2 (en) * | 2001-06-04 | 2007-06-12 | Gateway Inc. | System and method for leveraging networked computers to view windows based files on Linux platforms |
JP2003091344A (ja) * | 2001-09-19 | 2003-03-28 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム |
JP3879929B2 (ja) * | 2001-10-05 | 2007-02-14 | 富士通株式会社 | 翻訳システム |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
EP1482414B1 (en) * | 2002-01-29 | 2010-10-06 | International Business Machines Corporation | Translating method for emphasised words |
US20030154071A1 (en) * | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
WO2003077151A2 (en) * | 2002-03-05 | 2003-09-18 | Siemens Medical Solutions Health Services Corporation | A dynamic dictionary and term repository system |
US7308399B2 (en) * | 2002-06-20 | 2007-12-11 | Siebel Systems, Inc. | Searching for and updating translations in a terminology database |
US7120666B2 (en) * | 2002-10-30 | 2006-10-10 | Riverbed Technology, Inc. | Transaction accelerator for client-server communication systems |
US8176186B2 (en) | 2002-10-30 | 2012-05-08 | Riverbed Technology, Inc. | Transaction accelerator for client-server communications systems |
JP4355138B2 (ja) * | 2002-12-13 | 2009-10-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳サーバ、コラボレーションサーバ及びプログラム |
JP4398144B2 (ja) * | 2002-12-24 | 2010-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体 |
US7664628B2 (en) * | 2002-12-27 | 2010-02-16 | Casio Computer Co., Ltd. | Electronic dictionary with illustrative sentences |
US7536293B2 (en) * | 2003-02-24 | 2009-05-19 | Microsoft Corporation | Methods and systems for language translation |
AU2003289583A1 (en) * | 2003-07-18 | 2005-02-04 | Electronics And Telecommunications Research Institute | System and method of multilingual rights data dictionary |
CA2547199A1 (en) * | 2003-12-16 | 2005-06-30 | Speechgear, Inc. | Translator database |
WO2006084144A2 (en) * | 2005-02-03 | 2006-08-10 | Voice Signal Technologies, Inc. | Methods and apparatus for automatically extending the voice-recognizer vocabulary of mobile communications devices |
US9270532B2 (en) * | 2005-10-06 | 2016-02-23 | Rateze Remote Mgmt. L.L.C. | Resource command messages and methods |
CN101361065B (zh) * | 2006-02-17 | 2013-04-10 | 谷歌公司 | 分布式模型的编码和自适应、可扩展访问 |
US20070255554A1 (en) * | 2006-04-26 | 2007-11-01 | Lucent Technologies Inc. | Language translation service for text message communications |
US8209162B2 (en) | 2006-05-01 | 2012-06-26 | Microsoft Corporation | Machine translation split between front end and back end processors |
CN101512518B (zh) * | 2006-09-07 | 2015-06-24 | 日本电气株式会社 | 自然语言处理系统和词典登录系统 |
KR100834549B1 (ko) * | 2006-10-19 | 2008-06-02 | 한국전자통신연구원 | 번역 시스템 및 번역 서비스 제공방법 |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
JP4483909B2 (ja) * | 2007-08-24 | 2010-06-16 | 富士ゼロックス株式会社 | 翻訳装置及びプログラム |
US20090132230A1 (en) * | 2007-11-15 | 2009-05-21 | Dimitri Kanevsky | Multi-hop natural language translation |
US8209164B2 (en) | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
US9418061B2 (en) * | 2007-12-14 | 2016-08-16 | International Business Machines Corporation | Prioritized incremental asynchronous machine translation of structured documents |
US20090177733A1 (en) * | 2008-01-08 | 2009-07-09 | Albert Talker | Client application localization |
JP5012525B2 (ja) * | 2008-01-17 | 2012-08-29 | 富士ゼロックス株式会社 | セキュリティポリシーサーバ、セキュリティポリシー管理システム及びセキュリティポリシー管理プログラム |
US9081765B2 (en) | 2008-08-12 | 2015-07-14 | Abbyy Infopoisk Llc | Displaying examples from texts in dictionaries |
US8812304B2 (en) | 2008-08-12 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for downloading additional search results into electronic dictionaries |
US8155952B2 (en) * | 2008-08-12 | 2012-04-10 | Abbyy Software, Ltd | Method and system of using information banners to communicate with users of electronic dictionaries |
JP4966324B2 (ja) * | 2009-01-19 | 2012-07-04 | 株式会社東芝 | 音声翻訳装置、および方法 |
JP2011014091A (ja) * | 2009-07-06 | 2011-01-20 | Ricoh Co Ltd | データ提供システム |
US20110133732A1 (en) * | 2009-12-03 | 2011-06-09 | Allegro Microsystems, Inc. | Methods and apparatus for enhanced frequency response of magnetic sensors |
CN102135957A (zh) * | 2010-01-22 | 2011-07-27 | 阿里巴巴集团控股有限公司 | 一种翻译短句的方法及装置 |
US9183192B1 (en) | 2011-03-16 | 2015-11-10 | Ruby Investments Properties LLC | Translator |
US8629539B2 (en) | 2012-01-16 | 2014-01-14 | Allegro Microsystems, Llc | Methods and apparatus for magnetic sensor having non-conductive die paddle |
US9189476B2 (en) * | 2012-04-04 | 2015-11-17 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated |
US9098494B2 (en) * | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US9081762B2 (en) * | 2012-07-13 | 2015-07-14 | Enyuan Wu | Phrase-based dictionary extraction and translation quality evaluation |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
US9430465B2 (en) * | 2013-05-13 | 2016-08-30 | Facebook, Inc. | Hybrid, offline/online speech translation system |
CN104346324B (zh) * | 2013-07-26 | 2017-06-20 | 英业达科技有限公司 | 词句翻译系统及其方法 |
TWI501095B (zh) * | 2013-08-07 | 2015-09-21 | Inventec Corp | 詞句翻譯系統及其方法 |
JP6507540B2 (ja) * | 2014-09-19 | 2019-05-08 | カシオ計算機株式会社 | 情報表示制御装置およびプログラム |
US9659009B2 (en) * | 2014-09-24 | 2017-05-23 | International Business Machines Corporation | Selective machine translation with crowdsourcing |
US10490306B2 (en) | 2015-02-20 | 2019-11-26 | Cerner Innovation, Inc. | Medical information translation system |
US10628522B2 (en) * | 2016-06-27 | 2020-04-21 | International Business Machines Corporation | Creating rules and dictionaries in a cyclical pattern matching process |
US11012539B2 (en) * | 2017-01-05 | 2021-05-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Accessing data at a network node |
CN109101499B (zh) * | 2018-08-02 | 2022-12-16 | 北京中科汇联科技股份有限公司 | 基于神经网络的人工智能语音学习方法 |
EP3931826A4 (en) * | 2019-08-13 | 2022-05-11 | Samsung Electronics Co., Ltd. | SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER |
US10991644B2 (en) | 2019-08-22 | 2021-04-27 | Allegro Microsystems, Llc | Integrated circuit package having a low profile |
KR20210052958A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 인공 지능 서버 |
CN116911321B (zh) * | 2023-06-21 | 2024-05-14 | 三峡高科信息技术有限责任公司 | 一种前端自动翻译字典值的方法及组件 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS5840684A (ja) * | 1981-09-04 | 1983-03-09 | Hitachi Ltd | 自然言語間の自動翻訳方式 |
JPH0353377A (ja) | 1989-07-21 | 1991-03-07 | Hitachi Ltd | 分散階層型翻訳システム |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5528491A (en) * | 1992-08-31 | 1996-06-18 | Language Engineering Corporation | Apparatus and method for automated natural language translation |
CA2141221A1 (en) * | 1992-09-04 | 1994-03-17 | Jaime G. Carbonell | Integrated authoring and translation system |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
US5587903A (en) * | 1994-06-22 | 1996-12-24 | Yale; Thomas W. | Artificial intelligence language program |
JP2737665B2 (ja) | 1994-09-14 | 1998-04-08 | 日本電気株式会社 | 機械翻訳装置 |
US5987402A (en) * | 1995-01-31 | 1999-11-16 | Oki Electric Industry Co., Ltd. | System and method for efficiently retrieving and translating source documents in different languages, and other displaying the translated documents at a client device |
JPH0981569A (ja) * | 1995-09-12 | 1997-03-28 | Hitachi Ltd | 多カ国対応サービス提供システム |
US5983169A (en) * | 1995-11-13 | 1999-11-09 | Japan Science And Technology Corporation | Method for automated translation of conjunctive phrases in natural languages |
US5848386A (en) * | 1996-05-28 | 1998-12-08 | Ricoh Company, Ltd. | Method and system for translating documents using different translation resources for different portions of the documents |
-
1997
- 1997-01-07 JP JP9000547A patent/JPH10198680A/ja active Pending
-
1998
- 1998-01-06 CN CNB981042031A patent/CN1156773C/zh not_active Expired - Fee Related
- 1998-01-07 US US09/003,885 patent/US6789057B1/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042692B (zh) * | 2006-03-24 | 2010-09-22 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101770458A (zh) * | 2009-01-07 | 2010-07-07 | 三星电子(中国)研发中心 | 基于实例短语的机器翻译方法 |
CN103678301B (zh) * | 2012-08-30 | 2017-02-08 | 英业达科技有限公司 | 高级查询并新增翻译内容的翻译查询系统及其方法 |
CN103714051A (zh) * | 2013-12-30 | 2014-04-09 | 传神联合(北京)信息技术有限公司 | 一种待译文档的预处理方法 |
CN103714051B (zh) * | 2013-12-30 | 2016-05-18 | 传神联合(北京)信息技术有限公司 | 一种待译文档的预处理方法 |
CN112347794A (zh) * | 2020-10-27 | 2021-02-09 | 深圳前海微众银行股份有限公司 | 数据翻译方法、装置、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US6789057B1 (en) | 2004-09-07 |
CN1156773C (zh) | 2004-07-07 |
JPH10198680A (ja) | 1998-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1156773C (zh) | 字典管理方法以及装置 | |
CN1114168C (zh) | 万维网寻址 | |
CN100339855C (zh) | 内容管理系统 | |
CN1200378C (zh) | 预取信息的方法,系统和服务器 | |
CN1242337C (zh) | 用于访问在一个网络上的信息的方法和系统 | |
CN1139884C (zh) | 信息处理方法和装置 | |
CN1533163A (zh) | 电子节目指南数据的自由文本和属性搜索 | |
US7562069B1 (en) | Query disambiguation | |
CN1871603A (zh) | 处理查询的系统和方法 | |
CN1586080A (zh) | 创建用于推荐媒体内容的代理 | |
CN1573752A (zh) | Url检索系统、服务器及url检索方法 | |
CN1934569A (zh) | 集成有用户注释的搜索系统和方法 | |
CN1912872A (zh) | 一种提取新词的方法和系统 | |
CN1534514A (zh) | 适用于位置感知的架构和系统 | |
CN1444746A (zh) | 反向内容采集器 | |
CN1877583A (zh) | 访问标识索引系统及访问标识索引库生成方法 | |
CN1761961A (zh) | 在因特网搜索引擎上检测无效点击的方法和设备 | |
CN1292531A (zh) | 信息管理系统和方法 | |
JP2008004080A (ja) | コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム | |
CN101042706A (zh) | 文档搜索设备、文档管理系统、文档搜索系统和方法 | |
CN101042710A (zh) | 实现采集数据共享的方法、系统 | |
CN102227723B (zh) | 辅助误译的检测的装置及方法 | |
CN1839388A (zh) | 数据库中xml模式的原地演进 | |
CN1674005A (zh) | 文档管理方法、网络系统和信息处理装置 | |
CN1798032A (zh) | 一种互联网上实现资讯订阅的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1049707 Country of ref document: HK |
|
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |