CN103955454B - 一种在白话文与文言文之间进行文体转换的方法和设备 - Google Patents

一种在白话文与文言文之间进行文体转换的方法和设备 Download PDF

Info

Publication number
CN103955454B
CN103955454B CN201410104024.1A CN201410104024A CN103955454B CN 103955454 B CN103955454 B CN 103955454B CN 201410104024 A CN201410104024 A CN 201410104024A CN 103955454 B CN103955454 B CN 103955454B
Authority
CN
China
Prior art keywords
writing
classical chinese
vernacular
writings
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410104024.1A
Other languages
English (en)
Other versions
CN103955454A (zh
Inventor
马艳军
和为
刘伟
吴礼文
李伟
刘璇
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410104024.1A priority Critical patent/CN103955454B/zh
Publication of CN103955454A publication Critical patent/CN103955454A/zh
Application granted granted Critical
Publication of CN103955454B publication Critical patent/CN103955454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明的目的是提供一种用于在白话文与文言文之间进行文体转换的方法与设备;获取用户输入的白话文;根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文;将所述文言文提供给所述用户。与现有技术相比,本发明满足了用户在白话文与文言文之间进行文体转换的需求,提升了用户的使用体验。进一步地,本发明还可以由用户选择所需转换的文言文文体,结合该文言文文体所对应的文言文属性信息,将用户输入的白话文转换成与之对应的文言文,更进一步提升了用户的使用体验。

Description

一种在白话文与文言文之间进行文体转换的方法和设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于在白话文与文言文之间进行文体转换的技术。
背景技术
文言文是中国古代的一种书面语言,主要包括以先秦时期的口语为基础而形成的书面语。文言文是相对白话文而来的,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点,包含策、诗、词、曲、八股、骈文古文、散文等多种文体。
与现代白话文相比,文言文语言往往更为简洁典雅。在移动应用中,比如手机短信中能够较少的文字表达丰富的含义;同时在游戏(比如与历史相关的游戏)、网上聊天等场景中,用文言文要么更符合场景的需求,要么能显得风趣幽默,更好地起到娱乐休闲的效果。
然而,文言文学习往往无法一蹴而就,大多数人无法流利使用文言文,这使得白话文与文言文之间的文体转换成为一种需求,也成为本领域技术人员亟需解决的一个问题。
发明内容
本发明的目的是提供一种用于在白话文与文言文之间进行文体转换的方法与设备。
根据本发明的一个方面,提供了一种用于在白话文与文言文之间进行文体转换的方法,其中,该方法包括以下步骤:
a获取用户输入的白话文;
b根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文;
c将所述文言文提供给所述用户。
根据本发明的另一方面,还提供了一种用于在白话文与文言文之间进行文体转换的转换设备,其中,该设备包括:
第一获取装置,用于获取用户输入的白话文;
第一转换装置,用于根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文;
提供装置,用于将所述文言文提供给所述用户。
与现有技术相比,本发明获取用户输入的白话文,根据该白话文,基于翻译模型,并结合文言文属性信息,将该白话文转换成与之对应的文言文,并将该文言文提供给该用户,满足了用户在白话文与文言文之间进行文体转换的需求,提升了用户的使用体验。
进一步地,本发明还可以由用户选择所需转换的文言文文体,结合该文言文文体所对应的文言文属性信息,将用户输入的白话文转换成与之对应的文言文,更进一步提升了用户的使用体验。
更进一步地,本发明获取用户特定应用场景中所输入的白话文,将该白话文转换成对应的文言文,并在该特定应用场景中提供给该用户,更进一步提升了用户的使用体验。
本发明也可获取用户输入的文言文,根据该文言文,基于翻译模型,将该文言文转换成与之对应的白话文,满足了用户从文言文转换至白话文的需求,更进一步提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于在白话文与文言文之间进行文体转换的设备示意图;
图2示出根据本发明另一个方面的用于在白话文与文言文之间进行文体转换的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于在白话文与文言文之间进行文体转换的设备示意图。转换设备1包括第一获取装置101、第一转换装置102和提供装置103。
其中,第一获取装置101获取用户输入的白话文。具体地,用户通过与用户设备的交互,在该用户设备的输入框内输入了白话文,该第一获取装置101通过与该用户设备的交互,例如通过一次或多次调用该用户设备提供的应用程序接口(API),或其他约定的通信方式,获取该用户所输入的白话文。
在此,该用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或IPTV等。该输入框包括但不限于短信输入框、即时通信输入框、搜索输入框、游戏对话输入框等。
本领域技术人员应能理解上述获取用户输入的白话文的方式仅为举例,其他现有的或今后可能出现的获取用户输入的白话文的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述用户设备及输入框仅为举例,其他现有的或今后可能出现的用户设备或输入框如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
第一转换装置102根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文。具体地,第一转换装置102根据第一获取装置101所获取的用户输入的白话文,基于预置的翻译模型,并结合诸如文言文韵律属性、文言文字数属性、文言文句型模式属性、用户预置属性等文言文属性信息,将该白话文转换成与之对应的文言文。
在此,该翻译模型例如根据语料库中所存储的白话文与文言文的预置对齐关系来进行建立或更新。例如,该转换设备1采用统计机器学习的方法,从大规模“双语语料”中学习翻译知识,这一学习的过程通常称为“训练”(training)。“训练”完成以后,即可建立翻译模型,并进行翻译。通常,机器翻译训练所需“双语语料”一般由互为翻译的双语句对组成。在此,对应好了的白话文-文言文文本可以看作双语句对。为了从双语句对中学习到翻译模式,首先需要对白话文和文言文作对齐,即为白话文的词语找到所对应的文言文的“字”。这一过程转换设备1可以结合使用统计方法和基于规则的方法。在完成对齐后,从对齐好的双语句对中抽取互为翻译的短语片段,并利用这些片段对翻译模型进行建立或更新,以基于该翻译模型完成白话文-文言文的转换。
优选地,所述文言文属性信息包括以下至少任一项:
-文言文韵律属性;
-文言文字数属性;
-文言文句型模式属性;
-用户预置属性。
在此,文言文的韵律属性是指文言文的声韵和节律,也即文言文的平仄和押韵规范。由于文言文,例如诗词等,讲究字词的搭配、音调的和谐,因此,在将白话文转换成文言文时,需要考虑文言文的韵律属性,如文言文的平仄、对偶、押韵等。该第一转换装置102在对第一获取装置101所获取的白话文进行转换时,基于预置的翻译模型,根据字词所在的位置,有限选择韵律符合预置文体的转换结果。该预置文体例如是系统预置的、或用户所选择的,如诗经体、宋词的某个词牌等文言文文体。
由于第一转换装置102基于预置的翻译模型进行转换时,可能会生成不同长度的多个候选结果,因此,还需考虑文言文的字数属性,根据预置的字数阈值,如预置文体所对应的字数限制,从该多个候选结果中选择符合条件的文言文转换结果。例如,五言格律对应的是五个字,而七言格律对应的是七个字,第一转换装置102根据该字数限制,确定对应的文言文转换结果。
又由于白话文中的疑问句、感叹句等,在文言文中都有特定句式以及句式标记,因此,第一转换装置102还需考虑文言文的句型模式属性。例如,该转换设备1通过采用预置句式转换模板的方式以考虑文言文的句型模式属性,第一转换装置102根据第一获取装置101所获取的白话文,基于预置的翻译模型,并结合该预置句式转换模板,将该白话文转换成与之对应的文言文。
进一步地,第一转换装置102在进行文言文转换时,还可考虑用户预置属性,例如结合考虑用户指定开头或者结尾的用字等,以生成诸如“藏头诗”等文言文。
本领域技术人员应能理解上述白话文-文言文的转换方式仅为举例,其他现有的或今后可能出现的白话文-文言文的转换方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述文言文属性信息仅为举例,其他现有的或今后可能出现的文言文属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
提供装置103将所述文言文提供给所述用户。具体地,提供装置103根据第一转换装置102所转换得到的文言文,通过屏幕显示或扬声器播放等方式,将所述文言文提供给该用户。以屏幕显示为例,该提供装置103通过调用诸如JSP、ASP或PHP等动态网页技术,或通过其他约定的通信方式,将该第一转换装置102所转换得到的文言文,在该用户所使用的用户设备的屏幕上进行显示。例如,当该用户使用手机发送短信时,在该手机的短信输入框内显示所转换得到的文言文;当该用户使用计算机在游戏软件中进行对话时,在该游戏软件的对话输入框内显示所转换得到的文言文,或者,通过扬声器播放的方式,在该游戏场景中语音播放所转换得到的文言文。
本领域技术人员应能理解上述提供文言文的方式仅为举例,其他现有的或今后可能出现的提供文言文的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,转换设备1的各个装置之间是持续不断工作的。具体地,第一获取装置101获取用户输入的白话文;第一转换装置102根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文;提供装置103将所述文言文提供给所述用户。在此,本领域技术人员应理解“持续”是指转换设备1的各装置分别按照设定的或实时调整的工作模式要求进行白话文的获取、白话文-文言文的转换、及文言文的提供,直至该转换设备1在较长时间内停止获取用户输入的白话文。
在此,转换设备1获取用户输入的白话文,根据该白话文,基于翻译模型,并结合文言文属性信息,将该白话文转换成与之对应的文言文,并将该文言文提供给该用户,满足了用户在白话文与文言文之间进行文体转换的需求,提升了用户的使用体验。
优选地,所述第一获取装置101获取所述用户在应用场景中所输入的白话文;其中,所述提供装置103将所述文言文在所述应用场景中提供给所述用户;其中,所述应用场景包括以下至少任一项:
-手机短信场景;
-即时通信场景;
-自动对话问答系统场景;
-游戏软件场景。
例如,用户通过与手机的交互,在短信输入框内输入了一段白话文,用户通过预定的启动方式,例如摇一摇手机、或者点击预定按钮之后,即启动文言文转换操作,该第一获取装置101获取该用户在该短信输入框内输入的白话文,该第一转换装置102根据该白话文,基于翻译模型,并结合文言文属性信息,将该白话文转换成与之对应的文言文,该提供装置103随即在该手机的短信输入框内将该文言文提供给该用户,该用户可以直接发送至接收人,或者,对该文言文进行编辑之后再进行发送。当然,该提供装置103也可直接将该转换后的文言文发送至接收人。
又如,用户通过与即时通信软件的客户端的交互,在即时通信输入框内输入了一段白话文,用户通过预定的启动方式,例如点击预定按钮,启动了文言文转换操作,或者,当该用户预设了“白话文-文言文”转换的设置之后,该用户无需再另外启动该文言文转换操作,每当该用户在即时通信输入框内输入一段白话文,该第一获取装置101即获取该用户输入的白话文,该第一转换装置102随即将该白话文转换成与之对应的文言文,并由提供装置103提供给该用户或直接进行发送。
在自动对话问答系统场景、游戏软件场景中,对用户输入的白话文进行文言文转换的操作与上述在手机短信场景、即时通信场景中的操作基本相同,故此处不再赘述,并通过引用的方式包含于此。
本领域技术人员应能理解上述应用场景仅为举例,其他现有的或今后可能出现的应用场景如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,转换设备1获取用户特定应用场景中所输入的白话文,将该白话文转换成对应的文言文,并在该特定应用场景中提供给该用户,更进一步提升了用户的使用体验。
优选地,该转换设备1还包括第二获取装置(未示出),该第二获取装置获取所述用户所选择的文言文文体;其中,所述第一转换装置102根据所述白话文,基于所述翻译模型,并结合所述文言文文体所对应的文言文属性信息,将所述白话文转换成与之对应的文言文。具体地,由于文言文主要包括以先秦时期的口语为基础而形成的书面语,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点,包含策、诗、词、曲、八股、骈文古文、散文等多种文体。因此,用户可指定一种文言文文体,转换设备1结合该用户指定的文言文文体,对该用户输入的白话文进行文言文转换。
例如,该用户预设一种文言文文体,第二获取装置获取该用户所预设的文言文文体;第一转换装置102每次进行转换时,根据第一获取装置101获取的白话文,基于翻译模型,并结合该用户所预设的文言文文体所对应的文言文属性信息,如该文言文文体所对应的文言文韵律属性、文言文字数属性、文言文句型模式属性或用户预置属性等,将该白话文转换成与之对应的文言文。
又如,第一转换装置102每次需要进行转换时,将可选的文言文文体提供给用户,例如提供给用户“策、诗、词、曲、八股、骈文、散文”等文言文文体选项,用户从中选择一个想要转换的文言文文体,第二获取装置获取该用户所选择的文言文文体;第一转换装置102再根据第一获取装置101获取的白话文,基于翻译模型,并结合该用户所选择的文言文文体所对应的文言文属性信息,如该文言文文体所对应的文言文韵律属性、文言文字数属性、文言文句型模式属性或用户预置属性等,将该白话文转换成与之对应的文言文。
在此,转换设备1还可以由用户选择所需转换的文言文文体,结合该文言文文体所对应的文言文属性信息,将用户输入的白话文转换成与之对应的文言文,更进一步提升了用户的使用体验。
优选地,该转换设备1还包括更新装置(未示出),该更新装置根据语料库中所存储的白话文与文言文的预置对齐关系,建立或更新所述翻译模型。具体地,更新装置采用统计机器学习的方法,从大规模“双语语料”中学习翻译知识,这一学习的过程通常称为“训练”(training)。“训练”完成以后,即可建立翻译模型,并进行翻译。通常,机器翻译训练所需“双语语料”一般由互为翻译的双语句对组成。在此,对应好了的白话文-文言文文本可以看作双语句对。为了从双语句对中学习到翻译模式,更新装置首先需要对白话文和文言文做对齐,即为白话文的词语找到所对应的文言文的“字”。这一过程更新装置可以结合使用统计方法和基于规则的方法。在完成对齐后,更新装置从对齐好的双语句对中抽取互为翻译的短语片段,并利用这些片段对翻译模型进行建立或更新,以基于该翻译模型完成文言文-白话文的转换。
优选地,该转换设备1还包括第二转换装置(未示出),该第二转换装置获取用户输入的文言文;根据所述文言文,基于所述翻译模型,将所述文言文转换成与之对应的白话文;将所述白话文提供给所述用户。具体地,用户还可通过与用户设备的交互,在该用户设备的输入框内输入文言文,该第二转换装置通过与该用户设备的交互,例如通过一次或多次调用该用户设备提供的应用程序接口(API),或其他约定的通信方式,获取该用户所输入的文言文;随后,该第二转换装置根据该用户输入的文言文,基于该翻译模型,将该文言文转换成与之对应的白话文;并通过屏幕显示或扬声器播放等方式,将该转换后的白话文提供给该用户。
在此,转换设备1将用户输入的文言文转换成对应的白话文的转换方式及优选实施例,与上述将用户输入的白话文转换成对应的文言文的转换方式基本相同,故此处不再赘述,并通过引用的方式包含于此。
在此,转换设备1获取用户输入的文言文,根据该文言文,基于翻译模型,将该文言文转换成与之对应的白话文,满足了用户从文言文转换至白话文的需求,更进一步提升了用户的使用体验。
图2示出根据本发明另一个方面的用于在白话文与文言文之间进行文体转换的方法流程图。
在步骤S201中,转换设备1获取用户输入的白话文。具体地,用户通过与用户设备的交互,在该用户设备的输入框内输入了白话文,在步骤S201中,转换设备1通过与该用户设备的交互,例如通过一次或多次调用该用户设备提供的应用程序接口(API),或其他约定的通信方式,获取该用户所输入的白话文。
在此,该用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或IPTV等。该输入框包括但不限于短信输入框、即时通信输入框、搜索输入框、游戏对话输入框等。
本领域技术人员应能理解上述获取用户输入的白话文的方式仅为举例,其他现有的或今后可能出现的获取用户输入的白话文的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述用户设备及输入框仅为举例,其他现有的或今后可能出现的用户设备或输入框如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S202中,转换设备1根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文。具体地,在步骤S202中,转换设备1根据在步骤S201中所获取的用户输入的白话文,基于预置的翻译模型,并结合诸如文言文韵律属性、文言文字数属性、文言文句型模式属性、用户预置属性等文言文属性信息,将该白话文转换成与之对应的文言文。
在此,该翻译模型例如根据语料库中所存储的白话文与文言文的预置对齐关系来进行建立或更新。例如,该转换设备1采用统计机器学习的方法,从大规模“双语语料”中学习翻译知识,这一学习的过程通常称为“训练”(training)。“训练”完成以后,即可建立翻译模型,并进行翻译。通常,机器翻译训练所需“双语语料”一般由互为翻译的双语句对组成。在此,对应好了的白话文-文言文文本可以看作双语句对。为了从双语句对中学习到翻译模式,首先需要对白话文和文言文作对齐,即为白话文的词语找到所对应的文言文的“字”。这一过程转换设备1可以结合使用统计方法和基于规则的方法。在完成对齐后,从对齐好的双语句对中抽取互为翻译的短语片段,并利用这些片段对翻译模型进行建立或更新,以基于该翻译模型完成白话文-文言文的转换。
优选地,所述文言文属性信息包括以下至少任一项:
-文言文韵律属性;
-文言文字数属性;
-文言文句型模式属性;
-用户预置属性。
在此,文言文的韵律属性是指文言文的声韵和节律,也即文言文的平仄和押韵规范。由于文言文,例如诗词等,讲究字词的搭配、音调的和谐,因此,在将白话文转换成文言文时,需要考虑文言文的韵律属性,如文言文的平仄、对偶、押韵等。在步骤S202中,转换设备1在对在步骤S201中所获取的白话文进行转换时,基于预置的翻译模型,根据字词所在的位置,有限选择韵律符合预置文体的转换结果。该预置文体例如是系统预置的、或用户所选择的,如诗经体、宋词的某个词牌等文言文文体。
由于在步骤S202中,转换设备1基于预置的翻译模型进行转换时,可能会生成不同长度的多个候选结果,因此,还需考虑文言文的字数属性,根据预置的字数阈值,如预置文体所对应的字数限制,从该多个候选结果中选择符合条件的文言文转换结果。例如,五言格律对应的是五个字,而七言格律对应的是七个字,在步骤S202中,转换设备1根据该字数限制,确定对应的文言文转换结果。
又由于白话文中的疑问句、感叹句等,在文言文中都有特定句式以及句式标记,因此,在步骤S202中,转换设备1还需考虑文言文的句型模式属性。例如,该转换设备1通过采用预置句式转换模板的方式以考虑文言文的句型模式属性,在步骤S202中,转换设备1根据在步骤S201中所获取的白话文,基于预置的翻译模型,并结合该预置句式转换模板,将该白话文转换成与之对应的文言文。
进一步地,在步骤S202中,转换设备1在进行文言文转换时,还可考虑用户预置属性,例如结合考虑用户指定开头或者结尾的用字等,以生成诸如“藏头诗”等文言文。
本领域技术人员应能理解上述白话文-文言文的转换方式仅为举例,其他现有的或今后可能出现的白话文-文言文的转换方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述文言文属性信息仅为举例,其他现有的或今后可能出现的文言文属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S203中,转换设备1将所述文言文提供给所述用户。具体地,在步骤S203中,转换设备1根据在步骤S202中所转换得到的文言文,通过屏幕显示或扬声器播放等方式,将所述文言文提供给该用户。以屏幕显示为例,在步骤S202中,转换设备1通过调用诸如JSP、ASP或PHP等动态网页技术,或通过其他约定的通信方式,将在步骤S202中所转换得到的文言文,在该用户所使用的用户设备的屏幕上进行显示。例如,当该用户使用手机发送短信时,在该手机的短信输入框内显示所转换得到的文言文;当该用户使用计算机在游戏软件中进行对话时,在该游戏软件的对话输入框内显示所转换得到的文言文,或者,通过扬声器播放的方式,在该游戏场景中语音播放所转换得到的文言文。
本领域技术人员应能理解上述提供文言文的方式仅为举例,其他现有的或今后可能出现的提供文言文的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,转换设备1的各个步骤之间是持续不断工作的。具体地,在步骤S201中,转换设备1获取用户输入的白话文;在步骤S202中,转换设备1根据所述白话文,基于翻译模型,并结合文言文属性信息,将所述白话文转换成与之对应的文言文;在步骤S203中,转换设备1将所述文言文提供给所述用户。在此,本领域技术人员应理解“持续”是指转换设备1的各步骤分别按照设定的或实时调整的工作模式要求进行白话文的获取、白话文-文言文的转换、及文言文的提供,直至该转换设备1在较长时间内停止获取用户输入的白话文。
在此,转换设备1获取用户输入的白话文,根据该白话文,基于翻译模型,并结合文言文属性信息,将该白话文转换成与之对应的文言文,并将该文言文提供给该用户,满足了用户在白话文与文言文之间进行文体转换的需求,提升了用户的使用体验。
优选地,在步骤S201中,转换设备1获取所述用户在应用场景中所输入的白话文;其中,在步骤S203中,转换设备1将所述文言文在所述应用场景中提供给所述用户;其中,所述应用场景包括以下至少任一项:
-手机短信场景;
-即时通信场景;
-自动对话问答系统场景;
-游戏软件场景。
例如,用户通过与手机的交互,在短信输入框内输入了一段白话文,用户通过预定的启动方式,例如摇一摇手机、或者点击预定按钮之后,即启动文言文转换操作,在步骤S201中,转换设备1获取该用户在该短信输入框内输入的白话文,在步骤S202中,转换设备1根据该白话文,基于翻译模型,并结合文言文属性信息,将该白话文转换成与之对应的文言文,在步骤S203中,转换设备1随即在该手机的短信输入框内将该文言文提供给该用户,该用户可以直接发送至接收人,或者,对该文言文进行编辑之后再进行发送。当然,在步骤S203中,转换设备1也可直接将该转换后的文言文发送至接收人。
又如,用户通过与即时通信软件的客户端的交互,在即时通信输入框内输入了一段白话文,用户通过预定的启动方式,例如点击预定按钮,启动了文言文转换操作,或者,当该用户预设了“白话文-文言文”转换的设置之后,该用户无需再另外启动该文言文转换操作,每当该用户在即时通信输入框内输入一段白话文,在步骤S201中,转换设备1即获取该用户输入的白话文,在步骤S202中,转换设备1随即将该白话文转换成与之对应的文言文,在步骤S203中,转换设备1提供给该用户或直接进行发送。
在自动对话问答系统场景、游戏软件场景中,对用户输入的白话文进行文言文转换的操作与上述在手机短信场景、即时通信场景中的操作基本相同,故此处不再赘述,并通过引用的方式包含于此。
本领域技术人员应能理解上述应用场景仅为举例,其他现有的或今后可能出现的应用场景如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,转换设备1获取用户特定应用场景中所输入的白话文,将该白话文转换成对应的文言文,并在该特定应用场景中提供给该用户,更进一步提升了用户的使用体验。
优选地,该方法还包括步骤S204(未示出),在步骤S204中,转换设备1获取所述用户所选择的文言文文体;其中,在步骤S202中,转换设备1根据所述白话文,基于所述翻译模型,并结合所述文言文文体所对应的文言文属性信息,将所述白话文转换成与之对应的文言文。具体地,由于文言文主要包括以先秦时期的口语为基础而形成的书面语,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点,包含策、诗、词、曲、八股、骈文古文、散文等多种文体。因此,用户可指定一种文言文文体,转换设备1结合该用户指定的文言文文体,对该用户输入的白话文进行文言文转换。
例如,该用户预设一种文言文文体,在步骤S204中,转换设备1获取该用户所预设的文言文文体;在步骤S202中,转换设备1每次进行转换时,根据在步骤S201中获取的白话文,基于翻译模型,并结合该用户所预设的文言文文体所对应的文言文属性信息,如该文言文文体所对应的文言文韵律属性、文言文字数属性、文言文句型模式属性或用户预置属性等,将该白话文转换成与之对应的文言文。
又如,在步骤S202中,转换设备1每次需要进行转换时,将可选的文言文文体提供给用户,例如提供给用户“策、诗、词、曲、八股、骈文、散文”等文言文文体选项,用户从中选择一个想要转换的文言文文体,在步骤S204中,转换设备1获取该用户所选择的文言文文体;在步骤S202中,转换设备1再根据在步骤S201中获取的白话文,基于翻译模型,并结合该用户所选择的文言文文体所对应的文言文属性信息,如该文言文文体所对应的文言文韵律属性、文言文字数属性、文言文句型模式属性或用户预置属性等,将该白话文转换成与之对应的文言文。
在此,转换设备1还可以由用户选择所需转换的文言文文体,结合该文言文文体所对应的文言文属性信息,将用户输入的白话文转换成与之对应的文言文,更进一步提升了用户的使用体验。
优选地,该方法还包括步骤S205(未示出),在步骤S205中,转换设备1根据语料库中所存储的白话文与文言文的预置对齐关系,建立或更新所述翻译模型。具体地,在步骤S205中,转换设备1采用统计机器学习的方法,从大规模“双语语料”中学习翻译知识,这一学习的过程通常称为“训练”(training)。“训练”完成以后,即可建立翻译模型,并进行翻译。通常,机器翻译训练所需“双语语料”一般由互为翻译的双语句对组成。在此,对应好了的白话文-文言文文本可以看作双语句对。为了从双语句对中学习到翻译模式,在步骤S205中,转换设备1首先需要对白话文和文言文做对齐,即为白话文的词语找到所对应的文言文的“字”。这一过程转换设备1可以结合使用统计方法和基于规则的方法。在完成对齐后,在步骤S205中,转换设备1从对齐好的双语句对中抽取互为翻译的短语片段,并利用这些片段对翻译模型进行建立或更新,以基于该翻译模型完成文言文-白话文的转换。
优选地,该方法还包括步骤S206(未示出),在步骤S206中,转换设备1获取用户输入的文言文;根据所述文言文,基于所述翻译模型,将所述文言文转换成与之对应的白话文;将所述白话文提供给所述用户。具体地,用户还可通过与用户设备的交互,在该用户设备的输入框内输入文言文,在步骤S206中,转换设备1通过与该用户设备的交互,例如通过一次或多次调用该用户设备提供的应用程序接口(API),或其他约定的通信方式,获取该用户所输入的文言文;随后,该转换设备1根据该用户输入的文言文,基于该翻译模型,将该文言文转换成与之对应的白话文;并通过屏幕显示或扬声器播放等方式,将该转换后的白话文提供给该用户。
在此,转换设备1将用户输入的文言文转换成对应的白话文的转换方式及优选实施例,与上述将用户输入的白话文转换成对应的文言文的转换方式基本相同,故此处不再赘述,并通过引用的方式包含于此。
在此,转换设备1获取用户输入的文言文,根据该文言文,基于翻译模型,将该文言文转换成与之对应的白话文,满足了用户从文言文转换至白话文的需求,更进一步提升了用户的使用体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种用于在白话文与文言文之间进行文体转换的方法,其中,该方法包括以下步骤:
a获取用户输入的白话文;
获取所述用户所选择的文言文文体;
b根据所述白话文,基于翻译模型,并结合所述文言文文体所对应的文言文属性信息,将所述白话文转换成与之对应的文言文;
c将所述文言文提供给所述用户。
2.根据权利要求1所述的方法,其中,该方法还包括:
-根据语料库中所存储的白话文与文言文的预置对齐关系,建立或更新所述翻译模型。
3.根据权利要求1或2所述的方法,其中,所述文言文属性信息包括以下至少任一项:
-文言文韵律属性;
-文言文字数属性;
-文言文句型模式属性;
-用户预置属性。
4.根据权利要求1或2所述的方法,其中,所述步骤a包括:
-获取所述用户在应用场景中所输入的白话文;
其中,所述步骤c包括:
-将所述文言文在所述应用场景中提供给所述用户;
其中,所述应用场景包括以下至少任一项:
-手机短信场景;
-即时通信场景;
-自动对话问答系统场景;
-游戏软件场景。
5.根据权利要求1或2所述的方法,其中,该方法还包括:
-获取用户输入的文言文;
-根据所述文言文,基于所述翻译模型,将所述文言文转换成与之对应的白话文;
-将所述白话文提供给所述用户。
6.一种用于在白话文与文言文之间进行文体转换的转换设备,其中,该设备包括:
第一获取装置,用于获取用户输入的白话文;
第二获取装置,用于获取所述用户所选择的文言文文体;
第一转换装置,用于根据所述白话文,基于翻译模型,并结合所述文言文文体所对应的文言文属性信息,将所述白话文转换成与之对应的文言文;
提供装置,用于将所述文言文提供给所述用户。
7.根据权利要求6所述的转换设备,其中,该设备还包括:
更新装置,用于根据语料库中所存储的白话文与文言文的预置对齐关系,建立或更新所述翻译模型。
8.根据权利要求6或7所述的转换设备,其中,所述文言文属性信息包括以下至少任一项:
-文言文韵律属性;
-文言文字数属性;
-文言文句型模式属性;
-用户预置属性。
9.根据权利要求6或7所述的转换设备,其中,所述第一获取装置用于:
-获取所述用户在应用场景中所输入的白话文;
其中,所述提供装置用于:
-将所述文言文在所述应用场景中提供给所述用户;
其中,所述应用场景包括以下至少任一项:
-手机短信场景;
-即时通信场景;
-自动对话问答系统场景;
-游戏软件场景。
10.根据权利要求6或7所述的转换设备,其中,该设备还包括第二转换装置,用于:
-获取用户输入的文言文;
-根据所述文言文,基于所述翻译模型,将所述文言文转换成与之对应的白话文;
-将所述白话文提供给所述用户。
CN201410104024.1A 2014-03-19 2014-03-19 一种在白话文与文言文之间进行文体转换的方法和设备 Active CN103955454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410104024.1A CN103955454B (zh) 2014-03-19 2014-03-19 一种在白话文与文言文之间进行文体转换的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410104024.1A CN103955454B (zh) 2014-03-19 2014-03-19 一种在白话文与文言文之间进行文体转换的方法和设备

Publications (2)

Publication Number Publication Date
CN103955454A CN103955454A (zh) 2014-07-30
CN103955454B true CN103955454B (zh) 2017-12-26

Family

ID=51332729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410104024.1A Active CN103955454B (zh) 2014-03-19 2014-03-19 一种在白话文与文言文之间进行文体转换的方法和设备

Country Status (1)

Country Link
CN (1) CN103955454B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731775B (zh) * 2015-02-26 2017-11-14 北京捷通华声语音技术有限公司 一种口语转换为书面语的方法和装置
CN104809929B (zh) * 2015-05-14 2018-07-13 广东小天才科技有限公司 古文学习装置及其控制方法
CN105426551A (zh) * 2015-12-31 2016-03-23 百度在线网络技术(北京)有限公司 文言文搜索方法和装置
CN106095742A (zh) * 2016-06-20 2016-11-09 北京金山安全软件有限公司 一种文本内容生成方法与服务器
CN107239441B (zh) * 2017-04-26 2020-09-01 广东小天才科技有限公司 一种词典释义方法及装置
CN107451114A (zh) * 2017-06-28 2017-12-08 广州尚恩科技股份有限公司 一种古汉语语义分析方法及其系统
CN107992466A (zh) * 2017-10-09 2018-05-04 中国电子科技集团公司第二十八研究所 一种基于句式控制的宋词载体文本信息隐藏方法、系统
CN109977390B (zh) * 2017-12-27 2023-11-03 北京搜狗科技发展有限公司 一种生成文本的方法及装置
CN109783825B (zh) * 2019-01-07 2020-04-28 四川大学 一种基于神经网络的古文翻译方法
CN110096701A (zh) * 2019-04-16 2019-08-06 珠海格力电器股份有限公司 消息转换处理方法、装置、存储介质及电子设备
CN113299274B (zh) * 2021-05-18 2024-03-01 平安科技(深圳)有限公司 白话文与文言文互译及语音合成方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251839A (zh) * 2008-03-26 2008-08-27 华东师范大学 古文字与现代汉字之间的转换方法
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167092A (ja) * 1999-12-13 2001-06-22 Nec Corp 翻訳サーバシステム
CN101533388A (zh) * 2008-03-11 2009-09-16 林烈诚 原文注释显示方法
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251839A (zh) * 2008-03-26 2008-08-27 华东师范大学 古文字与现代汉字之间的转换方法
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
古今汉语对齐研究;林准;《中国优秀硕士学位论文全文数据库 信息科技辑》;20071115;第7-9、15-17、33页 *

Also Published As

Publication number Publication date
CN103955454A (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
CN103955454B (zh) 一种在白话文与文言文之间进行文体转换的方法和设备
Bashori et al. Web-based language learning and speaking anxiety
Hawhee Rhetoric's sensorium
Moores Digital orientations:“Ways of the hand” and practical knowing in media uses and other manual activities
Stockwell The positioned reader
Van Leeuwen et al. Notes towards a semiotics of kinetic typography
US9396230B2 (en) Searching and content delivery system
JP2016045420A (ja) 発音学習支援装置およびプログラム
US20140051042A1 (en) Speech learning apparatus and method
Sha AI-based chatterbots and spoken English teaching: a critical analysis
Torrente et al. Introducing accessibility features in an educational game authoring tool: The< e-Adventure> experience
Gius et al. Foreword to the special issue “A shared task for the digital humanities: annotating narrative levels”
Goodman Between celebrity and glory? Textual after-image in late eighteenth-century France
Banerji et al. Postcolonial Pedagogies: Recasting the Guru–Shishya Parampara
Wardak Traces on the walls and traces in the air: Inscriptions and gestures in educational design team meetings
JP6858721B2 (ja) コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法
Niklaus et al. Digital Reading Rulers: Evaluating Inclusively Designed Rulers for Readers With Dyslexia and Without
Vermeeren Chinese Calligraphy in the Digital Realm: Aesthetic Perfection and Remediation of the Authentic
Laws Moving Bodies, Piano Body
Edlund In search for the conversational homunculus: serving to understand spoken human face-to-face interaction
Svich Playwriting as Editing: Lines of Memory
Hingorani Ethnicity and actor training: A British Asian actor prepares
Weston Answer the Question: Voice training, habitus and political intervention
Gonçalves New paradigms for the design and evaluation of creative writing user interfaces
Zhang et al. EVOV: A video recommendation system to support sustainable vocabulary learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant