CN1512395A - 一种开放式自然语言模板的创建方法 - Google Patents
一种开放式自然语言模板的创建方法 Download PDFInfo
- Publication number
- CN1512395A CN1512395A CNA021592403A CN02159240A CN1512395A CN 1512395 A CN1512395 A CN 1512395A CN A021592403 A CNA021592403 A CN A021592403A CN 02159240 A CN02159240 A CN 02159240A CN 1512395 A CN1512395 A CN 1512395A
- Authority
- CN
- China
- Prior art keywords
- natural language
- template
- language template
- original shape
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种开放式自然语言模板的创建方法,该方法包括以下步骤:1)根据业务类型及其功能描述确定业务信息,并提取该业务对应的必要自然语言原形;2)将步骤1)所述的自然语言原形中的随业务动态变化的所有文字分别设置为不同名称且随业务动态变化实时修改的语义槽;3)按业务信息的自然语言原形语法规则,将自然语言原形文字与一个或一个以上语义槽组合,作为自然语言模板保存。本发明的这种开放式自然语言模板的创建方法,该方法能够简单、灵活创建自然语言模板,而不再局限于提供一些固定的语言模板。利用本发明方法不需要进行任何编码,便可以迅速创建满足任何业务及功能需求呈现的开放式自然语言模板。
Description
技术领域
本发明涉及计算机对自然语言的处理技术,特别涉及一种开放式自然语言模板的创建方法。
背景技术
目前,随着计算机的普及,人们对智能化人机交互系统、机器翻译系统及其他特定信息处理系统的需求不断增多,对系统相关信息进行处理并加以智能化和人性化的呈现成为一个被广泛关注的领域,而作为人类最基本的信息交流手段之一自然语言的智能化呈现,则是该领域中的一个热点。
现有的智能化人机交互系统中,往往是一对一的方式。一般的情况是用计算机的程序语言实现各种约定好的语言逻辑,这需要完全按照约定好的语言逻辑来编写程序语言,同时要求在人机交互过程中,必须按照约定好的语言逻辑来输入自然语言,这种方法实现过程繁琐且无法适应灵活多变的交互引导需求。
现有的机器翻译系统中,大多只能按照程序中所描述的语法、语义对翻译后的词汇进行重新组合,并形成最终的目标语言。
虽然有极少数系统在形成目标语言过程中还引入了一定的语言模板概念,给出了固定的语言模板,以填空为基本方式形成目标语言。这样的固定语言模板,对于简单的特定业务或专业翻译有一定的成效。但是,固定语言模板只能针对某些特定的业务或特定的翻译专业,这就需要对每种要求自然语言呈现的业务或翻译的专业分别进行程序开发,并要求开发人员具有多种业务知识和所翻译专业的专业知识,从而造成大量的人力、物力的资源浪费。而且,由于面向的是最终用户,产品一旦发布便难以对即定的语法关系及语言模板进行调整,而其要求自然语言呈现的对象却是一个无限的不确定领域,因此采用固定的语言模板难以生成符合人的表述习惯的自然语言。
发明内容
有鉴于此,本发明的目的在于提供一种开放式自然语言模板的创建方法,该方法能够简单、灵活创建自然语言模板,而不再局限于提供一些固定的语言模板。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种开放式自然语言模板的创建方法,该方法包括以下步骤:
1)根据业务类型及其功能描述确定业务信息,并提取该业务对应的必要自然语言原形;
2)将步骤1)所述的自然语言原形中的随业务动态变化的所有文字分别设置为不同名称且随业务动态变化实时修改的语义槽;
3)按业务信息的自然语言原形语法规则,将自然语言原形文字与一个或一个以上语义槽组合,作为自然语言模板保存;
该方法可以进一步将生成的自然语言模板以字符串形式保存在文件或数据库中。并可以由用户直接在文件或数据库中修改自然语言模板的自然语言原形文字和语义槽。
该方法步骤3)可以进一步包括按业务需求将自然语言原形语句直接作为自然语言模板保存。
步骤3)还可以包括按业务需求将自然语言原形文字与表达同一语义且重复出现的一个以上语义槽组合成语义块,作为自然语言模板保存。
步骤3)还可以按业务需求将自然语言原形文字与一个以上语义块进行嵌套组合,作为自然语言模板保存。
该方法还可以进一步包括对生成的自然语言模板进行检验,对于不完整或不符合自然语言模板编写格式的自然语言模板给出错误信息。
该方法可以进一步包括统计各个语义块重复出现的次数,并将统计结果作为语义块的一部分保存。
由上述的技术方案可见,本发明的这种开放式自然语言模板的创建方法,该方法能够简单、灵活创建自然语言模板,而不再局限于提供一些固定的语言模板。利用本发明方法不需要进行任何编码,便可以迅速创建满足任何业务及功能需求呈现的开放式自然语言模板。
附图说明
图1为本发明开放式自然语言模板创建方法的过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
参见图1,图1为本发明开放式自然语言模板创建方法的过程示意图。如图1所示,本发明开放式自然语言模板创建方法的具体实现过程为:
步骤101,首先确定业务信息,并提取自然语言原形;也就是明确当前需要为什么系统创建语言模板,其涉及什么业务,又需要为哪些功能描述设计语言模板,并将该业务中必须用到和可能用到的语言提取为自然语言原形。
步骤102,将步骤101所述的自然语言原形中信息变量为设置语义槽;即将自然语言原形中跟随业务信息变化而动态变化的文字设置为语义槽。
步骤103,按业务信息的自然语言原形语法规则,将自然语言原形文字与语义槽组合,作为自然语言模板保存。也就是将自然语言原形中的跟随业务信息变化而动态变化的文字用语义槽替换,组合为自然语言模板;还可以按业务需求将自然语言原形中没有信息变量的语句作为自然语言模板保存;也可以按业务需求将自然语言原形文字与表达同一语义且重复出现的一个以上语义槽组合成语义块,作为自然语言模板保存;更可以按业务需求将自然语言原形文字与一个以上语义块进行嵌套组合,作为自然语言模板保存。可见,本发明生成的自然语言模板的灵活性和多样性,根据该模板生成的自然语言更符合人们的表述习惯。
另外,在创建自然语言模板的同时,统计各个语义块重复出现的次数,并将统计结果作为语义块的一部分保存,以便于用自然语言模板生成自然语言。
同时,为了防止误写等原因造成自然语言模板的错误,在模板生成后对其进行检验,对于不完整或不符合自然语言模板编写格式的自然语言模板给出错误信息,提示修改模板,保证生成的自然语言模板的准确性。
生成的自然语言模板可以以字符串形式保存在文件或数据库中,读取更加的方便。
当业务变化时,该已创建的自然语言模板可由用户直接修改自然语言模板的自然语言原形文字和语义槽。例如,由用户根据业务需要直接在文件或数据库中修改自然语言模板的自然语言原形文字和语义槽,体现了本发明的开放性。
以下结合开放式自然语言模板在语音邮件系统中的应用实例,有针对性的对开放式自然语言模板创建的具体过程进行说明。这里的语音邮件系统是指通过电话与系统的语音交互来进行邮件读和写的系统。
要实现通过电话与系统的语音交互,需要在语音邮件系统投入使用之前,在系统中通过建立自然语言模板,在语音邮件系统使用时,将自然语言模板解析生成自然语言播放给用户。建立自然语言模板是建立语音邮件系统的一个重要环节。其具体应用过程为:
第一步,在创建自然语言模板之前,首先需要明确当前所要创建语言模板所涉及的业务范围及其业务动态信息。在本实施例中,业务范围是指邮件处理,业务动态信息是指邮件主题、邮件正文、发信人等与邮件相关的各种系统原始信息。
第二步,根据动态信息存储模块中存储的动态信息涉及业务的语言呈现需要,整理提取各种描述系统服务和业务状态的自然语言原形并将其中的信息变量设置为语义槽,如“您现在有五封邮件,一封来自张三、两封来自李四、两封来自王五”。本实施例中语义槽用[]来标识,则其中总邮件数“五”设置为语义槽[AllMailNum]、一个用户发送的邮件总数“一”或“两”设置为语义槽[UserMailNum]、发送邮件的用户“张三”、“李四”或“王五”设置为语义槽[UserMailName],即能够从系统中获得信息值的信息变量可以设置为语义槽。这些信息变量有些是直接从系统能够获得的信息,如邮件来源“张三”等,有些是需要系统经过统计获得的信息,如邮件的封数“五”等。这两类信息共同满足自然语言原形对系统各种描述的需要,另外有些语言原形如“您现在没有任何邮件”与系统中保存的系统信息相同,不需要语义槽支持,保留语言原形。
第三步,将自然语言原形与语义槽按照自然语言原形的语法规则,用语义槽替换在自然语言原形中与之对应的词汇,组合成与自然语言原形对应的自然语言模板保存,如表一中的“您现在有[AllMailNum]封邮件”。
也可以按业务需求将自然语言原形文字与表达同一语义且重复出现的多个语义槽组合成语义块,作为自然语言模板保存,本实施例中语义块用{}来标识,如表一中的{[UserMailNum]封来自[UserMailName]、[@UserNum]}其中,[@UserNum]是循环次数控制槽,是系统统计的该语义块重复出现的次数,在语言模板解析时不作为语义输出。例如语言原形为“一封来自张三、两封来自李四、两封来自王五”系统给[@UserNum]赋值3,表示该语义块循环出现3次。
在这里,循环次数控制槽是显式用法,在语义块中还可以用隐式用法,即将当前语义块中第一个语义槽与该语义块重复出现的次数相关联,而不写入语义块。两种方法实现都比较简单,显式方法比较直观。
自然语言原形 | 自然语言模板 | |
例一 | 您现在有五封邮件,一封来自张三、两封来自李四、两封来自王五 | 您现在有[AllMailNum] 封邮件,{[UserMailNum]封来自[UserMailName]、[@UserNum]} |
例二 | 您现在没有任何邮件 | 您现在没有任何邮件 |
表一
还可以按业务需求将自然语言原形文字与一个以上语义块进行嵌套组合,作为自然语言模板保存。
另外有些语言原形与系统中保存的系统信息相同,不含语义槽,直接用做自然语言模板,如表一中的“您现在没有任何邮件”。
最终生成的自然语言模板主要由模版要素及文字串组成,最基本的模版要素包括“语义槽”、“语义块”及“块循环记数”等三类,如表二所示。
要素名称 | 要素符号 | 示例 | 说明 |
语义槽 | [] | [UserMailNum] | 定义一个变量名为“UserMailNum”的语义槽 |
语义块 | {} | {[UserMailNum]封来自[UserMailName]、[@UserNum]} | 表明“N封来自某人、”这一语义,根据邮件情况可能出现多次;如以下一种可能的表述“一封来自张三、两封来自李四、两封来自王五” |
块循环记数 | [@LoopCount] | 有[MailBoxNum]个叫[MailBoxName]的人,如果是{[FirstDept][SecondDept]}的请说第[@LoopCount]人,} | 是一个提示语语义块,当收到两个同名人发送的邮件时,提示用户先读第一人,再读第二人。在该例中块循环计数要素不仅用来记录了语义块中词汇本次循环的第几次(人)数,而且构成语言模板语义的一部分 |
表二
上表中三种用于表示基本模版要素的符号,仅为系统应用实施例中的一种,在实际系统中可用其他任意的符号实现表示上述模版要素。
利用上述三种基本的模板要素,基本能够实现各种常规自然语言模板的编写,但在编写某些特殊语言逻辑时可能需要对上述三种模版要素特别是语义块进行多层的嵌套组合,或使用在上述三种模板基础上演化而来的新的模板要素。
除了模板要素具有开放性的特点,构成模板要素的内容,特别是语义槽中的槽名,也具有开放式的特点,用户根据不同业务的要求或喜好,可随意的增添新的语义槽或改变槽名。
每个语义块“{}”系统都会为之分配一个默认的块循环计数槽[@LoopCount],并且在调用{}时系统自动将其初始化为1。块循环计数槽[@LoopCount]在解析过程中会自动记录语义块内容被循环使用的次数,并可供生成提示语使用,如表二中{[@LoopCount]},在第一步解析,也就是生成第一句提示语时其为1;第二步解析,也就是生成第二句提示语时其为2。
此外在编写自然语言模板时一般还需要为每个语义块“{}”指定一个与块循环记数[@LoopCount]相对应的用来动态指定语义块循环总数循环次数控制槽,如表一例一中的[@UserNum],该类控制槽的槽名以“@”作为前缀,并且通常是关于语义块需要重复语义的统计信息。
为了防止误写等原因造成自然语言模板的错误,本实施例在模板生成后对其进行检验,对于不完整或不符合自然语言模板编写格式的自然语言模板给出错误信息,提示修改模板,保证生成的自然语言模板的准确性。
本实施例生成的自然语言模板最终是以字符串形式保存在语音邮件系统服务器的数据库中,读取更加方便。这样,当业务变化时,可以直接在数据库中修改自然语言模板的自然语言原形文字和语义槽。
由上述的实施例可见,本发明为用户提供了一种简单、灵活的创建开放式自然语言模板的方法,而不局限于提供一些固定的语言模板。利用本发明方法不需要进行任何编码,便可以迅速创建满足任何业务及功能需求呈现的开放式自然语言模板。
Claims (8)
1、一种开放式自然语言模板的创建方法,其特征在于,该方法包括以下步骤:
1)根据业务类型及其功能描述确定业务信息,并提取该业务对应的必要自然语言原形;
2)将步骤1)所述的自然语言原形中的随业务动态变化的所有文字分别设置为不同名称且随业务动态变化实时修改的语义槽;
3)按业务信息的自然语言原形语法规则,将自然语言原形文字与一个或一个以上语义槽组合,作为自然语言模板保存;
2、如权利要求1所述的开放式自然语言模板的创建方法,其特征在于:该方法进一步将生成的自然语言模板以字符串形式保存在文件或数据库中。
3、如权利要求2所述的开放式自然语言模板的创建方法,其特征在于,该方法进一步包括:由用户直接在文件或数据库中修改自然语言模板的自然语言原形文字和语义槽。
4、如权利要求1所述的开放式自然语言模板的创建方法,其特征在于:该方法步骤3)进一步包括按业务需求将自然语言原形中语句直接作为自然语言模板保存。
5、如权利要求1所述的开放式自然语言模板的创建方法,其特征在于:该方法步骤3)进一步包括按业务需求将自然语言原形文字与表达同一语义且重复出现的一个以上语义槽组合成语义块,作为自然语言模板保存。
6、如权利要求5所述的开放式自然语言模板的创建方法,其特征在于:该方法步骤3)进一步包括按业务需求将自然语言原形文字与一个以上语义块进行嵌套组合,作为自然语言模板保存。
7、如权利要求1所述的开放式自然语言模板的创建方法,其特征在于:该方法进一步包括对生成的自然语言模板进行检验,对于不完整或不符合自然语言模板编写格式的自然语言模板给出错误信息。
8、如权利要求5所述的开放式自然语言模板的创建方法,其特征在于:该方法进一步包括统计各个语义块重复出现的次数,并将统计结果作为语义块的一部分保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA021592403A CN1512395A (zh) | 2002-12-27 | 2002-12-27 | 一种开放式自然语言模板的创建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA021592403A CN1512395A (zh) | 2002-12-27 | 2002-12-27 | 一种开放式自然语言模板的创建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1512395A true CN1512395A (zh) | 2004-07-14 |
Family
ID=34237380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA021592403A Pending CN1512395A (zh) | 2002-12-27 | 2002-12-27 | 一种开放式自然语言模板的创建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1512395A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541844A (zh) * | 2010-11-01 | 2012-07-04 | 微软公司 | 为第三方内容馈源应用提供多语言翻译 |
CN103488626A (zh) * | 2013-09-03 | 2014-01-01 | 深圳Tcl新技术有限公司 | 一种对终端的与参数名称映射的字符串纠错的方法和装置 |
CN107562734A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 翻译模板确定、机器翻译方法及装置 |
CN108090041A (zh) * | 2016-11-22 | 2018-05-29 | 北京国双科技有限公司 | 一种广告创意的生成方法及装置 |
CN109344231A (zh) * | 2018-10-31 | 2019-02-15 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN110232189A (zh) * | 2019-06-11 | 2019-09-13 | 上海证大喜马拉雅网络科技有限公司 | 语义解析方法、装置、设备和存储介质 |
CN112115245A (zh) * | 2020-08-31 | 2020-12-22 | 深圳市欢太科技有限公司 | 查询语句处理方法、装置、终端及存储介质 |
-
2002
- 2002-12-27 CN CNA021592403A patent/CN1512395A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541844A (zh) * | 2010-11-01 | 2012-07-04 | 微软公司 | 为第三方内容馈源应用提供多语言翻译 |
US8965751B2 (en) | 2010-11-01 | 2015-02-24 | Microsoft Corporation | Providing multi-lingual translation for third party content feed applications |
CN102541844B (zh) * | 2010-11-01 | 2015-11-25 | 微软技术许可有限责任公司 | 为第三方内容馈源应用提供多语言翻译 |
CN103488626A (zh) * | 2013-09-03 | 2014-01-01 | 深圳Tcl新技术有限公司 | 一种对终端的与参数名称映射的字符串纠错的方法和装置 |
CN107562734A (zh) * | 2016-06-30 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 翻译模板确定、机器翻译方法及装置 |
CN108090041A (zh) * | 2016-11-22 | 2018-05-29 | 北京国双科技有限公司 | 一种广告创意的生成方法及装置 |
CN109344231A (zh) * | 2018-10-31 | 2019-02-15 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN109344231B (zh) * | 2018-10-31 | 2021-08-17 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN110232189A (zh) * | 2019-06-11 | 2019-09-13 | 上海证大喜马拉雅网络科技有限公司 | 语义解析方法、装置、设备和存储介质 |
CN110232189B (zh) * | 2019-06-11 | 2023-06-02 | 上海喜马拉雅科技有限公司 | 语义解析方法、装置、设备和存储介质 |
CN112115245A (zh) * | 2020-08-31 | 2020-12-22 | 深圳市欢太科技有限公司 | 查询语句处理方法、装置、终端及存储介质 |
CN112115245B (zh) * | 2020-08-31 | 2024-06-04 | 深圳市欢太科技有限公司 | 查询语句处理方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beazley et al. | Python cookbook: Recipes for mastering Python 3 | |
CN107783949B (zh) | 一种ppt文档的处理方法和装置 | |
CN102279847B (zh) | 软件系统国际化方法和装置 | |
CN105760534A (zh) | 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法 | |
CN111178061B (zh) | 一种基于编码转换的多国语分词方法 | |
Moskowich | Genre and change in the Corpus of History English Texts | |
CN111916063A (zh) | 基于bpe编码的序列化方法、训练方法、系统及存储介质 | |
CN1512395A (zh) | 一种开放式自然语言模板的创建方法 | |
CN110674297A (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN101777043A (zh) | 一种文字转换方法及装置 | |
JP2009098952A (ja) | 情報検索システム | |
CN101382931A (zh) | 一种用于电子、信息及通信系统的交换内码及其应用 | |
CN112905450A (zh) | 基于模板变量替换的芯片寄存器自动开发系统 | |
CN1776673A (zh) | 一种pdf文档到xml文档转换的方法 | |
CN110968999B (zh) | 一种自动化实现docx文件细粒度与多样化的批注方法和系统 | |
CN1270363A (zh) | 数据库的管理方法 | |
CN115617841A (zh) | 一种数据查询语句的生成方法、系统、设备及存储介质 | |
TW501030B (en) | Machine translation system and translation server and client thereof | |
CN1512396A (zh) | 一种开放式自然语言模板的解析方法 | |
CN114419645A (zh) | 一种基于ai的合同智能解析方法 | |
CN1512398A (zh) | 一种开放式自然语言动态生成系统 | |
CN108664604B (zh) | 一种实现数据最小拆分储存和业务调用呈现的方法 | |
CN1220971C (zh) | 一种自然语言的组织和识别方法 | |
CN112417825A (zh) | 一种新闻稿撰写辅助系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |