CN107526726B - 一种将中文流程模型自动转换为英文自然语言文本的方法 - Google Patents
一种将中文流程模型自动转换为英文自然语言文本的方法 Download PDFInfo
- Publication number
- CN107526726B CN107526726B CN201710620778.6A CN201710620778A CN107526726B CN 107526726 B CN107526726 B CN 107526726B CN 201710620778 A CN201710620778 A CN 201710620778A CN 107526726 B CN107526726 B CN 107526726B
- Authority
- CN
- China
- Prior art keywords
- text
- natural language
- english
- flow
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种将中文流程模型自动转换为英文自然语言文本的方法,属于流程挖掘领域。本发明首先使用标签文本信息解析技术,获取并解析流程模型中节点和边上的文本信息;然后使用流程模型结构转换技术,将流程模型结构转换成流程结构树;然后使用领域词库构建技术,构建流程模型的领域词库;然后使用标签文本信息翻译技术,将中文的标签文本翻译成英文;然后使用翻译文本筛选技术,根据领域词库筛选正确的文本翻译;然后使用跨语言语法结构转换技术,将中文的语法结构转换成英文的语法结构,并使用语法树生成描述节点行为的自然语言短文本;最后使用自然语言文本生成技术,生成英文自然语言文本。
Description
技术领域
本发明属于流程挖掘领域,具体涉及一种将中文流程模型自动转换为英文自然语言文本的方法。
背景技术
当前由中文的流程模型生成英文的自然语言文本主要包括两类方案:一类是借助流程专家的帮助,使其对中文的流程模型进行阅读和理解,然后生成英文的自然语言文本。第二类就是先使用现有流程模型生成中文自然语言文本的技术,先由中文的流程模型生成中文的自然语言文本,然后使用在线翻译工具将中文自然语言文本翻译成英文的自然语言文本。
第一类方法是借助流程专家的帮助,通过其对中文流程模型的理解,然后使用英文表达流程模型,进而生成英文的自然语言文本,这种方法生成自然语言文本的质量高,可读性强,但是人工翻译的效率低,当流程模型复杂时翻译的周期长。
第二类方法首先使用现有流程模型生成中文自然语言文本的方法,由中文的流程模型生成中文的自然语言文本,然后使用在线翻译工具,将中文自然语言文本翻译成英文,这种方法实现简单,实现效率高,但是通用翻译工具不能保证领域词汇的翻译正确,也不能保证生成文本与流程模型的一致性。
综合分析两类方法,第一类生成的中文自然语言文本更正确,但是寻找这种流程专家的难度大。第二类方法使用在线翻译工具中文自然语言文本进行翻译,但是这样并不能保证领域词汇翻译的正确性,不能保证文本和模型的一致性。从整体来看本发明所提出的技术与思路是创新的,是现有自然语言文本生成方法无法实现的。
现有从中文流程模型生成英文自然语言文本包括传统人工生成,在线翻译工具生成等方案。其技术缺点主要体现在以下几个方面:
传统人工生成方案无法解决时间周期长,生成效率低的问题。随着流程模型规模的增大,对于流程专家来说,不能充分的理解流程模型的含义,无法保证每次生成的文本都正确,而且人工生成的成本高,效率低。
在线翻译工具生成方案首先使用流程模型生成中文自然语言文本,然后使用在线翻译工具将中文自然语言文本翻译成英文,使用通用的在线翻译工具对中文文本翻译,不能保证领域词汇翻译正确,而且不能保证生成的英文文本与流程模型的一致性,影响用户对流程模型的理解。
发明内容
针对现有技术中存在的上述技术问题,本发明提出了一种将中文流程模型自动转换为英文自然语言文本的方法,可以生成语法结构正确,可读性强的英文自然语言文本,设计合理,克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
一种将中文流程模型自动转换为英文自然语言文本的方法,采用标签文本信息解析模块、流程模型结构转换模块、领域词库构建模块、标签文本信息翻译模块、翻译文本筛选模块、跨语言语法结构转换模块以及自然语言文本生成模块;
标签文本信息解析模块,被配置为用于获取流程模型中模型元素的文本信息,并对模型元素的文本信息解析,获取包括主语、动词、宾语在内的标签文本信息;
流程模型结构转换模块,被配置为用于将流程模型结构转换成流程结构树;
领域词库构建模块,被配置为用于根据流程的行业领域,构建领域词库;根据流程模型的行业领域,对所有该领域的词汇汇总,并根据所属行业对领域词汇翻译,其中,领域词库中每一项描述了某个领域的某个词汇和该词汇的解释翻译;
标签文本信息翻译模块,被配置为用于对解析之后的标签文本信息进行翻译,将中文的标签文本翻译成英文的标签文本;
翻译文本筛选模块,被配置为用于筛选翻译的文本,使用从流程模型构建的领域词库,对翻译的结果筛选,根据流程模型的领域和领域词库中文本的解释翻译,选择最合适的翻译文本;
跨语言语法结构转换模块,被配置为用于对翻译之后的英文标签文本进行语法结构转换,转换成英文的语法结构和表达习惯,然后使用语法树和这些语法结构单元生成语法结构正确的描述节点的自然语言短文本;
自然语言文本生成模块,被配置为用于使用流程结构树和自然语言短文本构建带注释的流程结构树,然后通过带注释的流程结构树生成英文自然语言文本;
所述的将中文流程模型自动转换为英文自然语言文本的方法,包括如下步骤:
步骤1:通过标签文本信息解析模块,获取并解析流程模型中模型元素的文本信息;
步骤2:通过流程模型结构转换模块,将流程模型结构转换成流程结构树;
步骤3:通过领域词库构建模块,构建流程模型的领域词库;
步骤4:通过标签文本信息翻译模块,将中文的标签文本翻译成英文的标签文本;
步骤5:通过翻译文本筛选模块,根据领域词库筛选正确的文本翻译;
步骤6:通过跨语言语法结构转换模块,将中文的语法结构转换成英文的语法结构,并使用深度语法树生成描述节点行为的自然语言短文本;
步骤7:通过自然语言文本生成模块,生成英文自然语言文本。
优选地,在步骤2中,具体包括如下步骤:
步骤2.1:流程结构遍历;
使用深度优先搜索遍历流程模型中的节点和边;
步骤2.2:流程结构划分;
使用RPST算法划分流程模型的结构;
步骤2.3:流程结构树构造;
将流程模型分解成具有层次关系的子流程片断;根据子流程片断之间的关系构造流程结构树;其中,树中节点表示子流程片断,树的层次关系表示子流程片断之间的包含嵌套关系。
本发明所带来的有益技术效果:
(1)标签文本信息的解析技术:现有自然语言分析方法生成文本的过程没有考虑文本的内容和语法结构,生成文本的成分简单,并且不能保证模型文本的一致性;本发明通过对标签文本信息的获取和解析,保证了模型文本的一致性。
(2)基于流程结构树的流程结构转换技术:自然语言分析方法和人工生成文本的方法基于流程模型的局部结构描述流程模型,没有将流程模型作为一个整体结构;本发明使用流程结构树来表示流程模型的结构。将流程模型划分成具有层次的流程片断,每个流程片段表示模块化的子流程,这样可以更准确的刻画流程模型的结构。
(3)领域词库的构建技术:本发明根据流程模型的领域,构建领域词库,对流程模型中的领域词汇汇总解释,根据词汇的领域对词汇翻译和解释,使文本的含义更正确、更清楚的表达出来,这是人工生成和在线翻译工具不能完成的。
(4)标签文本翻译技术:本发明将流程模型中的标签文本进行解析,获取了主语、动词、宾语、从句等信息,然后使用百度翻译接口对这些信息进行翻译,实现了中文到英文的自动翻译;和人工翻译相比,能够生成高效率的生成中文对应的英文文本。
(5)翻译文本的筛选技术:现有的通用翻译接口会将文本翻译成多个目标文本,本发明可以从多个翻译结果中选择最优的翻译,通过使用翻译文本筛选技术,根据领域词库中文本的含义,从多个翻译文本中选择最优的翻译。
(6)跨语言语法结构转换技术:本发明使用跨语言语法结构转换技术对中文的语法结构进行转换,使得生成的文本符合英文的语法结构和表达习惯;和人工转换相比,能够提高效率,而且生成语法结构正确的标签文本。
(7)基于语法树的自然语言生成技术:本发明使用语法树和跨语言语法结构转换之后的文本信息生成描述模型元素的的短文本,和之前的技术相比,能够生成语法正确,语义完整的语句;通过对流程结构树中的结构描述,可以保证模型文本的一致性,这样生成的文本能正确的描述流程模型模型元素,也能正确表达流程模型的结构。
附图说明
图1为本发明方法的流程图。
图2为自行车厂商BPMN流程图。
图3为实验结果图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明从中文流程模型生成英文自然语言文本,基于方案的基本内容,从功能角度出发给出详细的功能模块,并对每个功能模块给出详细的实现技术方案。本发明的主要功能模块包括:流程模型标签文本信息解析模块、流程模型结构转换模块、领域词库的构建模块、标签文本的翻译模块、翻译文本筛选模块、跨语言语法结构转换模块和自然语言文本生成模块,如图1所示。
1、流程模型标签文本信息解析模块
该模块主要是获取和解析流程模型中模型元素文本信息。流程模型中节点和边上都会携带标签文本信息,需要对这些信息进行获取和解析,这些信息是自然语言文本的原始数据来源。为了生成语法正确的自然语言文本,使用语义角色标注解析文本信息,获得模型元素的的主语、动词、宾语、从句等信息。
2、流程模型结构转换模块
该模块主要完成流程模型结构的转换。流程模型是以图的形式表示的,通过对图的深度优先遍历,在遍历过程中使用RPST(the refined process structure tree)算法将流程模型划分成具有层次的流程片断,每流程片断有一个开始节点和一个结束节点。通过流程片断之间的关系,将其组织成具有层次关系的树,也就是流程结构树。
3、领域词库的构建模块
该模块主要完成流程模型领域词库的构建,流程模型描述了行业领域的操作细节和规范,根据流程模型所属的行业,构建行业领域的领域词词库。在构建领域词库时,根据领域词汇所属的领域,使用词汇和词性对词汇进行对照翻译,对于词库中的每一项,包含词汇的中文表示和在本领域下若干英文表示,领域词库中的每一项代表领域中的一个词汇,例如餐饮行业的部分领域词如表1所示。
表1餐饮行业领域词库
4、标签文本的翻译模块
该模块主要完成标签文本信息的翻译,因为流程模型中节点和边上的信息都是中文的,而需要生成的自然语言文本是英文的,所以需要将这些文本中的信息进行翻译。经过流程模型标签文本信息的获取解析之后。节点和边上的文本信息被解析成主语、动词、宾语、从句等信息,使用百度翻译等提供的接口,对这些信息进行翻译,可以完成中文到英文的自动翻译。
5、翻译文本筛选模块
该模块主要完成翻译文本的筛选,使用标签文本的翻译模块对流程模型中的中文文本信息翻译,翻译工具会返回中文文本对应的多个英文文本,这里使用领域词库,从多个英文文本翻译中选择一个最优的翻译。
6、跨语言语法结构转换模块
中文与英文之间的表达方式,语法习惯有很多不同,例如中文多使用短句进行文本的表达,而英文中多使用长句进行文本的表达。再比如中文是有因到果,由事实到结论,而英文是判断和结论在前,描述在后。在进行标签文本的翻译之后,语法结构仍然是中文的,为了获取语法正确的文本,需要使用跨语言语法结构转换技术,对其语法结构进行调整,进行语法调整之后,使用深度语法树生成对应某一个节点的短文本。这些短文本描述的是流程模型中的一个节点或一条边,这些信息是最后自然语言文本的基本组成部分。
7、自然语言表达文本生成技术模块
在跨语言语法结构转换之后,生成的短文本描述的流程模型中的一个节点或一条边,这些短文本,没有描述流程模型的结构。在流程结构树中包含流程结构的所有信息,流程结构树中的树叶节点表示的流程模型中的一条边,可以使用跨语言语法结构生成的短文本进行描述,这样就生成了既包含结构信息,又包含文本信息的带注释的流程结构树。
在带注释的流程结构树,文本信息存在与叶子节点中,描述的是流程模型中的节点和边的行为,这些文本并没有描述流程模型的结构信息,因此需要通过对带注释的流程结构树进行遍历,根据非叶子节点的类型对流程结构和其孩子节点的文本进行描述,并保证文本的顺序和流程模型中节点出现的顺序一致。因此本模块也是本发明的核心也是关键。
领域词库的构建技术:本发明根据流程模型中的文本信息构建领域词库。通过流程模型所属的领域,存储领域中的词汇及其含义,构建与流程模型相关的领域词库,保证领域词汇的翻译正确。
标签文本的翻译技术:本发明没有对整段的文本翻译,而是对标签文本信息中所包含的主语、动词、宾语、从句、等单独进行翻译,并接入百度翻译等接口,完成了中文到英文的自动翻译。
翻译文本的筛选技术:在进行标签文本的翻译中,翻译接口会将文本翻译成多个含义,为了从多个翻译结果中选取最优的结果,使用翻译文本筛选技术,根据领域词库中文本的含义,从标签文本翻译结果中选择一个最优的结果。
跨语言语法结构转换技术:本发明可以进行中文到英文的语法结构的转换,通过对中文中的各个语法结构进行对应转换,能够保证对应的英文的语法结构的正确性。这样能够为生成语法正确的自然语言文本提供保证。
本发明是否经过实验、模拟、使用而证明可行,结果如何
本发明以BPMN流程模型为例,通过实验的方式,将自行车厂商的BPMN流程模型转换成英文自然语言表达。对于如图2所示的中文流程,使用本发明的转换方法,将中文BPMN流程模型转换成英文自然语言表法,实验结果如图3所示。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种将中文流程模型自动转换为英文自然语言文本的方法,其特征在于:采用标签文本信息解析模块、流程模型结构转换模块、领域词库构建模块、标签文本信息翻译模块、翻译文本筛选模块、跨语言语法结构转换模块以及自然语言文本生成模块;
标签文本信息解析模块,被配置为用于获取流程模型中模型元素的文本信息,并对模型元素的文本信息解析,获取包括主语、动词、宾语在内的标签文本信息;
流程模型结构转换模块,被配置为用于将流程模型结构转换成流程结构树;
领域词库构建模块,被配置为用于根据流程的行业领域,构建领域词库;根据流程模型的行业领域,对所有该领域的词汇汇总,并根据所属行业对领域词汇翻译,其中,领域词库中每一项描述了某个领域的某个词汇和该词汇的解释翻译;
标签文本信息翻译模块,被配置为用于对解析之后的标签文本信息进行翻译,将中文的标签文本翻译成英文的标签文本;
翻译文本筛选模块,被配置为用于筛选翻译的文本,使用从流程模型构建的领域词库,对翻译的结果筛选,根据流程模型的领域和领域词库中文本的解释翻译,选择最合适的翻译文本;
跨语言语法结构转换模块,被配置为用于对翻译之后的英文标签文本进行语法结构转换,转换成英文的语法结构和表达习惯,然后使用语法树和这些语法结构单元生成语法结构正确的描述节点的自然语言短文本;
自然语言文本生成模块,被配置为用于使用流程结构树和自然语言短文本构建带注释的流程结构树,然后通过带注释的流程结构树生成英文自然语言文本;
所述的将中文流程模型自动转换为英文自然语言文本的方法,包括如下步骤:
步骤1:通过标签文本信息解析模块,获取并解析流程模型中模型元素的文本信息;
步骤2:通过流程模型结构转换模块,将流程模型结构转换成流程结构树;具体包括如下步骤:
步骤2.1:流程结构遍历;
使用深度优先搜索遍历流程模型中的节点和边;
步骤2.2:流程结构划分;
使用RPST算法划分流程模型的结构;
步骤2.3:流程结构树构造;
将流程模型分解成具有层次关系的子流程片断;根据子流程片断之间的关系构造流程结构树;其中,树中节点表示子流程片断,树的层次关系表示子流程片断之间的包含嵌套关系;
步骤3:通过领域词库构建模块,构建流程模型的领域词库;
步骤4:通过标签文本信息翻译模块,将中文的标签文本翻译成英文的标签文本;
步骤5:通过翻译文本筛选模块,根据领域词库筛选正确的文本翻译;
步骤6:通过跨语言语法结构转换模块,将中文的语法结构转换成英文的语法结构,并使用深度语法树生成描述节点行为的自然语言短文本;
步骤7:通过自然语言文本生成模块,生成英文自然语言文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620778.6A CN107526726B (zh) | 2017-07-27 | 2017-07-27 | 一种将中文流程模型自动转换为英文自然语言文本的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710620778.6A CN107526726B (zh) | 2017-07-27 | 2017-07-27 | 一种将中文流程模型自动转换为英文自然语言文本的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107526726A CN107526726A (zh) | 2017-12-29 |
CN107526726B true CN107526726B (zh) | 2020-09-22 |
Family
ID=60680113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710620778.6A Active CN107526726B (zh) | 2017-07-27 | 2017-07-27 | 一种将中文流程模型自动转换为英文自然语言文本的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526726B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519963B (zh) * | 2018-03-02 | 2021-12-03 | 山东科技大学 | 一种将流程模型自动转换为多语言文本的方法 |
CN108681529B (zh) * | 2018-03-26 | 2022-01-25 | 山东科技大学 | 一种流程模型图的多语言文本及语音生成方法 |
CN110362834A (zh) * | 2019-06-27 | 2019-10-22 | 右江民族医学院 | 基于公共翻译引擎的英文课件辅助生成方法 |
US20240202469A1 (en) * | 2022-12-15 | 2024-06-20 | Google Llc | Auto-translation of customized assistant |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007532995A (ja) * | 2004-04-06 | 2007-11-15 | デパートメント・オブ・インフォメーション・テクノロジー | 疑似インターリングア及び交雑アプローチを用いた英語からヒンディ語及びその他のインド諸語への複数言語機械翻訳システム |
CN102567845B (zh) * | 2011-12-15 | 2015-04-15 | 北京航空航天大学 | 组合服务演化中运行实例的在线迁移方法及设备 |
CN103116578A (zh) * | 2013-02-07 | 2013-05-22 | 北京赛迪翻译技术有限公司 | 一种融合句法树和统计机器翻译技术的翻译方法与装置 |
CN104298662B (zh) * | 2014-04-29 | 2017-10-10 | 中国专利信息中心 | 一种基于有机物命名实体的机器翻译方法及翻译系统 |
CN106156035B (zh) * | 2015-02-28 | 2019-10-22 | 南京网感至察信息科技有限公司 | 一种通用文本挖掘方法和系统 |
-
2017
- 2017-07-27 CN CN201710620778.6A patent/CN107526726B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107526726A (zh) | 2017-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
CN107526726B (zh) | 一种将中文流程模型自动转换为英文自然语言文本的方法 | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
KR101762866B1 (ko) | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 | |
CN111209412A (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN101673260A (zh) | 用于训练机器翻译机的系统和方法 | |
CN116501306B (zh) | 一种基于自然语言描述生成接口文档代码的方法 | |
CN107463553A (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 | |
KR20040084856A (ko) | 자연 언어 생성 시스템에 있어서의 문장 실현에서서열화를 위한 구성 요소 구조의 언어학적으로 통지된통계적 모델들 | |
CN108681529B (zh) | 一种流程模型图的多语言文本及语音生成方法 | |
CN108519963B (zh) | 一种将流程模型自动转换为多语言文本的方法 | |
CN107526717B (zh) | 一种将结构化流程模型自动生成自然语言文本的方法 | |
CN102662932B (zh) | 构建树结构及基于树结构的机器翻译系统的方法 | |
Amin et al. | CMS-Intelligent machine translation with adaptation and AI | |
KR20040024619A (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램 | |
JP6952967B2 (ja) | 自動翻訳装置 | |
Anju et al. | Malayalam to English machine translation: An EBMT system | |
Ning et al. | Design and Testing of Automatic Machine Translation System Based on Chinese‐English Phrase Translation | |
Sinhal et al. | Machine translation approaches and design aspects | |
CN106021286A (zh) | 一种基于语言结构的语言理解方法 | |
Shukla et al. | A Framework of Translator from English Speech to Sanskrit Text | |
Dubey | Survey of machine translation techniques | |
Sagar et al. | Context Free Grammar (CFG) analysis for simple Kannada sentences | |
Safeena et al. | Quranic computation: A review of research and application | |
Shaalan et al. | Automatic rule induction in Arabic to English machine translation framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |