CN115965017B - 一种基于开发平台的多语言录入和解析系统及方法 - Google Patents
一种基于开发平台的多语言录入和解析系统及方法 Download PDFInfo
- Publication number
- CN115965017B CN115965017B CN202310009908.8A CN202310009908A CN115965017B CN 115965017 B CN115965017 B CN 115965017B CN 202310009908 A CN202310009908 A CN 202310009908A CN 115965017 B CN115965017 B CN 115965017B
- Authority
- CN
- China
- Prior art keywords
- text
- chinese
- sentence
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011161 development Methods 0.000 title claims abstract description 76
- 238000004458 analytical method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title abstract description 16
- 238000013519 translation Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 238000005215 recombination Methods 0.000 claims description 10
- 230000006798 recombination Effects 0.000 claims description 10
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了一种基于开发平台的多语言录入和解析系统及方法包括:录入模块,用于录入文本信息,识别模块,用于获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型,解析模块,用于将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据,执行模块,用于将所述文本数据填充到开发平台中对应的文本框内进行显示,可以在开发平台中输入任何语种的文本信息,然后将其解析为统一的语言再输入到开发平台的显示页面上,打破了传统录入的弊端,实现了灵活录入。
Description
技术领域
本发明涉及平台语言技术领域,特别涉及一种基于开发平台的多语言录入和解析方式及方法。
背景技术
开发平台是指以某种语言或者某几种语言为基础,用户可以在这个产品上进行各种各样的软件产品的开发,并且在这个产品上进行开发的时候,只需要进行一些简单的配置,或者是写极少量的代码便可以完成一个业务系统的开发工作,但是目前不同的开发平台所使用的语言不相同,导致了在进行录入前需要先确定该开发平台的语言,加大了使用者的工作量,而且会使得开发平台的界面十分臃肿,增加了开发成本。
因此,本发明提供了一种基于开发平台的多语言录入和解析系统及方法。
发明内容
本发明一种基于开发平台的多语言录入和解析系统及方法,可以在开发平台中输入任何语种的文本信息,然后将其解析为统一的语言再输入到开发平台的显示页面上,打破了传统录入的弊端,实现了灵活录入。
本发明提供了一种基于开发平台的多语言录入和解析系统及方法,包括:
录入模块,用于录入文本信息;
识别模块,用于获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
解析模块,用于将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
执行模块,用于将所述文本数据填充到开发平台中对应的文本框内进行显示。
在一种可实施的方式中,
还包括:
备录模块,用于根据所述文本数据在开发平台中文本框中的填充结果,得到汉语显示版图,根据所述文本语种将所述汉语显示版图翻译为目标显示版图;
显示模块,用于显示所述汉语显示版图和目标显示版图。
在一种可实施的方式中,
所述录入模块,包括:
输入单元,用于供用户输入原始文本;
筛选单元,用于将所述原始文本进行文本筛选,得到目标文本;
修正单元,用于根据时间顺序调整所述目标文本,得到文本信息。
在一种可实施的方式中,
所述识别模块,包括:
训练单元,用于将所述文本信息进行语法训练,得到若干条文本语句;
分析单元,用于分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
识别单元,用于根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
建模单元,用于获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型。
在一种可实施的方式中,
所述解析模块,包括:
文本解析单元,用于获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
模型解析单元,用于将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
文本修正单元,用于将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
文本转换单元,用于根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
在一种可实施的方式中,
所述执行模块,包括:
第一执行单元,用于解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
第二执行单元,用于获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
第三执行单元,用于分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
第四执行单元,用于根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
本发明提供了一种基于开发平台的多语言录入和解析方法,包括:
步骤1:录入文本信息;
步骤2:获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
步骤3:将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
步骤4:将所述文本数据填充到开发平台中对应的文本框内进行显示。
在一种可实施的方式中,
所述步骤2包括:
步骤21:将所述文本信息进行语法训练,得到若干条文本语句;
步骤22:分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
步骤23:根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
步骤24:获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型。
在一种可实施的方式中,
所述步骤3包括:
步骤31:获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
步骤32:将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
步骤33:将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
步骤34:根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
在一种可实施的方式中,
所述步骤4包括:
步骤41:解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
步骤42:获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
步骤43:分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
步骤44:根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
本发明可以实现的有益效果为:为了使开发平台适应不同的语言,首先确定录入的文本信息的语种,为了方便操作将文本信息翻译成汉语,从而可以得到若干条文本数据,最后将文本数据填充到文本框内,实现了自动填充,使用者可以在开发平台的显示部读取信息,打破了传统操作中需要提前翻译语言的弊端,实现了灵活录入,节约了开发成本,提高了开发效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于开发平台的多语言录入和解析系统的组成示意图;
图2、图3为本发明实施例中一种基于开发平台的多语言录入和解析系统及方法的开发平台的界面显示示意图;
图4为本发明实施例中一种基于开发平台的多语言录入和解析方法的工作流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本实施例提供了一种基于开发平台的多语言录入和解析系统及方法,如图1所示,包括:
录入模块,用于录入文本信息;
识别模块,用于获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
解析模块,用于将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
执行模块,用于将所述文本数据填充到开发平台中对应的文本框内进行显示。
该实例中,文本特征表示可以区分不同文本信息的特征;
该实例中,样本特征表示用来区分不同语种,可以表现该语种特点的特征;
该实例中,文本语种表示文本信息所对应的语种;
该实例中,译汉模型表示将不同语种翻译成汉语的模型;
该实例中,开发平台的界面显示为普通文本输入框,如图2所示,聚焦输入框时显示下拉面板,在面板中录入多种语言文本,如图3所示,将两种语言保存到一个数据对象中,界面显示时根据当前系统语言环境,显示对应的语言下的文本内容。
上述技术方案的工作原理以及有益效果:为了使开发平台适应不同的语言,首先确定录入的文本信息的语种,为了方便操作将文本信息翻译成汉语,从而可以得到若干条文本数据,最后将文本数据填充到文本框内,实现了自动填充,使用者可以在开发平台的显示部读取信息,打破了传统操作中需要提前翻译语言的弊端,实现了灵活录入,节约了开发成本,提高了开发效率。
实施例2
在实施例1的基础上,所述一种基于开发平台的多语言录入和解析系统,还包括:
备录模块,用于根据所述文本数据在开发平台中文本框中的填充结果,得到汉语显示版图,根据所述文本语种将所述汉语显示版图翻译为目标显示版图;
显示模块,用于显示所述汉语显示版图和目标显示版图。
该实例中,汉语显示版图表示将文本信息转换为汉语信息后填充到文本框内的结果;
该实例中,目标显示版图表示将汉语显示版图转换为与文本信息语种一致的版图。
上述技术方案的工作原理以及有益效果:为了实现多元化显示,在开发平台中不仅显示汉语版图,还显示文本语种的版图,这样一来使用者可以根据自己的需求调取不同的版图,满足了不同使用者的使用需求。
实施例3
在实施例1的基础上,所述一种基于开发平台的多语言录入和解析系统,所述录入模块,包括:
输入单元,用于供用户输入原始文本;
筛选单元,用于将所述原始文本进行文本筛选,得到目标文本;
修正单元,用于根据时间顺序调整所述目标文本,得到文本信息。
上述技术方案的工作原理以及有益效果:为了避免用户输入的文本中含有冗余数据,导致文本分析量变大,所以在用户输入原始文本后对文本进行筛选,然后再根据时间顺序对其进行调整,最后可以得到文本信息简化了文本,提高了文本的解析效率。
实施例4
在实施例1的基础上,所述一种基于开发平台的多语言录入和解析系统,所述识别模块,包括:
训练单元,用于将所述文本信息进行语法训练,得到若干条文本语句;
分析单元,用于分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
识别单元,用于根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
建模单元,用于获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型。
该实例中,语法训练表示将文本信息中所包含的文本划分为若干个句子,以及分析每一个句子的句子结构的过程;
该实例中,语句关键词表示在一条文本语句中,可以表示该语句含义的词语;
该实例中,词语组成结构包括语句关键词的词性、词义以及该语句关键词在对应语句中的位置,以及该位置前后词语的词性、词义;
该实例中,翻译对照信息表示将文本语种翻译为汉语时的对照表,其中包括字翻译、词翻译、固定句子翻译。
上述技术方案的工作原理以及有益效果:在进行语言解析时,先将文本信息进行语法训练可以得到若干条文本语句,然后根据其语句关键词的词语组成结构来分析其词特征,从而可以确定该文本信息的文本语种,这样一来就可以建立一个由文本语种翻译为汉语的模型,为后续进行语言解析做基础。
实施例5
在实施例1的基础上,所述一种基于开发平台的多语言录入和解析系统,所述解析模块,包括:
文本解析单元,用于获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
模型解析单元,用于将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
文本修正单元,用于将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
文本转换单元,用于根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
该实例中,语句结构列表表示使用不同文本语种时的造句结构统计表,例如:就中文与英文而举例,英文的语句结构为倒装句;
该实例中,语句结构框架表示文本信息中语句结构的组成,例如:一个文本信息中第一句陈述句,第二句为递进句,第三句为疑问句;
该实例中,汉语词表示将文本语句中的所有词语翻译成汉语后的结果;
该实例中,语句重组表示根据现有的语句结构框架来调整汉语词排列顺序的结果。
上述技术方案的工作原理以及有益效果:为了避免不同语种的语言习惯导致翻译结果有误,在进行翻译时先根据文本语种的语句结构列表来建立文本信息的结构框架,然后将译汉模型中输出的汉语词输入到结构框架上进行语句重组,将重组后的语句进行病句修正,最后可以建立汉语信息,从而得到若干条文本数据,这样一来不仅实现了语种翻译,还提高了翻译的精确度,避免出现语义歧义导致显示结果错误,为使用者提供了精确的显示结果。
实施例6
在实施例1的基础上,所述一种基于开发平台的多语言录入和解析系统,所述执行模块,包括:
第一执行单元,用于解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
第二执行单元,用于获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
第三执行单元,用于分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
第四执行单元,用于根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
该实例中,数据边界点表示一个文本数据中的首位数据、末尾数据以及空位数据;
该实例中,边界索引表示文本数据中的数据停顿标志;
该实例中,数据索引表示文本框可填充的文本数据类型的标志;
该实例中,为每一数据索引匹配相应的边界索引的过程表示分析文本数据的数据类型是否符合文本数据类型的过程。
上述技术方案的工作原理以及有益效果:为了使文本数据准确无误的填充到文本框中,先分析文本数据的数据边界点,为其建立边界索引,以及根据每一文本框可填充的文本数据类型为其建立数据索引,然后利用边界索引和数据索引的配对情况来进行数据填充,这样一来不仅提高了填充效率,还确保了填充的准确性,为用户提供良好的使用感受。
实施例7
本发明提供了一种基于开发平台的多语言录入和解析方法,如图4所示,包括:
步骤1:录入文本信息;
步骤2:获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
步骤3:将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
步骤4:将所述文本数据填充到开发平台中对应的文本框内进行显示。
该实例中,文本特征表示可以区分不同文本信息的特征;
该实例中,样本特征表示用来区分不同语种,可以表现该语种特点的特征;
该实例中,文本语种表示文本信息所对应的语种;
该实例中,译汉模型表示将不同语种翻译成汉语的模型;
该实例中,开发平台的界面显示为普通文本输入框,如图2所示,聚焦输入框时显示下拉面板,在面板中录入多种语言文本,如图3所示,将两种语言保存到一个数据对象中,界面显示时根据当前系统语言环境,显示对应的语言下的文本内容。
上述技术方案的工作原理以及有益效果:为了使开发平台适应不同的语言,首先确定录入的文本信息的语种,为了方便操作将文本信息翻译成汉语,从而可以得到若干条文本数据,最后将文本数据填充到文本框内,实现了自动填充,使用者可以在开发平台的显示部读取信息,打破了传统操作中需要提前翻译语言的弊端,实现了灵活录入,节约了开发成本,提高了开发效率。
实施例8
在实施例7的基础上,所述一种基于开发平台的多语言录入和解析方法,所述步骤2包括:
步骤21:将所述文本信息进行语法训练,得到若干条文本语句;
步骤22:分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
步骤23:根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
步骤24:获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型。
该实例中,语法训练表示将文本信息中所包含的文本划分为若干个句子,以及分析每一个句子的句子结构的过程;
该实例中,语句关键词表示在一条文本语句中,可以表示该语句含义的词语;
该实例中,词语组成结构包括语句关键词的词性、词义以及该语句关键词在对应语句中的位置,以及该位置前后词语的词性、词义;
该实例中,翻译对照信息表示将文本语种翻译为汉语时的对照表,其中包括字翻译、词翻译、固定句子翻译。
上述技术方案的工作原理以及有益效果:在进行语言解析时,先将文本信息进行语法训练可以得到若干条文本语句,然后根据其语句关键词的词语组成结构来分析其词特征,从而可以确定该文本信息的文本语种,这样一来就可以建立一个由文本语种翻译为汉语的模型,为后续进行语言解析做基础。
实施例9
在实施例7的基础上,所述一种基于开发平台的多语言录入和解析方法,其特征在于,所述步骤3包括:
步骤31:获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
步骤32:将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
步骤33:将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
步骤34:根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
该实例中,语句结构列表表示使用不同文本语种时的造句结构统计表,例如:就中文与英文而举例,英文的语句结构为倒装句;
该实例中,语句结构框架表示文本信息中语句结构的组成,例如:一个文本信息中第一句陈述句,第二句为递进句,第三句为疑问句;
该实例中,汉语词表示将文本语句中的所有词语翻译成汉语后的结果;
该实例中,语句重组表示根据现有的语句结构框架来调整汉语词排列顺序的结果。
上述技术方案的工作原理以及有益效果:为了避免不同语种的语言习惯导致翻译结果有误,在进行翻译时先根据文本语种的语句结构列表来建立文本信息的结构框架,然后将译汉模型中输出的汉语词输入到结构框架上进行语句重组,将重组后的语句进行病句修正,最后可以建立汉语信息,从而得到若干条文本数据,这样一来不仅实现了语种翻译,还提高了翻译的精确度,避免出现语义歧义导致显示结果错误,为使用者提供了精确的显示结果。
实施例10
在实施例7的基础上,所述一种基于开发平台的多语言录入和解析方法,所述步骤4包括:
步骤41:解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
步骤42:获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
步骤43:分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
步骤44:根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
该实例中,数据边界点表示一个文本数据中的首位数据、末尾数据以及空位数据;
该实例中,边界索引表示文本数据中的数据停顿标志;
该实例中,数据索引表示文本框可填充的文本数据类型的标志;
该实例中,为每一数据索引匹配相应的边界索引的过程表示分析文本数据的数据类型是否符合文本数据类型的过程。
上述技术方案的工作原理以及有益效果:为了使文本数据准确无误的填充到文本框中,先分析文本数据的数据边界点,为其建立边界索引,以及根据每一文本框可填充的文本数据类型为其建立数据索引,然后利用边界索引和数据索引的配对情况来进行数据填充,这样一来不仅提高了填充效率,还确保了填充的准确性,为用户提供良好的使用感受。
实施例11
在实施例9的基础上,所述一种基于开发平台的多语言录入和解析方法,包括:
获取所述文本语句与第一汉语语句;
将所述文本语句与第一汉语语句进行语句匹配,得到每一第一汉语语句对应的源语句;
根据公式(1)将所述第一汉语语句与所述源语句的语句含义相似度;
其中,D表示所述第一汉语语句与所述源语句的语句含义相似度,α表示所述第一汉语语句的句式参数,β表示所述源语句的句式参数,且α+β=1,Xi表示所述第一汉语语句中第i个词语对应的词义,n表示所述第一汉语语句中词语的总数,Yk表示所述源语句中第k个词语对应的词义,m表示所述源语句中词语的总数;
根据公式(1)的计算结果,提取语句含义相似度低于预设相似度的第一汉语语句,记作病句。
上述技术方案的工作原理以及有益效果:为了避免翻译过程中出现错翻的现象,将翻译后的第一汉语语句与源语句进行比较,分析二者的语句含义是否相同,及时发现存在问题的语句并进行调整,保证后续填充结果的精确度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于开发平台的多语言录入和解析系统,其特征在于,包括:
录入模块,用于录入文本信息;
识别模块,用于获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
解析模块,用于将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
执行模块,用于将所述文本数据填充到开发平台中对应的文本框内进行显示;
所述识别模块,包括:
训练单元,用于将所述文本信息进行语法训练,得到若干条文本语句;
分析单元,用于分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
识别单元,用于根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
建模单元,用于获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型;
所述执行模块,包括:
第一执行单元,用于解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
第二执行单元,用于获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
第三执行单元,用于分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
第四执行单元,用于根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
2.如权利要求1所述的一种基于开发平台的多语言录入和解析系统,其特征在于,还包括:
备录模块,用于根据所述文本数据在开发平台中文本框中的填充结果,得到汉语显示版图,根据所述文本语种将所述汉语显示版图翻译为目标显示版图;
显示模块,用于显示所述汉语显示版图和目标显示版图。
3.如权利要求1所述的一种基于开发平台的多语言录入和解析系统,其特征在于,所述录入模块,包括:
输入单元,用于供用户输入原始文本;
筛选单元,用于将所述原始文本进行文本筛选,得到目标文本;
修正单元,用于根据时间顺序调整所述目标文本,得到文本信息。
4.如权利要求1所述的一种基于开发平台的多语言录入和解析系统,其特征在于,所述解析模块,包括:
文本解析单元,用于获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
模型解析单元,用于将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
文本修正单元,用于将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
文本转换单元,用于根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
5.一种基于开发平台的多语言录入和解析方法,其特征在于,包括:
步骤1:录入文本信息;
步骤2:获取所述文本信息的文本特征,将所述文本特征与每一语种对应的样本特征进行对比,得到所述文本信息对应的文本语种,根据所述文本语种建立译汉模型;
步骤3:将所述文本信息输入到所述译汉模型中得到汉语信息,解析所述汉语信息,得到若干条文本数据;
步骤4:将所述文本数据填充到开发平台中对应的文本框内进行显示;
所述步骤2包括:
步骤21:将所述文本信息进行语法训练,得到若干条文本语句;
步骤22:分别提取每一文本语句对应的语句关键词,分析所述语句关键词对应的词语组成结构;
步骤23:根据所述词语组成结构得到对应语句关键词的词特征,根据所述词特征的属性,确定所述文本信息对应的文本语种;
步骤24:获取所述文本语种与汉语之间的翻译对照信息,建立译汉模型;
所述步骤4包括:
步骤41:解析所述文本数据,得到每一文本数据中包含的数据边界点,为每一文本数据的数据边界点上建立边界索引,得到每一文本数据对应的边界索引集;
步骤42:获取所述开发平台中每一文本框可填充的文本数据类型,为每一文本框建立数据索引;
步骤43:分别利用每一所述数据索引遍历每一文本数据对应的边界索引集,为每一数据索引匹配相应的边界索引,建立匹配列表;
步骤44:根据所述匹配列表将所述文本数据填充到开发平台中对应的文本框内进行显示。
6.如权利要求5所述的一种基于开发平台的多语言录入和解析方法,其特征在于,所述步骤3包括:
步骤31:获取所述文本语种的语句结构列表,根据所述语句结构列表分析所述文本信息中包含的若干中文本语句,建立所述文本信息的语句结构框架;
步骤32:将所述文本信息输入到所述译汉模型中,在所述译汉模型中获取所述文本信息包含的若干条文本语句,获取每一文本语句对应的若干个汉语词;
步骤33:将所述汉语词输入到所述语句结构框架中进行语句重组,得到若干条第一汉语语句,当所述第一汉语语句中存在病句时,分析每一第一汉语语句对应的语句问题,并进行语句修正,得到第二汉语语句;
步骤34:根据所述第二汉语语句建立汉语信息,得到若干条文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310009908.8A CN115965017B (zh) | 2023-01-04 | 2023-01-04 | 一种基于开发平台的多语言录入和解析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310009908.8A CN115965017B (zh) | 2023-01-04 | 2023-01-04 | 一种基于开发平台的多语言录入和解析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115965017A CN115965017A (zh) | 2023-04-14 |
CN115965017B true CN115965017B (zh) | 2023-11-10 |
Family
ID=87359841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310009908.8A Active CN115965017B (zh) | 2023-01-04 | 2023-01-04 | 一种基于开发平台的多语言录入和解析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965017B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5426583A (en) * | 1993-02-02 | 1995-06-20 | Uribe-Echebarria Diaz De Mendibil; Gregorio | Automatic interlingual translation system |
CN1224203A (zh) * | 1998-01-20 | 1999-07-28 | 白涛 | 智能型汉英即时同步共显式机器互译方法 |
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
CN104077289A (zh) * | 2013-03-26 | 2014-10-01 | 上海斐讯数据通信技术有限公司 | 实现Web多语言切换的方法 |
CN105573969A (zh) * | 2006-10-02 | 2016-05-11 | 谷歌公司 | 在带有翻译后的文本的用户界面中显示原始文本 |
CN108701121A (zh) * | 2016-05-04 | 2018-10-23 | 谷歌有限责任公司 | 将用户输入分派到用户界面中的多个输入域 |
CN109635304A (zh) * | 2018-11-13 | 2019-04-16 | 天津字节跳动科技有限公司 | 多语言系统数据处理方法和装置 |
CN109947512A (zh) * | 2019-03-18 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 一种文本适配显示方法、装置、服务器及存储介质 |
CN111445898A (zh) * | 2020-03-17 | 2020-07-24 | 科大讯飞股份有限公司 | 语种识别方法、装置、电子设备和存储介质 |
CN112306620A (zh) * | 2020-12-24 | 2021-02-02 | 深圳市蓝凌软件股份有限公司 | 自定义表单控件的多语言加载方法及装置 |
CN113095048A (zh) * | 2021-04-20 | 2021-07-09 | 北京天健源达科技股份有限公司 | 一种借助词条数据库编辑报告记录的方法 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
CN114692655A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 翻译系统及文本翻译、下载、质量检查和编辑方法 |
CN114996387A (zh) * | 2022-06-07 | 2022-09-02 | 徐州国云信息科技有限公司 | 一种基于索引数据的自然语言处理方法和系统 |
CN115240203A (zh) * | 2022-06-20 | 2022-10-25 | 平安科技(深圳)有限公司 | 业务数据处理方法、装置、设备及存储介质 |
CN115455981A (zh) * | 2022-11-11 | 2022-12-09 | 合肥智能语音创新发展有限公司 | 一种多语种语句的语义理解方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714939B2 (en) * | 2001-01-08 | 2004-03-30 | Softface, Inc. | Creation of structured data from plain text |
US20180165279A1 (en) * | 2014-03-28 | 2018-06-14 | Adventor Management Limited | Machine translation system and method |
-
2023
- 2023-01-04 CN CN202310009908.8A patent/CN115965017B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
US5426583A (en) * | 1993-02-02 | 1995-06-20 | Uribe-Echebarria Diaz De Mendibil; Gregorio | Automatic interlingual translation system |
CN1224203A (zh) * | 1998-01-20 | 1999-07-28 | 白涛 | 智能型汉英即时同步共显式机器互译方法 |
CN105573969A (zh) * | 2006-10-02 | 2016-05-11 | 谷歌公司 | 在带有翻译后的文本的用户界面中显示原始文本 |
CN104077289A (zh) * | 2013-03-26 | 2014-10-01 | 上海斐讯数据通信技术有限公司 | 实现Web多语言切换的方法 |
CN108701121A (zh) * | 2016-05-04 | 2018-10-23 | 谷歌有限责任公司 | 将用户输入分派到用户界面中的多个输入域 |
CN109635304A (zh) * | 2018-11-13 | 2019-04-16 | 天津字节跳动科技有限公司 | 多语言系统数据处理方法和装置 |
CN109947512A (zh) * | 2019-03-18 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 一种文本适配显示方法、装置、服务器及存储介质 |
CN111445898A (zh) * | 2020-03-17 | 2020-07-24 | 科大讯飞股份有限公司 | 语种识别方法、装置、电子设备和存储介质 |
CN112306620A (zh) * | 2020-12-24 | 2021-02-02 | 深圳市蓝凌软件股份有限公司 | 自定义表单控件的多语言加载方法及装置 |
CN114692655A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 翻译系统及文本翻译、下载、质量检查和编辑方法 |
CN113095048A (zh) * | 2021-04-20 | 2021-07-09 | 北京天健源达科技股份有限公司 | 一种借助词条数据库编辑报告记录的方法 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
CN114996387A (zh) * | 2022-06-07 | 2022-09-02 | 徐州国云信息科技有限公司 | 一种基于索引数据的自然语言处理方法和系统 |
CN115240203A (zh) * | 2022-06-20 | 2022-10-25 | 平安科技(深圳)有限公司 | 业务数据处理方法、装置、设备及存储介质 |
CN115455981A (zh) * | 2022-11-11 | 2022-12-09 | 合肥智能语音创新发展有限公司 | 一种多语种语句的语义理解方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115965017A (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947836B (zh) | 英语试卷结构化方法和装置 | |
US8046211B2 (en) | Technologies for statistical machine translation based on generated reordering knowledge | |
US9176952B2 (en) | Computerized statistical machine translation with phrasal decoder | |
CN109471793B (zh) | 一种基于深度学习的网页自动化测试缺陷定位方法 | |
JPH08101837A (ja) | 機械翻訳装置における翻訳規則学習方法 | |
CN110046261A (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN100454294C (zh) | 用于将日文翻译成中文的设备 | |
US20220414463A1 (en) | Automated troubleshooter | |
KR100918338B1 (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
CN117194612A (zh) | 大模型训练方法、装置、计算机设备集存储介质 | |
CN111401085A (zh) | 基于混合策略的移动设备机器翻译系统 | |
CN117130593A (zh) | 代码处理方法、系统和电子设备 | |
CN115965017B (zh) | 一种基于开发平台的多语言录入和解析系统及方法 | |
CN110705321A (zh) | 计算机辅助翻译系统 | |
US20100076943A1 (en) | Foreign-Language Learning Method Utilizing An Original Language to Review Corresponding Foreign Languages and Foreign-Language Learning Database System Thereof | |
Hughes et al. | Automatic extraction of tagset mappings from parallel-annotated corpora | |
CN116243901A (zh) | 一种用于前端页面多语言项目快速开发的方法及系统 | |
CN111597827B (zh) | 一种提高机器翻译准确度的方法及其装置 | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
CN117313754B (zh) | 智能翻译方法、装置以及翻译机 | |
KR101638953B1 (ko) | 온라인상 텍스트 자동분석·수정시스템 | |
CN114626363B (zh) | 一种基于翻译的跨语言短语结构分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |