CN110008478B

CN110008478B - 语言转换方法、装置、计算设备及存储介质

Info

Publication number: CN110008478B
Application number: CN201711497741.5A
Authority: CN
Inventors: 刚周伟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guizhou Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guizhou Co Ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2023-10-31
Anticipated expiration: 2037-12-30
Also published as: CN110008478A

Abstract

本发明公开了语言转换方法、装置、计算设备及存储介质，该方法包括：通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本；由人工智能对图片样本进行学习，得到图片像素与文本协议的各个协议字段之间的关联关系。本方案具有通用性，能够适用于不同的协议，解决了不同语言之间翻译器重复开发的问题。

Description

语言转换方法、装置、计算设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语言转换方法、装置、计算设备及存储介质。

背景技术

人工智能可以对人的意识、思维的信息过程进行模拟。虽然人工智能在不断发展，但人工智能的本质没有变化，将需要学习的数据整理成为训练样本，然后编写算法进行学习，调整各种参数或者算法直至计算结果达到设计目标。

根据人工智能的本质，训练样本是人工智能的基础，能够作为训练样本数据的内容有很多，文本、声音、图片等。为了让计算机可以学习，文字、声音和图片经过数字化可以转换为数字矩阵，通过算法实现学习，对于普通的文本都有转换的标准，包括单词空格或者标点符号，都能够将文本数据转换为训练样本。所有的训练样本都会转换成计算机能够识别的二进制文件。但是对于文本来说，不同的协议有不同的编码规则，这就造成每个协议都要开发自己的语言转换功能，造成转换器重复开发的问题。

发明内容

针对语言转换器重复开发的问题，本发明实施例提供了一种语言转换方法、装置、计算设备及存储介质，能够适用于多种协议的语言转换，具有通用性，无须针对每一种协议单独开发转换器。

第一方面，本发明实施例提供了一种语言方法，方法包括：

通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本；以及由人工智能对图片样本进行学习，得到图片像素与文本协议的各个协议字段之间的关联关系。

可选地，可以通过获得协议字段与图片样本中的图片像素的相似概率，识别图片中的图片像素与协议字段之间的关联关系。

可选地，该方法还包括：通过文件图片转换处理，将基于文本协议得到的待识别二进制文件转换为待识别图片；基于关联关系，从待识别图片中识别与各个协议字段对应的图片像素。

可选地，其中文件图片转换处理包括：将二进制文件转换为数字矩阵；按照预定规则，将数字矩阵转换为图片。

可选色，其中预定规则为将数字矩阵中的“1”转换为有色像素，将数字矩阵中的“0”转换为无色像素。

可选地，该方法还包括：对于各个协议字段，分别识别待识别图片中与其对应的图片像素的文本含义；组合各个协议字段对应的文本含义，获得待识别图片对应的文本。

可选地，该方法还包括：基于关联关系，构建图片模板，其中，对于各个协议字段对应的图片像素分别设置不同的颜色，其中，使用图片模板从待识别图片中识别与各个协议字段对应的图片像素。

可选地，该方法还包括：基于图片模板，将待识别图片转换为多个颜色区域。

第二方面，本发明实施例提供了一种语言转换装置，装置包括：转换模块和学习模块。

第一转换模块可以通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本。

学习模块可以由人工智能对图片样本进行学习，得到图片像素与文本协议的各个协议字段之间的关联关系。

第三方面，本发明实施例提供了一种计算设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的语言转换方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的语言转换方法。

本发明实施例提供的语言转换方法、装置、计算设备及存储介质，通过人工智能对由文本协议转换的图片进行学习，得到文本与图片的关联关系，该转换方法具有通用性，能够适用于所有的协议，而无须针对每种协议单独开发转换器。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一实施例的语言转换方法的示意性流程图；

图2示出了根据本发明一实施例的文本协议转换为图片样本的示意图；

图3示出了根据本发明一实施例的文本字段与图片像素关联关系的示意图；

图4示出了根据本发明一实施例的语言转换装置的示意性结构框图；

图5示出了根据本发明一实施例的语言转换装置的示意性结构框图；

图6示出了根据本发明一实施例的计算设备的示意性结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

人工智能是基于计算机存在的，为了让计算机能够学习，需要将训练样本中的文字经过数字化转换为数字矩阵，让计算机能够识别并通过算法实现学习。

对于用自然语言编写的普通文本来说，人工智能学习较为简单，以英语为例，由于英文单词是由26个字母组成，加上一些标点符号，如果不区分大小写，32个数字就能满足，32是2的5次方，就可以在计算机算法中设定每5个字节代表一个字母或标点符号。如果0代表A，1代表B，2代表C，直至25代表Z，空格是26，句号是27，28～31保留。

5个字节	数字	字母或标点符号
			00000	0	A
00001	1	B
			......	......	......
11111	31	保留

这样英文文本都能转换为计算机能识别的二进制文件，比如一个句子“I READ ABOOK。”在计算机中就是：

I		R	E	A	D		A		B	0	0	K	。
														8	26	17	4	0	3	26	0	26	1	14	14	10	27

根据这个句子对应的数字，可以编写算法让人工智能将每个单词通过26或者27进行分隔从而建立自己的单词库，此时人工智能内部就会有每个单词的映射关系表，后续新的文本进来后，它通过同样的方式丰富自己的单词库，最终实现人工智能能够识别的普通文本文件。

I	8
		READ	17-4-0-3
A	0
		BOOK	1-14-14-10

当需要人工智能翻译或者写作时，人工智能由于学习了很多文本的训练样本，因此能够对每个单词前后单词出现的概率选择最佳的单词形成语句，如果需要翻译“我读一本书”这句话，其中“一”的翻译比较困难，因为“一”的英文有“one”和“a”，此时人工智能根据平时学习的样本，就会选择“a”，最终翻译出“I READ A BOOK”。

可以看出人工智能学习自然语言文本的关键在于将文本拆分成具备独立意义的单词个体，然后转换为二进制文件让人工智能学习和计算。但是文本除了用自然语言编写外，还有一种文本是用人造语言构造的协议进行编写，由于协议的专业性造成每种协议中会有自身特殊的表述方式，每个特定位置的0或者1代表的是一个特殊的含义，不同的协议有不同的含义，这就造成每个协议都要开发自己的语言转换功能。

因此，本发明提供一种通用的基于人工智能语言转换方法。图1示出了根据本发明一实施例的语言转换方法的示意性流程图。如图1所示，在步骤S100中可以通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本。其中，图片样本作为人工智能的训练数据，根据多种协议文本转换成的图片。

假设有一个协议用于旅行，其中规范要求如下：

第一个数字代表旅行人数，0表示1人，1表示2人，2表示3人，最多16个人，因此二进制文件4个比特即可实现；

第二个数字表示起点地点的代码，0表示A，1表示B，2表示C，3表示D，以此类推到Z，最多26个地点，因此二进制文件5个比特即可实现；

第三个数字表示终点地点的代码，0表示A，1表示B，2表示C，3表示D，以此类推到Z，最多26个地点，因此二进制文件5个比特即可实现；

第四个数字表示本次旅行使用的交通方式，0表示步行，1表示汽车，2表示火车，3表示飞机，最多4种交通方式，因此二进制文件2个比特就可以实现。

根据本发明一实施例，可以通过文件图片转换处理，将基于文本协议得到的待识别二进制文件转换为待识别图片。其中，待识别图片是基于任何一种协议生成的二进制文件转换的，可以是图片样本中的图片。

例如，将一个基于上述协议的文本“1个人从A步行到C”按照协议数字化后就是0-0-2-0，而存储成二进制文件则是：

1个人	从A	到C	步行
				0	0	2	0
0000	00000	00010	00

“0000000000001000”即为待识别二进制文件，这一段16位数字需要合理拆分，在只知道这段数字包含4个字段的情况下，一共有43680种组合方式，将多个该协议的文本导入进行拆分学习，通过对每一种组合方式进行测试然后计算哪一种组合方式更合理，这样的人工智能的算法很难实现。因此可以将上述待识别二进制文件通过文件图片转换处理转换为待识别图片。

根据本发明一实施例，文件图片转换处理可以包括：将二进制文件转换为数字矩阵；按照预定规则，将数字矩阵转换为图片。

其中，预定规则可以是将数字矩阵中的“1”转换为有色像素，将数字矩阵中的“0”转换为无色像素。

例如，将16位的二进制文件“0000000000001000”转换为4*4的数字矩阵，然后将0设置为白，1设置为黑，0000000000001000就变成一张4*4的图片，即为待识别图片。

可以通过上述文件图片转换处理，将按照上述协议获得的多个二进制文件样本转换为图片样本，以便人工智能进行学习。例如，可以将“人数”字段相关的文本转换成18张图片，图2示出了根据本发明一实施例的文本协议转换为图片样本的示意图。如图2所示，每张图片上面是其对应的协议文本意义。

在步骤S200中可以由人工智能对图片样本进行学习，得到图片像素与文本协议的各个协议字段之间的关联关系。

根据本发明一实施例，可以获得协议字段与图片样本中的图片像素的相似概率，基于相似概率，识别图片中的图片像素与协议字段之间的关联关系。例如，将大量的文本参考上述协议进行转换后作为训练数据，导入人工智能进行计算，人工智能通过学习发现“人数”“起点地点”“终点地点”“交通方式”4字段和图片对应位置的相似概率，在无协议转换的基础上就可以实现对协议文本的合理拆分和学习。

例如，可以将大量的数字图片作为训练样本由人工智能去学习，最终人工智能形成一套算法，每个数字图片上每个像素对应特定数字类的权值。其中，红色可以代表负数权值，代表这个地方出现颜色像素点则不可能是某个数字，蓝色可以代表正数权值，表示这个地方出现颜色像素点则可能是某个数字，最终通过算法识别出输入图片是某个数字的概率，从而认出图片中的数字。

图3示出了根据本发明一实施例的文本字段与图片像素关联关系的示意图。按照上述文件图片转换处理的原理，人工智能学习大量图片样本后得出，如图3所示，人数变化只影响第一行(最上方)的4个像素点，其他像素点在相同条件下不发生变化，因此人工智能将这4个像素点作为人数有关的判断，此时人工智能在没有文本协议翻译的前提下，将协议中的人数与图片关联，映射出协议文本中的前4个字段。当不断增加其它各种情况的文本协议及其代表含义时，人工智能通过识别协议文本内容和转换后图片的映射关系，能够实现对协议文本的合理拆分和解析。

根据本发明一实施例，可以基于关联关系，从待识别图片中识别与各个协议字段对应的图片像素。

其中一个字段可能对应图片中多个像素点，可以将多个像素点以颜色为对应关系，将字段映射为图片中的某个颜色区域。

可以基于关联关系，构建图片模板，其中，对于各个协议字段对应的图片像素分别设置不同的颜色，其中，使用图片模板从待识别图片中识别与各个协议字段对应的图片像素。

例如，可以将“人数”字段映射为红色，“起始地点”映射为绿色，“终点地点”映射为蓝色，“交通工具”映射为黑色，形成图片模板。

基于图片模板，将待识别图片转换为多个颜色区域。

可以将待识别图片与图片模板对比，确定待识别图片的多个颜色区域，当确定人数字段为红色后，可以根据红色区域中的像素点的值确定人的个数。

图4示出了根据本发明一实施例的语言转换装置的示意性结构框图。如图4所示，该装置400可以包括：转换模块410和学习模块420。

第一转换模块410可以通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本。

学习模块420可以由人工智能对图片样本进行学习，得到图片像素与文本协议的各个协议字段之间的关联关系。

图5示出了根据本发明一实施例的语言转换装置的示意性结构框图。如图5所示，该装置400还可以包括：第二转换模块430和识别模块440。

第二转换模块430可以通过文件图片转换处理，将基于文本协议得到的待识别二进制文件转换为待识别图片。

识别模块440可以基于关联关系，从待识别图片中识别与各个协议字段对应的图片像素。

根据本发明一实施例，该装置400还可以包括：含义识别模块和组合模块。

含义识别模块可以对于各个协议字段，分别识别待识别图片中与其对应的图片像素的文本含义。

组合模块可以组合各个协议字段对应的文本含义，获得待识别图片对应的文本。

根据本发明一实施例，该装置400还可以包括：构建模块。

构建模块可以基于关联关系，构建图片模板，其中，对于各个协议字段对应的图片像素分别设置不同的颜色，使用图片模板从待识别图片中识别与各个协议字段对应的图片像素。

根据本发明一实施例，该装置400还可以包括：转换模块。

转换模块可以基于图片模板，将待识别图片转换为多个颜色区域。

综上所述，本公开的技术方案通过将文字和标点符号映射为数字，然后将数字转换为颜色形成图片的方式，从而将文本分析变为图片识别，解决了不同语言之间翻译器重复开发的问题。

另外，结合图1描述的本发明实施例的方法可以由计算设备来实现。图6示出了本发明实施例提供的计算设备的硬件结构示意图。

计算设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在数据处理装置的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种语言转换方法。

在一个示例中，计算设备还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将计算设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的语言转换方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语言转换方法。

综上所述，本方案通过将文字和标点符号映射为数字，然后将数字转换为图片的方式，从而将文本分析变为图片识别，使得协议文本转换方法具有通用性，可以适用于所有的协议，而无须针对每种协议单独开发转换器，解决了对于不同协议文本需要开发不同的转换器的问题。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种语言转换方法，其特征在于，所述方法包括：

通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本；

由人工智能对所述图片样本进行学习，得到图片像素与所述文本协议的各个协议字段之间的关联关系；

所述方法还包括：

通过所述文件图片转换处理，将基于所述文本协议得到的待识别二进制文件转换为待识别图片；

基于所述关联关系，从所述待识别图片中识别与所述各个协议字段对应的图片像素；

所述基于所述关联关系，从所述待识别图片中识别与所述各个协议字段对应的图片像素，包括：

基于所述关联关系，构建图片模板，其中，对于所述各个协议字段对应的图片像素分别设置不同的颜色，使用所述图片模板从所述待识别图片中识别与所述各个协议字段对应的图片像素；

所述方法还包括：

基于所述图片模板，将所述待识别图片转换为多个颜色区域。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于所述各个协议字段，分别识别所述待识别图片中与其对应的图片像素的文本含义；

组合所述各个协议字段对应的文本含义，获得所述待识别图片对应的文本。

3.根据权利要求1所述的方法，其特征在于，所述由人工智能对所述图片样本进行学习，得到图片像素与所述文本协议的各个协议字段之间的关联关系，包括：

获得所述协议字段与所述图片样本中的图片像素的相似概率；

人工智能基于所述相似概率，识别图片中的图片像素与所述协议字段之间的关联关系。

4.根据权利要求1-3中任何一项所述的方法，其特征在于，所述文件图片转换处理包括：

将二进制文件转换为数字矩阵；

按照预定规则，将所述数字矩阵转换为图片。

5.根据权利要求4所述的方法，其特征在于，所述预定规则为将所述数字矩阵中的“1”转换为有色像素，将所述数字矩阵中的“0”转换为无色像素。

6.一种语言转换装置，其特征在于，所述装置包括：

第一转换模块，用于通过文件图片转换处理，将基于文本协议得到的二进制文件样本转换为图片样本；

学习模块，用于由人工智能对所述图片样本进行学习，得到图片像素与所述文本协议的各个协议字段之间的关联关系；

所述装置还包括：

第二转换模块，用于通过所述文件图片转换处理，将基于所述文本协议得到的待识别二进制文件转换为待识别图片；

识别模块，用于基于所述关联关系，从所述待识别图片中识别与所述各个协议字段对应的图片像素；

所述装置还包括：

构建模块，用于基于所述关联关系，构建图片模板，其中，对于所述各个协议字段对应的图片像素分别设置不同的颜色，使用所述图片模板从所述待识别图片中识别与所述各个协议字段对应的图片像素；

所述装置还包括：

第三转换模块，用于基于所述图片模板，将所述待识别图片转换为多个颜色区域。

7.一种计算设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。