CN108388549A - 信息转换方法、装置、存储介质和电子装置 - Google Patents
信息转换方法、装置、存储介质和电子装置 Download PDFInfo
- Publication number
- CN108388549A CN108388549A CN201810159460.7A CN201810159460A CN108388549A CN 108388549 A CN108388549 A CN 108388549A CN 201810159460 A CN201810159460 A CN 201810159460A CN 108388549 A CN108388549 A CN 108388549A
- Authority
- CN
- China
- Prior art keywords
- information
- condition
- source information
- vector
- switch condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息转换方法、装置、存储介质和电子装置。其中,该方法包括:对源信息进行编码得到第一编码;获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的词语,所述译出信息的语种与所述目标信息相同。本发明解决了基于神经网络的信息转换的灵活性比较差的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种信息转换方法、装置、存储介质和电子装置。
背景技术
信息转换是指在保证原有意思不被改变的基础上,将一种信息转换为另一种信息的过程,也就是说,通过信息转换技术将源信息转换为目标信息。其中,目前常用的信息转换技术包括:机器转换,例如,传统的统计机器转换(Statistical Machine Translation,简称SMT)和神经网络机器转换(Neural Machine Translation,简称NMT)。其中,在通过神经网络机器转换NMT进行信息转换的过程中,通常是将输入的源信息编码为向量或者向量序列,然后基于编码得到的向量或者向量序列逐词生成目标信息。
然而,在采用上述方式进行信息转换的过程中,所使用的往往是已完成训练的神经网络模型,如果希望调整转换结果,则需重新获取训练对象,对神经网络模型重新进行训练。也就是说,相关技术所提供的信息转换方式存在对外部资源利用困难,无法在信息转换过程中及时添加信息转换所需的新的映射关系,从而导致信息转换灵活性较差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息转换方法、装置、存储介质和电子装置,以至少解决基于神经网络的信息转换的灵活性比较差的技术问题。
根据本发明实施例的一个方面,提供了一种信息转换方法,包括:对源信息进行编码得到第一编码;获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的词语,所述译出信息的语种与所述目标信息相同。
根据本发明实施例的另一方面,还提供了一种信息转换装置,包括:编码单元,用于对源信息进行编码得到第一编码;获取单元,用于获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;解码单元,用于根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息,其中,目标信息与源信息为不同语种的信息,译出信息是从源信息转换得到的词语,译出信息的语种与目标信息相同。
根据本发明实施例的一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的方法。
根据本发明实施例的一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述的方法。
在本发明实施例中,通过加入转换条件对源信息进行转换,转换条件对机器转换的干预使得机器转换更加灵活,且结合转换条件使得转换结果更加准确,进而解决了基于神经网络的信息转换的灵活性比较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的硬件环境的示意图;
图2是根据本发明实施例的信息转换方法的流程图;
图3是根据本发明实施例的神经网络的解码器和编码器的示意图;
图4是根据本发明优选实施例的神经网络模型的示意图;
图5是根据本发明实施例的信息转换装置的示意图;
图6是根据本发明实施例的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种信息转换方法。在本实施例中,上述信息转换方法可以应用于如图1所示的终端101和服务器102所构成的硬件环境中。如图1所示,终端101通过网络与服务器102进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端101可以是手机终端,也可以是PC终端、笔记本终端或平板电脑终端。
该信息转换方法可以应用在服务器102上,或者终端101上。通常情况下,可以在终端101上显示转换界面,终端101将通过转换界面接收到的待转换源信息发送给服务器102,由服务器102对待转换源信息进行转换,并将转换结果返给终端101,在终端101的转换界面上显示转换结果。该转换界面可以接收文字信息或者语音信息等,接收到的语音信息可以自动转换成文字,并作为源信息转换为目标信息。
图2是根据本发明实施例的信息转换方法的流程图。如图2所示,该信息转换方法包括如下步骤:
步骤S202,对源信息进行编码得到第一编码。
利用神经网络的编码器对源信息进行编码得到第一编码,其中,第一编码为第一向量。即利用神经网络的编码器将源信息编码为一组向量来表示。
步骤S204,获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系。
预先设置的转换条件可以是多个非连续信息,其中,非连续信息用于表示一个短语中包括具有关联的至少两个不连续的部分。例如,和…有关系作为一个转换条件,是一个非连续信息,包括“和”以及“有关系”这两个具有关联却不连续的部分。例如,让…去…拿…,也是一个非连续信息,可以作为一个转换条件,包括“让”、“去”和“拿”这3个具有关联却不连续的部分。
神经网络的编码器对源信息转换的时候,如果没有该转换条件也可以转换,但是,不使用该转换条件转换得到的目标信息与适用转换条件转换得到的目标信息可能不同。例如,预先设置的转换条件为:“X和Y有关系-->X have relationship with Y”,其中X和Y是一种变量,可以是任意片段,比如“北京和上海有关系”利用这个规则就可以转换为“Beijing have relationship with Shanghai”。但是,在没有利用该规则的情况下,“北京和上海有关系”可以转换为“there is a relationship between Beijing andShanghai”。
也就是说,基于神经网络的机器转换在没有上述转换条件的情况下,也可以根据自己的逻辑将源信息转换为目标信息,但是,为了使得转换更加准确,或者使得转换得到的信息更符合源信息的语境和语义,可以通过添加转换条件的方式,使得转换的结果更加准确。
例如,词汇communication通常的意思为沟通,在通信领域,该词转换为通信、通讯。在源信息数据通信领域时,基于神经网络的机器转换在转换过程中可以根据预先设置的转换条件将该词相关的短语转换为通信领域的短语,使得转换的结果更加准确。该转换可以是语言翻译。
步骤S206,根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息,其中,目标信息与源信息为不同语种的信息,译出信息是从源信息转换得到的词语,译出信息的语种与目标信息相同。
源信息可以是中文、英文、日文、韩文、葡萄牙文和阿拉伯文等,目标信息可以是中文、英文、日文、韩文、葡萄牙文和阿拉伯文等。将源信息转换成目标信息包括但是不限于以下的形式:中文转换为英文、日文、韩文、葡萄牙文和阿拉伯文中的任意一种,英文转换为中文、日文、韩文、葡萄牙文和阿拉伯文中的任意一种,日文转换为中文、英文、韩文、葡萄牙文和阿拉伯文中的任意一种,韩文转换为中文、英文、日文、葡萄牙文和阿拉伯文中的任意一种,葡萄牙文转换为中文、英文、日文、韩文和阿拉伯文中的任意一种,阿拉伯文转换为中文、英文、日文、韩文和葡萄牙文中的任意一种。其他语种的转换与上述相同,将源信息转换为不同语种的目标信息,不再一一举例说明。
将源信息转换成目标信息的过程是逐个词转换的,译出信息是已经从源信息转换得到的词语,是源信息中已经完成转换的部分,因此,译出信息的语种与目标信息的语种相同。
利用神经网络的解码器根据源信息、转换条件和译出信息对第一向量进行解码,得到目标信息,其中,转换条件预先被神经网络的解码器获取。即,在神经网络的解码器解码的过程中,先获取转换条件,结合转换条件、源信息和译出信息对第一向量解码。解码时所使用的转换条件、译出信息和源信息都是向量的形式。源信息可以由神经网络的编码器编码为向量,转换条件融入到基于神经网络的机器转换时需要对转换条件进行编码,可以表示为连续向量的形式,一般可以采用递归神经网络进行编码,而转换条件中的变量可以当作一般字符处理,这些变量不需要特殊处理成特别的字符,当作普通的字符编码为向量。
本实施例中,通过加入转换条件对源信息进行转换,转换条件对机器转换的干预使得机器转换更加灵活,且结合转换条件使得转换结果更加准确,解决了基于神经网络的信息转换的灵活性比较差的技术问题,达到了提高灵活性和准确性的技术效果。
基于神经网络的机器转换的模型如图3所示。主要包括三个模块:
1)神经网络编码器,将输入的源信息句子编码为一组固定的向量表示。
2)神经网络解码器,将源信息的编码结果进行解码,一步一步地生成目标信息的转换结果。
3)聚焦机制,解码的时候通过聚焦机制将注意力集中在于当前目标信息最相关的源信息片段。
本实施例中利用转换条件转换的步骤在神经网络解码器中进行,具体模型如图4所示。图4中短语表可以包含上述的预先设置的转换条件。
可选地,根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息包括:根据源信息和译出信息确定预先设置的多个条件与源信息在句式上的相似度;将多个条件中相似度最高的条件作为转换条件;根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息。
向神经网络中输入词典,词典中包括多个条件,包括非连续信息等条件,通常条件的数量比较大。其中,在当前转换的时候不需要利用词典中所有的条件,而是从词典的多数条件总选择部分条件使用,这就需要从词典的大量条件中筛选出当前转换所需要的条件,即和当前源信息匹配的条件。例如,转换句子“北京和澳洲有关系”的时候,“X和Y有关系”这个条件可以匹配,被留下,但是“X打败Y”这样的条件就被过滤掉,这样每个句子对应的条件比较有限。也就是从多个条件中查找在句式上与源信息最相似的条件作为转换条件,以在当前转换时使用该转换条件。
进一步地,在解码的时候将词典中的条件送入神经网络的解码器,解码器通过聚焦机制动态选择所要使用的转换条件。解码器通过获取每个条件的权重值,选择权重值最大的条件作为转换条件。在神经网络的解码器获取权重值的过程中,会利用到聚焦机制。聚焦机制就是将注意力集中在当前目标信息最相关的源信息上。比如,与当前目标信息最相关的内容包括当前目标信息之前已经转换的词语(即译出信息)、与当前目标信息具有联系的源信息以及条件。在获取权重值时,根据上述相关的源信息、条件和译出信息来确定出每个条件的权重值,即,根据源信息和译出信息确定预先设置的多个条件与源信息在句式上的相似度包括:根据用于表示源信息的第一向量、用于表示译出信息的第二向量和用于表示条件的第三向量确定多个条件中每个条件的权重值;将权重值最大的条件作为相似度最高的条件。
需要说明的是,神经网络模型采用向量进行转换,就是将外部输入的数据都编码成向量进行计算,因此,需要将词典中的条件编码为向量后输入到神经网络的解码器中。
可选地,根据用于表示源信息的第一向量、用于表示译出信息的第二向量和用于表示第一条件的第三向量确定多个条件中第一条件的权重值包括:
采用以下公式获取第一条件的权重值at
at=S(Uht+Wsi)
其中,ht用于表示第t个条件的向量,si用于表示第一向量和第二向量,S表示S型生长曲线,U和W分别为矩阵,第一条件是多个条件中的任意一个条件。
S型生长曲线为sigmoid,利用U和W两个矩阵分别与ht和si相乘,得到两个数字,从而得到用数字表示的每个条件的权重值。第一条件是多个条件中的任意一个条件。这样不同的条件就会对应不同的权重,因为这些权重是通过训练和计算得到的,所以神经网络模型会自动学习到对当前转换更为重要的条件,并确定其需要更高的权重。
结合图4可知,在转换得到目标信息Yt时,已经知道了译出信息Yt-1,Yt-2……,还已知多个条件和源信息X1、X2……XT,参考上述的公式可知,根据译出信息的第二向量、当前条件的第三向量和源信息的第一向量可以确定当前条件的权重at。然后将最终得到的规则信息表示为ct=∑athi。根据所有条件的权重可以确定出权重值最大的条件,将权重值最大的条件at,T作为当前条件来确定当前译出的词语Yt。
由图4可知,每次确定转换出目标信息都需要从多个条件中选择最大权重值的条件。例如,在转换北京和上海有关系时,在已经完成转换Beijing have relationship时,根据“北京和上海有关系”的源信息的向量、译出信息“Beijing have relationship”的向量和每个条件的向量确定出最大权重值的条件为“X和Y有关系-->X have relationshipwith Y”,结合该条件转换出当前的词汇为“with”,然后再转换下一个词,根据“北京和上海有关系”的源信息的向量、译出信息“Beijing have relationship with”的向量和每个条件的向量确定出最大权重值的条件为“X和Y有关系-->X have relationship with Y”,结合该条件转换出当前的词汇为“Shanghai”。
由于本实施例可以根据当前已经转换的词语、源信息和条件来确定每个条件的权重,获得权重的过程是自动训练和学习的过程,使得确定出的权重更符合当前词汇转换的需要,结合相应的条件来转换成目标信息就能够使得转换的结果符合源信息的语境和所属领域,更加准确。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述信息转换方法的信息转换装置,如图5所示,该装置包括:
编码单元50,用于对源信息进行编码得到第一编码;
获取单元52,用于获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;
解码单元54,用于根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息,其中,目标信息与源信息为不同语种的信息,译出信息是从源信息转换得到的词语,译出信息的语种与目标信息相同。
可选地,解码单元包括:确定模块,用于根据源信息和译出信息确定预先设置的多个条件与源信息在句式上的相似度;选择模块,用于将多个条件中相似度最高的条件作为转换条件;解码模块,用于根据源信息、转换条件和译出信息对第一编码进行解码,得到目标信息。
可选地,确定模块包括:权重子模块,用于根据用于表示源信息的第一向量、用于表示译出信息的第二向量和用于表示第一条件的第三向量确定多个条件中第一条件的权重值,第一条件为多个条件中的任意一个;确定子模块,用于将多个条件中权重值最大的条件作为相似度最高的条件。
可选地,权重子模块采用以下公式获取每个条件的权重值at:
at=S(Uht+Wsi)
其中,ht用于表示第t个条件的向量,si用于表示第一向量和第二向量,S表示S型生长曲线,U和W分别为矩阵。
可选地,获取单元包括:获取模块,用于获取预先设置的多个非连续信息,其中,非连续信息用于表示一个短语中包括具有关联的至少两个不连续的部分。
可选地,编码单元用于利用神经网络的编码器对源信息进行编码得到第一编码,其中,第一编码为第一向量;解码单元用于利用神经网络的解码器根据源信息、转换条件和译出信息对第一向量进行解码,得到目标信息,其中,转换条件预先被神经网络的解码器获取。
在本发明实施例中,通过加入转换条件对源信息进行转换,转换条件对机器转换的干预使得机器转换更加灵活,且结合转换条件使得转换结果更加准确,进而解决了基于神经网络的信息转换的灵活性比较差的技术问题。
根据本发明实施例的又一个方面,还提供了一种用于实施上述信息转换方法的电子装置,如图6所示,该电子装置包括,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,图6是根据本发明实施例的一种电子装置的结构框图。如图6所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器601、至少一个通信总线602、用户接口603、至少一个传输装置604和存储器605。其中,通信总线602用于实现这些组件之间的连接通信。其中,用户接口603可以包括显示器606和键盘607。传输装置604可选的可以包括标准的有线接口和无线接口。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对源信息进行编码得到第一编码;
S2,获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;
S3,根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的词语,所述译出信息的语种与所述目标信息相同。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
根据所述源信息和所述译出信息确定预先设置的多个条件与所述源信息在句式上的相似度;
将多个所述条件中所述相似度最高的条件作为所述转换条件;
根据所述源信息、所述转换条件和所述译出信息对所述第一编码进行解码,得到目标信息。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
根据用于表示所述源信息的第一向量、用于表示所述译出信息的第二向量和用于表示第一条件的第三向量确定多个所述条件中第一条件的权重值,所述第一条件为多个所述条件中任意一个;
将多个所述条件中所述权重值最大的条件作为所述相似度最高的条件。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
采用以下公式获取每个条件的权重值at
at=S(Uht+Wsi)
其中,ht用于表示第t个条件的向量,si用于表示所述第一向量和所述第二向量,S表示S型生长曲线,U和W分别为矩阵。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
获取预先设置的多个非连续信息,其中,所述非连续信息用于表示一个短语中包括具有关联的至少两个不连续的部分。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
其中,存储器605可用于存储软件程序以及模块,如本发明实施例中的信息转换方法和装置对应的程序指令/模块,处理器601通过运行存储在存储器605内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息转换方法。存储器605可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器605可进一步包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置604用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置604包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置604为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器605用于存储预设动作条件和预设权限用户的信息、以及应用程序。
在本发明实施例中,通过加入转换条件对源信息进行转换,转换条件对机器转换的干预使得机器转换更加灵活,且结合转换条件使得转换结果更加准确,进而解决了基于神经网络的信息转换的灵活性比较差的技术问题。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
对源信息进行编码得到第一编码;获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的词语,所述译出信息的语种与所述目标信息相同。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种信息转换方法,其特征在于,包括:
对源信息进行编码得到第一编码;
获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;
根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的信息,所述译出信息的语种与所述目标信息相同。
2.根据权利要求1所述的方法,其特征在于,根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息包括:
根据所述源信息和所述译出信息确定预先设置的多个条件与所述源信息在句式上的相似度;
将多个所述条件中所述相似度最高的条件作为所述转换条件;
根据所述源信息、所述转换条件和所述译出信息对所述第一编码进行解码,得到目标信息。
3.根据权利要求2所述的方法,其特征在于,根据所述源信息和所述译出信息确定预先设置的多个条件与所述源信息在句式上的相似度包括:
根据用于表示所述源信息的第一向量、用于表示所述译出信息的第二向量和用于表示第一条件的第三向量确定多个所述条件中第一条件的权重值,所述第一条件为多个所述条件中任意一个;
将多个所述条件中所述权重值最大的条件作为所述相似度最高的条件。
4.根据权利要求3所述的方法,其特征在于,根据用于表示所述源信息的第一向量、用于表示所述译出信息的第二向量和用于表示第一条件的第三向量确定多个所述条件中第一条件的权重值包括:
采用以下公式获取每个条件的权重值at
at=S(Uht+Wsi)
其中,ht用于表示第t个条件的向量,si用于表示所述第一向量和所述第二向量,S表示S型生长曲线,U和W分别为矩阵。
5.根据权利要求1至4中任一项所述的方法,其特征在于,获取预先设置的转换条件包括:
获取预先设置的多个非连续信息,其中,所述非连续信息用于表示一个短语中包括具有关联的至少两个不连续的部分。
6.根据权利要求1至4中任一项所述的方法,其特征在于,
对源信息进行编码得到第一编码包括:利用神经网络的编码器对所述源信息进行编码得到第一编码,其中,所述第一编码为第一向量;
根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息包括:利用神经网络的解码器根据所述源信息、所述转换条件和译出信息对所述第一向量进行解码,得到所述目标信息,其中,所述转换条件预先被所述神经网络的解码器获取。
7.一种信息转换装置,其特征在于,包括:
编码单元,用于对源信息进行编码得到第一编码;
获取单元,用于获取预先设置的转换条件,其中,所述转换条件为所述源信息与转换结果的映射关系;
解码单元,用于根据所述源信息、所述转换条件和译出信息对所述第一编码进行解码,得到目标信息,其中,所述目标信息与所述源信息为不同语种的信息,所述译出信息是从所述源信息转换得到的词语,所述译出信息的语种与所述目标信息相同。
8.根据权利要求7所述的装置,其特征在于,解码单元包括:
确定模块,用于根据所述源信息和所述译出信息确定预先设置的多个条件与所述源信息在句式上的相似度;
选择模块,用于将多个所述条件中所述相似度最高的条件作为所述转换条件;
解码模块,用于根据所述源信息、所述转换条件和所述译出信息对所述第一编码进行解码,得到目标信息。
9.根据权利要求8所述的装置,其特征在于,所述确定模块包括:
权重子模块,用于根据用于表示所述源信息的第一向量、用于表示所述译出信息的第二向量和用于表示第一条件的第三向量确定多个所述条件中所述第一条件的权重值,所述第一条件为多个所述条件中的任意一个;
确定子模块,用于将多个所述条件中所述权重值最大的条件作为所述相似度最高的条件。
10.根据权利要求9所述的装置,其特征在于,所述权重子模块采用以下公式获取每个条件的权重值at:
at=S(Uht+Wsi)
其中,ht用于表示第t个条件的向量,si用于表示所述第一向量和所述第二向量,S表示S型生长曲线,U和W分别为矩阵。
11.根据权利要求7至10中任一项所述的装置,其特征在于,所述获取单元包括:
获取模块,用于获取预先设置的多个非连续信息,其中,所述非连续信息用于表示一个短语中包括具有关联的至少两个不连续的部分。
12.根据权利要求7至10中任一项所述的装置,其特征在于,
所述编码单元用于利用神经网络的编码器对所述源信息进行编码得到第一编码,其中,所述第一编码为第一向量;
所述解码单元用于利用神经网络的解码器根据所述源信息、所述转换条件和译出信息对所述第一向量进行解码,得到所述目标信息,其中,所述转换条件预先被所述神经网络的解码器获取。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810159460.7A CN108388549B (zh) | 2018-02-26 | 2018-02-26 | 信息转换方法、装置、存储介质和电子装置 |
PCT/CN2019/075237 WO2019161753A1 (zh) | 2018-02-26 | 2019-02-15 | 信息转换方法、装置、存储介质和电子装置 |
US16/890,861 US11710003B2 (en) | 2018-02-26 | 2020-06-02 | Information conversion method and apparatus, storage medium, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810159460.7A CN108388549B (zh) | 2018-02-26 | 2018-02-26 | 信息转换方法、装置、存储介质和电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388549A true CN108388549A (zh) | 2018-08-10 |
CN108388549B CN108388549B (zh) | 2021-02-19 |
Family
ID=63069294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810159460.7A Active CN108388549B (zh) | 2018-02-26 | 2018-02-26 | 信息转换方法、装置、存储介质和电子装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11710003B2 (zh) |
CN (1) | CN108388549B (zh) |
WO (1) | WO2019161753A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019161753A1 (zh) * | 2018-02-26 | 2019-08-29 | 腾讯科技(深圳)有限公司 | 信息转换方法、装置、存储介质和电子装置 |
CN110991148A (zh) * | 2019-12-03 | 2020-04-10 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
CN111523952A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 信息提取的方法及装置、存储介质和处理器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
US20170139905A1 (en) * | 2015-11-17 | 2017-05-18 | Samsung Electronics Co., Ltd. | Apparatus and method for generating translation model, apparatus and method for automatic translation |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107545903A (zh) * | 2017-07-19 | 2018-01-05 | 南京邮电大学 | 一种基于深度学习的语音转换方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5523946A (en) * | 1992-02-11 | 1996-06-04 | Xerox Corporation | Compact encoding of multi-lingual translation dictionaries |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
WO2018058046A1 (en) * | 2016-09-26 | 2018-03-29 | Google Llc | Neural machine translation systems |
CN107357789B (zh) * | 2017-07-14 | 2020-10-02 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107368475B (zh) * | 2017-07-18 | 2021-06-04 | 中译语通科技股份有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN107368476B (zh) | 2017-07-25 | 2020-11-03 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
CN108388549B (zh) * | 2018-02-26 | 2021-02-19 | 腾讯科技(深圳)有限公司 | 信息转换方法、装置、存储介质和电子装置 |
-
2018
- 2018-02-26 CN CN201810159460.7A patent/CN108388549B/zh active Active
-
2019
- 2019-02-15 WO PCT/CN2019/075237 patent/WO2019161753A1/zh active Application Filing
-
2020
- 2020-06-02 US US16/890,861 patent/US11710003B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
US20170139905A1 (en) * | 2015-11-17 | 2017-05-18 | Samsung Electronics Co., Ltd. | Apparatus and method for generating translation model, apparatus and method for automatic translation |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107545903A (zh) * | 2017-07-19 | 2018-01-05 | 南京邮电大学 | 一种基于深度学习的语音转换方法 |
Non-Patent Citations (2)
Title |
---|
GUL KHAN SAFI QAMAS 等: "《基于深度神经网络的命名实体识别方法研究》", 《信息网络安全》 * |
王超超 等: "《基于双语合成语义的翻译相似度模型》", 《北京大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019161753A1 (zh) * | 2018-02-26 | 2019-08-29 | 腾讯科技(深圳)有限公司 | 信息转换方法、装置、存储介质和电子装置 |
US11710003B2 (en) | 2018-02-26 | 2023-07-25 | Tencent Technology (Shenzhen) Company Limited | Information conversion method and apparatus, storage medium, and electronic device |
CN111523952A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 信息提取的方法及装置、存储介质和处理器 |
CN111523952B (zh) * | 2019-01-17 | 2023-05-05 | 阿里巴巴集团控股有限公司 | 信息提取的方法及装置、存储介质和处理器 |
CN110991148A (zh) * | 2019-12-03 | 2020-04-10 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
CN110991148B (zh) * | 2019-12-03 | 2024-02-09 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108388549B (zh) | 2021-02-19 |
WO2019161753A1 (zh) | 2019-08-29 |
US11710003B2 (en) | 2023-07-25 |
US20200293724A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697282B (zh) | 一种语句的用户意图识别方法和装置 | |
CN110534092B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN113505205A (zh) | 一种人机对话的系统和方法 | |
CN111930940A (zh) | 一种文本情感分类方法、装置、电子设备及存储介质 | |
KR20180078318A (ko) | 선행사의 결정방법 및 장치 | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN110956018A (zh) | 文本处理模型的训练方法、文本处理方法、装置及存储介质 | |
US11710003B2 (en) | Information conversion method and apparatus, storage medium, and electronic device | |
CN110335592B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN112131368B (zh) | 对话生成方法、装置、电子设备及存储介质 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN110457459B (zh) | 基于人工智能的对话生成方法、装置、设备及存储介质 | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN111783478B (zh) | 机器翻译质量估计方法、装置、设备及存储介质 | |
CN108804427A (zh) | 语音机器翻译方法及装置 | |
CN111241853B (zh) | 一种会话翻译方法、装置、存储介质及终端设备 | |
CN112767917A (zh) | 语音识别方法、装置及存储介质 | |
CN112447168A (zh) | 语音识别系统、方法、音箱、显示设备和交互平台 | |
CN110245224A (zh) | 对话生成方法及装置 | |
US20200285816A1 (en) | Information conversion method and apparatus, storage medium, and electronic apparatus | |
CN117094365A (zh) | 图文生成模型的训练方法、装置、电子设备及介质 | |
CN107423293A (zh) | 数据翻译的方法和装置 | |
CN110866195B (zh) | 文本描述的生成方法、装置、电子设备及存储介质 | |
CN109597884B (zh) | 对话生成的方法、装置、存储介质和终端设备 | |
CN113569585A (zh) | 翻译方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |