CN110210026B - 语音翻译方法、装置、计算机设备和存储介质 - Google Patents
语音翻译方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110210026B CN110210026B CN201910458639.7A CN201910458639A CN110210026B CN 110210026 B CN110210026 B CN 110210026B CN 201910458639 A CN201910458639 A CN 201910458639A CN 110210026 B CN110210026 B CN 110210026B
- Authority
- CN
- China
- Prior art keywords
- translation
- type
- node
- voice recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 10
- 230000014616 translation Effects 0.000 description 123
- 235000003181 Panax pseudoginseng Nutrition 0.000 description 14
- 244000131316 Panax pseudoginseng Species 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音翻译方法、装置、计算机设备和存储介质。其中方法包括:接收语音数据;对语音数据进行语音识别,得到至少一个语音识别文本;根据至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示;将语义向量表示输入至翻译模型中以进行翻译。该方法对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,提高了语音翻译效率。
Description
技术领域
本发明涉及一种语音翻译技术领域,尤其涉及一种语音翻译方法、装置、计算机设备和计算机可读存储介质。
背景技术
传统的语音翻译中,首先需要进行语音识别,将语音信号转化为文本信息。在此过程中,语音识别受限于语音识别系统性能的影响,容易产生语音识别错误,例如,“这里的天气怎样”错误的识别成“这里的田七怎样”,如果直接将设备错误的内容进行机器翻译,容易产生错误的内容,因此需要针对语音识别错误,设计合理有效的模型,以进行容错处理。
相关技术中,主要通过以下方式来进行容错处理:在语音翻译的过程中,基于语音识别技术对输入语音进行语音识别时,会输出语音识别的多个结果,通过翻译模型对该多个结果分别进行翻译排序。
但是存在的问题是:多个语音识别结果可能仍然无法包含正确的识别结果,并且生成多个翻译结果影响效率。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种语音翻译方法。该方法对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,提高了语音翻译效率。
本发明的第二个目的在于提出一种语音翻译装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出的语音翻译方法,包括:接收语音数据;对所述语音数据进行语音识别,得到至少一个语音识别文本;根据所述至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示;将所述语义向量表示输入至所述翻译模型中以进行翻译。
本发明实施例的语音翻译方法,可接收语音数据,并对该语音数据进行语音识别,得到至少一个语音识别文本,并根据该至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示,并将该一个语义向量表示输入至翻译模型中以进行翻译,即通过对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,避免了翻译模型需对同一语音的多个语音识别结果进行多次翻译的情况发生,减少了翻译模型对同一语音的翻译次数,大大提高了语音翻译效率。
为达到上述目的,本发明第二方面实施例提出的语音翻译装置,包括:语音接收模块,用于接收语音数据;语音识别模块,用于对所述语音数据进行语音识别,得到至少一个语音识别文本;语义向量表示生成模块,用于根据所述至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示;翻译模块,用于将所述语义向量表示输入至所述翻译模型中以进行翻译。
本发明实施例的语音翻译装置,可通过语音接收模块接收语音数据,语音识别模块对该语音数据进行语音识别,得到至少一个语音识别文本,语义向量表示生成模块根据该至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示,翻译模块将该一个语义向量表示输入至翻译模型中以进行翻译,即通过对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,避免了翻译模型需对同一语音的多个语音识别结果进行多次翻译的情况发生,减少了翻译模型对同一语音的翻译次数,大大提高了语音翻译效率。
为达到上述目的,本发明第三方面实施例提出的计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本发明第一方面实施例所述的语音翻译方法。
为达到上述目的,本发明第四方面实施例提出的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面实施例所述的语音翻译方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的语音翻译方法的流程图;
图2a是根据本发明实施例的以语音“今天天气真不错”为例生成的图模型的示例图一;
图2b是根据本发明实施例的以语音“今天天气真不错”为例生成的图模型的示例图二;
图3是根据本发明一个具体实施例的语音翻译方法的流程图;
图4是根据本发明实施例的生成图模型的流程图;
图5是根据本发明一个实施例的语音翻译装置的结构示意图;
图6是根据本发明一个具体实施例的语音翻译装置的结构示意图;
图7是根据本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的语音翻译方法、装置、计算机设备和计算机可读存储介质。
图1是根据本发明一个实施例的语音翻译方法的流程图。需要说明的是,本发明实施例的语音翻译方法可应用于本发明实施例的语音翻译装置,该语音翻译装置可被配置于计算机设备上。例如,该计算机设备上可配置有语音翻译装置,该语音翻译装置中可具有语音识别模块和翻译模块,其中,语音识别模块用于基于语音识别技术对语音数据进行语音识别,翻译模块用于基于预先训练好的翻译模型对输入的语义向量表示进行预测,得到的预测结果即为翻译结果。
如图1所示,该语音翻译方法可以包括:
S110,接收语音数据。
例如,可为用户提供语音输入接口,用户可通过该接口输入语音数据。
S120,对语音数据进行语音识别,得到至少一个语音识别文本。
可选地,基于语音识别技术对语音数据进行语音识别,即将语音信号转化为文本信息,可以得到至少一个语音识别文本。例如,可根据经过训练的语音识别模型对语音数据进行语音识别,得到语音识别所有可能的结果。
可以理解,对某个语音进行语音识别时,语音识别结果的个数多少可取决于语音识别模型的性能以及语音信号噪音,例如,若语音识别模型性能较差,或者语音信号噪音较大,会产生多个语音识别文本,若语音识别模型性能较好(比如可识别各种方言以及各种口音的模型),且语音信号噪音少,则会产生一个准确的语音识别文本。需要说明的是,本发明不对语音识别模型的性能进行限定,只要能够实现将语音信号转化为文本信息即可。
S130,根据至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示。
可选地,根据至少一个语音识别文本生成对应的图模型,并基于该图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示。也就是说,可对至少一个语音识别文本进行分词处理,并得到的分词作为图模型的节点,并基于语音识别的时序序列将这些节点进行有向连接,其中,语音识别错误的分词以子节点的形式表示,从而可以得到针对至少一个语音识别文本的图模型,之后,可基于该图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示。由此,对语音识别所有可能的结果进行图模型压缩表示,能够产生很强的模型容错能力,从而能够得到一个用于输入至翻译模型的语义向量表示,这样,翻译模型只需对该一个语义向量表示进行预测即可实现语音的翻译,提高了翻译效率。
举例而言,以语音数据为“今天天气真不错”为例,对该语音数据进行语音识别时,语音识别可能得到如下语音识别文本:“今天真不错”文本、“今天田七真不错”文本和“今天天气真不错”文本。此时,可根据这三个语音识别文本生成对应的图模型,例如,如图2a所示,将这三个语音识别文本中的分词作为图模型中的节点,其中,语音识别错误的分词以子节点的形式表示,并且,基于语音识别的时序序列将这些节点进行有向连接,从而得到针对该语音识别结果的图模型。从图2a中可以看出,该图模型中有两类节点,即:浅颜色的节点和深颜色的节点,其中,浅颜色的节点通过有向图进行连接,表示的是当前语音识别可能的时序序列,如“今天真不错”和“今天X真不错”。深颜色的节点可以作为浅颜色的节点的一个并列表示,例如上述的“X”可以替换为“天气”或者“田七”。
在得到图模型之后,可基于图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示,例如,可生成一个“今天X真不错”文本的语义特征作为所述用于输入至翻译模型的语义向量表示。其中,该“今天X真不错”文本的语义特征可基于图模型中的各个节点的语义特征计算得到。
S140,将语义向量表示输入至翻译模型中以进行翻译。
其中,在本发明的实施例中,所述翻译模型为预先训练好的模型,例如,可预先采用大量的样本数据对模型进行训练,并将该训练好的模型作为该翻译模型。需要说明的是,在本发明的实施例中,该翻译模型可是利用卷积神经网络模型或循环神经网络模型来进行训练,本发明不作具体限定。
本发明实施例的语音翻译方法,可接收语音数据,并对该语音数据进行语音识别,得到至少一个语音识别文本,并根据该至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示,并将该一个语义向量表示输入至翻译模型中以进行翻译,即通过对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,避免了翻译模型需对同一语音的多个语音识别结果进行多次翻译的情况发生,减少了翻译模型对同一语音的翻译次数,大大提高了语音翻译效率。
图3是根据本发明一个具体实施例的语音翻译方法的流程图。如图3所示,该语音翻译方法可以包括:
S310,接收语音数据。
S320,对语音数据进行语音识别,得到至少一个语音识别文本。
S330,根据至少一个语音识别文本生成对应的图模型。
可选地,对至少一个语音识别文本分别进行分词处理,得到每个语音识别文本对应的分词,并从每个语音识别文本对应的分词中,确定出属于识别正确类型的分词和属于同一种识别错误类型的分词,然后,根据属于识别正确类型的分词、属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成图模型。
举例而言,以语音数据为“今天天气真不错”为例,对该语音数据进行语音识别时,语音识别可能得到如下语音识别文本:“今天真不错”文本、“今天田七真不错”文本和“今天天气真不错”文本。此时,可对每个语音识别文本进行分词处理,得到每个语音识别文本对应的分词,即“今天真不错”文本对应的分词为:“今天”、“真”、“不错”,“今天田七真不错”文本对应的分词为:“今天”、“田七”、“真”、“不错”,“今天天气真不错”对应的分词为:“今天”、“天气”、“真”、“不错”,从这些分词中确定出属于识别正确类型的分词为:“今天”、“真”、“不错”,属于同一种识别错误类型的分词为:“天气”、“田七”,然后,可根据属于识别正确类型的分词(即“今天”、“真”、“不错”)、属于同一种识别错误类型的分词(即“天气”、“田七”)和每个语音识别文本对应的分词间的时序关系,生成图模型。
从上述举例的示例中可以看出,所述从每个语音识别文本对应的分词中,确定出属于识别正确类型的分词和属于同一种识别错误类型的分词的具体实现过程可如下:从每个语音识别文本对应的分词中,找出每个语音识别文本均包含的分词,将该每个语音识别文本均包含的分词确定为属于识别正确类型的分词,最后,基于当前语音识别的时序序列从剩下的分词中找出属于同一种识别错误类型的分词。例如,“天气”与“田七”在语音识别中的时序序列相同,可认为这两个分词是属于同一种识别错误类型的分词。
作为一种示例,如图4所示,所述根据属于识别正确类型的分词、属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成图模型的具体实现过程可包括以下步骤:
S410,将属于识别正确类型的分词作为第一类节点。
S420,根据属于同一种识别错误类型的分词,确定多种识别错误类型。
例如,假设多个语音识别文本中确定出属于同一种识别错误类型的分词分别为:“天气”、“田七”,“真”、“帧”,可以看出,此时可确定识别错误类型有两种,一种是“天气”、“田七”,另一种是“真”、“帧”。
S430,将每种识别错误类型作为第二类节点。
S440,将属于同一种识别错误类型的分词作为对应的第二类节点的子节点。
举例而言,以语音数据为“今天天气真不错”为例,假设语音识别结果得到文本可如下:“今天真不错”、“今天天气帧不错”、“今天田七真不错”,可以确定出有两种识别错误类型,一种是“天气”、“田七”,另一种是“真”、“帧”,此时,可将每种识别错误类型作为图模型的第二类节点,将“天气”、“田七”作为其中一个第二节点的子节点,将“真”、“帧”作为另一个第二节点的子节点,例如,如图2b所示。
S450,根据第一类节点、第二类节点、第二类节点的子节点和每个语音识别文本对应的分词间的时序关系,生成图模型。
例如,可根据每个语音识别文本对应的分词间的时序关系,将第一类节点、第二类节点进行有向图连接,并将属于同一种识别错误类型的分词作为对应的第二类节点的子节点与该第二类节点进行连接,从而可以得到图模型,例如,以如图2a所示。可以看出,采用这种图形模型的表示的好处是:对于“今天真不错”代表的是漏词,以及“今天X真不错”代表的识别错误,两种语音识别错误能够有一定的区分能力(通过不同路径的权重进行表示)。而同一种识别错误类型则可通过深颜色节点表示的图模型来进行区分。
S340,基于该图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示。
在本发明的一个实施例中,图模型可包括第一类节点、第二类节点和所述第二类节点的子节点。其中,在本发明的实施例中,可确定所述图模型中的第一类节点、第二类节点和第二类节点的子节点,并根据第一类节点上的分词文本生成对应的语义特征,并根据第二类节点的子节点上的分词文本生成第二类节点的语义特征,然后,根据第一类节点的语义特征和第二类节点的语义特征,按照图模型中节点之间的关系,生成一个用于输入至翻译模型的语义向量表示。
例如,可基于现有技术中的文本语义特征生成方法计算该图模型中每个第一类节点上的分词文本的语义特征,并计算该图模型中每个第二类节点的每个子节点上的分词文本的语义特征,将第二类节点的每个子节点上的分词文本的语义特征利用加权求和的方式计算该第二类节点的语义特征,其中,该计算方式可以表达为如下公式(1):
其中,ex为X节点的语义特征,C为当前X节点的所有子节点,c为当前X节点的子节点,Wc为当前c子节点的权重,ec为当前c子节点的语义特征。
在得到该图模型中的每个第一类节点的语义特征和每个第二类节点的语义特征之后,可按照图模型中节点之间的关系,将这些第一类节点的语义特征和第二类节点的语义特征进行组合,以得到一个可用于输入至翻译模型的语义向量表示。
举例而言,以语音数据为“今天天气真不错”为例,假设得到图模型如图2a所示,可分别计算第一类节点“今天”、“真”、“不错”的语义特征,并计算第二类节点中的每个子节点“天气”和“田七”的语义特征,并基于上述公式(1)计算得到该第二类节点的语义特征,然后,可按照图模型中节点之间的关系,将第一类节点和第二类节点的语义特征进行组合,即可得到“今天X真不错”的语义向量表示。由此,通过对语音识别所有可能的结果进行图模型压缩表示,能够产生很强的模型容错能力,不受语音识别错误影响。
S350,将语义向量表示输入至翻译模型中以进行翻译。
本发明实施例的语音翻译方法,可接收语音数据,并对该语音数据进行语音识别,得到至少一个语音识别文本,并根据该至少一个语音识别文本生成对应的图模型,基于该图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示,并将该语义向量表示输入至翻译模型中以进行翻译。即通过对语音识别所有可能的结果进行图模型压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,避免了翻译模型需对同一语音的多个语音识别结果进行多次翻译的情况发生,减少了翻译模型对同一语音的翻译次数,大大提高了语音翻译效率。
与上述几种实施例提供的语音翻译方法相对应,本发明的一种实施例还提供一种语音翻译装置,由于本发明实施例提供的语音翻译装置与上述几种实施例提供的语音翻译方法相对应,因此在前述语音翻译方法的实施方式也适用于本实施例提供的语音翻译装置,在本实施例中不再详细描述。图5是根据本发明一个实施例的语音翻译装置的结构示意图。如图5所示,该语音翻译装置500可以包括:语音接收模块510、语音识别模块520、语义向量表示生成模块530和翻译模块540。
具体地,语音接收模块510用于接收语音数据。
语音识别模块520用于对语音数据进行语音识别,得到至少一个语音识别文本。
语义向量表示生成模块530用于根据至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示。作为一种示例,如图6所示,语义向量表示生成模块530可包括:图模型生成单元531和语义向量表示生成单元532。其中,图模型生成单元531用于根据至少一个语音识别文本生成对应的图模型;语义向量表示生成单元532用于基于图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示。
在本发明的一个实施例中,图模型生成单元531具体用于:对至少一个语音识别文本分别进行分词处理,得到每个语音识别文本对应的分词;从每个语音识别文本对应的分词中,确定出属于识别正确类型的分词和属于同一种识别错误类型的分词;根据属于识别正确类型的分词、属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成图模型。
可选地,图模型生成单元531根据属于识别正确类型的分词、属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成图模型的具体实现过程可如下:将属于识别正确类型的分词作为第一类节点;根据属于同一种识别错误类型的分词,确定多种识别错误类型;将每种识别错误类型作为第二类节点;将属于同一种识别错误类型的分词作为对应的第二类节点的子节点;根据第一类节点、第二类节点、第二类节点的子节点和每个语音识别文本对应的分词间的时序关系,生成图模型。
在本发明的一个实施例中,图模型包括:第一类节点、第二类节点和所述第二类节点的子节点。其中,在本发明的实施例中,语义向量表示生成单元532具体用于:确定图模型中的第一类节点、第二类节点和第二类节点的子节点;根据第一类节点上的分词文本生成对应的语义特征;根据第二类节点的子节点上的分词文本生成第二类节点的语义特征;根据第一类节点的语义特征和第二类节点的语义特征,按照图模型中节点之间的关系,生成一个用于输入至翻译模型的语义向量表示。
翻译模块540用于将语义向量表示输入至翻译模型中以进行翻译。
本发明实施例的语音翻译装置,可通过语音接收模块接收语音数据,语音识别模块对该语音数据进行语音识别,得到至少一个语音识别文本,语义向量表示生成模块根据该至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示,翻译模块将该一个语义向量表示输入至翻译模型中以进行翻译,即通过对语音识别所有可能的结果进行压缩表示,能够产生很强的模型容错能力,使得语音翻译不受语音识别错误影响,避免了翻译模型需对同一语音的多个语音识别结果进行多次翻译的情况发生,减少了翻译模型对同一语音的翻译次数,大大提高了语音翻译效率。
为了实现上述实施例,本发明还提出了一种计算机设备。
图7是根据本发明一个实施例的计算机设备的结构示意图。如图7所示,该计算机设备700可以包括:存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序730,处理器720执行计算机程序730时,实现本发明上述任一个实施例所述的语音翻译方法。
为了实现上述实施例,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明上述任一个实施例所述的语音翻译方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种语音翻译方法,其特征在于,包括以下步骤:
接收语音数据;
对所述语音数据进行语音识别,得到至少一个语音识别文本;
根据所述至少一个语音识别文本生成对应的图模型;
基于所述图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示;
将所述语义向量表示输入至所述翻译模型中以进行翻译;
所述根据所述至少一个语音识别文本生成对应的图模型,包括:
对所述至少一个语音识别文本分别进行分词处理,得到每个语音识别文本对应的分词;
从所述每个语音识别文本对应的分词中,确定出属于识别正确类型的分词和属于同一种识别错误类型的分词;
根据所述属于识别正确类型的分词、所述属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成所述图模型。
2.根据权利要求1所述的语音翻译方法,其特征在于,所述根据所述属于识别正确类型的分词、所述属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成所述图模型,包括:
将所述属于识别正确类型的分词作为第一类节点;
根据所述属于同一种识别错误类型的分词,确定多种识别错误类型;
将每种识别错误类型作为第二类节点;
将所述属于同一种识别错误类型的分词作为对应的第二类节点的子节点;
根据所述第一类节点、第二类节点、第二类节点的子节点和每个语音识别文本对应的分词间的时序关系,生成所述图模型。
3.根据权利要求1至2中任一项所述的语音翻译方法,其特征在于,所述图模型包括:第一类节点、第二类节点和所述第二类节点的子节点;所述基于所述图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示,包括:
确定所述图模型中的第一类节点、第二类节点和所述第二类节点的子节点;
根据所述第一类节点上的分词文本生成对应的语义特征;
根据所述第二类节点的子节点上的分词文本生成所述第二类节点的语义特征;
根据所述第一类节点的语义特征和所述第二类节点的语义特征,按照所述图模型中节点之间的关系,生成一个用于输入至翻译模型的语义向量表示。
4.一种语音翻译装置,其特征在于,包括:
语音接收模块,用于接收语音数据;
语音识别模块,用于对所述语音数据进行语音识别,得到至少一个语音识别文本;
语义向量表示生成模块,用于根据所述至少一个语音识别文本生成一个用于输入至翻译模型的语义向量表示;
翻译模块,用于将所述语义向量表示输入至所述翻译模型中以进行翻译;
所述语义向量表示生成模块包括:
图模型生成单元,用于根据所述至少一个语音识别文本生成对应的图模型;
语义向量表示生成单元,用于基于所述图模型的表示结构,生成一个用于输入至翻译模型的语义向量表示;
所述图模型生成单元具体用于:
对所述至少一个语音识别文本分别进行分词处理,得到每个语音识别文本对应的分词;
从所述每个语音识别文本对应的分词中,确定出属于识别正确类型的分词和属于同一种识别错误类型的分词;
根据所述属于识别正确类型的分词、所述属于同一种识别错误类型的分词和每个语音识别文本对应的分词间的时序关系,生成所述图模型。
5.根据权利要求4所述的语音翻译装置,其特征在于,所述图模型生成单元具体用于:
将所述属于识别正确类型的分词作为第一类节点;
根据所述属于同一种识别错误类型的分词,确定多种识别错误类型;
将每种识别错误类型作为第二类节点;
将所述属于同一种识别错误类型的分词作为对应的第二类节点的子节点;
根据所述第一类节点、第二类节点、第二类节点的子节点和每个语音识别文本对应的分词间的时序关系,生成所述图模型。
6.根据权利要求4至5中任一项所述的语音翻译装置,其特征在于,所述图模型包括:第一类节点、第二类节点和所述第二类节点的子节点;所述语义向量表示生成单元具体用于:
确定所述图模型中的第一类节点、第二类节点和所述第二类节点的子节点;
根据所述第一类节点上的分词文本生成对应的语义特征;
根据所述第二类节点的子节点上的分词文本生成所述第二类节点的语义特征;
根据所述第一类节点的语义特征和所述第二类节点的语义特征,按照所述图模型中节点之间的关系,生成一个用于输入至翻译模型的语义向量表示。
7.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至3中任一项所述的语音翻译方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的语音翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458639.7A CN110210026B (zh) | 2019-05-29 | 2019-05-29 | 语音翻译方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458639.7A CN110210026B (zh) | 2019-05-29 | 2019-05-29 | 语音翻译方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210026A CN110210026A (zh) | 2019-09-06 |
CN110210026B true CN110210026B (zh) | 2023-05-26 |
Family
ID=67789488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458639.7A Active CN110210026B (zh) | 2019-05-29 | 2019-05-29 | 语音翻译方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210026B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115310462B (zh) * | 2022-10-11 | 2023-03-24 | 中孚信息股份有限公司 | 一种基于nlp技术的元数据识别翻译方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261362A (zh) * | 2015-09-07 | 2016-01-20 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
KR101684554B1 (ko) * | 2015-08-20 | 2016-12-08 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 그 방법 |
CN107516511A (zh) * | 2016-06-13 | 2017-12-26 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
CN108549626A (zh) * | 2018-03-02 | 2018-09-18 | 广东技术师范学院 | 一种慕课的关键词提取方法 |
CN108986793A (zh) * | 2018-09-28 | 2018-12-11 | 北京百度网讯科技有限公司 | 翻译处理方法、装置及设备 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109635305A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 语音翻译方法及装置、设备及存储介质 |
-
2019
- 2019-05-29 CN CN201910458639.7A patent/CN110210026B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101684554B1 (ko) * | 2015-08-20 | 2016-12-08 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 그 방법 |
CN105261362A (zh) * | 2015-09-07 | 2016-01-20 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
CN107516511A (zh) * | 2016-06-13 | 2017-12-26 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
CN108549626A (zh) * | 2018-03-02 | 2018-09-18 | 广东技术师范学院 | 一种慕课的关键词提取方法 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN108986793A (zh) * | 2018-09-28 | 2018-12-11 | 北京百度网讯科技有限公司 | 翻译处理方法、装置及设备 |
CN109635305A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 语音翻译方法及装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110210026A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377716B (zh) | 对话的交互方法、装置及计算机可读存储介质 | |
Zhang et al. | Attention based fully convolutional network for speech emotion recognition | |
CN107221326B (zh) | 基于人工智能的语音唤醒方法、装置和计算机设备 | |
CN108984679B (zh) | 对话生成模型的训练方法和装置 | |
US20180046614A1 (en) | Dialogie act estimation method, dialogie act estimation apparatus, and medium | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
KR102057184B1 (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
CN110413760B (zh) | 人机对话方法、装置、存储介质及计算机程序产品 | |
CN107967258B (zh) | 文本信息的情感分析方法和系统 | |
CN109710087B (zh) | 输入法模型生成方法及装置 | |
CN108932944B (zh) | 解码方法及装置 | |
CN108305619A (zh) | 语音数据集训练方法和装置 | |
CN104599680A (zh) | 移动设备上的实时口语评价系统及方法 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
CN110751234B (zh) | Ocr识别纠错方法、装置及设备 | |
JP2002041464A (ja) | エンドユーザ・トランザクションを識別するための方法及び装置 | |
CN115455175A (zh) | 基于多语言模型的跨语言摘要生成方法和装置 | |
CN110210026B (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
CN111563391A (zh) | 机器翻译方法、装置及电子设备 | |
CN113821637A (zh) | 一种长文本分类方法、装置、计算机设备和可读存储介质 | |
CN111723194A (zh) | 摘要生成方法、装置和设备 | |
CN113760358A (zh) | 一种面向源代码分类模型的对抗样本生成方法 | |
CN112241629A (zh) | 结合rpa及ai的拼音标注文本生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |