CN112733554B - 口语文本处理方法、装置、服务器及可读存储介质 - Google Patents
口语文本处理方法、装置、服务器及可读存储介质 Download PDFInfo
- Publication number
- CN112733554B CN112733554B CN202011537633.8A CN202011537633A CN112733554B CN 112733554 B CN112733554 B CN 112733554B CN 202011537633 A CN202011537633 A CN 202011537633A CN 112733554 B CN112733554 B CN 112733554B
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- preset
- written language
- description vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种口语文本处理方法、装置、服务器及可读存储介质,通过在初始口语文本与目标语言翻译文本之间建立一个初始口语文本的书面语文本的中介对象,在进行机器翻译时可以基于书面语文本进行机器翻译,从而利用机器翻译针对于书面语文本的高准确性的特点,提高初始口语文本的翻译准确性和翻译效率,减少人工校对的翻译成本。此外,随着机器翻译的进行,可以基于初始口语文本与所述第二书面语文本之间的每个差异语段对预设书面语转换库进行丰富更新,可以不断提高书面语的转换质量,进而不断提高后续机器翻译的翻译质量,进一步地降低人工校正的翻译工作量。
Description
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种口语文本处理方法、装置、服务器及可读存储介质。
背景技术
影视剧字幕的翻译口语翻译主要的应用场合之一,传统的实现方式一般有两种:一种是人工翻译,由熟悉两种语言的翻译人员,通过对照口语原始文件直接进行翻译,虽然这种方式翻译准确率高,然而翻译效率低,人工成本高;另一种则是机器翻译与人工校正结合的方式,这种方式虽然可以提高一部分翻译效率,降低一部分人工成本,但是经本申请发明人研究发现,传统的机器翻译方案,对于口语文本的翻译准确性较差,这样仍旧会导致人工校正的工作量较大,翻译效率和翻译成本难以得到有效提升。
发明内容
基于现有设计的不足,本申请提供一种口语文本处理方法、装置、服务器及可读存储介质,通过在初始口语文本与目标语言翻译文本之间建立一个初始口语文本的书面语文本的中介对象,从而在进行机器翻译时可以基于书面语文本进行机器翻译,从而利用机器翻译针对于书面语文本的高准确性的特点,提高初始口语文本的翻译准确性和翻译效率,并且减少人工校对的翻译成本。此外,随着机器翻译的进行,可以基于初始口语文本与所述第二书面语文本之间的每个差异语段对预设书面语转换库进行丰富更新,可以不断提高书面语的转换质量,进而不断提高后续机器翻译的翻译质量,进一步地降低人工校正的翻译工作量。
根据本申请的第一方面,提供一种口语文本处理方法,应用于服务器,所述方法包括:
根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库;
基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作;
提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段;
根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。
在第一方面的一种可能的实施方式中,所述根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本的步骤,包括:
对所述初始口语文本进行分词,获得多个文本分词;
将每个所述文本分词与所述预设书面语转换库中的每个书面语元素对应的口语元素进行匹配,当所述文本分词与任意一个书面语元素对应的口语元素匹配时,将所述文本分词转换为对应匹配的书面语元素;
当所有与任意一个书面语元素对应的口语元素匹配的文本分词均转换为对应匹配的书面语元素后,得到第一书面语文本。
在第一方面的一种可能的实施方式中,所述基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本的步骤,包括:
调用预设机器翻译接口对所述第一书面语文本翻译成目标语言,获得目标语言翻译文本;
检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本;
再次调用所述预设机器翻译接口将所述纠正书面语文本翻译成目标语言,返回检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异的步骤,直到所述特征差异小于预设差异后,将当前获得的纠正书面语文本确定为所述第二书面语文本。
在第一方面的一种可能的实施方式中,所述检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本的步骤,包括:
获取所述目标语言翻译文本与所述初始口语文本之间的语义关联特征集对应的多个语义关联特征向量的词向量编码信息,所述多个语义关联特征向量包括所述语义关联特征集中的每个语义关联特征对应的语义关联特征向量;
基于所述多个语义关联特征向量的词向量编码信息确定离散分布特征,获取所述语义关联特征集中的每个语义关联特征在第一预设语义标签区间内的模型级别特征;
确定与所述每个语义关联特征在第一预设语义标签区间内的模型级别特征对应的模型级别特征分布;
基于特征差异识别模型,根据所述模型级别特征分布和所述离散分布特征,对所述语义关联特征集中语义关联特征进行特征差异分析,得到所述语义关联特征集中语义关联特征间的特征差异;
基于所述语义关联特征集中语义关联特征间的特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本。
在第一方面的一种可能的实施方式中,所述基于特征差异识别模型,根据所述模型级别特征分布和所述离散分布特征,对所述语义关联特征集中语义关联特征进行特征差异分析,得到所述语义关联特征集中语义关联特征间的特征差异包括:
对所述模型级别特征分布进行语义可读性挖掘,得到语义可读性特征;
对所述语义可读性特征和所述离散分布特征进行特征融合,得到目标融合特征;
对所述目标融合特征进行特征差异计算,得到所述语义关联特征集中语义关联特征间的特征差异。
在第一方面的一种可能的实施方式中,所述基于所述多个语义关联特征向量的词向量编码信息确定离散分布特征的步骤,包括:
根据所述多个语义关联特征向量的词向量编码信息确定所述多个语义关联特征向量的编码语义方向信息;
根据所述多个语义关联特征向量的编码语义方向信息构造第二预设语义标签区间内的标签编码语义方向序列;
根据所述标签编码语义方向序列进行离散分布挖掘,得到离散分布;
对所述离散分布进行特征编码,得到所述离散分布特征。
在第一方面的一种可能的实施方式中,所述方法还包括:
获取多个标注有语义关联特征间的特征差异的样本特征集对应的样本离散分布特征,以及对应的样本模型级别特征分布;
基于所述多个标注有语义关联特征间的特征差异的样本特征集对应的样本离散分布特征,以及对应的样本模型级别特征分布,对预设神经网络模型进行特征差异分析的训练,在特征差异分析的训练中调整所述预设神经网络模型的模型参数直至所述预设神经网络模型满足预设收敛条件,得到所述特征差异分析模型。
在第一方面的一种可能的实施方式中,所述获取多个标注有语义关联特征间的特征差异的样本组件集对应的样本模型级别特征分布的步骤,包括:
分别获取所述样本组件集中的每个语义关联特征在第三预设语义标签区间内的样本模型级别特征;
分别对所述样本模型级别特征进行文本向量化,得到对应的样本模型级别特征分布。
在第一方面的一种可能的实施方式中,所述方法还包括:
将每个所述初始口语文本和对应的所述第二书面语文本作为一个训练语料,以构建由多个训练语料组成的训练语料库;
基于所述训练语料库训练机器学习模型,获得书面语转换模型,以便于基于所述书面语转换模型对输入的待转换口语文本进行书面语转换,得到所述待转换口语文本对应的书面语转换文本;
其中,所述基于所述训练语料库训练机器学习模型,获得书面语转换模型的步骤,包括:
对所述训练语料库中的训练语料对应的初始口语文本和对应的第二书面语文本进行文本特征提取,得到所述训练语料在多个语义维度上的文本编码信息,并获取所述文本编码信息的语义维度信息;
根据所述文本编码信息的语义维度信息,在所述文本编码信息中筛选出每个语义维度对应的语义映射向量表示,并根据预设词向量编码方式,将所述语义映射向量表示转换为所述训练语料的词向量分布;
基于所述语义映射向量表示和词向量分布,计算所述训练语料的初始训练意图描述向量,将所述词向量分布和所述初始训练意图描述向量进行融合,得到所述训练语料的训练意图描述向量,其中,所述训练语料的训练意图描述向量包括初始口语文本和对应的第二书面语文本各自对应的训练意图描述向量部分;
根据所述文本编码信息的语义维度信息,确定所述训练意图描述向量的语义维度信息,所述训练意图描述向量指示所述训练语料的描述语义特征;
根据所述训练意图描述向量的语义维度信息,在所述训练意图描述向量中筛选出目标训练意图描述向量,并从所述目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用所述第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型,其中,所述第一描述向量与所述初始口语文本关联,所述第二描述向量与所述初始口语文本对应的所述第二书面语文本关联。
在第一方面的一种可能的实施方式中,所述训练意图描述向量包括至少一个分支训练意图描述向量,所述根据所述训练意图描述向量的语义维度信息,在所述训练意图描述向量中筛选出目标训练意图描述向量,包括:
根据预设筛选策略,在所述训练意图描述向量的语义维度信息中筛选出对应的目标语义维度;
在所述训练意图描述向量中筛选出所述目标语义维度对应的分支训练意图描述向量;
将所述目标语义维度对应的分支训练意图描述向量进行融合,得到所述目标训练意图描述向量。
在第一方面的一种可能的实施方式中,所述从所述目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用所述第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型的步骤,包括:
在所述训练语料库中确定出所述第一描述向量、第二描述向量、以及所述第一描述向量和第二描述向量的描述元素;
对所述第一描述向量和第二描述向量进行特征提取,得到第一描述向量特征和第二描述向量特征;
获取所述预设机器学习模型的模型配置参数,并根据所述模型配置参数,采用所述预设机器学习模型的文本语义检测网络对所述第一描述向量特征进行检测,得到所述第一描述向量的预测文本语义;
在所述预测文本语义中确定出每一语义分段的预测语义编码序列,采用文本语义预设函数值函数计算所述每一语义分段的预测语义编码序列与标注的所述第二描述向量的语义编码序列的第一差异,将所述第一差异作为所述第一描述向量的文本语义预设函数值,并基于所述第一描述向量的描述元素,确定所述第一描述向量的分类预设函数值;
获取预设语义规则特征集合,所述预设语义规则特征集合包括符合预设语义规则分布的多个预设语义规则特征;
分别对所述第一描述向量特征和所述预设语义规则特征进行数值转换,得到第一描述向量特征值与预设语义规则特征值,并根据所述第一描述向量特征值和所述预设语义规则特征值,确定所述第一描述向量特征的特征均值和预设语义规则特征的特征均值;
采用均值差异函数计算所述第一描述向量特征的特征均值与预设语义规则特征的特征均值的第二差异,将所述第二差异作为所述第一描述向量的均值差异预设函数值,并将所述文本语义预设函数值、分类预设函数值和均值差异预设函数值进行融合,得到第一描述向量的预设函数值信息;
基于所述第一描述向量的预设函数值信息,对所述模型配置参数进行更新,得到初始更新模型配置参数;
根据所述第二描述向量特征、第二描述向量的描述元素和初始更新模型配置参数,确定所述第二描述向量的预设函数值信息;
基于所述第二描述向量的预设函数值信息,对所述模型配置参数进行更新,得到所述模型配置更新参数,并基于所述模型配置更新参数,对所述预设机器学习模型进行参数调整;
返回执行所述根据预设筛选策略,在所述训练意图描述向量的语义维度信息中筛选出用于聚类的目标语义维度的步骤,直至所述预设机器学习模型参数调整完成,得到所述书面语转换模型;
所述基于所述书面语转换模型对输入的待转换口语文本进行书面语转换,得到所述待转换口语文本对应的书面语转换文本的步骤,包括:
将所述待转换口语文本输入到所述书面语转换模型中,提取所述待转换口语文本的描述向量,并基于所述书面语转换模型对所述描述向量进行转换后,得到所述待转换口语文本对应的书面语转换文本。
根据本申请的第二方面,提供一种口语文本处理装置,应用于服务器,所述装置包括:
转换模块,用于根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库;
更新模块,用于基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作;
提取模块,用于提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段;
比对模块,用于根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。
根据本申请的第三方面,提供一种服务器,包括机器可读存储介质和处理器,所述机器可读存储介质中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面或者第一方面任意一种可能的实施方式所述的口语文本处理方法。
根据本申请的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被运行时以执行第一方面或者第一方面任意一种可能的实施方式所述的口语文本处理方法。
基于上述任一方面,本申请通过在初始口语文本与目标语言翻译文本之间建立一个初始口语文本的书面语文本的中介对象,在进行机器翻译时可以基于书面语文本进行机器翻译,从而利用机器翻译针对于书面语文本的高准确性的特点,提高初始口语文本的翻译准确性和翻译效率,减少人工校对的翻译成本。此外,随着机器翻译的进行,可以基于初始口语文本与所述第二书面语文本之间的每个差异语段对预设书面语转换库进行丰富更新,可以不断提高书面语的转换质量,进而不断提高后续机器翻译的翻译质量,进一步地降低人工校正的翻译工作量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的口语文本处理方法的流程示意图之一;
图2示出了图1中所示的步骤S110的子步骤流程示意图;
图3示出了图1中所示的步骤S120的子步骤流程示意图;
图4示出了图3中所示的步骤S122的子步骤流程示意图;
图5示出了本申请实施例所提供的口语文本处理方法的流程示意图之二;
图6示出了图5中所示的步骤S160的子步骤流程示意图;
图7示出了本申请实施例所提供的口语文本处理装置的功能模块示意图;
图8示出了本申请实施例所提供的用于执行上述口语文本处理方法的服务器的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。
应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
图1示出了本申请实施例提供的口语文本处理方法的交互流程示意图。应当理解,在其它实施例中,本实施例的口语文本处理方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该口语文本处理方法的详细步骤介绍如下。
步骤S110,根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将初始口语文本进行书面语转换,得到第一书面语文本。
本实施例中,预设书面语转换库包括预设词条库和/或预设规则库。例如,可以预设书面语转换库可以仅包括预设词条库,或仅包括预设规则库,或者同时包括预设词条库和预设规则库,具体由实际设计需求进行选择或者配置。预设词条库中可以包括多个预设词条对应的口语元素,预设规则库可以包括多个预设规则语对应的口语元素。由此,本实施例可以将初始口语文本转换为具有书面语习惯的第一书面语文本,以便于提高后续机器翻译的准确性。
步骤S120,基于第一书面语文本的目标语言翻译文本对第一书面语文本进行优化更新,获得第二书面语文本,以基于第二书面语文本进行机器翻译操作。
本实施例中,考虑到第一书面语文本可能存在部分语义不准确的部分,因此接下来还需要基于第一书面语文本的目标语言翻译文本对第一书面语文本进行优化更新,获得第二书面语文本,以基于第二书面语文本进行机器翻译操作。
步骤S130,提取初始口语文本与第二书面语文本之间的每个差异语段。
本实施例中,每个差异语段可以包括对应于初始口语文本的口语差异语段和对应于第二书面语文本的书面语差异语段。
步骤S140,根据预设书面语转换库对差异语段进行比对,当差异语段不与预设书面语转换库匹配时,将差异语段作为书面语转换更新样本更新到预设书面语转换库中。
基于上述步骤,本实施例通过在初始口语文本与目标语言翻译文本之间建立一个初始口语文本的书面语文本的中介对象,从而在进行机器翻译时可以基于书面语文本进行机器翻译,从而利用机器翻译针对于书面语文本的高准确性的特点,提高初始口语文本的翻译准确性和翻译效率,并且减少人工校对的翻译成本。此外,随着机器翻译的进行,可以基于初始口语文本与所述第二书面语文本之间的每个差异语段对预设书面语转换库进行丰富更新,可以不断提高书面语的转换质量,进而不断提高后续机器翻译的翻译质量,进一步地降低人工校正的翻译工作量。
在一种可能的实施方式中,针对步骤S110,请结合参阅图2,可以通过以下示例性的子步骤实现,具体描述如下。
子步骤S111,对初始口语文本进行分词,获得多个文本分词。
例如,对初始口语文本进行分词进行分词,就是将初始口语文本中的连续的字序列按照一定的规范重新组合成词序列的过程,从而得到多个文本分词。
子步骤S112,将每个文本分词与预设书面语转换库中的每个书面语元素对应的口语元素进行匹配,当文本分词与任意一个书面语元素对应的口语元素匹配时,将文本分词转换为对应匹配的书面语元素。
例如,以预设书面语转换库包括预设词条库为例,例如书面语元素“口吃”对应的口语元素为“结巴”,书面语元素“讲场面”对应的口语元素为“虚荣”,书面语元素“挨了多少板子”对应的口语元素为“被打了多少次”,书面语元素“拉扯到这么大”对应的口语元素为“抚养到这么大”,书面语元素“房本”对应的口语元素为“房产证”等等。
又例如,以预设书面语转换库包括预设规则库为例,例如书面语元素“背着(称谓)”对应的口语元素为“隐瞒着”,书面语元素“红过脸(空)”对应的口语元素为“发生过冲突”,书面语元素“看上(称谓)”对应的口语元素为“喜欢”,书面语元素“真拧(空)”对应的口语元素为“真固执”,书面语元素“(空)少来(空)”对应的口语元素为“停下”。
这样,当文本分词为“结巴”时,则可以将该文本分词替换为“口吃”,当文本分词为“背着”时,则可以将该文本分词替换为“隐瞒着”,以此类推,可以将文本分词转换为对应匹配的书面语元素。
子步骤S113,当所有与任意一个书面语元素对应的口语元素匹配的文本分词均转换为对应匹配的书面语元素后,得到第一书面语文本。
在一种可能的实施方式中,针对步骤S120,请结合参阅图3,可以通过以下示例性的子步骤实现,具体描述如下。
子步骤S121,调用预设机器翻译接口对第一书面语文本翻译成目标语言,获得目标语言翻译文本。
本实施例中,该预设机器翻译接口可以根据实际设计需求进行选择,如百度翻译API、腾讯翻译API、谷歌翻译API等,但不限于此。
子步骤S122,检测目标语言翻译文本与初始口语文本之间的语义关联特征的特征差异,并根据特征差异对第一书面语文本进行纠正,获得纠正书面语文本。
子步骤S123,再次调用预设机器翻译接口将纠正书面语文本翻译成目标语言,返回检测目标语言翻译文本与初始口语文本之间的语义关联特征的特征差异的步骤,直到特征差异小于预设差异后,将当前获得的纠正书面语文本确定为第二书面语文本。
如此,可以考虑到第一书面语文本可能存在的部分语义不准确的部分,由此基于第一书面语文本的目标语言翻译文本对第一书面语文本进行优化更新,获得第二书面语文本,以基于第二书面语文本进行机器翻译操作,提高后续机器翻译的准确性。
在一种可能的实施方式中,在子步骤S122中,请结合参阅图4,可以通过以下示例性的子步骤实现,具体描述如下。
子步骤S1221,获取目标语言翻译文本与初始口语文本之间的语义关联特征集对应的多个语义关联特征向量的词向量编码信息,多个语义关联特征向量包括语义关联特征集中的每个语义关联特征对应的语义关联特征向量。
子步骤S1222,基于多个语义关联特征向量的词向量编码信息确定离散分布特征,获取语义关联特征集中的每个语义关联特征在第一预设语义标签区间内的模型级别特征。
子步骤S1223,确定与每个语义关联特征在第一预设语义标签区间内的模型级别特征对应的模型级别特征分布。
子步骤S1224,基于特征差异识别模型,根据模型级别特征分布和离散分布特征,对语义关联特征集中语义关联特征进行特征差异分析,得到语义关联特征集中语义关联特征间的特征差异。
例如,可以对模型级别特征分布进行语义可读性挖掘,得到语义可读性特征,然后对语义可读性特征和离散分布特征进行特征融合,得到目标融合特征,由此对目标融合特征进行特征差异计算,得到语义关联特征集中语义关联特征间的特征差异。
在一种示例中,基于多个语义关联特征向量的词向量编码信息确定离散分布特征,具体可以根据多个语义关联特征向量的词向量编码信息确定多个语义关联特征向量的编码语义方向信息,然后根据多个语义关联特征向量的编码语义方向信息构造第二预设语义标签区间内的标签编码语义方向序列。接下来,可以根据标签编码语义方向序列进行离散分布挖掘,得到离散分布,从而对离散分布进行特征编码,得到离散分布特征。
子步骤S1225,基于语义关联特征集中语义关联特征间的特征差异对第一书面语文本进行纠正,获得纠正书面语文本。
在一种可能的实施方式中,本申请实施例还可以在上述方案的基础上,进一步利用机器学习为基础的人工智能方式建立书面语转换模型。例如,随着机器翻译工作的不断进行,上述的预设书面语转换库的不断丰富,可以不断对书面语转换模型进行优化,进而不断提高翻译质量,减少人工校正的工作量。例如,请进一步参阅图5,本申请实施例提供的口语文本处理方法还可以包括以下步骤S150和步骤S160,具体描述如下。
步骤S150,将每个初始口语文本和对应的第二书面语文本作为一个训练语料,以构建由多个训练语料组成的训练语料库。
步骤S160,基于训练语料库训练机器学习模型,获得书面语转换模型,以便于基于书面语转换模型对输入的待转换口语文本进行书面语转换,得到待转换口语文本对应的书面语转换文本。
其中,针对步骤S160,请具体参阅图6,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S161,对训练语料库中的训练语料对应的初始口语文本和对应的第二书面语文本进行文本特征提取,得到训练语料在多个语义维度上的文本编码信息,并获取文本编码信息的语义维度信息。
子步骤S162,根据文本编码信息的语义维度信息,在文本编码信息中筛选出每个语义维度对应的语义映射向量表示,并根据预设词向量编码方式,将语义映射向量表示转换为训练语料的词向量分布。
子步骤S163,基于语义映射向量表示和词向量分布,计算训练语料的初始训练意图描述向量,将词向量分布和初始训练意图描述向量进行融合,得到训练语料的训练意图描述向量。
其中,训练语料的训练意图描述向量可以包括初始口语文本和对应的第二书面语文本各自对应的训练意图描述向量部分。
子步骤S164,根据文本编码信息的语义维度信息,确定训练意图描述向量的语义维度信息,训练意图描述向量指示训练语料的描述语义特征。
子步骤S165,根据训练意图描述向量的语义维度信息,在训练意图描述向量中筛选出目标训练意图描述向量,并从目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型。
其中,第一描述向量可以与初始口语文本关联,第二描述向量与初始口语文本对应的第二书面语文本关联。
在一种可能的实施方式中,上述的训练意图描述向量具体可以包括至少一个分支训练意图描述向量,对于子步骤S165,可以根据预设筛选策略,在训练意图描述向量的语义维度信息中筛选出对应的目标语义维度,然后在训练意图描述向量中筛选出目标语义维度对应的分支训练意图描述向量,从而可将目标语义维度对应的分支训练意图描述向量进行融合,得到目标训练意图描述向量。
在一种可能的实施方式中,仍旧针对子步骤S165,在从目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型的流程中,具体可以通过以下示例性的实施方式来实现。应当理解,以下的具体实施方式仅为一种示例,而非全部的示例,在下述实施方式的教导下,本领域技术人员倘若能够想到其它实施方式或者对应的等同实施方式,都应当理解为本申请实施例的发明构思。
(1)在训练语料库中确定出第一描述向量、第二描述向量、以及第一描述向量和第二描述向量的描述元素。
(2)对第一描述向量和第二描述向量进行特征提取,得到第一描述向量特征和第二描述向量特征。
(3)获取预设机器学习模型的模型配置参数,并根据模型配置参数,采用预设机器学习模型的文本语义检测网络对第一描述向量特征进行检测,得到第一描述向量的预测文本语义。
(4)在预测文本语义中确定出每一语义分段的预测语义编码序列,采用文本语义预设函数值函数计算每一语义分段的预测语义编码序列与标注的第二描述向量的语义编码序列的第一差异,将第一差异作为第一描述向量的文本语义预设函数值,并基于第一描述向量的描述元素,确定第一描述向量的分类预设函数值。
(5)获取预设语义规则特征集合,预设语义规则特征集合包括符合预设语义规则分布的多个预设语义规则特征。
(6)分别对第一描述向量特征和预设语义规则特征进行数值转换,得到第一描述向量特征值与预设语义规则特征值,并根据第一描述向量特征值和预设语义规则特征值,确定第一描述向量特征的特征均值和预设语义规则特征的特征均值。
(7)采用均值差异函数计算第一描述向量特征的特征均值与预设语义规则特征的特征均值的第二差异,将第二差异作为第一描述向量的均值差异预设函数值,并将文本语义预设函数值、分类预设函数值和均值差异预设函数值进行融合,得到第一描述向量的预设函数值信息。
(8)基于第一描述向量的预设函数值信息,对模型配置参数进行更新,得到初始更新模型配置参数。
(9)根据第二描述向量特征、第二描述向量的描述元素和初始更新模型配置参数,确定第二描述向量的预设函数值信息。
(10)基于第二描述向量的预设函数值信息,对模型配置参数进行更新,得到模型配置更新参数,并基于模型配置更新参数,对预设机器学习模型进行参数调整。
(11)返回执行根据预设筛选策略,在训练意图描述向量的语义维度信息中筛选出用于聚类的目标语义维度的步骤,直至预设机器学习模型参数调整完成,得到书面语转换模型。
由此,在基于书面语转换模型对输入的待转换口语文本进行书面语转换,得到待转换口语文本对应的书面语转换文本的过程中,可以将待转换口语文本输入到书面语转换模型中,提取待转换口语文本的描述向量,并基于书面语转换模型对描述向量进行转换后,得到待转换口语文本对应的书面语转换文本。
基于同一发明构思,请参阅图7,示出了本申请实施例提供的口语文本处理装置110的功能模块示意图,本实施例可以根据上述服务器100执行的方法实施例对口语文本处理装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图7示出的口语文本处理装置110只是一种装置示意图。其中,口语文本处理装置110可以包括转换模块111、更新模块112、提取模块113以及比对模块114,下面分别对该口语文本处理装置110的各个功能模块的功能进行详细阐述。
转换模块111,用于根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库。可以理解,该转换模块111可以用于执行上述步骤S110,关于该转换模块111的详细实现方式可以参照上述对步骤S110有关的内容。
更新模块112,用于基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作。可以理解,该更新模块112可以用于执行上述步骤S120,关于该更新模块112的详细实现方式可以参照上述对步骤S120有关的内容。
提取模块113,用于提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段。可以理解,该提取模块113可以用于执行上述步骤S130,关于该提取模块113的详细实现方式可以参照上述对步骤S130有关的内容。
比对模块114,用于根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。可以理解,该比对模块114可以用于执行上述步骤S140,关于该比对模块114的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,转换模块111具体可以用于:
对初始口语文本进行分词,获得多个文本分词;
将每个文本分词与预设书面语转换库中的每个书面语元素对应的口语元素进行匹配,当文本分词与任意一个书面语元素对应的口语元素匹配时,将文本分词转换为对应匹配的书面语元素;
当所有与任意一个书面语元素对应的口语元素匹配的文本分词均转换为对应匹配的书面语元素后,得到第一书面语文本。
在一种可能的实施方式中,更新模块112具体可以用于:
调用预设机器翻译接口对第一书面语文本翻译成目标语言,获得目标语言翻译文本;
检测目标语言翻译文本与初始口语文本之间的语义关联特征的特征差异,并根据特征差异对第一书面语文本进行纠正,获得纠正书面语文本;
再次调用预设机器翻译接口将纠正书面语文本翻译成目标语言,返回检测目标语言翻译文本与初始口语文本之间的语义关联特征的特征差异的步骤,直到特征差异小于预设差异后,将当前获得的纠正书面语文本确定为第二书面语文本。
在一种可能的实施方式中,更新模块112具体可以用于:
获取目标语言翻译文本与初始口语文本之间的语义关联特征集对应的多个语义关联特征向量的词向量编码信息,多个语义关联特征向量包括语义关联特征集中的每个语义关联特征对应的语义关联特征向量;
基于多个语义关联特征向量的词向量编码信息确定离散分布特征,获取语义关联特征集中的每个语义关联特征在第一预设语义标签区间内的模型级别特征;
确定与每个语义关联特征在第一预设语义标签区间内的模型级别特征对应的模型级别特征分布;
基于特征差异识别模型,根据模型级别特征分布和离散分布特征,对语义关联特征集中语义关联特征进行特征差异分析,得到语义关联特征集中语义关联特征间的特征差异;
基于语义关联特征集中语义关联特征间的特征差异对第一书面语文本进行纠正,获得纠正书面语文本。
在一种可能的实施方式中,口语文本处理装置110具体还可以包括训练模块,训练模块具体可以用于:
将每个初始口语文本和对应的第二书面语文本作为一个训练语料,以构建由多个训练语料组成的训练语料库;
基于训练语料库训练机器学习模型,获得书面语转换模型,以便于基于书面语转换模型对输入的待转换口语文本进行书面语转换,得到待转换口语文本对应的书面语转换文本。
在一种可能的实施方式中,训练模块具体可以用于:
对训练语料库中的训练语料对应的初始口语文本和对应的第二书面语文本进行文本特征提取,得到训练语料在多个语义维度上的文本编码信息,并获取文本编码信息的语义维度信息;
根据文本编码信息的语义维度信息,在文本编码信息中筛选出每个语义维度对应的语义映射向量表示,并根据预设词向量编码方式,将语义映射向量表示转换为训练语料的词向量分布;
基于语义映射向量表示和词向量分布,计算训练语料的初始训练意图描述向量,将词向量分布和初始训练意图描述向量进行融合,得到训练语料的训练意图描述向量,其中,训练语料的训练意图描述向量包括初始口语文本和对应的第二书面语文本各自对应的训练意图描述向量部分;
根据文本编码信息的语义维度信息,确定训练意图描述向量的语义维度信息,训练意图描述向量指示训练语料的描述语义特征;
根据训练意图描述向量的语义维度信息,在训练意图描述向量中筛选出目标训练意图描述向量,并从目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型,其中,第一描述向量与初始口语文本关联,第二描述向量与初始口语文本对应的第二书面语文本关联。
在一种可能的实施方式中,训练意图描述向量包括至少一个分支训练意图描述向量,训练模块具体可以用于:
根据预设筛选策略,在训练意图描述向量的语义维度信息中筛选出对应的目标语义维度;
在训练意图描述向量中筛选出目标语义维度对应的分支训练意图描述向量;
将目标语义维度对应的分支训练意图描述向量进行融合,得到目标训练意图描述向量。
在一种可能的实施方式中,训练模块具体可以用于:
在训练语料库中确定出第一描述向量、第二描述向量、以及第一描述向量和第二描述向量的描述元素;
对第一描述向量和第二描述向量进行特征提取,得到第一描述向量特征和第二描述向量特征;
获取预设机器学习模型的模型配置参数,并根据模型配置参数,采用预设机器学习模型的文本语义检测网络对第一描述向量特征进行检测,得到第一描述向量的预测文本语义;
在预测文本语义中确定出每一语义分段的预测语义编码序列,采用文本语义预设函数值函数计算每一语义分段的预测语义编码序列与标注的第二描述向量的语义编码序列的第一差异,将第一差异作为第一描述向量的文本语义预设函数值,并基于第一描述向量的描述元素,确定第一描述向量的分类预设函数值;
获取预设语义规则特征集合,预设语义规则特征集合包括符合预设语义规则分布的多个预设语义规则特征;
分别对第一描述向量特征和预设语义规则特征进行数值转换,得到第一描述向量特征值与预设语义规则特征值,并根据第一描述向量特征值和预设语义规则特征值,确定第一描述向量特征的特征均值和预设语义规则特征的特征均值;
采用均值差异函数计算第一描述向量特征的特征均值与预设语义规则特征的特征均值的第二差异,将第二差异作为第一描述向量的均值差异预设函数值,并将文本语义预设函数值、分类预设函数值和均值差异预设函数值进行融合,得到第一描述向量的预设函数值信息;
基于第一描述向量的预设函数值信息,对模型配置参数进行更新,得到初始更新模型配置参数;
根据第二描述向量特征、第二描述向量的描述元素和初始更新模型配置参数,确定第二描述向量的预设函数值信息;
基于第二描述向量的预设函数值信息,对模型配置参数进行更新,得到模型配置更新参数,并基于模型配置更新参数,对预设机器学习模型进行参数调整;
返回执行根据预设筛选策略,在训练意图描述向量的语义维度信息中筛选出用于聚类的目标语义维度的步骤,直至预设机器学习模型参数调整完成,得到书面语转换模型;
在一种可能的实施方式中,训练模块具体可以用于:
将待转换口语文本输入到书面语转换模型中,提取待转换口语文本的描述向量,并基于书面语转换模型对描述向量进行转换后,得到待转换口语文本对应的书面语转换文本。
基于同一发明构思,请参阅图8,示出了本申请实施例提供的用于执行上述口语文本处理方法的服务器100的结构示意框图,该服务器100可以包括口语文本处理装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
口语文本处理装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图7中所示的转换模块111、更新模块112、提取模块113以及比对模块114),当处理器130执行口语文本处理装置110中的软件功能模块时,以实现前述方法实施例提供的口语文本处理方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的口语文本处理方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种口语文本处理方法,其特征在于,应用于服务器,所述方法包括:
根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库;
基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作;
提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段;
根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。
2.根据权利要求1所述的口语文本处理方法,其特征在于,所述根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本的步骤,包括:
对所述初始口语文本进行分词,获得多个文本分词;
将每个所述文本分词与所述预设书面语转换库中的每个书面语元素对应的口语元素进行匹配,当所述文本分词与任意一个书面语元素对应的口语元素匹配时,将所述文本分词转换为对应匹配的书面语元素;
当所有与任意一个书面语元素对应的口语元素匹配的文本分词均转换为对应匹配的书面语元素后,得到第一书面语文本。
3.根据权利要求1所述的口语文本处理方法,其特征在于,所述基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本的步骤,包括:
调用预设机器翻译接口将所述第一书面语文本翻译成目标语言,获得目标语言翻译文本;
检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本;
再次调用所述预设机器翻译接口将所述纠正书面语文本翻译成目标语言,返回检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异的步骤,直到所述特征差异小于预设差异后,将当前获得的纠正书面语文本确定为所述第二书面语文本。
4.根据权利要求3所述的口语文本处理方法,其特征在于,所述检测所述目标语言翻译文本与所述初始口语文本之间的语义关联特征的特征差异,并根据所述特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本的步骤,包括:
获取所述目标语言翻译文本与所述初始口语文本之间的语义关联特征集对应的多个语义关联特征向量的词向量编码信息,所述多个语义关联特征向量包括所述语义关联特征集中的每个语义关联特征对应的语义关联特征向量;
基于所述多个语义关联特征向量的词向量编码信息确定离散分布特征,获取所述语义关联特征集中的每个语义关联特征在第一预设语义标签区间内的模型级别特征;
确定与所述每个语义关联特征在第一预设语义标签区间内的模型级别特征对应的模型级别特征分布;
基于特征差异识别模型,根据所述模型级别特征分布和所述离散分布特征,对所述语义关联特征集中语义关联特征进行特征差异分析,得到所述语义关联特征集中语义关联特征间的特征差异;
基于所述语义关联特征集中语义关联特征间的特征差异对所述第一书面语文本进行纠正,获得纠正书面语文本。
5.根据权利要求1所述的口语文本处理方法,其特征在于,所述方法还包括:
将每个所述初始口语文本和对应的所述第二书面语文本作为一个训练语料,以构建由多个训练语料组成的训练语料库;
基于所述训练语料库训练机器学习模型,获得书面语转换模型,以便于基于所述书面语转换模型对输入的待转换口语文本进行书面语转换,得到所述待转换口语文本对应的书面语转换文本;
其中,所述基于所述训练语料库训练机器学习模型,获得书面语转换模型的步骤,包括:
对所述训练语料库中的训练语料对应的初始口语文本和对应的第二书面语文本进行文本特征提取,得到所述训练语料在多个语义维度上的文本编码信息,并获取所述文本编码信息的语义维度信息;
根据所述文本编码信息的语义维度信息,在所述文本编码信息中筛选出每个语义维度对应的语义映射向量表示,并根据预设词向量编码方式,将所述语义映射向量表示转换为所述训练语料的词向量分布;
基于所述语义映射向量表示和词向量分布,计算所述训练语料的初始训练意图描述向量,将所述词向量分布和所述初始训练意图描述向量进行融合,得到所述训练语料的训练意图描述向量,其中,所述训练语料的训练意图描述向量包括初始口语文本和对应的第二书面语文本各自对应的训练意图描述向量部分;
根据所述文本编码信息的语义维度信息,确定所述训练意图描述向量的语义维度信息,所述训练意图描述向量指示所述训练语料的描述语义特征;
根据所述训练意图描述向量的语义维度信息,在所述训练意图描述向量中筛选出目标训练意图描述向量,并从所述目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用所述第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型,其中,所述第一描述向量与所述初始口语文本关联,所述第二描述向量与所述初始口语文本对应的所述第二书面语文本关联。
6.根据权利要求5所述的口语文本处理方法,其特征在于,所述训练意图描述向量包括至少一个分支训练意图描述向量,所述根据所述训练意图描述向量的语义维度信息,在所述训练意图描述向量中筛选出目标训练意图描述向量,包括:
根据预设筛选策略,在所述训练意图描述向量的语义维度信息中筛选出对应的目标语义维度;
在所述训练意图描述向量中筛选出所述目标语义维度对应的分支训练意图描述向量;
将所述目标语义维度对应的分支训练意图描述向量进行融合,得到所述目标训练意图描述向量。
7.根据权利要求6所述的口语文本处理方法,其特征在于,所述从所述目标训练意图描述向量中确定出第一描述向量和第二描述向量,并采用所述第一描述向量和第二描述向量对预设机器学习模型进行训练,获得书面语转换模型的步骤,包括:
在所述训练语料库中确定出所述第一描述向量、第二描述向量、以及所述第一描述向量和第二描述向量的描述元素;
对所述第一描述向量和第二描述向量进行特征提取,得到第一描述向量特征和第二描述向量特征;
获取所述预设机器学习模型的模型配置参数,并根据所述模型配置参数,采用所述预设机器学习模型的文本语义检测网络对所述第一描述向量特征进行检测,得到所述第一描述向量的预测文本语义;
在所述预测文本语义中确定出每一语义分段的预测语义编码序列,采用文本语义预设函数值函数计算所述每一语义分段的预测语义编码序列与标注的所述第二描述向量的语义编码序列的第一差异,将所述第一差异作为所述第一描述向量的文本语义预设函数值,并基于所述第一描述向量的描述元素,确定所述第一描述向量的分类预设函数值;
获取预设语义规则特征集合,所述预设语义规则特征集合包括符合预设语义规则分布的多个预设语义规则特征;
分别对所述第一描述向量特征和所述预设语义规则特征进行数值转换,得到第一描述向量特征值与预设语义规则特征值,并根据所述第一描述向量特征值和所述预设语义规则特征值,确定所述第一描述向量特征的特征均值和预设语义规则特征的特征均值;
采用均值差异函数计算所述第一描述向量特征的特征均值与预设语义规则特征的特征均值的第二差异,将所述第二差异作为所述第一描述向量的均值差异预设函数值,并将所述文本语义预设函数值、分类预设函数值和均值差异预设函数值进行融合,得到第一描述向量的预设函数值信息;
基于所述第一描述向量的预设函数值信息,对所述模型配置参数进行更新,得到初始更新模型配置参数;
根据所述第二描述向量特征、第二描述向量的描述元素和初始更新模型配置参数,确定所述第二描述向量的预设函数值信息;
基于所述第二描述向量的预设函数值信息,对所述模型配置参数进行更新,得到模型配置更新参数,并基于所述模型配置更新参数,对所述预设机器学习模型进行参数调整;
返回执行所述根据预设筛选策略,在所述训练意图描述向量的语义维度信息中筛选出对应的目标语义维度的步骤,直至所述预设机器学习模型的参数调整完成,得到所述书面语转换模型;
所述基于所述书面语转换模型对输入的待转换口语文本进行书面语转换,得到所述待转换口语文本对应的书面语转换文本的步骤,包括:
将所述待转换口语文本输入到所述书面语转换模型中,提取所述待转换口语文本的描述向量,并基于所述书面语转换模型对所述描述向量进行转换后,得到所述待转换口语文本对应的书面语转换文本。
8.一种口语文本处理装置,其特征在于,应用于服务器,所述装置包括:
转换模块,用于根据预设书面语转换库对初始口语文本进行匹配,并根据匹配结果将所述初始口语文本进行书面语转换,得到第一书面语文本,其中,所述预设书面语转换库包括预设词条库和/或预设规则库;
更新模块,用于基于所述第一书面语文本的目标语言翻译文本对所述第一书面语文本进行优化更新,获得第二书面语文本,以基于所述第二书面语文本进行机器翻译操作;
提取模块,用于提取初始口语文本与所述第二书面语文本之间的每个差异语段,其中,每个差异语段包括对应于所述初始口语文本的口语差异语段和对应于所述第二书面语文本的书面语差异语段;
比对模块,用于根据所述预设书面语转换库对所述差异语段进行比对,当所述差异语段不与所述预设书面语转换库匹配时,将所述差异语段作为书面语转换更新样本更新到所述预设书面语转换库中。
9.一种服务器,其特征在于,包括机器可读存储介质和处理器,所述机器可读存储介质中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-7中任意一项所述的口语文本处理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被运行时以执行权利要求1-7中任意一项所述的口语文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011537633.8A CN112733554B (zh) | 2020-12-23 | 2020-12-23 | 口语文本处理方法、装置、服务器及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011537633.8A CN112733554B (zh) | 2020-12-23 | 2020-12-23 | 口语文本处理方法、装置、服务器及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733554A CN112733554A (zh) | 2021-04-30 |
CN112733554B true CN112733554B (zh) | 2021-09-07 |
Family
ID=75604998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011537633.8A Active CN112733554B (zh) | 2020-12-23 | 2020-12-23 | 口语文本处理方法、装置、服务器及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733554B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468305B (zh) * | 2021-06-29 | 2023-04-28 | 竹间智能科技(上海)有限公司 | 一种识别口语冗余成分的方法及装置 |
CN115168588A (zh) * | 2022-03-16 | 2022-10-11 | 北京金山数字娱乐科技有限公司 | 文本处理方法及装置 |
CN114818644B (zh) * | 2022-06-27 | 2022-10-04 | 北京云迹科技股份有限公司 | 文本模板生成方法、装置、设备及存储介质 |
CN115081459B (zh) * | 2022-07-25 | 2022-11-11 | 北京云迹科技股份有限公司 | 口语文本生成方法、装置、设备及存储介质 |
CN115082045B (zh) * | 2022-08-22 | 2023-01-03 | 深圳译码阁科技有限公司 | 数据校对方法、装置、计算机设备和存储介质 |
CN116090440B (zh) * | 2022-12-29 | 2024-06-14 | 中国科学院自动化研究所 | 基于反馈的口语文本转换方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003132047A (ja) * | 2001-10-22 | 2003-05-09 | Communication Research Laboratory | 話し言葉の書き言葉への変換装置 |
CN104731775A (zh) * | 2015-02-26 | 2015-06-24 | 北京捷通华声语音技术有限公司 | 一种口语转换为书面语的方法和装置 |
CN105843811A (zh) * | 2015-01-13 | 2016-08-10 | 华为技术有限公司 | 转换文本的方法和设备 |
CN111563390A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 文本生成方法、装置和电子设备 |
-
2020
- 2020-12-23 CN CN202011537633.8A patent/CN112733554B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003132047A (ja) * | 2001-10-22 | 2003-05-09 | Communication Research Laboratory | 話し言葉の書き言葉への変換装置 |
CN105843811A (zh) * | 2015-01-13 | 2016-08-10 | 华为技术有限公司 | 转换文本的方法和设备 |
CN104731775A (zh) * | 2015-02-26 | 2015-06-24 | 北京捷通华声语音技术有限公司 | 一种口语转换为书面语的方法和装置 |
CN111563390A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 文本生成方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112733554A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733554B (zh) | 口语文本处理方法、装置、服务器及可读存储介质 | |
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN109344413B (zh) | 翻译处理方法、装置、计算机设备和计算机可读存储介质 | |
CN112699216A (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN110750977B (zh) | 一种文本相似度计算方法及系统 | |
KR20190065665A (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
CN113268996A (zh) | 用于扩充语料的方法和用于翻译模型的训练方法及产品 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
CN113627172A (zh) | 基于多粒度特征融合和不确定去噪的实体识别方法及系统 | |
CN113128224B (zh) | 一种中文纠错方法、装置、设备以及可读存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
Eo et al. | Word-level quality estimation for Korean-English neural machine translation | |
CN117493548A (zh) | 文本分类方法、模型的训练方法和装置 | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114492467A (zh) | 容错翻译方法、训练容错翻译模型的方法及装置 | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
KR102204341B1 (ko) | 단어의 비표준 의미 사용 탐지 장치, 단어의 비표준 의미 사용 탐지 방법, 및 기록 매체 | |
Martínek et al. | Dialogue act recognition using visual information | |
CN113536790A (zh) | 基于自然语言处理的模型训练方法及装置 | |
CN114118022B (zh) | 文本表示方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |