CN109871534A

CN109871534A - 中英混合语料的生成方法、装置、设备及存储介质

Info

Publication number: CN109871534A
Application number: CN201910022453.7A
Authority: CN
Inventors: 杨福星; 曹琼; 郝玉峰
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-06-11
Anticipated expiration: 2039-01-10
Also published as: CN109871534B

Abstract

本申请提供一种中英混合语料的生成方法、装置、设备及存储介质，该方法包括：获取中文语料数据；对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据；根据所述标注后的中文数据，生成中英混合语料。通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

Description

中英混合语料的生成方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种中英混合语料的生成方法、装置、设备及存储介质。

背景技术

随着教育的不断发展，英语的不断普及，英语已经渐渐融入了人们的日常生活中，一些英文词已经成为日常中的一部分，例如：“ok、no、go”等，语言的表述方式受到英文和环境的影响，很多习惯已经开始发生改变，出现了“中文+英文”的中英混用现象，目前该现象分为两种，一种为被迫式的混用现象，如：“地址为**大厦A座”、“W酒店”，这种是因为实体词中带有英文所以不得不说，还有一种是受到的教育以及所处环境的影响而使得表述习惯发生了一种自然的转变，出现的主动式的混用现象，如：“求告知，Thanks！”、“他人很好，很nice。”、“我能hold住。”等。

出现上述的这种中英混搭现象，无论从汉语语法角度和英语语法角度来说都不符合语言规范，但是，以上现象随着教育的发展和语言的普及出现的越来越普遍。如何识别这种中英混搭的内容，是目前语音识别领域关注的一个问题。

而对于中英混搭内容识别需要大量的原始训练集，所以出现了对语音的中英混合语料的需求，对于上述被迫式的中英混合语料，获取相对较为容易，例如大量的地址。但是对于主动式的中英混语料，获取难度较大。

发明内容

本申请提供一种中英混合语料的生成方法、装置、设备及存储介质，以解决现有技术中英混合语料数据量小，导致语音识别不准确等缺陷。

本申请第一个方面提供一种中英混合语料的生成方法，包括：

获取中文语料数据；

对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据；

根据所述标注后的中文数据，生成中英混合语料。

可选地，所述根据所述标注后的中文数据，生成中英混合语料，包括：

根据所述标注后的中文数据及预设的词性序列特征，生成中英混合语料，所述词性序列特征包括至少一种词性序列。

可选地，所述中文语料数据包括至少一个中文句子；

所述根据所述标注后的中文数据，生成中英混合语料，包括：

对于所述中文语料数据中的每个中文句子，将其对应的标注后的中文数据与所述词性序列特征进行匹配，若确定所述中文句子与所述词性序列特征中的目标词性序列一致，则将所述中文句子中与所述目标词性序列对应的中文词转为英文词，获得所述中文句子对应的中英混合语料。

可选地，所述将所述中文句子中与所述目标词性序列对应的中文词转为英文词，包括：

基于预设的中英对应词典，将所述中文句子中与所述目标词性序列对应的中文词转为英文词。

可选地，在所述根据所述标注后的中文数据，生成中英混合语料之前，所述方法还包括：

基于原始中英混合语料数据及预设的用户词典，获取英文词的词性序列特征；

其中，所述原始中英混合语料数据包括至少一个中英混合句子，所述用户词典包括词及各词对应的词性。

可选地，所述基于原始中英混合语料数据及预设的用户词典，确定英文词的词性序列特征，包括：

基于所述用户词典，采用结巴分词对所述原始中英混合语料数据进行分词处理及词性标注处理，获得标注后的混合语料数据；

对于每个中英混合句子，根据其对应的标注后的混合语料数据，提取所述中英混合句子对应的英文词的词性序列；

根据各中英混合句子对应的英文词的词性序列，获得所述词性序列特征。

可选地，所述对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据，包括：

基于预设的用户词典，采用结巴分词对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据，其中，所述用户词典包括词及各词对应的词性。

本申请第二个方面提供一种中英混合语料的生成装置，包括：

获取模块，用于获取中文语料数据；

处理模块，用于对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据；

生成模块，用于根据所述标注后的中文数据，生成中英混合语料。

可选地，所述生成模块具体用于：

可选地，所述中文语料数据包括至少一个中文句子；所述生成模块，具体用于：

可选地，所述生成模块，具体用于：

可选地，所述获取模块，还用于：

可选地，所述获取模块，具体用于：

可选地，所述处理模块，具体用于：

本申请第三个方面提供一种计算机设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的方法。

本申请第四个方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的方法。

本申请提供的中英混合语料的生成方法、装置、设备及存储介质，通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的中英混合语料的生成方法的流程示意图；

图2为本申请另一实施例提供的中英混合语料的生成方法的流程示意图；

图3为本申请一实施例提供的从输出的中英混合语料中筛选后随机抽取的10句结果的示意图；

图4为本申请一实施例提供的中英混合语料的生成装置的结构示意图；

图5为本申请一实施例提供的计算机设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的中英混合语料的生成方法，适用于基于中文语料库生成中英混合语料的场景。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

本实施例提供一种中英混合语料的生成方法，用于生成中英混合语料。本实施例的执行主体为中英混合语料的生成装置，该装置可以设置在计算机设备中，计算机设备可以是台式电脑、平板电脑、笔记本电脑、服务器等等设备。

如图1所示，为本实施例提供的中英混合语料的生成方法的流程示意图，该方法包括：

步骤101，获取中文语料数据。

具体的，可以从中文语料库获取中文语料数据。当然，中文语料数据也可以是其他方式存储，具体存储方式本实施例不做限定。

其中，中文语料数据中可以包括一条或多条中文句子，比如“他人很好”、“用相机记录我们的每一天”、“超级美味的牛排”等等，都可以作为一条中文句子。

步骤102，对中文语料数据进行分词处理及词性标注，获得标注后的中文数据。

具体的，在获取到中文语料数据后，可以对中文语料数据进行分词处理，获得各中文句子中的词，并对各词进行词性标注。

示例性的，“超级美味的牛排。”分词后为“超级”、“美味”、“的”、“牛排”、“。”。对应标注的词性为，“美味”形容词、“牛排”名词。

可选地，词性标注可以以数字、字符等代替，比如1表示名词、2表示形容词、3表示动词、0表示不属于上述三种词性、4表示标点符号等等。具体可以根据实际需求设置，本实施例不做限定。

可选地，对于标注的词性，主要可以为名词、动词、形容词，也可以根据实际需求增加其他的词性，本实施例不做限定。

可选地，可以采用结巴分词对中文语料数据进行分词处理及词性标注。

可选地，为了提高分词的准确率，可以在结巴分词过程中加入用户词典，用户词典是预先制作好的，用户词典中包括一个或多个词，以及各词对应的词性。

步骤103，根据标注后的中文数据，生成中英混合语料。

具体的，在获得标注后的中文数据后，则可以根据标注后的中文数据来生成中英混合语料。

可选地，可以根据标注后的中文数据，将每个中文句子中的名词、动词及形容词中的至少一个词转换成英文词，从而生成对应的中英混合句子。

可选地，还可以预先获得一些中英混合句子中的英文词的词性序列特征，将标注后的中文数据与词性序列特征匹配，来确定中文句子中可以转换成英文词的中文词，然后将其转换成英文词，从而获得中英混合句子。

可选地，还可以预先制作中英对应词典，根据中英对应词典，将中文句子中的至少一个中文词转换成英文词。

示例性的，将“超级美味的牛排。”中的“美味”转换成英文词“delicious”，获得一条中英混合句子“超级delicious的牛排”；将“他人很好”中的“好”转换成英文词“nice”，等等。

示例性的，根据已有的中英混合语料，提取出英文词的常见词性序列特征，比如，可以找到句子中英文词的位置，然后对英文词位置的前向和后向词位置进行加1读取，获取一个词性序列，比如index[i-2]+punc.+index[i]+index[i+1]。根据中英混合语料中的多个中英混合句子可以获得一组词性序列，经去重后可以获得多个不同的词性序列，即上述词性序列特征。

示例性的，获取词性序列特征的方式为：

其中，index[i]对应为英文词在句子中的位置，index[i+1]和index[i-1]为i位置的后一个和前一个，delete表示默认为错误，如果英文词在用户词典中不属于名词、动词或者形容词，则采用删除不提取的操作，punc.为标点符号，start代表句子的开头，end代表句子的结尾，序列皆是取对应位置所标注的词性。

将中文句子对应的标注后的中文数据与上述词性序列特征匹配，当中文句子与其中一种词性序列一致时，则可以将相应位置的中文词根据中英对应词典转换成对应的英文词，获得该中文句子对应的中英混合句子，最终根据中文语料数据可以获得中英混合语料。

可选地，在获得中英混合语料后，可以将其存储到中英混合语料库，扩充中英混合语料库。

可选地，可以根据扩充后的中英混合语料，获取训练集，对中英混合的语音识别模型进行训练，以提高模型的准确性。

本实施例提供的中英混合语料的生成方法，通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

实施例二

本实施例对实施例一提供的中英混合语料的生成方法做进一步补充说明。

如图2所示，为本实施例提供的中英混合语料的生成方法的流程示意图作为一种可实施的方式，在上述实施例一的基础上，可选地，步骤103具体可以包括：

步骤1031，根据标注后的中文数据及预设的词性序列特征，生成中英混合语料。

其中，词性序列特征包括至少一种词性序列。

可选地，中文语料数据包括至少一个中文句子；

根据标注后的中文数据，生成中英混合语料，包括：

对于中文语料数据中的每个中文句子，将其对应的标注后的中文数据与词性序列特征进行匹配，若确定中文句子与词性序列特征中的目标词性序列一致，则将中文句子中与目标词性序列对应的中文词转为英文词，获得中文句子对应的中英混合语料。

可选地，将中文句子中与目标词性序列对应的中文词转为英文词，包括：

基于预设的中英对应词典，将中文句子中与目标词性序列对应的中文词转为英文词。

具体的，还可以预先获得一些中英混合句子中的英文词的词性序列特征，将标注后的中文数据与词性序列特征匹配，来确定中文句子中可以转换成英文词的中文词，然后将其转换成英文词，从而获得中英混合句子。

可以预先制作中英对应词典，根据中英对应词典，将中文句子中的至少一个中文词转换成英文词。

示例性的，根据已有的中英混合语料，提取出英文词的常见词性序列特征，比如，可以找到句子中英文词的位置，然后对英文词位置的前向和后向词位置进行加1读取，获取一个词性序列。获取词性序列特征的方式为：

作为另一种可实施的方式，在上述实施例一的基础上，可选地，在根据标注后的中文数据，生成中英混合语料之前，该方法还包括：

步骤2011，基于原始中英混合语料数据及预设的用户词典，获取英文词的词性序列特征。

其中，原始中英混合语料数据包括至少一个中英混合句子，用户词典包括词及各词对应的词性。

可选地，基于原始中英混合语料数据及预设的用户词典，确定英文词的词性序列特征，包括：

基于用户词典，采用结巴分词对原始中英混合语料数据进行分词处理及词性标注处理，获得标注后的混合语料数据；

对于每个中英混合句子，根据其对应的标注后的混合语料数据，提取中英混合句子对应的英文词的词性序列；

根据各中英混合句子对应的英文词的词性序列，获得词性序列特征。

具体的，原始中英混合语料为已有的中英混合语料，可以根据原始中英混合语料提取出英文词的常见词性序列特征，比如，可以找到句子中英文词的位置，然后对英文词位置的前向和后向词位置进行加1读取，获取一个词性序列。获取词性序列特征的方式为：

基于用户词典，采用结巴分词对原始中英混合语料数据进行分词处理及词性标注处理的方式与上述对中文语料进行分词处理及词性标注的方式相似，在此不再赘述。

可选地，对中文语料数据进行分词处理及词性标注，获得标注后的中文数据，包括：

基于预设的用户词典，采用结巴分词对中文语料数据进行分词处理及词性标注，获得标注后的中文数据，其中，用户词典包括词及各词对应的词性。

示例性的，采用201110句原始中英混合语料供提取词性特征序列，一共从中提取了13565种词性序列，采用中英对应词典大小为4331个词，中文语料库大小为22042542句，最终符合要求匹配转换并输出的中英混合语料包括了949100句中英混合句子。如图3所示，为本实施例提供的从输出的中英混合语料中筛选后随机抽取的10句结果的示意图。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

实施例三

本实施例提供一种中英混合语料的生成装置，用于执行上述实施例一提供的中英混合语料的生成方法。

如图4所示，为本实施例提供的中英混合语料的生成装置的结构示意图。该中英混合语料的生成装置30包括获取模块31、处理模块32和生成模块33。

其中，获取模块31用于获取中文语料数据；处理模块32用于对中文语料数据进行分词处理及词性标注，获得标注后的中文数据；生成模块33用于根据标注后的中文数据，生成中英混合语料。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本实施例提供的中英混合语料的生成装置，通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

实施例四

本实施例对上述实施例三提供的中英混合语料的生成装置做进一步补充说明，以执行上述实施例二提供的中英混合语料的生成方法。

作为一种可实施的方式，在上述实施例三的基础上，可选地，生成模块具体用于：

根据标注后的中文数据及预设的词性序列特征，生成中英混合语料，词性序列特征包括至少一种词性序列。

可选地，中文语料数据包括至少一个中文句子；生成模块，具体用于：

可选地，生成模块，具体用于：

作为另一种可实施的方式，在上述实施例三的基础上，可选地，获取模块，还用于：

可选地，获取模块，具体用于：

作为另一种可实施的方式，在上述实施例三的基础上，可选地，处理模块，具体用于：

实施例五

本实施例提供一种计算机设备，用于执行上述实施例提供的中英混合语料的生成方法。

如图5所示，为本实施例提供的计算机设备的结构示意图。该计算机设备50包括：至少一个处理器51和存储器52；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的方法。

根据本实施例的计算机设备，通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

实施例六

本实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的方法。

根据本实施例的计算机可读存储介质，通过根据中文语料生成中英混合语料，可以有效扩充中英混合语料库，为中英混合语音识别的模型训练提供充足的训练数据，从而提高模型的准确性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种中英混合语料的生成方法，其特征在于，包括：

获取中文语料数据；

根据所述标注后的中文数据，生成中英混合语料。

2.根据权利要求1所述的方法，其特征在于，所述根据所述标注后的中文数据，生成中英混合语料，包括：

3.根据权利要求2所述的方法，其特征在于，所述中文语料数据包括至少一个中文句子；

4.根据权利要求3所述的方法，其特征在于，所述将所述中文句子中与所述目标词性序列对应的中文词转为英文词，包括：

5.根据权利要求1所述的方法，其特征在于，在所述根据所述标注后的中文数据，生成中英混合语料之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于原始中英混合语料数据及预设的用户词典，确定英文词的词性序列特征，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述对所述中文语料数据进行分词处理及词性标注，获得标注后的中文数据，包括：

8.一种中英混合语料的生成装置，其特征在于，包括：

获取模块，用于获取中文语料数据；

9.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任一项所述的方法。