CN112988965A

CN112988965A - 文本数据处理方法、装置、存储介质及计算机设备

Info

Publication number: CN112988965A
Application number: CN202110226928.1A
Authority: CN
Inventors: 张哲旸; 季成晖; 卢俊之
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-18
Anticipated expiration: 2041-03-01
Also published as: CN112988965B

Abstract

本发明实施例公开了一种文本数据处理方法、装置、存储介质及计算机设备，方法包括：获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；对第一读音数据进行音素分析，得到第一音素序列；对第二读音数据进行音素分析，得到第二音素序列；计算第一音素序列与第二音素序列的第一音素相似度；根据第一音素相似度确定第一文本数据与第二文本数据的相似度。该方法可以完善自然语言处理领域中文本数据之间相似度计算的方案，提升了文本数据处理的准确性。

Description

文本数据处理方法、装置、存储介质及计算机设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种文本数据处理方法、装置、存储介质及计算机设备。

背景技术

自然语言处理(Natural Language Processing，NLP)是人工智能(ArtificialIntelligence，AI)领域的一个重要分支。其可以详细分为自然语言生成、文本分类、信息抽取、机器翻译等范畴。

在自然语言处理过程中经常需要对文本数据之间的关系进行研究和判定，现有的文本数据处理方法考虑并不完善，在部分情形下，无法对文本数据之间的关系作出准确的判断。

发明内容

本发明实施例提供一种数据处理方法、装置、存储介质及计算机设备，该方法可以对文本数据的读音音素进行提取，并结合读音音素的相似度确定文本数据之间的关系，提高了文本数据处理的准确性。

本申请第一方面提供一种文本数据处理方法，包括：

获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；

确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据；

对所述第一读音数据进行音素分析，得到第一音素序列；

对所述第二读音数据进行音素分析，得到第二音素序列；

计算所述第一音素序列与所述第二音素序列的第一音素相似度；

根据所述第一音素相似度确定所述第一文本数据与所述第二文本数据的相似度。

本申请实施例第二方面提供一种模型训练方法，包括：

获取单语语料样本与文本对样本，所述单语语料样本为单一语种的文本数据构成的样本，所述文本对样本为读音音素相似的不同语种文本构成的样本；

使用所述单语语料样本对预设的文本数据处理模型进行预训练，得到预训练后的文本数据处理模型；

基于所述数据对样本对所述预训练后的文本数据处理模型进行微调，得到训练完成的文本数据处理模型。

相应的，本发明实施例第三方面提供一种文本数据处理装置，包括：

获取单元，用于获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；

第一确定单元，用于确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据；

第一分析单元，用于对所述第一读音数据进行音素分析，得到第一音素序列；

第二分析单元，用于对所述第二读音数据进行音素分析，得到第二音素序列；

计算单元，用于计算所述第一音素序列与所述第二音素序列的第一音素相似度；

第二确定单元，用于根据所述第一音素相似度确定所述第一文本数据与所述第二文本数据的相似度。

在一些实施例中，所述文本数据处理装置还包括：

翻译单元，用于将所述第一文本数据翻译成所述第二语种信息对应的第三文本数据；

第三确定单元，用于确定所述第三文本数据的第三读音数据；

第三分析单元，用于对所述第三读音数据进行音素分析，得到第三音素序列；

第二计算单元，用于计算所述第三音素序列与所述第二音素序列的第二音素相似度；

所述第二确定单元，还用于：

根据所述第一音素相似度与所述第二音素相似度确定所述第一文本数据与所述第二文本数据的相似度。

在一些实施例中，所述第二确定单元，包括：

第一确定子单元，用于确定所述第一音素相似度对应的第一权重系数以及确定所述第二音素相似度对应的第二权重系数；

第一计算子单元，用于根据所述第一权重系数、所述第二权重系数分别对所述第一音素相似度与所述第二音素相似度进行加权计算，得到所述第一文本数据与所述第二文本数据的相似度。

在一些实施例中，第一确定单元，包括：

第一分词子单元，用于将所述第一文本数据按所述第一语种信息的词单元进行分词，得到第一分词信息；

第二分词子单元，用于将所述第二文本数据按所述第二语种信息的词单元进行分词，得到第二分词信息；

第二确定子单元，用于确定所述第一分词信息中每个分词的读音，得到第一读音数据；

第三确定子单元，用于确定所述第二分词信息中每个分词的读音，得到第二读音数据。

在一些实施例中，所述计算单元，包括：

获取子单元，用于获取所述第一音素序列对应的第一向量以及所述第二音素序列对应的第二向量；

第二计算子单元，用于计算所述第一向量与所述第二向量的余弦相似度，确定所述余弦相似度为所述第一音素序列与所述第二音素序列的第一音素相似度。

在一些实施例中，所述获取子单元，还用于：

使用预设的音素特征提取模型提取所述第一音素序列的第一特征，并将所述第一特征映射到向量空间中，得到第一向量；

使用所述预设的音素特征提取模型提取所述第二音素序列的第二特征，并将所述第二特征映射到向量空间中，得到第二向量。

在一些实施例中，所述计算单元，包括：

第三确定子单元，用于确定所述第一音素序列对应的第一音素序列文本以及所述第二音素序列对应的第二音素序列文本；

第三计算子单元，用于计算所述第一音素序列文本与所述第二音素序列文本的文本相似度；

第四确定子单元，用于根据所述文本相似度确定所述第一音素序列与所述第二音素序列的第一音素相似度。

本申请实施例第四方面还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的文本数据处理方法中的步骤。

本申请实施例第五方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请第一方面所提供的文本数据处理方法中的步骤。

本申请实施例第六方面提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行第一方面提供的文本数据处理方法中的步骤。

本申请实施例提供的文本数据处理方法，通过获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；对第一读音数据进行音素分析，得到第一音素序列；对第二读音数据进行音素分析，得到第二音素序列；计算第一音素序列与第二音素序列的第一音素相似度；根据第一音素相似度确定第一文本数据与第二文本数据的相似度。以此，通过对需要进行相似度计算的两个文本数据的读音数据进行确定，再对两个读音数据分别进行音素分析，得到其对应的音素序列，进而计算音素序列之间的相似度，根据音素序列之间的相似度确定文本数据之间的相似度，该方法提升了文本数据处理的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的文本数据处理的场景示意图；

图2是本申请提供的文本数据处理方法的流程示意图；

图3是本申请提供的文本数据处理方法的另一流程示意图；

图4是本申请提供的模型训练方法的流程示意图；

图5是本申请提供的文本数据处理装置的结构示意图；

图6是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文本数据处理方法、装置、存储介质及计算机设备。其中，该文本数据处理方法可以使用于文本数据处理装置中。该文本数据处理装置可以集成在计算机设备中，该计算机设备可以是具有数据处理功能的计算机设备。其中，该计算机设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、可穿戴设备、VR/AR设备、车载计算机等，但并不局限于此。该计算机设备也可以是服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图1，为本申请提供的文本数据处理的场景示意图；如图所示，计算机设备接收第一文本数据以及第二文本数据，获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息，获取第一文本数据的第一读音数据以及第二文本数据的第二读音数据，其中第一读音数据为第一文本数据对应第一语种信息的读音数据，第二读音数据为第二文本数据对应第二语种信息的读音数据，确定第一读音数据对应的第一音素序列以及第二读音数据对应的第二音素序列，根据第一音素序列与第二音素序列的相似度确定第一文本数据和第二文本数据的相似度。

需要说明的是，图1所示的文本数据处理的场景示意图仅仅是一个示例，本申请实施例描述的文本数据处理场景是为了更加清楚地说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知，随着文本数据处理的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

基于上述实施场景以下分别进行详细说明。

本申请实施例将从文本数据处理装置的角度进行描述，该文本数据处理装置可以集成在计算机设备中。其中，计算机设备可以是终端也可以是服务器，本申请在此不作限制。如图2所示，为本申请提供的文本数据处理方法的流程示意图，该方法包括：

步骤101，获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在文本处理领域，人们常常需要对文本进行文本相似度计算。在相关技术中，对文本相似度计算通常使用语义分析、关键词匹配、机器翻译或者词嵌入模型分析方法进行计算。然而对于一些特殊的文本，如音译的品牌名与外文品牌(例如迪赛尼斯是英文品牌名designice的汉语音译)，采用相关技术中的文本相似度计算方法，难以确定这两者之间的相似关系。因此，目前此类文本之间的相似度还依赖人工进行相似度判定，相似度判定的效率较低。对此本申请的发明人提出一种文本数据的处理方法，可以自动对这类文本数据的相似度进行准确判定。本申请提供的文本数据处理方法具体如下：

当文本数据处理装置接收到需要进行相似度计算的第一文本数据与第二文本数据后，先分别对第一文本数据的第一语种信息以及第二文本数据的第二语种信息进行确定。其中第一语种信息包含至少一种语种类型，即第一文本数据的第一语种信息可以为单一语种类型也可以为多个语种信息，第二文本数据的第二语种信息也同样既可以为单一语种类型又可以为多个语种类型。例如，当第一语种信息为单一语种类型时，第一语种信息可以为中文，第一语种信息也可以为英文。当第一语种信息为多个语种类型时，则第一语种信息可以为中英混合也可以为中日混合。同样地，第二语种信息也包含至少一种语种类型。

获取第一文本数据的第一语种信息，可以先对第一文本数据进行分词处理，再对分词得到的每个分词进行识别以确定第一文本数据中每个分词对应的语种类型。进一步地，在一些实施例中，对分词得到的每个分词进行识别，可以是对每个分词进行图像识别，根据图像识别结果确定每个分词的语种信息。更进一步地，在一些实施例中，根据图像识别结果确定每个分词的语种类型，可以是对每个分词的文本图像进行特征提取，提取出文本图像中的基本单元数据，例如，当文本是中文文本时，将中文文本划分得到若干个中文文字，对每个中文文字进行图像识别，可以提取出其中的基本笔画单元数据，例如横、竖、撇、点以及折等。而英文文本则可以识别出的基本单元为英文字母。

步骤102，确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据。

其中，读音数据为与文本数据的语种信息对应的读音数据。例如当第一文本数据为单一语种的中文文本数据时，第一文本数据对应的第一读音数据就是中文的读音数据。当第一文本数据为中英混合语种的文本数据时，那么第一读音数据中既包含中文读音数据，又包含英文读音数据；而且第一文本数据中中文文本对应的读音数据为中文读音数据，英文文本对应的读音数据为英文读音数据。其中，可以理解的是，此处的中文读音数据与英文读音数据等均为中文或英文的官方读音数据，而不是某一地区方言的读音数据。

其中，在一些实施例中，当第一文本数据或第二文本数据中包含的部分分词具有多个不同读音时(例如多音字)，可以根据文本数据的上下文语义确定该分词的读音；也可以根据读音的使用频率确定该分词的读音，读音的使用频率可以从网络中获取，也可以根据大批量文本数据的统计结果确定。从不同的读音中确定分词的读音，还可以通过文本数据的特征进行确定，例如当分词所处的文本数据为单一语种的文本数据时，分词的读音为第一读音，当分词所处的文本数据为混合语种的文本数据时，分词的读音为第二读音。

在一些实施例中，确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据，包括：

1、将第一文本数据按第一语种信息的词单元进行分词，得到第一分词信息；

2、将第二文本数据按第二语种信息的词单元进行分词，得到第二分词信息；

3、确定第一分词信息中每个分词的读音，得到第一读音数据；

4、确定第二分词信息中每个分词的读音，得到第二读音数据。

其中，对于部分文本数据，需要借助一定的分隔符号对文本数据中的词语进行分隔才能使文本含义表达清晰。例如，英文文本中，每个单词之间需要有个间隔符号，若缺乏此间隔符号则无法确定由连续英文字母组成的英文文本所表达的含义。当检测到文本数据中包含此类缺乏间隔的连续文本时，需要先对该文本数据进行分词。当文本数据为单一语种的文本数据时，按照文本数据对应的单一语种的词单元对文本数据进行分词。例如当第一文本数据为中文的文本数据时，按照汉字为单元对文本数据进行分词；当第一文本数据为英文文本数据时，按照单词为单元对文本数据进行分词；当第一文本数据为中英混合的文本数据时，对其中的中文文本数据按照汉字为单元进行分词，对其中的英文文本以英文单词为单元进行分词。

对第一文本数据进行分词得到第一分词信息以及对第二文本数据进行分词得到第二分词信息后，再对第一分词信息和第二分词信息中的每个分词的读音数据进行确定，分别得到第一文本数据对应的第一读音数据以及第二文本数据对应的第二读音数据。如此，通过对文本数据进行正确分词，再根据分词结果确定文本数据对应的读音数据，保证了文本数据对应的读音数据确定的准确性，从而提高了文本数据处理的准确性。

步骤103，对第一读音数据进行音素分析，得到第一音素序列。

其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。对第一读音数据进行音素分析，是将第一读音数据中的音素信息进行逐一提取，将提取出的音素信息按顺序构成第一音素序列。对第一读音数据中的音素信息进行提取，可以是采用查表的方式确定第一读音数据对应的国际音标，再根据国际音标确定第一音素序列。

步骤104，对第二读音数据进行音素分析，得到第二音素序列。

其中，对第二读音数据进行音素分析，可以参照对第一读音数据进行音素分析的过程，此处不再予以赘述。对第二读音数据进行音素分析后，可得到第二音素序列。

步骤105，计算第一音素序列与第二音素序列的第一音素相似度。

其中，在分别确定了第一文本数据对应的第一音素序列以及第二文本数据对应的第二音素序列后，对第一音素序列与第二音素序列的相似度进行计算。具体地，可以对第一音素序列对应的文本数据与第二音素序列对应的文本数据进行相似度计算以确定第一音素序列与第二音素序列之间的相似度。

在一些实施例中，计算第一音素序列与第二音素序列的第一音素相似度，包括：

1、获取第一音素序列对应的第一向量以及第二音素序列对应的第二向量；

2、计算第一向量与第二向量的余弦相似度，确定余弦相似度为第一音素序列与第二音素序列的第一音素相似度。

其中，对第一音素序列对应的第一向量进行获取可以是获取第一音素序列对应的单个向量，此时第一向量为单个向量；也可以是分别获取第一音素序列中的多个音素对应多个向量，此时第一向量为由多个向量组成的向量集合。可以理解的是，当第一向量为单个向量时，第二向量也为单个向量；当第一向量为多个向量组成的集合时，第二向量也是多个向量组成的向量集合。

在确定了第一音素序列对应的第一向量以及第二音素序列对应的第二向量后，对第一向量与第二向量进行相似度计算，根据第一向量与第二向量的相似度确定第一音素序列与第二音素序列的第一音素相似度。其中，对第一向量与第二向量进行相似度计算，可以为计算第一向量与第二向量的余弦相似度。

在一些实施例中，获取第一音素序列对应的第一向量以及第二音素序列对应的第二向量，包括：

1.1、使用预设的音素特征提取模型提取第一音素序列的第一特征，并将第一特征映射到向量空间中，得到第一向量；

1.2、使用预设的音素特征提取模型提取第二音素序列的第二特征，并将第二特征映射到向量空间中，得到第二向量。

其中，获取音素序列对应的向量，可以采用一个音素特征提取模型对音素序列进行特征提取，再将提取到的音素特征映射到向量空间中，得到音素序列对应的向量。音素特征提取模型可以是神经网络模型，具体地，模型训练过程可以采用双向变换编码模型(Bidirectional Encoder Representations from Transformers，BERT)进行模型预训练，预训练所使用的数据可以为大量的单语语料，语料的具体选择可以根据模型所需使用的领域进行选择。对模型进行预训练后，再使用少量的标注数据对模型进行微调，如此可以提高模型训练的效率。

A、确定第一音素序列对应的第一音素序列文本以及第二音素序列对应的第二音素序列文本；

B、计算第一音素序列文本与第二音素序列文本的文本相似度；

C、根据文本相似度确定第一音素序列与第二音素序列的第一音素相似度。

其中，第一音素序列对应的第一音素序列文本可以为第一文本数据对应的国际音标的文本数据，第二音素序列对应的第二音素序列文本可以为第二文本数据对应的国际音标的文本数据。计算第一音素序列文本与第二音素序列文本的文本相似度，可以采用现有的文本相似度计算方法如词嵌入模型分析方法进行计算。然后将第一音素序列文本与第二音素序列文本的文本相似度确定为第一音素序列与第二音素序列的第一音素相似度。

在一些实施例中，还可以根据深度学习方法直接计算两个音素序列的相似度。

步骤106，根据第一音素相似度确定第一文本数据与第二文本数据的相似度。

其中，确定了第一文本数据对应的第一音素序列与第二文本数据对应的第二音素序列的第一音素相似度后，可以将该第一音素相似度确定为第一文本数据与第二文本数据的相似度，从而实现了上述相关技术不能识别音译品牌与外文品牌之间相似关系的问题，提升了文本处理的准确性。

在一些实施例中，本申请提供的文本数据处理方法还可以包括：

1、将第一文本数据翻译成第二语种信息对应的第三文本数据；

2、确定第三文本数据的第三读音数据；

3、对第三读音数据进行音素分析，得到第三音素序列；

4、计算第三音素序列与第二音素序列的第二音素相似度；

5、根据第一音素相似度确定第一文本数据与第二文本数据的相似度，包括：根据第一音素相似度与第二音素相似度确定第一文本数据与第二文本数据的相似度。

其中，当第一文本数据与第二文本数据均为单一语种的文本数据且第一语种与第二语种为不同语种类型时，可以将两个文本数据翻译至同一语种类型对应的文本数据。例如将第一文本数据翻译成第二语种信息对应的第三文本数据，再计算第三文本数据对应的第三音素序列与第二音素序列的第二音素相似度，并根据第一音素相似度与第二音素相似度确定第一文本数据与第二文本数据的相似度。

在一些实施例中，根据第一音素相似度与第二音素相似度确定第一文本数据与第二文本数据的相似度，包括：

确定第一音素相似度对应的第一权重系数以及确定第二音素相似度对应的第二权重系数；

根据第一权重系数、第二权重系数分别对第一音素相似度与第二音素相似度进行加权计算，得到第一文本数据与第二文本数据的相似度。

其中，可以根据第一文本数据与第二文本数据的文本长度确定第一音素相似度的第一权重系数以及第二音素相似度的第二权重系数。例如，当第一文本数据与第二文本数据的文本长度少于预设的字符数时，可以确定第一权重系数高于第二权重系数；当第一文本数据与第二文本数据的文本长度多于预设的字符数时，可以设置第二权重系数高于第一权重系数。具体地，当第一文本数据和第二文本数据为商标、地理位置等单个词语的不同语种的文本数据时，直接根据其读音数据对应的音素序列的相似度确定文本之间的相似度更为准确。例如第一文本数据为“迪赛尼斯”，第二文本数据为“designice”时，直接根据其读音数据对应的音素序列的相似度确定文本相似度更为准确，如此则可以设置第一权重系数高于第二权重系数。当第一文本数据与第二文本数据为不同语种的一句话或者一段文字时，若直接根据文本数据对应的读音数据的音素序列确定相似度，其准确性较差，而将第一文本数据翻译成第二语种对应的第三文本数据，再计算第二文本数据与第三文本数据对应的读音的音素序列的相似度，则可以提高文本数据相似度计算的准确度，此时便可以设置第二权重系数高于第一权重系数。

其中，在一些实施例中，本申请提供的文本数据处理方法还可以包括：

将第一文本数据翻译成预设语种对应的第四文本数据，将第二文本数据翻译成预设语种对应的第五文本数据；

确定第四文本数据的第四读音数据以及第五文本数据的第五读音数据；

对第四读音数据进行音素分析，得到第四音素序列；

对第五文本数据进行音素分析，得到第五音素序列；

计算第四音素序列与第五音素序列的第三音素相似度；

根据第一音素相似度以及第三音素相似度确定第一文本数据与第二文本数据的相似度。

其中，在一些情况下，当第一文本数据与第二文本数据均为小众语种的文本数据时，可以将小众语种的文本数据先翻译成通用语种的文本数据，例如均翻译成英文文本数据，然后在对两个文本数据对应的英文文本数据进行音素相似度分析以确定两个文本的相似度。

根据上述描述可知，本申请提供的文本数据处理方法，通过获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；对第一读音数据进行音素分析，得到第一音素序列；对第二读音数据进行音素分析，得到第二音素序列；计算第一音素序列与第二音素序列的第一音素相似度；根据第一音素相似度确定第一文本数据与第二文本数据的相似度。以此，通过对需要进行相似度计算的两个文本数据的读音数据进行确定，再对两个读音数据分别进行音素分析，得到其对应的音素序列，进而计算音素序列之间的相似度，根据音素序列之间的相似度确定文本数据之间的相似度，该方法可以提升文本数据处理的准确性。

相应地，本申请实施例将从计算机设备的角度进一步对本申请提供的文本数据处理方法进行详细的描述。本实施例中的计算机设备可以是终端，也可以是服务器。如图3所示，为本申请提供的文本数据处理方法的另一流程示意图，该方法包括：

步骤201，计算机设备获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息。

其中，计算机设备接收到需要进行相似度计算的第一文本数据与第二文本数据后，对第一文本数据和第二文本数据进行语种识别，确定第一文本数据对应的第一语种信息以及第二文本数据对应的第二语种信息。其中第一语种信息至少包含一种语种类型，第二语种信息也至少包含一种语种类型。即第一语种信息与第二语种信息可以是单一语种也可以是混合语种，当第一语种信息或第二语种信息为混合语种时，需要对第一文本数据或第二文本数据中不同语种类型对应的文本数据进行确定。例如，当第一语种信息为中、英、日混合语种时，需要分别确定第一文本数据中的中文文本、英文文本以及日文文本。当第二语种信息为中英混合语种时，需要确定第二文本数据中的中文文本和英文文本。当第一语种信息为单一语种类型时，只需确定其语种信息即可。例如，当第一文本数据为“我今天想去麦当劳吃饭”或者“迪赛尼斯”时，则可以确定其语种信息为汉语，第一文本数据为中文文本。当第一文本数据为“IwanttoeatMacDonaldtoday”或者“designice”时，可以确定第一语种信息为英语，第一文本数据问英文文本。当第一文本数据为“我今天想去MacDonald吃饭”时，第一语种信息为中英混合语种，第一文本数据为中英混合文本。其中“我今天想去吃饭”对应的语种类型为汉语，“MacDonald”对应的语种类型为英语。

步骤202，计算机设备对第一文本数据进行分词得到第一分词信息以及对第二文本数据进行分词得到第二分词信息。

其中，对文本数据进行分词是按照每个语种对应的词单元对文本数据进行分词操作。例如第二文本数据对应的第二语种信息为中英混合语种，那么对第二文本数据中的中文文本数据按照中文汉字为单元进行分词，对第二文本数据中的英文文本按照英语单词为单位进行分词。对第一文本数据与第二文本数据进行分词后，分别得到第一分词信息与第二分词信息。例如当第一文本数据为“IwanttoeatMacDonaldtoday”时，可以将第一文本数据分词得到“I”、“want”、“to”、“eat”、“MacDonald”和“today”这几个英文单词。当第一文本数据为“我今天想去MacDonald吃饭”时，可以将第一文本数据分词得到“我”、“今”、“天”、“想”、“去”、“MacDonald”、“吃”和“饭”这几个分词。当第一文本数据为“迪赛尼斯”时，则分词结果为“迪”、“赛”、“尼”和“斯”这四个汉字。可以理解的是，对文本数据进行分词操作，能够保证文本数据中缺乏必要的分隔符号时保证文本数据的语义表达清晰，从而可以使得对文本数据的读音数据确定更为准确，也就可以提高文本数据处理的准确性。

步骤203，计算机设备确定第一读音数据以及第二读音数据。

其中，第一读音数据为第一分词信息中各分词对应的读音数据，第二读音数据为第二分词信息中各分词对应的读音数据，不同语种类型的分词的读音数据为该分词与该语种类型对应的读音数据。具体地，例如第一语种信息为中、英、日混合语种时，第一文本信息中中文分词的读音数据为该中文分词的普通话读音数据，第一文本信息中英文分词的读音数据为该英文分词的英语读音数据，第一文本信息中日文分词的读音数据为该日文分词的日语读音数据。其中，读音数据可以为每个分词的读音数据对应的国际音标。例如，第一文本数据为“我今天想去麦当劳吃饭”时，其对应的拼音数据为“Wo1jin1tian1xiang3qu4mai4dang1lao2chi1fan4”，则对应的国际音标为

同理当第一文本数据为“designice”或“迪赛尼斯”时，也可以分别确定其读音对应的国际音标。

步骤204，计算机设备确定第一读音数据对应的第一音素序列以及第二读音数据对应的第二音素序列。

其中，确定了第一文本数据与第二文本数据中每个分词的读音数据对应的国际音标后，将每个音标作为一个音素确定第一文本数据对应的第一音素序列以及第二文本数据对应的第二音素序列。

步骤205，计算机设备确定第一音素序列对应的第一向量与第二音素序列对应的第二向量。

其中，计算机设备可以采用预设的音素特征提取模型对第一音素序列进行特征提取，并将提取出的音素特征根据预设的映射关系映射到向量空间，从而确定第一音素序列对应的第一向量。同样地，计算机设备也可以采用该预设的音素特征提取模型对第二音素序列进行特征提取，进而将提取出的特征根据预设的映射关系映射到向量空间，从而确定第二音素序列对应的第二向量。补充模型训练。

其中，音素特征提取模型在使用前需要先对该模型训练，对该模型进行训练的过程可以分为两个部分：模型预训练和模型微调。模型预训练可以使用BERT模型，也可以使用长短记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional NeuralNetworks,CNN)等深度学习网络模型或机器学习预训练模型中Word2Vec的skip-gram模型以及连续词包模型(Continuous Bag-of-Word Model，CBOW)。模型预训练所使用的训练数据为大量的单语语料，例如纯中文语料或纯英文语料，根据模型所使用的的领域的不同，训练所使用的训练数据可以做相应调整，例如当模型使用的领域为感兴趣点(Pointofinterest，POI)相关的领域时，训练数据可以选择为地名使用类数据或者地址描述类数据。模型预训练的输出结果为训练数据对应的向量。在进行预训练前，需要先对训练数据的音素序列进行确定，然后再将音素序列输入BERT模型进行预训练。BERT模型的结构是以变换(Transformer)模型架构作为核心的，其本质即双向Transformer的编码部分。BERT模型预训练的主要任务是掩蔽语言模型(MaskedLanguageModel，MaskedLM)，参与训练的最小元素被称为令牌，在训练过程中BERT模型随机掩蔽15％的令牌，最终的损失函数只计算被掩蔽掉的令牌。在掩蔽令牌的选择上，BERT模型使用随机选取，随机掩蔽的时候10％的令牌会被替代成其他令牌，10％的令牌不进行替换，其他80％被替换为MASK标签。

模型微调是对预训练的BERT模型进行修改，具体可以使用孪生网络和三级网络结构来获取输入的两个相似的训练数据的向量，再对两个向量进行组合后送入归一化指数(softmax)分类器进行计算其相似度。模型微调使用的数据可以是少量已经标注了相似度的文本对数据，例如“迪赛尼斯”和“designice”。

步骤206，计算机设备计算第一向量与第二向量的向量相似度。

其中，计算第一向量与第二向量的向量相似度，可以为计算第一向量与第二向量的余弦相似度，也可以采用Manhatten/Euclidean距离算法计算第一向量与第二向量的相似度。

步骤207，计算机设备确定向量相似度为第一文本数据与第二文本数据的相似度。

其中，当确定了第一文本数据对应的第一音素序列与第二文本数据对应的第二音素序列之间的相似度后，即可确定第一音素序列与第二音素序列之间的相似度为第一文本数据与第二文本数据之间的相似度。

根据上述描述可知，本申请提供的数据处理方法，通过获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；对第一文本数据进行分词得到第一分词信息以及对第二文本数据进行分词得到第二分词信息；确定第一读音数据以及第二读音数据；确定第一读音数据对应的第一音素序列以及第二读音数据对应的第二音素序列；确定第一音素序列对应的第一向量与第二音素序列对应的第二向量；计算第一向量与第二向量的向量相似度；确定向量相似度为第一文本数据与第二文本数据的相似度。以此，通过对需要进行相似度计算的两个文本数据的读音数据进行确定，再对两个读音数据分别进行音素分析，得到其对应的音素序列，进而计算音素序列之间的相似度，根据音素序列之间的相似度确定文本数据之间的相似度，该方法可以提升文本数据处理的准确性。

本申请还提供了一种模型训练方法，该模型训练方法可以应用于计算机设备中，计算机设备可以是移动终端也可以是服务器，如图4所示，为本申请提供的模型训练方法的流程示意图，该方法包括如下步骤：

步骤301，获取单语语料样本与文本对样本。

其中，在本申请实施例中，可以通过文本数据处理模型来对两个文本数据的相似度进行判断，在使用文本数据模型对两个文本数据的相似度进行判断之前，需要先对该文本数据处理模型进行训练。文本数据处理模型训练完成后，在需要对两个文本的相似度进行相似度判定时，将两个需要判定的文本数据输入至训练过的文本数据处理模型，文本数据处理模型中即可直接输出两个文本的相似度判定的结果。为对数据处理模型进行训练，需要先准备训练使用的样本数据。对本申请的数据处理模型进行训练所需的训练样本数据包括单语语料样本和文本对样本。其中，单语语料样本为单一语种的文本数据，该单一语种可以是英语语种也可以是汉语语种，也可以是相同数量的英语语种和汉语语种的文本组成的样本数据。文本对样本为多个不同语种文本组成的文本对构成的样本，每个文本对中的两个文本是经标注过的语音读音音素相同的两个文本。

在一些实施例中，获取单语语料样本和文本对样本，包括：

1、获取第一数量的中文文本与第一数量的英文文本，构成单语语料样本；

2、获取第二数量的中英文本对，构成数据对样本，中英文本对为读音音素相同的中文文本与英文文本构成的文本对，中文文本与英文文本为地名使用类文本或地址描述类文本，第一数量大于第二数量。

其中，在本申请实施例中，单语语料样本是同样数量的单一的中文文本和单一的英文文本构成的样本，具体地，可以是1000个中文文本以及1000个英文文本组成的样本。样本对样本可以是一定数量个数据对组成的样本，例如100个数据对，每个数据对可以包括一个中文文本和一个英文文本，同一数据对中的中文文本和英文文本已经人工确定其两者的读音音素相同。其中，在本申请中，当数据处理模型应用场景为对不同语种的地址数据进行相似度判定时，模型训练时也可以针对性选择地名使用类或者地址描述类的中文文本和英文文本，如此可以使得模型训练后的识别结果更为准确。本申请中单语语料样本中的数据样本数量远大于数据对样本中的数据样本数量。

步骤302，使用单语语料样本对预设的文本数据处理模型进行预训练，得到预训练后的文本数据处理模型。

其中，预设的文本数据处理模型为未经训练的基础的文本数据处理模型框架，如前实施例所述，该模型可以为BERT模型。在本申请实施例中，可以采用预训练结合微调的方式对模型进行训练，以提高模型训练效率。具体地，对模型进行预训练可以先采用单语语料样本对模型进行训练，以训练模型将任一语种的文本转化成对应词向量的能力，具体转化过程包括将样本文本进行切分，然后确定切分后的文本对应的拼音数据，再逐一确定每个拼音数据对应的国际音标，从而得到文本的读音音素序列，再将读音音素序列映射到向量空间中，从而得到单语语料中每个文本对应的词向量。

步骤303，基于数据对样本对预训练后的文本数据处理模型进行微调，得到训练完成的文本数据处理模型。

其中，在前述模型预训练的过程中，使用了大量的单语语料对模型将文本转化为词向量的能力进行了训练。然后再进一步使用标注过文本相似度的文本对来对预训练后的数据处理模型进行进一步的微调训练。在该训练过程中使用的样本为文本对，该文本对可以是英文文本和中文文本组成的文本对，例如“designice”和“迪赛尼斯”这样已经标注了相似的文本对。在训练过程中，数据处理模型先对文本对中两个文本分别进行词向量转化，然后计算转化后的词向量的相似度，再根据计算到的相似度与标注的相似关系对模型参数进行调整，最终得到训练后的数据处理模型。模型训练完成后，输入两个文本后，该数据处理模型可以直接输出该两个文本之间的相似度关系。可以理解的是，本申请实施例提供的模型训练方法是对图2实施例以及图3实施例提供的文本数据处理方法进行模型化操作的一个实现，其核心的处理思路仍为图2级图3实施例中提供的将需要比对的文本数据进行音素序列提取，并根据音素序列的相似度确定两个文本数据的相似度。

根据上述描述可知，本申请实施例提供的模型训练方法，通过获取单语语料样本与文本对样本，单语语料样本为单一语种的文本数据构成的样本，文本对样本为读音音素相似的不同语种文本构成的样本；使用单语语料样本对预设的文本数据处理模型进行预训练，得到预训练后的文本数据处理模型；基于数据对样本对预训练后的文本数据处理模型进行微调，得到训练完成的文本数据处理模型。以此，通过采用单语语料样本对模型进行预训练，然后再使用标注过的文本对样本对预训练后的模型进行微调训练，得到训练后的数据处理模型。该方法可以提高模型训练效率，从而提高了文本数据处理的效率。

为了更好地实施以上方法，本发明实施例还提供一种文本数据处理装置，该文本数据处理装置可以集成在计算机设备中，该计算机设备可以为移动终端也可以为服务器。

例如，如图5所示，为本申请实施例提供的文本数据处理装置的结构示意图，该数据处理装置可以包括获取单元401、第一确定单元402、第一分析单元403、第二分析单元404、计算单元405以及第二确定单元406，如下：

获取单元401，用于获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；

第一确定单元402，用于确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；

第一分析单元403，用于对第一读音数据进行音素分析，得到第一音素序列；

第二分析单元404，用于对第二读音数据进行音素分析，得到第二音素序列；

计算单元405，用于计算第一音素序列与第二音素序列的第一音素相似度；

第二确定单元406，用于根据第一音素相似度确定第一文本数据与第二文本数据的相似度。

在一些实施例中，文本数据处理装置还包括：

翻译单元，用于将第一文本数据翻译成第二语种信息对应的第三文本数据；

第三确定单元，用于确定第三文本数据的第三读音数据；

第三分析单元，用于对第三读音数据进行音素分析，得到第三音素序列；

第二计算单元，用于计算第三音素序列与第二音素序列的第二音素相似度；

第二确定单元，还用于：

根据第一音素相似度与第二音素相似度确定第一文本数据与第二文本数据的相似度。

在一些实施例中，第二确定单元，包括：

第一确定子单元，用于确定第一音素相似度对应的第一权重系数以及确定第二音素相似度对应的第二权重系数；

第一计算子单元，用于根据第一权重系数、第二权重系数分别对第一音素相似度与第二音素相似度进行加权计算，得到第一文本数据与第二文本数据的相似度。

在一些实施例中，第一确定单元，包括：

第一分词子单元，用于将第一文本数据按第一语种信息的词单元进行分词，得到第一分词信息；

第二分词子单元，用于将第二文本数据按第二语种信息的词单元进行分词，得到第二分词信息；

第二确定子单元，用于确定第一分词信息中每个分词的读音，得到第一读音数据；

第三确定子单元，用于确定第二分词信息中每个分词的读音，得到第二读音数据。

在一些实施例中，计算单元，包括：

获取子单元，用于获取第一音素序列对应的第一向量以及第二音素序列对应的第二向量；

第二计算子单元，用于计算第一向量与第二向量的余弦相似度，确定余弦相似度为第一音素序列与第二音素序列的第一音素相似度。

在一些实施例中，获取子单元，还用于：

使用预设的音素特征提取模型提取第一音素序列的第一特征，并将第一特征映射到向量空间中，得到第一向量；

使用预设的音素特征提取模型提取第二音素序列的第二特征，并将第二特征映射到向量空间中，得到第二向量。

在一些实施例中，计算单元，包括：

第三确定子单元，用于确定第一音素序列对应的第一音素序列文本以及第二音素序列对应的第二音素序列文本；

第三计算子单元，用于计算第一音素序列文本与第二音素序列文本的文本相似度；

第四确定子单元，用于根据文本相似度确定第一音素序列与第二音素序列的第一音素相似度。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例提供的数据处理装置，通过获取单元401获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；第一确定单元402确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；第一分析单元403对第一读音数据进行音素分析，得到第一音素序列；第二分析单元404对第二读音数据进行音素分析，得到第二音素序列；计算单元405计算第一音素序列与第二音素序列的第一音素相似度；第二确定单元406根据第一音素相似度确定第一文本数据与第二文本数据的相似度。以此，通过对需要进行相似度计算的两个文本数据的读音数据进行确定，再对两个读音数据分别进行音素分析，得到其对应的音素序列，进而计算音素序列之间的相似度，根据音素序列之间的相似度确定文本数据之间的相似度，该装置可以提升文本数据处理的准确性。

本申请实施例还提供一种计算机设备，如图6所示，为本申请提供的计算机设备的结构示意图。具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取第一文本数据的第一语种信息以及第二文本数据的第二语种信息；确定第一文本数据与第一语种信息对应的第一读音数据以及确定第二文本数据与第二语种信息对应的第二读音数据；对第一读音数据进行音素分析，得到第一音素序列；对第二读音数据进行音素分析，得到第二音素序列；计算第一音素序列与第二音素序列的第一音素相似度；根据第一音素相似度确定第一文本数据与第二文本数据的相似度。

应当说明的是，本申请实施例提供的计算机设备与上文实施例中的文本数据处理方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种文本数据处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种文本数据处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种文本数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或者图3的各种可选实现方式中提供的文本数据处理方法。

以上对本发明实施例所提供的一种文本数据处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本数据处理方法，其特征在于，所述方法包括：

对所述第一读音数据进行音素分析，得到第一音素序列；

对所述第二读音数据进行音素分析，得到第二音素序列；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一文本数据翻译成所述第二语种信息对应的第三文本数据；

确定所述第三文本数据的第三读音数据；

对所述第三读音数据进行音素分析，得到第三音素序列；

计算所述第三音素序列与所述第二音素序列的第二音素相似度；

所述根据所述第一音素相似度确定所述第一文本数据与所述第二文本数据的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一音素相似度与所述第二音素相似度确定所述第一文本数据与所述第二文本数据的相似度，包括：

确定所述第一音素相似度对应的第一权重系数以及确定所述第二音素相似度对应的第二权重系数；

根据所述第一权重系数、所述第二权重系数分别对所述第一音素相似度与所述第二音素相似度进行加权计算，得到所述第一文本数据与所述第二文本数据的相似度。

4.根据权利要求1所述的方法，其特征在于，所述确定所述第一文本数据与所述第一语种信息对应的第一读音数据以及确定所述第二文本数据与所述第二语种信息对应的第二读音数据，包括：

将所述第一文本数据按所述第一语种信息的词单元进行分词，得到第一分词信息；

将所述第二文本数据按所述第二语种信息的词单元进行分词，得到第二分词信息；

确定所述第一分词信息中每个分词的读音，得到第一读音数据；

确定所述第二分词信息中每个分词的读音，得到第二读音数据。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述计算所述第一音素序列与所述第二音素序列的第一音素相似度，包括：

获取所述第一音素序列对应的第一向量以及所述第二音素序列对应的第二向量；

计算所述第一向量与所述第二向量的余弦相似度，确定所述余弦相似度为所述第一音素序列与所述第二音素序列的第一音素相似度。

6.一种模型训练方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述获取单语语料样本与数据对样本，包括：

获取第一数量的中文文本与所述第一数量的英文文本，构成单语语料样本；

获取第二数量的中英文本对，构成数据对样本，所述中英文本对为读音音素相同的中文文本与英文文本构成的文本对，所述中文文本与所述英文文本为地名使用类文本或地址描述类文本，所述第一数量大于所述第二数量。

8.一种文本数据处理装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7中任一项所述的文本数据处理方法中的步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的文本数据处理方法。