CN112528649A - 针对多语言混合文本的英文拼音识别方法和系统 - Google Patents

针对多语言混合文本的英文拼音识别方法和系统 Download PDF

Info

Publication number
CN112528649A
CN112528649A CN202011474265.7A CN202011474265A CN112528649A CN 112528649 A CN112528649 A CN 112528649A CN 202011474265 A CN202011474265 A CN 202011474265A CN 112528649 A CN112528649 A CN 112528649A
Authority
CN
China
Prior art keywords
english
text
vector
value
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011474265.7A
Other languages
English (en)
Inventor
谭书华
彭俊杰
胡淼
花曼
易芬
黄霞
胡敬响
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yto Express Co ltd
Original Assignee
Yto Express Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yto Express Co ltd filed Critical Yto Express Co ltd
Priority to CN202011474265.7A priority Critical patent/CN112528649A/zh
Publication of CN112528649A publication Critical patent/CN112528649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种针对多语言混合口语文本的英文拼音识别方法和系统,对汉语口语文本中混杂的英文字符串自动识别出是英文还是汉语拼音,从而提高中文短文本的语义识别与理解的准确率。其技术方案为:通过混合语言识别模型对英文单词以及汉语拼音的组成规则特征进行训练分析,基于训练得到的模型对中文口语文本中夹杂的英文字符串进行识别。

Description

针对多语言混合文本的英文拼音识别方法和系统
技术领域
本发明涉及一种多语言文字处理技术,具体涉及对多语言文字混合文本中的英文单词字符串和汉语拼音字符串进行自动识别的处理技术。
背景技术
近年来,深度学习在自然语言处理领域取得了许多突破性的研究成果。很多基于自然语言理解的工程应用已经被广泛使用。但是在真实的场景中,用户的输入文本中往往会存在一些由不可控因素导致的错误,这些错误限制了自然语言理解技术在问答系统、聊天助手以及搜索引擎等应用上的发展,因此用户体验度比较差。而意图识别作为输入数据和自然语言理解的桥梁,它的准确性直接影响着自然语言理解的结果。
在中国,最常见的多语言混合现象是中文口语文本中混杂一些英文字符串。这些英文字符串不仅仅是指英文单词,其中相当一部分也包含拼音组合。大部分中国人通过拼音输入法输入汉字,汉字的输入形式和书写的形式大为不同,因此许多用户容易提笔忘字,造成许多中文文本中出现部分汉字被拼音取代的现象。这样的现象同样以高概率发生于大学生人群中。但拼音和英文都是由英文字符组成,计算机难以正确区分中文口语文本中混杂的是英文字符串还是拼音。
针对上述困难,目前已经有一些研究者提出了解决方案。但大部分人处理的仍然是单一语言或者中英文混合的情况。那么当文本中出现类似于英文单词的拼音串时,就有可能将其纠错成为英文词语,从而不能有效地处理中文中混杂多种语言的错误。
因此,目前业界亟待一种可以对中文文本中可能出现的英文和拼音进行区分的技术。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种针对多语言混合文本的英文拼音识别方法和系统,对中文短文本中混杂的英文字符串自动识别出是英文单词还是汉语拼音,从而提高中文短文本的语义识别与理解的准确率,提高自然语言处理能力,为问答系统中人机对话的识别提供更有力的支持。
本发明的技术方案为:本发明揭示了一种针对多语言混合文本的英文拼音识别方法,方法包括:
步骤1:对获取到的英文字符串进行特征向量化的处理;
步骤2:获取步骤1中表示的特征矩阵并对其进行归一化处理;
步骤3:以步骤2得到的特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,在步骤1中,选定26个字母组合的音节序号值和类别标签作为输入特征矩阵;其中音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母‘a’的相对距离之和;类别标签表示是英文字符片段还是拼音字符串。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,在步骤1中,输入特征矩阵中的输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure BDA0002834657380000031
其中′a′表示字母a,
Figure BDA0002834657380000032
表示单词word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,步骤1中,当得到每一个字符串片段的特征向量时,再根据对应文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure BDA0002834657380000033
其中di表示输入特征向量,V(di)表示输出向量。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,神经网络是BP神经网络,BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,BP神经网络的隐藏层节点数采用经验公式获取:
Figure BDA0002834657380000034
其中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,用于计算神经网络的总体误差的模型目标函数为:
Figure BDA0002834657380000035
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数。
根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例,在步骤2中,采用最大-最小标准化的方法对数据进行归一化处理:
Figure BDA0002834657380000041
其中,x表示输入特征矩阵中每个序号下的值,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,α和β是常数。
本发明还揭示了一种针对多语言混合文本的英文拼音识别系统,系统包括:
特征向量化模块,被配置为对获取到的英文字符串进行特征向量化的处理;
归一化模块,被配置为以特征向量化模块得到的特征矩阵作为基础,对每个维度下的音节特征进行归一化处理;
模型训练模块,被配置为以归一化模块得到的标准特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,特征向量化模块进一步配置为选定26个字母组合的音节序号值和类别标签作为输入特征矩阵;其中音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母‘a’的相对距离之和;类别标签表示是英文字符片段还是拼音字符串。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,特征向量模块进一步配置为:
输入特征矩阵中的输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure BDA0002834657380000042
其中′a′表示字母a,
Figure BDA0002834657380000051
表示单词word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,特征向量模块进一步配置为:
当得到每一个字符串片段的特征向量时,再根据对应文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure BDA0002834657380000052
其中di表示输入特征向量,V(di)表示输出向量。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,神经网络是BP神经网络,BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,BP神经网络的隐藏层节点数采用经验公式获取:
Figure BDA0002834657380000053
其中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,用于计算神经网络的总体误差的模型目标函数为:
Figure BDA0002834657380000054
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数。
根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例,归一化模块进一步配置为采用最大-最小标准化的方法对数据进行归一化处理:
Figure BDA0002834657380000055
其中,x表示输入特征矩阵中每个序号下的值,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,α和β是常数。
本发明对比现有技术有如下的有益效果:本发明通过混合语言识别模型对英文单词结构的规则、汉语拼音组成的规则进行训练分析,基于训练得到的模型对中文短文本中夹杂的英文单词字符串及汉语拼音字符串进行识别,解决了以往仅对中文短文本中夹杂的英文及中英混合的识别痛点,可对混合英文单词和汉语拼音的中文短文本加以区分,大大提升了在问答系统等人机交互的对话中的文本识别准确率,提升客户体验。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的混合语言识别模型的网络结构的示意图。
图2示出了本发明的针对多语言混合文本的英文拼音识别方法的一实施例的流程图。
图3示出了本发明的针对多语言混合文本的英文拼音识别系统的一实施例的原理图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图2示出了本发明的针对多语言混合文本的英文拼音识别方法的一实施例的流程。请参见图2,本实施例的方法的具体实施步骤详述如下。
步骤1:对获取到的英文字符串进行特征向量化的处理。
英文单词一般由三部分组成:词根、前缀和后缀,并且这三部分由特定的英文字符组成。词根决定单词意思,前缀改变单词词义,后缀决定单词词性。
参照《汉语拼音方案》,汉语拼音组成具有一定的规则,即能够组合成音节的所有声母是一个已知且确定的集合,例如:a的后面只能接i,n,ng,o形成a、ai、an、ang、ao。
在本实施例中,选定26个字母组合的音节序号值(音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母‘a’的相对距离之和)和类别标签(即表示是英文字符片段还是拼音字符串)作为输入特征矩阵,其中输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure BDA0002834657380000071
其中′a′表示字母a,
Figure BDA0002834657380000072
表示word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。例如表1中展示了可以按照上述的公式(1)(2)(3)将输入文本中包含的英文字符串样本表示成对应的特征向量。
表1.样本的特征向量表示
Figure BDA0002834657380000073
Figure BDA0002834657380000081
当得到每一个字符串片段的特征向量时,再根据该文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure BDA0002834657380000082
其中di表示输入特征向量,V(di)表示输出向量。
步骤2:获取步骤1中表示的特征矩阵并对特征矩阵进行归一化处理。
由于每类特征数据的量纲不同,为了使神经网络快速收敛,需要统一标准化数据。本实施例采用最大-最小标准化的方法对数据进行归一化处理:
Figure BDA0002834657380000083
公式(5)中,x表示输入特征矩阵中每个序号下的值,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,α和β是常数,为了使数据的区间设定为0.1到0.9之间,这里的α取0.1,β取0.8。
这样,一个原始向量w通过公式(5)标准化映射到区间[0.1,0.9]的值w’,完成了输入数据的一次处理。
步骤3:以步骤2得到的特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。
构建三层BP(back propagation)神经网络,将步骤2中得到的特征向量作为BP神经网络的输入。如图1所示,其中BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,而隐藏层节点数采用经验公式获取。
BP神经网络是一种反馈式全连接多层神经网络,具有较强的联想记忆和推广能力。在拟合历史数据的过程中,模型可通过逐层的特征提取来更加抽象地表达数据,从而提高预测精度。本实施例将BP神经网络应用于拼音和英文的识别上,并采用了经典的三层设计:即输入层,隐藏层和输出层。如图1所示,输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,而隐藏层节点数的选择至关重要,因为如果节点太少则会导致训练结果很差,如果节点过多,则会造成训练时间较长,易陷入局部最小值。因此,本文采用经验公式:
Figure BDA0002834657380000091
在公式(6)中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
在进行步骤1的短文本的特征提取后,将提取出来的特征参数作为BP神经网络的输入,首先根据信号的前向传播,得到BP网络的输出结果。然后使用目标函数即预测值和真实值之间误差的平方计算神经网络的总体误差以及各网络层误差并通过梯度下降法调整各层之间的权值w,当整个神经网络的误差达到最大迭代次数或者最小误差则停止训练。最后根据训练的模型预测中文中混合的英文字符串的类别值。
上述过程中用于计算神经网络的总体误差的模型目标函数,其具体公式为:
Figure BDA0002834657380000092
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数,本实施例中为2。
图3示出了本发明的针对多语言混合文本的英文拼音识别系统的一实施例的原理。请参见图3,本实施例的系统包括:特征向量化模块、归一化模块、以及模型训练模块。
特征向量化模块用于对获取到的英文字符串进行特征向量化的处理。
特征向量化模块的具体处理如下。
英文单词一般由三部分组成:词根、前缀和后缀,并且这三部分由特定的英文字符组成。词根决定单词意思,前缀改变单词词义,后缀决定单词词性。
参照《汉语拼音方案》,汉语拼音组成具有一定的规则,即能够组合成音节的所有声母是一个已知且确定的集合,例如:a的后面只能接i,n,ng,o形成a、ai、an、ang、ao。
在本实施例中,选定26个字母组合的音节序号值和类别标签(即表示是英文字符片段还是拼音字符串)作为输入特征矩阵,其中输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure BDA0002834657380000101
其中′a′表示字母a,
Figure BDA0002834657380000102
表示word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。例如表1中展示了可以按照上述的公式(1)(2)(3)将输入文本中包含的英文字符串样本表示成对应的特征向量。
表1.样本的特征向量表示
Figure BDA0002834657380000103
Figure BDA0002834657380000111
当得到每一个字符串片段的特征向量时,再根据该文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure BDA0002834657380000112
其中di表示输入特征向量,V(di)表示输出向量。
归一化模块用于获取特征向量化模块中表示的特征矩阵并对特征矩阵进行归一化处理
归一化模块的具体处理如下。
由于每类特征数据的量纲不同,为了使神经网络快速收敛,需要统一标准化数据。本实施例采用最大-最小标准化的方法对数据进行归一化处理:
Figure BDA0002834657380000113
公式(5)中,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,为了使数据的区间设定为0.1到0.9之间,这里的α取0.1,β取0.8。
这样,一个原始向量w通过公式(5)标准化映射到区间[0.1,0.9]的值w’,完成了输入数据的一次处理。
模型训练模块用于以归一化模块得到的特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。
模型训练模块的具体处理如下。
构建三层BP(back propagation)神经网络,将归一化模块中得到的特征向量作为BP神经网络的输入。如图1所示,其中BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,而隐藏层节点数采用经验公式获取。
BP神经网络是一种反馈式全连接多层神经网络,具有较强的联想记忆和推广能力。在拟合历史数据的过程中,模型可通过逐层的特征提取来更加抽象地表达数据,从而提高预测精度。本实施例将BP神经网络应用于拼音和英文的识别上,并采用了经典的三层设计:即输入层,隐藏层和输出层。如图1所示,输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,而隐藏层节点数的选择至关重要,因为如果节点太少则会导致训练结果很差,如果节点过多,则会造成训练时间较长,易陷入局部最小值。因此,本文采用经验公式:
Figure BDA0002834657380000121
在公式(6)中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
在进行短文本的特征提取后,将提取出来的特征参数作为BP神经网络的输入,首先根据信号的前向传播,得BP到网络的输出结果。然后使用目标函数即预测值和真实值之间误差的平方计算神经网络的总体误差以及各网络层误差并通过梯度下降法调整各层之间的权值w,当整个神经网络的误差达到最大迭代次数或者最小误差则停止训练。最后根据训练的模型以预测中文中混合的英文字符串的类别值。
上述过程中用于计算神经网络的总体误差的模型目标函数,其具体公式为:
Figure BDA0002834657380000122
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数,本实施例中为2。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (14)

1.一种针对多语言混合口语文本的英文拼音识别方法,其特征在于,方法包括:
步骤1:对获取到的英文字符串进行特征向量化的处理;
步骤2:获取步骤1中表示的特征矩阵并对其进行归一化处理;
步骤3:以步骤2得到的特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测汉语口语中混合的英文字符串的类别值。
2.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法,其特征在于,在步骤1中,选定26个字母组合的音节序号值和类别标签作为输入特征矩阵;其中音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母‘a’的相对距离之和;类别标签表示是英文字符片段还是拼音字符串。
3.根据权利要求2所述的针对多语言混合文本的英文拼音识别方法,其特征在于,在步骤1中,输入特征矩阵中的输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure FDA0002834657370000011
其中′a′表示字母a,
Figure FDA0002834657370000012
表示单词word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。
4.根据权利要求3所述的针对多语言混合文本的英文拼音识别方法,其特征在于,步骤1中,当得到每一个字符串片段的特征向量时,再根据对应文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure FDA0002834657370000021
其中di表示输入特征向量,V(di)表示输出向量。
5.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法,其特征在于,神经网络是BP神经网络,BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,BP神经网络的隐藏层节点数采用经验公式获取:
Figure FDA0002834657370000022
其中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
6.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法,其特征在于,用于计算神经网络的总体误差的模型目标函数为:
Figure FDA0002834657370000023
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数。
7.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法,其特征在于,在步骤2中,采用最大-最小标准化的方法对输入的特殊矩阵进行归一化处理:
Figure FDA0002834657370000031
其中,x表示输入特征矩阵中每个序号下的值,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,α和β是常数。
8.一种针对多语言混合文本的英文拼音识别系统,其特征在于,系统包括:
特征向量化模块,被配置为对获取到的英文字符串进行特征向量化的处理;
归一化模块,被配置为以特征向量化模块得到的特征矩阵作为基础,对每个维度下的音节特征进行归一化处理;
模型训练模块,被配置为以归一化模块得到的标准特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。
9.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统,其特征在于,特征向量化模块进一步配置为选定26个字母组合的音节序号值和类别标签作为输入特征矩阵;其中音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母‘a’的相对距离之和;类别标签表示是英文字符片段还是拼音字符串。
10.根据权利要求9所述的针对多语言混合文本的英文拼音识别系统,其特征在于,特征向量模块进一步配置为:
输入特征矩阵中的输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量V(si)如下定义所示:
V(si)=(w1,w2,w2…w26) (1)
j=E1-′a′ (2)
Figure FDA0002834657370000032
其中′a′表示字母a,
Figure FDA0002834657370000041
表示单词word中所有字符与字符a的相对位置之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;V(si)表示文本si的向量表示。
11.根据权利要求10所述的针对多语言混合文本的英文拼音识别系统,其特征在于,特征向量模块进一步配置为:
当得到每一个字符串片段的特征向量时,再根据对应文档的类型得到其相应的输出向量,输出向量采用one-hot编码,输出形式如下:
Figure FDA0002834657370000042
其中di表示输入特征向量,V(di)表示输出向量。
12.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统,其特征在于,神经网络是BP神经网络,BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,BP神经网络的隐藏层节点数采用经验公式获取:
Figure FDA0002834657370000043
其中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
13.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统,其特征在于,用于计算神经网络的总体误差的模型目标函数为:
Figure FDA0002834657370000044
其中,E是总体误差,Yk是用one-hot表示的向量中第k维的值,Ok是第k个类别的预测概率值,m是预定义的类别个数。
14.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统,其特征在于,归一化模块进一步配置为采用最大-最小标准化的方法对输入的特征矩阵进行归一化处理:
Figure FDA0002834657370000051
其中,x表示输入特征矩阵中每个序号下的值,minj为样本第j类特征数据集的最小值,maxj为样本第j类特征数据集的最大值,α和β是常数。
CN202011474265.7A 2020-12-14 2020-12-14 针对多语言混合文本的英文拼音识别方法和系统 Pending CN112528649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011474265.7A CN112528649A (zh) 2020-12-14 2020-12-14 针对多语言混合文本的英文拼音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011474265.7A CN112528649A (zh) 2020-12-14 2020-12-14 针对多语言混合文本的英文拼音识别方法和系统

Publications (1)

Publication Number Publication Date
CN112528649A true CN112528649A (zh) 2021-03-19

Family

ID=74999876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011474265.7A Pending CN112528649A (zh) 2020-12-14 2020-12-14 针对多语言混合文本的英文拼音识别方法和系统

Country Status (1)

Country Link
CN (1) CN112528649A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113705240A (zh) * 2021-08-03 2021-11-26 中科讯飞互联(北京)信息科技有限公司 基于多语种分支模型的文本处理方法及相关装置
CN115129951A (zh) * 2022-07-21 2022-09-30 中科雨辰科技有限公司 一种获取目标语句的数据处理系统
CN116719424A (zh) * 2023-08-09 2023-09-08 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113098874B (zh) * 2021-04-02 2022-04-26 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113705240A (zh) * 2021-08-03 2021-11-26 中科讯飞互联(北京)信息科技有限公司 基于多语种分支模型的文本处理方法及相关装置
CN113705240B (zh) * 2021-08-03 2024-04-19 科大讯飞(北京)有限公司 基于多语种分支模型的文本处理方法及相关装置
CN115129951A (zh) * 2022-07-21 2022-09-30 中科雨辰科技有限公司 一种获取目标语句的数据处理系统
CN116719424A (zh) * 2023-08-09 2023-09-08 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置
CN116719424B (zh) * 2023-08-09 2024-03-22 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置

Similar Documents

Publication Publication Date Title
CN111125331B (zh) 语义识别方法、装置、电子设备及计算机可读存储介质
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN107305768B (zh) 语音交互中的易错字校准方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和系统
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN109241540B (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
CN110046350A (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN112966496B (zh) 一种基于拼音特征表征的中文纠错方法及系统
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN109086274A (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115859164A (zh) 一种基于prompt的建筑实体识别并分类方法及系统
Cao Generating natural language descriptions from tables
CN113469163B (zh) 一种基于智能纸笔的医疗信息记录方法和装置
CN112183060B (zh) 多轮对话系统的指代消解方法
US11966700B2 (en) Neural tagger with deep multi-level model
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
Yadav et al. Image Processing-Based Transliteration from Hindi to English

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination