CN109684643B - 基于句向量的文本识别方法、电子设备及计算机可读介质 - Google Patents
基于句向量的文本识别方法、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN109684643B CN109684643B CN201811608392.4A CN201811608392A CN109684643B CN 109684643 B CN109684643 B CN 109684643B CN 201811608392 A CN201811608392 A CN 201811608392A CN 109684643 B CN109684643 B CN 109684643B
- Authority
- CN
- China
- Prior art keywords
- sequence
- character
- candidate
- sentence
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims abstract description 62
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种基于句向量的文本识别方法、电子设备及计算机可读介质,涉及人工智能的技术领域,该方法包括:将文字序列转化成与文字序列中的每个文字对应的拼音序列;将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句;根据各候选语句中的每个候选文字和每个候选拼音的编辑次数计算各候选语句的编辑距离;根据各候选语句的编辑距离的大小确定目标语句。本发明实施例可以提高向量神经网络模型的识别准确率,增加用户的体验。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于句向量的文本识别方法、电子设备及计算机可读介质。
背景技术
在日常生活中,语音助手已经是一种常用的无需手动输入的输入字符的方法,在汽车内使用语音助手时,发动机引擎声,风声,讲话人离麦克风的距离等都会对语音识别和理解产生影响。
当前的解决方案一般是基于句向量神经网络模型进行语音识别,通过句向量神经网络模型找到与用户输入的语音最接近的向量,此向量对应的句子认为是最匹配的句子。
但是,上述基于句向量神经网络模型的语音识别准确率有待提高。
发明内容
有鉴于此,本发明的目的在于提供一种句向量神经网络模型的训练方法、使用方法及装置,以提高向量神经网络模型的识别准确率,增加用户的体验。
第一方面,本发明实施例提供了一种基于句向量的文本识别方法,包括:将文字序列转化成与文字序列中的每个文字对应的拼音序列;将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句;根据各候选语句中的每个候选文字和每个候选拼音的编辑次数计算各候选语句的编辑距离;根据各候选语句的编辑距离的大小确定目标语句。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤,包括:去除文字序列中的标点符号,并将文字序列中每个文字转换成设定字符格式;根据文字拼音映射表确定格式转换后的文字序列中的每个文字对应的拼音,组成拼音序列。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别的步骤之前,还包括:判断文字序列和对应的拼音序列的字节总长度是否大于句子长度阈值;若是,则将文字序列和对应的拼音序列中超过句子长度阈值的部分去除,以将去除部分内容后的文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入;若否,在文字序列和对应的拼音序列的后面进行字符填充,以使填充字符、文字序列和对应的拼音序列的字符总长度等于句子长度阈值,以将填充字符后的文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,根据各候选语句的编辑距离的大小确定目标语句,包括:计算各候选语句包括的候选文字和候选拼音的总个数;计算每个候选语句的编辑距离相似度,编辑距离相似度等于:候选语句包括的候选文字和候选拼音的总个数减去该候选语句的编辑距离,与该候选语句包括的候选文字和候选拼音的总个数的比值;根据各候选语句的编辑距离相似度的大小确定目标语句。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,根据各候选语句的编辑距离的大小确定目标语句,包括:对各候选语句的编辑距离相似度从大到小进行排序,根据排序结果确定预设数目的候选语句作为目标语句。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,句向量神经网络模型通过以下方式训练:获取多个样本文字序列,并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列;将所有样本文字序列和对应的样本拼音序列作为样本集,并根据样本集训练句向量神经网络模型。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列的步骤,包括:去除样本文字序列中的标点符号,并将样本文字序列中每个文字转换成设定字符格式;根据文字拼音映射表确定格式转换后的样本文字序列中的每个文字对应的拼音,组成样本拼音序列。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,在将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤之前,还包括:将输入的语音换转成文字序列;在根据各候选语句的编辑距离的大小确定目标语句的步骤之后,还包括:将目标语句转换成语音信号后输出。
第二方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现第一方面及其各可能的实施方式之一提供的方法。
第三方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,程序代码使处理器执行上述第一方面及其各可能的实施方式之一提供的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的基于句向量的文本识别方法、电子设备及计算机可读介质,通过将文字序列和文字序列中每个文字对应的拼音序列输入已训练的句向量神经网络模型进行识别,根据包括候选文字和各候选文字对应的候选拼音识别得到的多个候选语句的编辑次数计算各候选语句的编辑距离并确定目标语句。可以提高向量神经网络模型的识别准确率,增加用户的体验。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于句向量的文本识别方法的流程图;
图2为本发明实施例提供的一种将文字序列转化成拼音序列的方法的流程图;
图3为本发明实施例提供的另一种基于句向量的文本识别方法的流程图;
图4为本发明实施例提供的另一种基于句向量的文本识别方法的流程图;
图5为本发明实施例提供的一种句向量神经网络模型的训练方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,通过神经网络doc2vec句向量神经网络模型来训练句向量的方法会因为用户普通话不标准的原因导致识别准确率降低,例如:混肴平舌与翘舌、前鼻音与后鼻音,有些地区n与l不分、h与w不分、r与l不分等。举例来说,神经网络doc2vec句向量神经网络模型识别出来用户说“我要听万水千山总是亲”,用户普通话不标准不准确,实际上用户期望识别的是“我要听万水千山总是情”,如果用精确匹配,“万水千山总是亲”是匹配不到“万水千山总是情”的,即便用了句向量,可能句向量认为的最佳句子也不是“万水千山总是情”,准确率很低,而且导致用户体验很差。
基于此,本发明实施例提供的一种基于句向量的文本识别方法、电子设备及计算机可读介质,通过将文字序列和文字序列中每个文字对应的拼音序列输入已训练的句向量神经网络模型进行识别,根据包括候选文字和各候选文字对应的候选拼音识别得到的多个候选语句的编辑次数计算各候选语句的编辑距离并确定目标语句。可以提高向量神经网络模型的识别准确率,增加用户的体验。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于句向量的文本识别方法进行详细介绍。
实施例1
本发明实施例1提供了一种基于句向量的文本识别方法,参见图1所示的一种基于句向量的文本识别方法的流程图,包括如下步骤:
步骤S102,将文字序列转化成与文字序列中的每个文字对应的拼音序列。
文字序列是指有汉字文字、标点、符号等字符构成的序列,将每个文字序列中的所有文字对应的汉语拼音,该汉语拼音即拼音序列。例如:以接收的文字序列为“我爱你总国”为例,则将“我爱你总国”由汉字转化为汉语拼音,即“woainizongguo”,“woainizongguo”就是拼音序列。
步骤S104,将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句。
将文字序列和对应的拼音序列拼接在一起,一起输入到已训练的句向量神经网络模型。句向量神经网络模型可以是卷积神经网络、循环神经网络、LSTM(Long Short-TermMemory,长短期记忆网络)等。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络;循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接形成闭合回路的递归神经网络;LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。可以采用doc2vec、Fasttext等工具训练句向量神经网络模型。将样本集输入到要训练的句向量神经网络模型进行神经网络学习,得到训练后的句向量神经网络模型,并使用该训练后的句向量神经网络模型识别句子。举例说明拼接的过程:以汉字序列“我爱你总国”和对应的拼音序列“woainizongguo”为例,拼接后为“我爱你总国woainizongguo”,将拼接后的“我爱你总国woainizongguo”输入已训练的句向量神经网络模型进行识别,由已训练的句向量神经网络模型得到包括候选文字和各候选文字对应的候选拼音的多个候选语句。识别输出的候选语句不一定为一个,可以是多个,输出的数量可以手动设置,设置的数量越大计算量越大。获得的每个候选语句会有一个置信度,范围是0到1,越大越接近。可以设置一个置信度门限值,低于这个门限值就认为没有合适的候选语句。对应上述例子,其中一个候选语句中,候选文字可以是“我爱你中国”,对应的候选拼音是“woainizhongguo”,对应的候选语句就是“我爱你中国woainizhongguo”。
步骤S106,根据各候选语句中的每个候选文字和每个候选拼音的编辑次数计算各候选语句的编辑距离。
编辑距离为包括候选文字和各候选文字对应的候选拼音的候选语句的字符经过增加、删除或替换变成文字序列和对应的拼音序列的次数,每有一次增加、删除或替换,就是一次编辑次数,编辑距离增加1。比如,候选语句为“kitten”、文字序列和对应的拼音序列“sitting”的情况,“k”到“s”一次修改,“e”到“i”一次修改“空格”到“g”一次增加,共3次,编辑次数为3,编辑距离就是3。
步骤S108,根据各候选语句的编辑距离的大小确定目标语句。
编辑距离越大,说明编辑次数越多,则说明候选语句与文字序列和对应的拼音序列越不相似。因此,可以根据编辑距离的大小确定目标语句。目标语句就是上述方法确定的与文字序列最相似的语句。
本发明实施例提供的上述方法,通过将文字序列和文字序列中每个文字对应的拼音序列输入已训练的句向量神经网络模型进行识别,根据包括候选文字和各候选文字对应的候选拼音识别得到的多个候选语句的编辑次数计算各候选语句的编辑距离并确定目标语句。可以提高向量神经网络模型的识别准确率,增加用户的体验。
对于上述方法中将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤,可以通过文字拼音映射表一一映射文字和拼音。因此,参见图2所示的一种将文字序列转化成拼音序列的方法的流程图,包括如下步骤:
步骤S202,去除文字序列中的标点符号,并将文字序列中每个文字转换成设定字符格式。
文字转换是指文字序列中的文字由全角转换位半角,文字序列中,汉字的编码会因全角、半角的不同导致区别,因此要统一将所有文字转换成相同字符格式即半角,转换后的汉字的编码就会一致。如果不转换字符格式,会降低识别的准确率。除了汉字之外文字序列中还包括标点符号,标点符号对于句子意思的表达没有明显的作用,因此可以去除所有标点符号,只对文字进行转换。字符格式统一之后,可以节约空间,增加识别的效率和准确率。
步骤S204,根据文字拼音映射表确定格式转换后的文字序列中的每个文字对应的拼音,组成拼音序列。
文字拼音映射表记载了汉字和拼音的映射关系,根据文字拼音映射表和字符格式统一之后的文字序列,就可以映射出文字序列中每个文字对应的拼音,将所有拼音组合,得到拼音序列。文字拼音映射表大小由应用场景决定,比如用户场景中使用到的汉字范围比较大,那就要包括较大汉字范围的文字拼音映射表,反之则文字拼音映射表包括的汉字范围可以小一点,从而节省空间。文字拼音映射表的原则是包含所有用户场景中可能出现的字。
本发明实施例提供的上述方法,去除文字序列中的标点符号,统一文字的字符格式,并由文字拼音映射表确定文字对应的拼音,得到拼音序列,可以节约空间,增加识别的效率和准确率。
文字序列和对应的拼音序列组合的字节总长度并不固定,为了方便后续的识别,需要固定字节总长度,因此对超过的部分截断,不足的部分填充,参见图3所示的另一种基于句向量的文本识别方法,包括如下步骤:
步骤S302,将文字序列转化成与文字序列中的每个文字对应的拼音序列。将文字序列转化为对应的拼音序列。并将文字序列和拼音序列拼接在一起。
步骤S304,判断文字序列和对应的拼音序列的字节总长度是否大于句子长度阈值;若是,则执行步骤S306;若否,则执行步骤S308。
文字序列和对应的拼音序列拼接后的句子长度,按照字节统计。拼接后的总字节长度不固定,会导致句向量神经网络模型的识别误差,因此需要固定总字节长度。设置句子长度阈值,句子长度阈值预设,一般来说,句子长度阈值的范围在30-90之间。以下以句子长度阈值设置为60为例。
步骤S306,将文字序列和对应的拼音序列中超过句子长度阈值的部分去除,以将去除部分内容后的文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入。
文字序列和对应的拼音序列如果超过了预设的句子长度阈值,则需要将超出的部分去除,保证总字节长度等于句子长度阈值。例如:拼接后的文字序列和对应的拼音序列的长度为70字节,预设的句子长度阈值为60字节,则需要将拼接后的文字序列和对应的拼音序列的61-70字节截断,仅保留1-60字节,作为句向量神经网络模型的输入。
步骤S308,在文字序列和对应的拼音序列的后面进行字符填充,以使填充字符、文字序列和对应的拼音序列的字符总长度等于句子长度阈值,以将填充字符后的文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入。
如果拼接后的文字序列和对应的拼音序列的总字节长度小于句子长度阈值,则说明拼接后的文字序列和对应的拼音序列的长度小于句子阈值长度,需要填充。例如:拼接后的文字序列和对应的拼音序列的长度为50字节,预设的句子长度阈值为60字节,则需要将拼接后的文字序列和对应的拼音序列的长度填充为60字节,对51-60字节填充,补上一个没有意义的字符,比如“unknow”,补充字符的字符向量为0。作为已训练的句向量神经网络模型的输入。
步骤S310,将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句。
将字节总长度统一为句子长度阈值的文字序列和对应的拼音序列输入已训练的句向量神经网络模型,根据句向量神经网络模型可以得到多个候选语句。
步骤S312,根据各候选语句中的每个候选文字和每个候选拼音的编辑次数计算各候选语句的编辑距离。
计算各候选语句中编辑距离,编辑距离越小,则说明候选语句与输入的文字序列和对应的拼音序列越接近。
步骤S314,根据各候选语句的编辑距离的大小确定目标语句。本发明实施例提供的上述方法,固定拼接后的文字序列和对应的拼音序列的总字节长度,以清除句向量神经网络模型进行识别的误差。
根据各候选语句的编辑距离的大小确定目标语句,可以由编辑距离计算编辑距离相似度,将编辑距离相似度最大候选语句作为目标语句,参见图4所示的另一种基于句向量的文本识别方法的流程图,包括以下步骤:
步骤S402,将文字序列转化成与文字序列中的每个文字对应的拼音序列。
将文字序列转化为对应的拼音序列。并将文字序列和拼音序列拼接在一起。
步骤S404,将文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句。
将文字序列和对应的拼音序列输入已训练的句向量神经网络模型,根据句向量神经网络模型可以得到多个候选语句。
步骤S406,根据各候选语句中的每个候选文字和每个候选拼音的编辑次数计算各候选语句的编辑距离。
计算各候选语句中编辑距离,编辑距离越小,则说明候选语句与输入的文字序列和对应的拼音序列越接近。
步骤S408,计算各候选语句包括的候选文字和候选拼音的总个数。
每个候选文字和候选拼音都是1个字符数,计算各候选语句中候选文字和候选拼音的总个数。例如:文字序列和对应的拼音序列为“我爱你总国woainizongguo”,候选语句为“我爱你中国woainizhongguo”,则候选语句的汉字字符数为5,拼音字符数为14,上述总个数为5+14=19。
步骤S410,计算每个候选语句的编辑距离相似度,编辑距离相似度等于:候选语句包括的候选文字和候选拼音的总个数减去该候选语句的编辑距离,与该候选语句包括的候选文字和候选拼音的总个数的比值。
对于上述例子,从“我爱你中国woainizhongguo”到“我爱你总国woainizongguo”需要经过1次修改和1次删除,1次修改为将“中”修改为“总”,1次删除为将“h”删除,即编辑距离为2。编辑距离相似度等于候选语句包括的候选文字和候选拼音的总个数(19)减去该候选语句的编辑距离(2),与该候选语句包括的候选文字和候选拼音的总个数(19)的比值,即(19-2)/19=89.4%。
如果不加入拼音的因素,则候选语句为“我爱你中国”;文字序列和对应的拼音序列为“我爱你总国”。首先计算编辑距离,从“我爱你中国”到“我爱你总国”需要经过1次修改,编辑距离为1,编辑距离相似度=(5-1)/5=80%。可以看到卷舌变成平舌时,加入拼音的方法认为这两个句子比不加入拼音的方法更相似。
步骤S406,根据各候选语句的编辑距离相似度的大小确定目标语句。
编辑距离相似度越大,则说明该候选语句与文字序列和对应的拼音序列越接近,因此可以根据编辑距离相似度的大小确定目标语句。一般来说,仅需要需要输出一个目标语句,则可以将辑距离相似度最大的候选语句作为目标语句输出。本发明实施例提供的上述方法,根据各候选语句的编辑距离相似度的大小确定目标语句,可以由编辑距离计算编辑距离相似度,较佳的将编辑距离相似度最大候选语句作为目标语句。
除了将编辑距离相似度最大的候选语句作为目标语句之外,还可能要求输出预设数量的候选语句,由用户选择自己需要的语句,上述方法还包括:对各候选语句的编辑距离相似度从大到小进行排序,根据排序结果确定预设数目的候选语句作为目标语句。预设数目的具体数量可根据需要设置,例如:预设数目为3,则说明需要输出3个候选语句,这时候需要先对所有候选语句按照编辑距离相似度从大到小的顺序排序,选择排在前3个的候选语句作为目标语句输出,让用户根据实际需要选择合适语句。本发明实施例提供的上述方法,将排序后的候选语句作为目标语句输出,由用户选择自己需要的语句。
上述方法使用的句向量神经网络模型可以通过训练得到,参见图5所示的一种句向量神经网络模型的训练方法的流程图,包括如下步骤:
步骤S502,获取多个样本文字序列,并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列。
训练句向量神经网络模型需要对应的样本集,而样本集由多个文字序列和对应的样本拼音序列构成。文字序列和对应的样本拼音序列就是训练语料,语料是指语言材料,是构成语料库的基本单元。在接收到多个样本文字序列后,将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列。例如:以接收样本文字序列“我爱你中国”为例,则将“我爱你中国”由汉字转化为样本拼音序列,即“woainizhongguo”。
步骤S504,将所有样本文字序列和对应的样本拼音序列作为样本集,并根据样本集训练句向量神经网络模型。
在对样本文字序列中的汉字转化为汉语拼音后,将每个本文字序列和对应的样本拼音分别拼接在一起,把所有拼接后的样本文字序列和对应的样本拼音序列组合为样本集。例如:以接收的样本文字序列为“我爱你中国”为例,样本拼音序列为“woainizhongguo”,拼接后的样本文字序列和对应的样本拼音就是“我爱你中国woainizhongguo”。
本发明实施例提供的上述方法,将接收的样本文字序列转化为样本拼音序列并拼接,将拼接后的所有样本文字序列和对应的样本拼音序列作为样本集,并根据样本集训练句向量神经网络模型,可以提高向量神经网络模型的识别准确率,增加用户的体验。
对于样本文字序列转化为样本拼音序列的过程中,同样需要去除拼音和转换统一的字符格式,以去除向量神经网络模型的误差。因此,对于并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列的步骤,包括:去除样本文字序列中的标点符号,并将样本文字序列中每个文字转换成设定字符格式;根据文字拼音映射表确定格式转换后的样本文字序列中的每个文字对应的拼音,组成样本拼音序列。本发明实施例提供的上述方法,对于样本文字序列转化为样本拼音序列的过程中,需要去除拼音和转换统一的字符格式,以去除向量神经网络模型的误差。
另外,本方法还可以将输入的语音转换为文字序列并将目标语句转换成语音输出,即在将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤之前,还包括:将输入的语音换转成文字序列。在根据各候选语句的编辑距离的大小确定目标语句的步骤之后,还包括:将目标语句转换成语音信号后输出。本发明实施例提供的上述方法,只需要用户输出语音,本方法就可以根据该语音提出识别的目标语句,并将该目标语句转换成语音信号后输出。
本实施例提供的一种基于句向量的文本识别方法,通过将文字序列和文字序列中每个文字对应的拼音序列输入已训练的句向量神经网络模型进行识别,根据包括候选文字和各候选文字对应的候选拼音识别得到的多个候选语句的编辑次数计算各候选语句的编辑距离并确定目标语句;去除文字序列中的标点符号,统一文字的字符格式,并由文字拼音映射表确定文字对应的拼音,得到拼音序列;固定拼接后的文字序列和对应的拼音序列的总字节长度,以清除句向量神经网络模型进行识别的误差;根据各候选语句的编辑距离的大小确定目标语句,可以由编辑距离计算编辑距离相似度,将编辑距离相似度最大候选语句作为目标语句;排序后的候选语句作为目标语句输出,由用户选择自己需要的语句;将接收的样本文字序列转化为样本拼音序列并拼接,将拼接后的所有样本文字序列和对应的样本拼音序列作为样本集,并根据样本集训练句向量神经网络模型;对于样本文字序列转化为样本拼音序列的过程中,需要去除拼音和转换统一的字符格式,以去除向量神经网络模型的误差;只需要用户输出语音,本方法就可以根据该语音提出识别的目标语句,并将该目标语句转换成语音信号后输出。可以提高向量神经网络模型的识别准确率,增加用户的体验。
此外,本实施例提供了一种电子设备,该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一所提供的基于句向量的文本识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统具体工作过程,可以参考前述实施例中的对应过程,在此不再赘述。
进一步,本实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例二所提供的方法的步骤。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于句向量的文本识别方法,其特征在于,包括:
将文字序列转化成与文字序列中的每个文字对应的拼音序列;
将所述文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别,得到包括候选文字和各候选文字对应的候选拼音的多个候选语句;
计算各候选语句中的每个候选文字和对应的候选拼音,到所述文字序列和对应的所述拼音序列的编辑次数;根据所述编辑次数确定各候选语句的编辑距离;
根据各候选语句的编辑距离的大小确定目标语句;
所述根据各候选语句的编辑距离的大小确定目标语句,包括:
计算各候选语句包括的候选文字和候选拼音的总个数;
计算每个候选语句的编辑距离相似度,所述编辑距离相似度等于:所述候选语句包括的候选文字和候选拼音的总个数减去该候选语句的编辑距离,与该候选语句包括的候选文字和候选拼音的总个数的比值;
根据各候选语句的编辑距离相似度的大小确定目标语句。
2.根据权利要求1所述的方法,其特征在于,所述将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤,包括:
去除文字序列中的标点符号,并将文字序列中每个文字转换成设定字符格式;
根据文字拼音映射表确定格式转换后的文字序列中的每个文字对应的拼音,组成拼音序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述文字序列和对应的拼音序列输入已训练的句向量神经网络模型进行识别的步骤之前,还包括:
判断文字序列和对应的拼音序列的字节总长度是否大于句子长度阈值;
若是,则将文字序列和对应的拼音序列中超过所述句子长度阈值的部分去除,以将去除部分内容后的文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入;
若否,在所述文字序列和对应的拼音序列的后面进行字符填充,以使填充字符、所述文字序列和对应的拼音序列的字符总长度等于所述句子长度阈值,以将填充字符后的所述文字序列和对应的拼音序列作为已训练的句向量神经网络模型的输入。
4.根据权利要求1所述的方法,其特征在于,所述根据各候选语句的编辑距离相似度的大小确定目标语句,包括:
对各候选语句的编辑距离相似度从大到小进行排序,根据排序结果确定预设数目的候选语句作为目标语句。
5.根据权利要求1所述的方法,其特征在于,所述句向量神经网络模型通过以下方式训练:
获取多个样本文字序列,并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列;
将所有样本文字序列和对应的样本拼音序列作为样本集,并根据所述样本集训练所述句向量神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述并将每个样本文字序列转化成与样本文字序列中的每个文字对应的样本拼音序列的步骤,包括:
去除样本文字序列中的标点符号,并将样本文字序列中每个文字转换成设定字符格式;
根据文字拼音映射表确定格式转换后的样本文字序列中的每个文字对应的拼音,组成样本拼音序列。
7.根据权利要求1所述的方法,其特征在于,
在所述将文字序列转化成与文字序列中的每个文字对应的拼音序列的步骤之前,还包括:将输入的语音换转成文字序列;
在所述根据各候选语句的编辑距离的大小确定目标语句的步骤之后,还包括:将目标语句转换成语音信号后输出。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法。
9.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811608392.4A CN109684643B (zh) | 2018-12-26 | 2018-12-26 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811608392.4A CN109684643B (zh) | 2018-12-26 | 2018-12-26 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684643A CN109684643A (zh) | 2019-04-26 |
CN109684643B true CN109684643B (zh) | 2021-03-12 |
Family
ID=66189948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811608392.4A Active CN109684643B (zh) | 2018-12-26 | 2018-12-26 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684643B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091120B (zh) * | 2019-07-02 | 2023-05-26 | 广东小天才科技有限公司 | 一种听写批改方法及电子设备 |
CN112580342A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 公司名称比对的方法、装置、计算机设备和存储介质 |
CN110852074B (zh) * | 2019-11-07 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 生成修正语句的方法和装置、存储介质和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN107564528A (zh) * | 2017-09-20 | 2018-01-09 | 深圳市空谷幽兰人工智能科技有限公司 | 一种语音识别文本与命令词文本匹配的方法及设备 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
-
2018
- 2018-12-26 CN CN201811608392.4A patent/CN109684643B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN107564528A (zh) * | 2017-09-20 | 2018-01-09 | 深圳市空谷幽兰人工智能科技有限公司 | 一种语音识别文本与命令词文本匹配的方法及设备 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109684643A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
CN109684643B (zh) | 基于句向量的文本识别方法、电子设备及计算机可读介质 | |
CN111310443B (zh) | 一种文本纠错方法和系统 | |
CN106503231B (zh) | 基于人工智能的搜索方法和装置 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN109299471B (zh) | 一种文本匹配的方法、装置及终端 | |
CN111428474A (zh) | 基于语言模型的纠错方法、装置、设备及存储介质 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
EP1471502A1 (en) | Method for correcting a text produced by speech recognition | |
CN111046060A (zh) | 一种基于Elasticsearch的数据检索方法、装置、设备、介质 | |
CN111985234B (zh) | 语音文本纠错方法 | |
US11620981B2 (en) | Speech recognition error correction apparatus | |
CN115376491B (zh) | 一种语音置信度计算方法、系统、电子设备及介质 | |
RU2016113502A (ru) | Способ и устройство построения базы знаний | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114861637A (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN113782030A (zh) | 基于多模态语音识别结果纠错方法及相关设备 | |
CN111710328B (zh) | 语音识别模型的训练样本选取方法、装置及介质 | |
CN111104520B (zh) | 一种基于人物身份的人物实体链接方法 | |
CN112735392B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN112272847B (zh) | 错误转换词典制作系统及语音识别系统 | |
CN111695350B (zh) | 一种文本的分词方法及分词装置 | |
CN112883711A (zh) | 摘要生成的方法、装置及电子设备 | |
CN110704623A (zh) | 基于Rasa_Nlu框架提高实体识别率的方法、装置、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220406 Address after: 430090 No. b1336, chuanggu startup area, taizihu cultural Digital Creative Industrial Park, No. 18, Shenlong Avenue, Wuhan Economic and Technological Development Zone, Wuhan, Hubei Province Patentee after: Yikatong (Hubei) Technology Co.,Ltd. Address before: 430000 no.c101, chuanggu start up area, taizihu cultural Digital Industrial Park, No.18 Shenlong Avenue, Wuhan Economic and Technological Development Zone, Hubei Province Patentee before: HUBEI ECARX TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |