CN113268989A - 多音字处理方法及装置 - Google Patents
多音字处理方法及装置 Download PDFInfo
- Publication number
- CN113268989A CN113268989A CN202110528205.7A CN202110528205A CN113268989A CN 113268989 A CN113268989 A CN 113268989A CN 202110528205 A CN202110528205 A CN 202110528205A CN 113268989 A CN113268989 A CN 113268989A
- Authority
- CN
- China
- Prior art keywords
- vector
- polyphone
- word
- chinese sentence
- polyphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 220
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 20
- 230000007787 long-term memory Effects 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 abstract description 22
- 238000000605 extraction Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008030 elimination Effects 0.000 description 6
- 238000003379 elimination reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供的所述多音字处理方法及装置,其中,所述方法包括基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。具体的,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型,并引入中文语句中的多音字前后词的词性信息,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种多音字处理方法、一种多音字处理装置、一种计算设备及一种计算机可读存储介质。
背景技术
最早的中文多音字歧义消除是基于规则的,这些规则由语言学家总结得到并以电脑可理解的方式编码到电脑中,但是基于规则的中文多音字消歧系统,存在着一个多音字可能匹配到多条规则从而发生规则冲突的问题。而随着数据规模的增加,基于数据的统计模型逐渐成为多音字歧义消除任务的首选方案。传统机器学习模型(如决策树,最大熵模型),深度神经网络开始被应用在多音字歧义消除任务中,但是基于统计模型的深度神经网络多音字歧义消除系统,特征提取流程复杂,语句的语义编码不够准确,特征组合单一,因此造成多音字歧义消除系统的预测不准确。
发明内容
有鉴于此,本申请实施例提供了一种多音字处理方法、一种多音字处理装置、一种计算设备及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了多音字处理方法,包括:
基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;
对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;
基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;
将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
根据本申请实施例的第二方面,提供了一种多音字处理装置,包括:
第一向量获得模块,被配置为基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;
第二向量获得模块,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;
第三向量获得模块,被配置为基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;
读音获取模块,被配置为将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时所述多音字处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述多音字处理方法的步骤。
本申请提供的所述多音字处理方法及装置,其中,所述方法包括基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。具体的,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型以及双向长短期记忆网络,加强对中文语句的语义信息以及上下文信息的提取,并利用语言模型中的positional encoding机制,增强中文语句中多音字位置信息的语义编码效果;同时引入中文语句中的多音字前后词的词性信息,丰富输入多音字消歧模型的包含多音字的中文语句的语义特征组合,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的一种多音字处理方法的流程图;
图3是本申请实施例提供的一种多音字处理方法的处理流程图;
图4是本申请实施例提供的一种多音字处理装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
语音合成系统:文本转换成对应发音的软件模型系统。
字音转换:将对应汉字转换为相对应拼音的过程,例如“古都”经过字音转换为“gu3 du1”。
多音字歧义消除:在语音合成系统中,字音转换是必不可少的模块,而多音字消歧是字音转换模块的核心。汉语中有的字对应两个及两个以上发音,多音字歧义消除指的是如何通过中文的上下文信息使电脑中的模型准确辨析多音字的正确读音从而使字音转换模块得多音字正确的拼音。
POS:英文全称:part of speech,中文全称:词性标注。
Word embedding:嵌入词向量,将输入的字符序列转换成高维空间的向量形式。
Transformer模型:一个只基于注意力模型来解决序列问题的神经网络模型,该模型主要分为编码器(encoder)和解码器(decoder)两部分,编码器和解码器的基本结构相似,都是由多头自注意力层和全连接层组成。Transformer模型和传统解决序列问题的循环神经网络模型相比,其可以捕获更长距离的文本信息。
BERT模型:BERT,即Bidirectional Encoder Representation from Transformers,是指双向Transformer模型的编码器部分,是一种自编码语言模型。即自然语言处理中的一种预训练语言模型,对模型输入进行编码,生成对应词向量。
BLSTM:Bidirectional Encoder Representation from Transformers。双向LSTM层,神经网络的一种基本结构单元,旨在提取输入序列的上下文信息。
Full connect layer:全连接层,神经网络的一种基本结构单元。
Jieba:一款中文分词工具,中文名称为结巴,例如有一句话“在古都西安”,基于该Jieba分析工具会将其分为“在/古都/西安”。
Hanlp:是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、中文分词、句法分析、文本分析和情感分析等功能。
现有技术中,最早的中文多音字歧义消除是基于规则的,这些规则由语言学家总结得到并以电脑可理解的方式编码到电脑中,但是基于规则的中文多音字消歧系统,存在着一个多音字可能匹配到多条规则从而发生规则冲突的问题。比如“朝阳”,定义的规则为“朝阳”作为形容词出现时,读音为“chao1 yan g2”,但是在语句1(朝阳的方向阳光很充足)中形容词“朝阳”应读为“chao1yang2”;在语句2(计算机是朝阳产业)中同为形容词的“朝阳”应读为“zhao1 yang2”。多音字在中文语句中的正确发音问题并没有很好的解决。
而随着数据规模的增加,基于数据的统计模型逐渐成为多音字歧义消除任务的首选方案。传统机器学习模型(如决策树,最大熵模型),深度神经网络开始被应用在多音字歧义消除任务中,其中,传统机器学习模型采用端到端的方式,即以原有格式的数据做输入,期望输出作为最终输出,所有中间环节都在模型内部进行。这种方式现在被广泛应用到各项任务中。但是基于统计模型的深度神经网络多音字歧义消除系统,特征提取流程复杂,语句的语义编码不够准确,特征组合单一,因此造成多音字歧义消除系统的预测不准确。
基于此,在本申请中,提供了一种多音字处理方法、一种多音字处理装置、一种计算设备及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例提供的多音字处理方法的流程图,具体包括以下步骤。
步骤202:基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量。
其中,多音字为对应两个或两个以上发音的汉字,例如多音字“都”对应的发音包括:“du”、“dou”、多音字“单”对应的发音包括:“dan”、“chan”、“shan”等。那么包含多音字的中文语句则可以理解为:包含至少一个多音字的中文语句。
此外,语言模型可以理解为基于深度学习的预训练语言模型,例如BERT模型。具体使用时,可以理解为多音字消歧模型的模型架构的一部分,而双向长短期记忆网络,即BLSTM也可以理解为多音字消歧模型的模型架构的一部分,将语言模型和BLSTM结合使用,可以在通过语言模型获取中文语句中每个字的语义向量后,再通过BLSTM对该中文语句的语义上下文向量进行提取,最后获得该中文语句的结合了上下文信息的语义上下文向量,实现对包含多音字的中文语句的编码。
具体的,基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量之前,接收或者获取包含多音字的中文语句,该中文语句中包含至少一个多音字,以中文语句“北京和南京我都去过”为例,该中文语句中包含一个多音字“都”。
具体实施时,所述基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量,包括:
将包含多音字的中文语句输入语言模型,获得所述中文语句的语义向量;
将所述语义向量输入多音字消歧模型的双向长短期记忆网络,获得所述中文语句的语义上下文向量。
实际应用中,在接收或者获取包含多音字的中文语句(以下简称中文语句)之后,先将该中文语句输入预先训练的BERT模型中,对该中文语句中上下文信息进行提取,初步提取该中文语句的语义信息(即语义向量),通过利用BE RT模型中的positional encoding机制,增强该中文语句中多音字的位置信息的编码效果。
然后将通过BERT模型获得的该中文语句的语义向量作为多音字消歧模型的双向长短期记忆网络(即BLSTM)的输入,进一步提取该中文语句的上下文信息,获得该中文语句的语义上下文向量。
其中,语义向量表示从包含多音字的中文语句中提取的语义信息,语言模型本身考虑的是该中文语句中每个字的含义;仍以包含多音字的中文语句为“北京和南京我都去过”为例,将该中文语句输入到语言模型中,获得该中文语句的语义向量表示的是该中文语句中,“北、京、和、南、京、我、都、去、过”等每个字的实际意思。
具体实施时,将该中文语句输入语言模型,该语言模型会输出一个512*9的语义向量,其中,参数512表示维度,9表示中文语句中的字的数量。即将该中文语句输入语言模型,该语言模型会将该中文语句中的每个字用512维的向量来表示,最后输出该中文语句的整体的512*9的语义向量。
而实际应用中,再将获得的该中文语句的语义向量输入到BLSTM中进行处理,BLSTM会综合考虑该中文语句中每个字与其前一个字和后一个字之间的关联关系,从而对其对应的语义向量的数值进行变更,获得其在中文语句中的语义上下文向量,其中,每个语义向量的数值可以表征与其前后字之间的关联关系。
仍沿用上例,将包含多音字的中文语句为“北京和南京我都去过”的语义向量输入BLSTM中,BLSTM参考每个字与其前后一个字或两个字(如最前面的一个字仅考虑与其后一个字的关联关系,最后面的一个字仅考虑与其前一个字的关联关系)之间的关联关系,通过其关联关系更新该中文语句“北、京、和、南、京、我、都、去、过”中每个字语义向量中的每个数值,更新后的语义向量即为该中文语句的512*9的语义向下文向量。
具体实施时,在接收或者获取该中文语句“北京和南京我都去过”之后,将该中文语句输入预先训练的BERT模型中,初步提取该中文语句的语义信息,获得该中文语句的语义向量A;再将该语义向量A输入BLSTM层,进一步提取该中文语句的上下文信息,获得语义上下文向量B。其详细对该中文语句中语义向量以及语义上下文向量的获取的详细描述可以参见上述实施例,在此不再赘述。
本申请实施例中,在中文语句的信息编码阶段引入BERT预训练模型以及BLSTM,可以加强对中文语句的语义信息以及上下文信息的提取。还可以利用BERT模型中的positional encoding机制,增强中文语句中多音字位置信息的语义编码效果。首先,BERT模型对中文语句中的语义信息提取,即对中文语句中的字、短语的语义信息进行提取和编码,而选取BERT模型输出作为BLSTM层的输入,进一步提取该中文语句中每个字或每个短语,与其前后字或者前后词的上下文信息,获得语义上下文向量,通过BLSTM层的处理考虑中文语句中每个字的前后信息以及前后文关系,使得后续多音字消歧模型在对中文语句中的多音字的读音进行确定时,不仅可以考虑多音字的语音信息,还会考虑多音字的上下文信息,以保证多音字的读音的准确性。
步骤204:对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量。
具体的,所述对所述中文语句进行分词,包括:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
其中,预设分词工具包括但不限于Jieba或Hanlp等。可以实现对中文语句进行分词和词性标注的其他分词工具均可,本说明书对此不做任何限定。
具体实施时,所述对所述中文语句进行分词之前,还包括:过滤掉所述中文语句中包含的数字。
以中文语句为“北京和南京我都去过1次”为例,过滤掉该中文语句中包含的数字后,获得的中文语句为“北京和南京我都去过次”。
实际应用中,数字不存在多音的情况,因此为了减少中文语句中的不必要特征,以提高多音字消歧模型的后续识别效率,在对中文语句进行分词之前,会对该中文语句进行遍历,过滤掉该中文语句中包含的数字,以提高对中文语句的分词效率以及提高多音字消歧模型的后续识别效率。
仍以中文语句为“北京和南京我都去过”为例,基于Jieba或Hanlp等分词工具对该中文语句分词后的结果参见表1。
表1
参见表1,该中文语句“北京和南京我都去过”分词后为“北京/和/南京/我/都/去过”六个词语,且每个词语对应一个词性。
本申请实施例中,可以基于Jieba或Hanlp等分词工具对数字过滤后的中文语句进行分词以及对分词后的该中文语句形成的词语进行词性标注,后续可以基于该中文语句分词后的多音字的前后两个短语的词性,提升多音字消歧模型分辨多音字的读音的准确性。
具体实施时,所述基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量,包括:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
基于多音字字典确定所述中文语句中的多音字,并且确定包含所述多音字的词语、包含所述多音字的词语相邻的前一个词语、以及包含所述多音字的词语相邻的后一个词语;
基于包含所述多音字的词语的词性、包含所述多音字的词语相邻的前一个词语的词性、以及包含所述多音字的词语相邻的后一个词语的词性,确定所述中文语句中多音字的词性向量。
其中,多音字字典可以理解为预先自定义的多音字字典,通过该多音字字典可以确定包含多音字的中文语句中的哪个字是多音字。
具体的,在对该中文语句分词以及对分词后的词语进行词性标注后,可以利用自定义的多音字字典查询确定该中文语句中包含的多音字,即通过该多音字字典将该中文语句中包含的所有多音字识别提取出来。并确定包含分词后包含该多音字的词语,该词语的前一个词语和后一个词语;最后将该词语的词性,该词语的前一个词语的词性和后一个词语的词性进行组合,形成该中文语句中多音字的词性向量。
实验证明,多音字前后词的词性信息可以为多音字消歧模型准确分辨多音字的读音有明显提升,因此在实际应用中,将包含多音字的中文语句分词后包含多音字词语的本身的词性、前一个词语的词性、后一个词语的词性,组合形成表征词性的该中文语句中多音字的词性向量,以用于后续的多音字的读音识别。
仍以中文语句“北京和南京我都去过”为例,该中文语句分词后为“北京/和/南京/我/都/去过”六个词语,其中,包含多音字的词语为“都”,“都”的前一个词语为“我”,后一个词语为“去过”,由表1可知,“都”的词性为“d”,“我”的词性为“r”,“去过”的词性为“v”,那么该中文语句中多音字的词性向量为:r d v。
本申请实施例中,将该中文语句分词后,包含多音字的词语的词性以及该词语的前后两个词语的词性,作为该中文语句中多音字的词性向量,后续可以通过该词性向量可以极大的提高多音字消歧模型对多音字的读音的预测准确性。
步骤206:基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量。
具体的,在获得该中文语句中多音字的词性向量后,将该文中语句中的多音字与该词性向量进行拼接编码,将其作为中文语句的编码向量,使得多音字消歧模型基于该中文语句中的多音字,该多音字的词性以及该多音字的前后词语的词性,对中文语句中上下文信息的理解更加充分,从而使得该多音字消歧模型的预测准确度得到提升。具体实现方式如下所述:
所述基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量,包括:
将所述中文语句中的多音字与所述词性向量拼接后输入所述多音字消歧模型的词嵌入向量层,获得所述中文语句的编码向量。
仍以上述为例,多音字为“都”,词性向量为“r d v”,那么将该中文语句中的多音字与词性向量拼接,获得“都r d v”;然后将“都r d v”输入多音字消歧模型的词嵌入向量层,获得该中文语句的编码向量。其中,词嵌入向量层即为多音字消歧模型的Wordembedding层。
实际应用中,汉字和字母不能在模型中直接使用计算,因此将该中文语句中的多音字与词性向量进行拼接后统一编码,避免将汉字和字母分别编码造成编码向量不一致的问题。本申请实施例中,将两次的编码变为一次,保证了相同字符编码的一致性,即将多音字与词性向量进行拼接后,经过Word embeddi ng层,编码为具有一致性的编码向量。
步骤208:将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
具体的,所述将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音,包括:
将所述语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
具体实施时,先将该中文语句的语义上下文向量与编码向量进行拼接,再将拼接后的向量输入多音字消歧模型的全连接层(即Full-connect layer层),全连接层输出该中文语句中多音字对应读音以及每个读音的概率值,最后多音字消歧模型的输出层选择概率值最高的读音作为该多音字的读音,进行输出。
本申请实施例中,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型,加强对语句的上下文信息进行提取,利用语言模型中的positionalencoding机制,增强多音字位置信息的语义编码效果,并引入中文语句中的多音字前后词的词性信息,丰富输入多音字消歧模型的包含多音字的中文语句特征组合,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。
本说明书另一实施例中,为了降低多音字消歧模型在训练以及实际使用过程中的计算消耗,提高对多音字的预测速度,会对包含多音字的中文语句的长度进行处理,具体实现方式如下所述:
所述确定所述中文语句中多音字的词性向量之后,还包括:
确定包含所述多音字的词语相邻的前一个词语在所述中文语句中的起始位置;以及
确定包含所述多音字的词语相邻的后一个词语在所述中文语句中的终止位置。
仍以中文语句“北京和南京我都去过”为例,该中文语句分词后为“北京/和/南京/我/都/去过”六个词语,其中,包含多音字的词语为“都”,“都”的前一个词语为“我”,后一个词语为“去过”,参见表2。
表2
中文语句中的第一个字的索引值下标是从0开始的,因此,参见表2“北京和南京我都去过”中的多音字“都”的前一个词语“我”的位置索引值为5,后一个词语“去过”的位置索引值为1,因此,确定包含该多音字“都”的词语相邻的前一个词语“我”在该中文语句中的起始位置为5;确定包含所述多音字“都”的词语相邻的后一个词语“去过”在所述中文语句中的终止位置为8。
本申请实施例中,计算包含多音字的词语的前一个词语在原句中的起始位置和后一个词语在原句中的终止位置,后续可以基于该起始位置和终止位置对原句进行处理,以节省原句的长度,提高多音字消歧模型的预测速度。
此外,所述确定包含所述多音字的词语相邻的后一个词语的词性在所述中文语句中的终止位置之后,还包括:
基于所述起始位置和所述终止位置对所述中文语句的语义上下文向量进行处理,以获得所述中文语句的目标语义上下文向量。
具体的,基于所述起始位置和所述终止位置对所述中文语句的语义上下文向量进行处理,可以理解为基于起始位置和终止位置对中文语句的语义上下文向量进行截取,以获取该中文语句的目标语义上下文向量,使得中文语句的目标语义上下文向量的整体长度较短,极大的增加多音字消歧模型的预测速度
实际应用中,中文语句的语义上下文向量与中文语句的原始长度是等长的,基于所述起始位置和所述终止位置对所述中文语句的语义上下文向量进行截取,可以在缩短中文语句的语义上下文向量的整体长度的基础上,还保证了目标语义上下文向量首尾部信息提取的完整性。
本申请实施例中,BLSTM层输出的语义上下文向量是基于整体输入语句获取的语义及上下文信息向量,整体长度过大,会增加多音字消歧模型的训练及推理过程的计算消耗,降低速度。而在多音字消除歧义任务中,多音字位置附近的信息更为重要。因此可以先计算了所需多音字前一个词的起始位置和后一个词的终止位置,希望将多音字附近的语义信息尽可能保留,将距离多音字较远的语义信息删除,以降低多音字消歧模型的训练及推理过程的计算消耗,提高速度。
同理,在获取目标语义上下文向量之后,所述确定所述中文语句的编码向量之后,还包括:
将所述目标语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
具体的,所述将所述目标语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音,包括:
将所述目标语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
具体实施时,先将该中文语句的目标语义上下文向量与编码向量进行拼接,再将拼接后的向量输入多音字消歧模型的全连接层(即Full-connect layer层),全连接层输出该中文语句中多音字对应读音以及每个读音的概率值,最后多音字消歧模型的输出层选择概率值最高的读音作为该多音字的读音,进行输出。
本申请实施例中,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型,加强对语句的上下文信息进行提取,利用语言模型中的positionalencoding机制,增强多音字位置信息的语义编码效果,并引入中文语句中的多音字前后词的词性信息,丰富输入多音字消歧模型的包含多音字的中文语句特征组合,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。并且基于所需多音字前一个词的起始位置和后一个词的终止位置,缩短中文语句的长度,以降低多音字消歧模型的训练及推理过程的计算消耗,提高速度。
参见图3,图3示出了本申请一实施例提供的一种多音字处理方法中将“北京和南京我都去过”作为包含多音字的中文语句进行处理的流程图,具体包括以下步骤。
步骤302:输入包含多音字中文语句。
具体的,包含多音字中文语句为:“北京和南京我都去过”,其中,多音字为“都”。
具体实施时,将“北京和南京我都去过”作为多音字消歧模型的输入,基于该多音字消歧模型实现多音字“都”的对应读音的输出。
步骤304:将包含多音字中文语句输入BERT模型获得向量A。
具体的,将“北京和南京我都去过”作为BERT模型的输入,初步提取整体语句的语义信息,获得输出向量A。
步骤306:将向量A输入BLSTM层获得向量B。
具体的,将词向量A作为BLSTM层的输入,进一步提取上下文信息,获得向量B。
步骤308:通过查询多音字字典,提取包含多音字中文语句中的多音字。
具体的,利用自定义的多音字字典查询并提取包含多音字中文语句“北京和南京我都去过”中包含的多音字“都”。
步骤310:对包含多音字中文语句进行语句分词及词性标注。
具体的,通过分词工具将“北京和南京我都去过”中文语句分词为一个个词语,并且对每个分词后形成的词语进行词性标注,例如将“北京和南京我都去过”进行语句分词以及词性标注后,可以获得“北京loc/和c/南京loc/我r/都d/去过v”。
步骤312:提取分词后多音字词语的前一个词语和后一个词语的词性向量及位置索引值。
具体的,提取分词后多音字词语“都”的前一个词语“我”和后一个词语“去过”的词性向量,以及前一个词语“我”的起始位置5,后一个词语“去过”的终止位置8。
步骤314:将中文语句中的多音字与提取分词后多音字词语的前一个词语和后一个词语的词性向量进行拼接后输入词嵌入向量层,获得该中文语句的编码向量C。
具体的,将“都r d v”输入Word embedding层,获得该中文语句的编码向量C。
步骤316:基于起始位置和终止位置对向量B进行截取,获得向量D。
步骤318:将向量D和向量C进行拼接,作为全连接层Full-connect layer的输入。
步骤320:全连接层Full-connect layer输出概率最高的读音作为该中文语句中多音字的读音。
本申请实施例中,所述多音字处理方法在包含多音字的中文语句的信息编码阶段引入语言模型,加强对语句的上下文信息进行提取,利用语言模型中的positionalencoding机制,增强多音字位置信息的语义编码效果,并引入中文语句中的多音字前后词的词性信息,丰富输入多音字消歧模型的包含多音字的中文语句特征组合,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。并且基于所需多音字前一个词的起始位置和后一个词的终止位置,缩短中文语句的长度,以降低多音字消歧模型的训练及推理过程的计算消耗,提高速度。
与上述方法实施例相对应,本申请还提供了多音字处理装置实施例,图4示出了本申请一个实施例提供的一种多音字处理装置的结构示意图。如图4所示,该装置包括:
第一向量获得模块402,被配置为基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;
第二向量获得模块404,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;
第三向量获得模块406,被配置为基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;
读音获取模块408,被配置为将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
可选地,所述第一向量获得模块402,进一步被配置为:
将包含多音字的中文语句输入语言模型,获得所述中文语句的语义向量;
将所述语义向量输入多音字消歧模型的双向长短期记忆网络,获得所述中文语句的语义上下文向量。
可选地,所述第二向量获得模块404,进一步被配置为:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
可选地,所述第二向量获得模块404,进一步被配置为:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
基于多音字字典确定所述中文语句中的多音字,并且确定包含所述多音字的词语、包含所述多音字的词语相邻的前一个词语、以及包含所述多音字的词语相邻的后一个词语;
基于包含所述多音字的词语的词性、包含所述多音字的词语相邻的前一个词语的词性、以及包含所述多音字的词语相邻的后一个词语的词性,确定所述中文语句中多音字的词性向量。
可选地,所述第三向量获得模块406,进一步被配置为:
将所述中文语句中的多音字与所述词性向量拼接后输入所述多音字消歧模型的词嵌入向量层,获得所述中文语句的编码向量。
可选地,所述读音获取模块408,进一步被配置为:
将所述语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
可选地,所述装置,还包括:
位置确定模块,被配置为:
确定包含所述多音字的词语相邻的前一个词语在所述中文语句中的起始位置;以及
确定包含所述多音字的词语相邻的后一个词语在所述中文语句中的终止位置。
可选地,所述装置,还包括:
向量处理模块,被配置为:
基于所述起始位置和所述终止位置对所述中文语句的语义上下文向量进行处理,以获得所述中文语句的目标语义上下文向量。
可选地,所述装置,还包括:
读音确定模块,被配置为:
将所述目标语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
可选地,所述读音确定模块,被配置为:
将所述目标语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
本申请实施例中,所述多音字处理装置在包含多音字的中文语句的信息编码阶段引入语言模型以及双向长短期记忆网络,加强对中文语句的语义信息以及上下文信息的提取,并利用语言模型中的positional encoding机制,增强中文语句中多音字位置信息的语义编码效果;同时引入中文语句中的多音字前后词的词性信息,丰富输入多音字消歧模型的包含多音字的中文语句的语义特征组合,以提高多音字消除歧义任务中多音字消歧模型对该中文语句中多音字的读音的预测准确性。
上述为本实施例的一种多音字处理装置的示意性方案。需要说明的是,该多音字处理装置的技术方案与上述的多音字处理方法的技术方案属于同一构思,多音字处理装置的技术方案未详细描述的细节内容,均可以参见上述多音字处理方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述多音字处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述多音字处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述多音字处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述多音字处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述多音字处理方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述多音字处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memo ry)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种多音字处理方法,其特征在于,包括:
基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;
对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;
基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;
将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
2.根据权利要求1所述的多音字处理方法,其特征在于,所述基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量,包括:
将包含多音字的中文语句输入语言模型,获得所述中文语句的语义向量;
将所述语义向量输入多音字消歧模型的双向长短期记忆网络,获得所述中文语句的语义上下文向量。
3.根据权利要求1所述的多音字处理方法,其特征在于,所述对所述中文语句进行分词,包括:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
4.根据权利要求3所述的多音字处理方法,其特征在于,所述基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量,包括:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
基于多音字字典确定所述中文语句中的多音字,并且确定包含所述多音字的词语、包含所述多音字的词语相邻的前一个词语、以及包含所述多音字的词语相邻的后一个词语;
基于包含所述多音字的词语的词性、包含所述多音字的词语相邻的前一个词语的词性、以及包含所述多音字的词语相邻的后一个词语的词性,确定所述中文语句中多音字的词性向量。
5.根据权利要求1-4任意一项所述的多音字处理方法,其特征在于,所述基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量,包括:
将所述中文语句中的多音字与所述词性向量拼接后输入所述多音字消歧模型的词嵌入向量层,获得所述中文语句的编码向量。
6.根据权利要求1所述的多音字处理方法,其特征在于,所述将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音,包括:
将所述语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
7.根据权利要求4所述的多音字处理方法,其特征在于,所述确定所述中文语句中多音字的词性向量之后,还包括:
确定包含所述多音字的词语相邻的前一个词语在所述中文语句中的起始位置;以及
确定包含所述多音字的词语相邻的后一个词语在所述中文语句中的终止位置。
8.根据权利要求7所述的多音字处理方法,其特征在于,所述确定包含所述多音字的词语相邻的后一个词语在所述中文语句中的终止位置之后,还包括:
基于所述起始位置和所述终止位置对所述中文语句的语义上下文向量进行处理,以获得所述中文语句的目标语义上下文向量。
9.根据权利要求8所述的多音字处理方法,其特征在于,所述确定所述中文语句的编码向量之后,还包括:
将所述目标语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
10.根据权利要求9所述的多音字处理方法,其特征在于,所述将所述目标语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音,包括:
将所述目标语义上下文向量与所述编码向量拼接后输入所述多音字消歧模型的全连接层,获得所述多音字的至少两个读音以及每个读音的概率值;
将概率值最高的读音作为所述多音字对应的读音,通过所述多音字消歧模型输出。
11.一种多音字处理装置,其特征在于,包括:
第一向量获得模块,被配置为基于语言模型以及多音字消歧模型的双向长短期记忆网络,获得包含多音字的中文语句的语义上下文向量;
第二向量获得模块,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述中文语句中多音字的词性向量;
第三向量获得模块,被配置为基于所述中文语句中的多音字以及所述词性向量,确定所述中文语句的编码向量;
读音获取模块,被配置为将所述语义上下文向量以及所述编码向量输入所述多音字消歧模型,获取所述多音字对应的读音。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-10任意一项所述多音字处理方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-10任意一项所述多音字处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528205.7A CN113268989A (zh) | 2021-05-14 | 2021-05-14 | 多音字处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528205.7A CN113268989A (zh) | 2021-05-14 | 2021-05-14 | 多音字处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268989A true CN113268989A (zh) | 2021-08-17 |
Family
ID=77230847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110528205.7A Pending CN113268989A (zh) | 2021-05-14 | 2021-05-14 | 多音字处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268989A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116266266A (zh) * | 2022-11-08 | 2023-06-20 | 美的集团(上海)有限公司 | 多音字消歧方法、装置、设备及存储介质 |
CN116341561A (zh) * | 2023-03-27 | 2023-06-27 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN111967260A (zh) * | 2020-10-20 | 2020-11-20 | 北京金山数字娱乐科技有限公司 | 多音字处理方法及装置、模型训练方法及装置 |
CN112528648A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 多音字发音的预测方法、装置、设备及存储介质 |
-
2021
- 2021-05-14 CN CN202110528205.7A patent/CN113268989A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN111967260A (zh) * | 2020-10-20 | 2020-11-20 | 北京金山数字娱乐科技有限公司 | 多音字处理方法及装置、模型训练方法及装置 |
CN112528648A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 多音字发音的预测方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
YAO SHI: "AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES", HTTPS://ARXIV.ORG/ABS/2010.11567V1, pages 2 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116266266A (zh) * | 2022-11-08 | 2023-06-20 | 美的集团(上海)有限公司 | 多音字消歧方法、装置、设备及存储介质 |
CN116266266B (zh) * | 2022-11-08 | 2024-02-20 | 美的集团(上海)有限公司 | 多音字消歧方法、装置、设备及存储介质 |
CN116341561A (zh) * | 2023-03-27 | 2023-06-27 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
CN116341561B (zh) * | 2023-03-27 | 2024-02-02 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111199727B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN110688857B (zh) | 一种文章生成的方法和装置 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111967260A (zh) | 多音字处理方法及装置、模型训练方法及装置 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN113158687A (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
CN111539228A (zh) | 向量模型训练方法及装置、相似度确定方法及装置 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN113870835A (zh) | 基于人工智能的语音合成方法、装置、设备及存储介质 | |
CN110705310A (zh) | 一种文章生成的方法和装置 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN112328777B (zh) | 一种答案检测方法及装置 | |
CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN116186529A (zh) | 语义理解模型的训练方法及装置 | |
CN113889115A (zh) | 一种基于语音模型的方言转述方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |