CN110890097A - 语音处理方法及装置、计算机存储介质、电子设备 - Google Patents
语音处理方法及装置、计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN110890097A CN110890097A CN201911150636.3A CN201911150636A CN110890097A CN 110890097 A CN110890097 A CN 110890097A CN 201911150636 A CN201911150636 A CN 201911150636A CN 110890097 A CN110890097 A CN 110890097A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- sign language
- text information
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000003058 natural language processing Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 208000032041 Hearing impaired Diseases 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及计算机技术领域,提供了一种语音处理方法、语音处理装置、计算机存储介质、电子设备,其中,语音处理方法包括:获取输入语音对应的文本信息;将文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息;根据用户意图信息,确定文本信息对应的标准文本;基于预设的手语动画库,获取所述标准文本对应的手语动画。本公开中的语音处理方法不仅能够降低相关方法的人员使用成本,还能够避免误识别情况,提高语音的识别准确度。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种语音处理方法、语音处理装置、计算机存储介质及电子设备。
背景技术
随着互联网及计算机技术的迅速发展,相关语音识别领域也在迅速发展,因而,如何使听障人与健听人之间进行正常的沟通成为相关人员关注的焦点问题。
目前,听障人与健听人沟通主要是通过手语翻译员将健听人的语音转换为手语,以帮助听障人理解。然而,由于手语翻译员人才十分稀缺,其次大多数交流场景都是随机出现的,很难保证手语翻译员及时出现在听障人身边;再加上聘用专职手语翻译员花费较大,一般听障人很难承担。因而,其成本较高,适用范围较窄。
鉴于此,本领域亟需开发一种新的语音处理方法及装置。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种语音处理方法、语音处理装置、计算机存储介质及电子设备,进而至少在一定程度上避免了现有技术中的方法成本较高的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种语音处理方法,包括:获取输入语音对应的文本信息;将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息;根据所述用户意图信息,确定所述文本信息对应的标准文本;基于预设的手语动画库,获取所述标准文本对应的手语动画。
在本公开的示例性实施例中,在根据预设手语库,获取所述目标文本对应的手语动画之后,所述方法还包括:将所述手语动画拼接为手语动画序列;对所述手语动画序列进行播放显示。
在本公开的示例性实施例中,所述根据所述用户意图信息,确定所述文本信息对应的标准文本,包括:将所述文本信息与所述用户意图信息输入双向转换编码器中;根据所述双向转换编码器对所述文本信息与所述用户意图信息进行信息融合处理,得到融合信息;将所述融合信息与预先存储的标准文本进行相似度匹配,将匹配成功的标准文本确定为所述文本信息对应的标准文本。
在本公开的示例性实施例中,所述基于预设的手语动画库,获取所述标准文本对应的手语动画,包括:基于自然语言处理算法对所述标准文本进行处理,得到所述标准文本对应的目标文本;基于所述预设的手语动画库,匹配所述目标文本对应的手语动画;将所述目标文本对应的手语动画确定为所述标准文本对应的手语动画。
在本公开的示例性实施例中,所述基于自然语言处理算法对所述标准文本进行处理,得到所述标准文本对应的目标文本,包括:基于自然语言处理算法对所述标准文本进行分词处理,得到所述标准文本对应的至少一个分词;对所述分词进行同义和/或近义替换,以确定所述分词对应的替换词;对所述替换词进行语法分析处理,以得到所述目标文本。
在本公开的示例性实施例中,所述获取输入语音对应的文本信息,包括:基于自动语音识别算法对所述输入语音进行识别,以确定所述输入语音对应的文本信息。
在本公开的示例性实施例中,所述方法还包括:获取文本信息样本以及所述文本信息样本对应的标签信息,所述标签信息用于标注所述文本信息对应的用户意图信息;基于所述文本信息与所述标签信息训练机器学习模型,以得到所述意图识别模型。
根据本公开的第二方面,提供一种语音处理装置,包括:获取模块,用于获取输入语音对应的文本信息;意图识别模块,用于将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息;确定模块,用于根据所述用户意图信息,确定所述文本信息对应的标准文本;匹配模块,用于基于预设的手语动画库,获取所述标准文本对应的手语动画。
根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音处理方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的语音处理方法。
由上述技术方案可知,本公开示例性实施例中的语音处理方法、语音处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,一方面,获取输入语音对应的文本信息,将文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息,能够识别出用户输入语音对应的目的,从而,提高后续的识别准确度。进一步的,根据用户意图信息,确定文本信息对应的标准文本,能够解决现有技术中仅根据文本信息进行匹配所导致的误匹配的技术问题,提高匹配准确率。另一方面,基于预设的手语动画库获取上述标准文本对应的手语动画,能够解决现有技术中通过手语翻译员将健听人的语音转换为手语,以实现听障人与健听人沟通而导致的成本较高、适用范围较窄的技术问题,有效降低相关人员使用成本。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一示例性实施例中语音处理方法的流程示意图;
图2示出本公开另一示例性实施例中语音处理方法的流程示意图;
图3示出本公开再一示例性实施例中语音处理方法的流程示意图;
图4示出本公开又一示例性实施例中语音处理方法的流程示意图;
图5示出本公开一示例性实施例中语音处理方法的整体流程示意图;
图6示出本公开示例性实施例中语音处理装置的结构示意图;
图7示出本公开示例性实施例中计算机存储介质的结构示意图;
图8示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
目前,听障人与健听人沟通主要是通过手语翻译员将健听人的语音转换为手语,以帮助听障人理解。然而,由于手语翻译员人才十分稀缺,其次大多数交流场景都是随机出现的,很难保证手语翻译员及时出现在听障人身边;再加上聘用专职手语翻译员花费较大,一般听障人很难承担。因而,其成本较高,适用范围较窄。
在本公开的实施例中,首先提供了一种语音处理方法,至少在一定程度上克服现有技术中提供的语音处理方法成本较高的缺陷。
图1示出本公开一示例性实施例中语音处理方法的流程示意图,该语音处理方法的执行主体可以是对语音进行处理的服务器。
参考图1,根据本公开的一个实施例的语音处理方法包括以下步骤:
步骤S110,获取输入语音对应的文本信息;
步骤S120,将文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息;
步骤S130,根据文本信息与用户意图信息,确定文本信息对应的标准文本;
步骤S140,基于预设的手语动画库,获取标准文本对应的手语动画。
在图1所示实施例所提供的技术方案中,一方面,获取输入语音对应的文本信息,将文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息,能够识别出用户输入语音对应的目的,从而,提高后续的识别准确度。进一步的,根据用户意图信息,确定文本信息对应的标准文本,能够解决现有技术中仅根据文本信息进行匹配所导致的误匹配的技术问题,提高匹配准确率。另一方面,基于预设的手语动画库获取上述标准文本对应的手语动画,能够解决现有技术中通过手语翻译员将健听人的语音转换为手语,以实现听障人与健听人沟通而导致的成本较高、适用范围较窄的技术问题,有效降低相关人员使用成本。
以下对图1中的各个步骤的具体实现过程进行详细阐述:
在本公开的示例性实施例中,一示例性的应用场景为:相关用户(聋哑人士)去银行、医院等场所办理业务,银行、医院等场所仅需要设置一语音采集设备,通过采集办理业务的工作人员的输入语音,便可以将语音信息转换为对应的手语动画,使得相关聋哑人士可以在无需手语翻译人员参与的情况下,完成相关业务的办理。以下实施例中以银行应用场景为例进行说明。
在步骤S110中,获取输入语音对应的文本信息。
在本公开的示例性实施例中,可以设置一语音采集设备(例如:话筒、麦克风、录音机、声纹采集器等),进而,基于语音采集设备获取相关输入语音。输入语音可以是银行工作人员的语音,例如:“您要办点什么”。
在本公开的示例性实施例中,在获取到上述输入语音之后,可以基于自动语音识别算法(Automatic Speech Recognition,自动语音识别,简称:ASR)对输入语音进行识别,进而,将人类的语音中的词汇内容转换为计算机可读的输入信息,例如按键、二进制编码或者字符序列,进而,可以通过计算机对上述可读的输入信息进行转换,以确定出输入语音对应的文本信息。示例性的,当自动语音识别算法将输入语音转换为二进制编码“0010”时,而“0010”对应的预先设定的文本信息为“你”时,则可以确定输入语音对应的文本信息为“你”。
在步骤S120中,将文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息。
在本公开的示例性实施例中,在获取到上述文本信息之后,可以将上述文本信息输入意图识别模型中,并根据意图识别模型的输出,确定出上述文本信息对应的用户意图信息。其中,意图识别模型是对银行工作人员的用户意图信息进行识别的模型。用户意图信息即用户的潜在需求(例如:想吃什么,想买什么等),或用户做出上述输入语音的行为目的。
在本公开的示例性实施例中,示例性的,可以参考图2,图2示出本公开另一示例性实施例中语音处理方法的流程示意图,具体示出预先训练以得到用户意图信息识别模型的流程示意图,包括步骤S201-步骤S202,以下结合图2对具体的实施方式进行解释。
在步骤S201中,获取文本信息样本以及文本信息样本对应的标签信息,标签信息用于标注文本信息对应的用户意图信息。
在本公开的示例性实施例中,可以预先获取海量的文本信息样本,具体的,在银行应用场景中,文本信息可以包括礼貌用语(您好、请慢走等)、欢迎用语(欢迎光临)、业务名词(存款、取款、贷款等)等。标签信息用于标注上述文本信息对应的用户意图信息,示例性的,文本信息“您好”对应的标签信息可以是“问好”;文本信息“存款”对应的标签信息可以是“办理业务类型”。
在步骤S202中,基于文本信息与标签信息训练机器学习模型,以得到意图识别模型。
在本公开的示例性实施例中,在获取到上述文本信息与标签信息之后,可以基于上述文本信息与标签信息训练机器学习模型,以得到上述意图识别模型。具体的,可以将上述文本信息与标签信息输入机器学习模型中,多次调整参数以训练上述机器学习模型,以使得上述机器学习模型的损失函数趋于收敛,以得到一意图识别模型。
在本公开的示例性实施例中,在训练得到上述意图识别模型之后,可以将得到的文本信息输入意图识别模型中,根据意图识别模型的输出,确定文本信息对应的用户意图信息。
继续参考图1,在步骤S130中,根据用户意图信息,确定文本信息对应的标准文本。
在本公开的示例性实施例中,在获取到上述用户意图信息之后,可以根据上述用户意图信息,确定文本信息对应的标准文本。
在本公开的示例性实施例中,标准文本即预先存储的,没有歧义且适用范围广泛的常用文本。例如:“您好,存款业务、取款业务”等。
在本公开的示例性实施例中,示例性的,当用户输入的文本信息为“生化危机”,而实际上,生化危机可能对应电影、游戏或者歌曲。此时,若只根据文本信息确定标准文本时,可能会发生误匹配的问题,而若能识别出用户输入文本信息“生化危机”的意图为“用户想要玩生化危机游戏”时,则可以准确确定出文本信息“生化危机”对应的标准文本是“生化危机网络游戏”。可见,通过识别出的用户意图信息确定文本信息对应的标准文本,能够避免标准文本匹配错误的技术问题,提高标准文本的匹配准确度。
在本公开的示例性实施例中,示例性的,可以参考图3,图3示出本公开再一示例性实施例中语音处理方法的流程示意图,具体示出根据上述用户意图信息,确定文本信息对应的标准文本的流程示意图,包括步骤S301-步骤S302,以下结合图3对具体的实施方式进行解释。
在步骤S301中,将文本信息与用户意图信息输入双向转换编码器中。
在本公开的示例性实施例中,可以将上述步骤S110中得到的文本信息输入双向转换编码器中,双向转换编码器(Bidirectional Encoder Representations fromTransformers,双向转换编码器,简称:BERT)是一种通用预训练语言表示模型,通过基于双向转换编码器对文本信息与用户意图信息进行处理,一方面,能够在无需大幅构架修改的前提下进行双向训练,并且无监督学习,不需要人工干预和标注,降低了模型训练成本。进一步的,能够联合网络中的所有层的上下文进行训练,使得训练出来的模型在处理问答或语言推理任务时,能够结合上下文,实现更精准的文本预测生成。另一方面,双向转换编码器还支持包括中文在内的60种语言,相关开发人员无需从头训练模型,只需要微调就可以适应很多类型的应用场景,以实现特定的功能。
在步骤S302中,根据双向转换编码器对文本信息与用户意图信息进行信息融合处理,得到融合信息。
在本公开的示例性实施例中,可以基于上述双向转换编码器对上述文本信息与用户意图信息进行信息融合处理,以得到融合信息。示例性的,当用户意图信息为“办理什么业务”,且对应的文本信息为“您要办点什么”时,则基于上述双向转换编码器对文本信息和用户意图信息进行融合处理之后,得到的融合信息可以是:“您好,你要办点什么业务”。
在步骤S303中,将融合信息与预先存储的标准文本进行相似度匹配,将匹配成功的标准文本确定为上述文本信息对应的标准文本。
在本公开的示例性实施例中,在进行融合处理之后,还可以将融合处理之后的文本与预存的标准文本进行相似度匹配,进而,可以将匹配成功的标准文本确定为上述文本信息对应的标准文本。示例性的,可以设置一相似度阈值(例如:90%),若匹配得到的相似度大于上述相似度阈值,则可以确定匹配成功。例如:当上述融合信息“您好,你要办点什么业务”与预先存储的标准文本“您好,你要办理什么业务”匹配之后得到的相似度为95%,大于90%时,则可以将“您好,你要办理什么业务”确定为上述文本信息对应的标准文本。
在本公开的示例性实施例中,在确定出上述文本信息对应的标准文本之后,还可以基于自然语言处理算法对标准文本进行处理,得到标准文本对应的目标文本(即对上述标准文本进行自然语言处理之后的文本片段),进而,基于预设的手语动画库,匹配目标文本对应的手语动画。具体的,可以参考图4,图4示出本公开又一示例性实施例中语音处理方法的流程示意图,具体示出基于自然语言处理算法对上述标准文本进行处理,以获取标准文本对应的目标文本的流程示意图,包括步骤S401-步骤S403,以下结合图4对具体的实施方式进行解释。
在步骤S401中,基于自然语言处理算法对标准文本进行分词处理,得到标准文本对应的至少一个分词。
在本公开的示例性实施例中,自然语言处理(natural language processing,简称:NLP)算法,是帮助计算机区分以及消除语句歧义,以使计算机输出符合人类思维的语句的算法,能够实现人与计算机之间用自然语言进行有效通信。
在本公开的示例性实施例中,可以基于自然语言算法对上述标准文本进行分词处理。分词处理即将长文本拆分为短文本的过程,示例性的,参考上述步骤S302的相关解释,当标准文本为“您好,你要办理什么业务”时,基于自然语言算法对标准文本进行分词处理之后得到的分词可以是“您、好、你、要、办理、什么、业务”。
在步骤S402中,对分词进行同义和/或近义替换,以确定分词对应的替换词。
在本公开的示例性实施例中,在得到上述分词之后,可以对上述分词进行同义和/或近义替换,以确定出分词对应的替换词(即上述分词对应的同义词和/或近义词)。示例性的,可以对分词“你”替换为“您”,从而,上述分词“您、好、你、要、办理、什么、业务”对应的替换词为“您、好、您、要、办理、什么、业务”。
在步骤S402中,对替换词进行语法分析处理,以得到目标文本。
在本公开的示例性实施例中,在得到上述替换词之后,可以对上述替换词进行语法分析处理,以得到上述目标文本。具体的,语法分析处理可以是分析上述替换词中是否包含否定词(例如:不要、不好等),若包含否定词,则可以对上述否定词进行置后处理。示例性的,若得到的替换词为“我、不要、吃饭”时,可以对上述否定词“不要”进行置后处理,以得到目标文本“我、吃饭、不要”,从而,能够使得目标文本更加符合手语的表述特点,便于后续直接根据目标文本匹配对应的手语动画。
在本公开的示例性实施例中,通过基于自然语言处理算法对上述标准文本进行处理,能够得到上述标准文本对应的文本片段,保证识别出的目标文本更加细粒度,从而,保证目标文本更加贴合日常交流用语,符合实际的语境情况,更加通俗易懂。
继续参考图1,在步骤S140中,基于预设的手语动画库,获取标准文本对应的手语动画。
在本公开的示例性实施例中,手语动画库即预先设置的,用于存储手语动画的数据库。具体的,可以预先获取多个目标文本,配置目标文本对应的手语动画(例如:人工录入或通过网络爬虫从现有的网页资源中抓取),并将目标文本与手语动画以键值对(key-value)的形式存储至手语动画库中,从而,能够保证手语动画与目标文本的对应关系,提高后续根据目标文本匹配手语动画的效率。
在本公开的示例性实施例中,在对上述标准文本进行自然语言处理,得到目标文本之后,可以将上述目标文本(文本片段)与手语动画库中预先保存的目标文本进行匹配,得到一匹配值,进而,若匹配值大于预设阈值(预先设定的阈值,可以根据实际情况进行数值更改,例如:90%),则可以将预先保存的目标文本对应的手语动画,确定为上述目标文本对应的手语动画。进一步的,可以将目标文本对应的手语动画确定为上述标准文本对应的手语动画。
在本公开的示例性实施例中,进而,可以基于ffmpeg软件对得到的多个手语动画进行拼接,以得到手语动画序列。进一步的,可以将上述手语动画序列发送至客户端(例如:电脑、手机、平板电脑等),通过客户端对上述手语动画序列进行播放显示。
本公开的示例性实施例中,示例性的,可以参考图5,图5示出本公开一示例性实施例中语音处理方法的整体流程图,包含步骤S501-步骤S509,以下结合图5对具体的实施方式进行解释。
在步骤S501中,获取输入语音;
在步骤S502中,基于自动语音识别算法,获取输入语音对应的文本信息;
在步骤S503中,根据用户识别模型,确定文本信息对应的用户意图信息;
在步骤S504中,根据双向转换编码器的输出,确定文本信息对应的融合信息;
在步骤S505中,将融合信息与预先存储的标准文本进行相似度匹配,将匹配成功的标准文本确定为上述文本信息对应的标准文本;
在步骤S506中,基于自然语言处理算法对标准文本进行分词/同义、近义替换/语法分析处理,得到标准文本对应的目标文本(片段);
在步骤S507中,匹配目标文本对应的手语动画;
在步骤S508中,基于ffmpeg软件对手语动画进行合成拼接,得到手语动画序列;
在步骤509中,对上述手语动画序列进行播放显示。
本公开还提供了一种语音处理装置,图6示出本公开示例性实施例中语音处理装置的结构示意图;如图6所示,语音处理装置600可以包括获取模块601、意图识别模块602、确定模块603和匹配模块604。其中:
获取模块601,用于获取输入语音对应的文本信息。
在本公开的示例性实施例中,获取模块用于基于自动语音识别算法对输入语音进行识别,以确定输入语音对应的文本信息。
意图识别模块602,用于将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息。
在本公开的示例性实施例中,意图识别模块用于获取文本信息样本以及文本信息样本对应的标签信息,标签信息用于标注文本信息对应的用户意图信息;基于文本信息与标签信息训练机器学习模型,以得到意图识别模型。
确定模块603,用于根据所述文本信息与所述用户意图信息,确定所述文本信息对应的标准文本。
在本公开的示例性实施例中,确定模块用于将文本信息与用户意图信息输入双向转换编码器中;根据双向转换编码器对文本信息与用户意图信息进行信息融合处理,得到融合信息;将融合信息与预先存储的标准文本进行相似度匹配,将匹配成功的标准文本确定为文本信息对应的标准文本。
匹配模块604,用于基于预设的手语动画库,获取所述标准文本对应的手语动画。
在本公开的示例性实施例中,匹配模块用于基于自然语言处理算法对标准文本进行处理,得到标准文本对应的目标文本;基于预设的手语动画库,匹配目标文本对应的手语动画;将目标文本对应的手语动画确定为上述标准文本对应的手语动画。
在本公开的示例性实施例中,匹配模块用于基于自然语言处理算法对标准文本进行分词处理,得到标准文本对应的至少一个分词;对分词进行同义和/或近义替换,以确定分词对应的替换词;对替换词进行语法分析处理,以得到上述目标文本。
在本公开的示例性实施例中,匹配模块用于将手语动画拼接为手语动画序列;对手语动画序列进行播放显示。
上述语音处理装置中各模块的具体细节已经在对应的语音处理方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的:步骤S110,获取输入语音对应的文本信息;步骤S120,将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息;步骤S130,根据所述用户意图信息,确定所述文本信息对应的标准文本;步骤S140,基于预设的手语动画库,获取所述标准文本对应的手语动画。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
获取输入语音对应的文本信息;
将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息;
根据所述用户意图信息,确定所述文本信息对应的标准文本;
基于预设的手语动画库,获取所述标准文本对应的手语动画。
2.根据权利要求1所述的方法,其特征在于,在基于预设的手语动画库,获取所述标准文本对应的手语动画之后,所述方法还包括:
将所述手语动画拼接为手语动画序列;
对所述手语动画序列进行播放显示。
3.根据权利要求1所述的方法,其特征在于,所述根据所述用户意图信息,确定所述文本信息对应的标准文本,包括:
将所述文本信息与所述用户意图信息输入双向转换编码器中;
根据所述双向转换编码器对所述文本信息与所述用户意图信息进行信息融合处理,得到融合信息;
将所述融合信息与预先存储的标准文本进行相似度匹配,将匹配成功的标准文本确定为所述文本信息对应的标准文本。
4.根据权利要求1或2所述的方法,其特征在于,所述基于预设的手语动画库,获取所述标准文本对应的手语动画,包括:
基于自然语言处理算法对所述标准文本进行处理,得到所述标准文本对应的目标文本;
基于所述预设的手语动画库,匹配所述目标文本对应的手语动画;
将所述目标文本对应的手语动画确定为所述标准文本对应的手语动画。
5.根据权利要求4所述的方法,其特征在于,所述基于自然语言处理算法对所述标准文本进行处理,得到所述标准文本对应的目标文本,包括:
基于自然语言处理算法对所述标准文本进行分词处理,得到所述标准文本对应的至少一个分词;
对所述分词进行同义和/或近义替换,以确定所述分词对应的替换词;
对所述替换词进行语法分析处理,以得到所述目标文本。
6.根据权利要求1所述的方法,其特征在于,所述获取输入语音对应的文本信息,包括:
基于自动语音识别算法对所述输入语音进行识别,以确定所述输入语音对应的文本信息。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取文本信息样本以及所述文本信息样本对应的标签信息,所述标签信息用于标注所述文本信息对应的用户意图信息;
基于所述文本信息与所述标签信息训练机器学习模型,以得到所述意图识别模型。
8.一种语音处理装置,其特征在于,包括:
获取模块,用于获取输入语音对应的文本信息;
意图识别模块,用于将所述文本信息输入意图识别模型中,根据所述意图识别模型的输出,确定所述文本信息对应的用户意图信息;
确定模块,用于根据所述用户意图信息,确定所述文本信息对应的标准文本;
匹配模块,用于基于预设的手语动画库,获取所述标准文本对应的手语动画。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的语音处理方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911150636.3A CN110890097A (zh) | 2019-11-21 | 2019-11-21 | 语音处理方法及装置、计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911150636.3A CN110890097A (zh) | 2019-11-21 | 2019-11-21 | 语音处理方法及装置、计算机存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110890097A true CN110890097A (zh) | 2020-03-17 |
Family
ID=69748283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911150636.3A Pending CN110890097A (zh) | 2019-11-21 | 2019-11-21 | 语音处理方法及装置、计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110890097A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708866A (zh) * | 2012-06-01 | 2012-10-03 | 武汉大学 | 基于语义计算的听力或语言障碍人士交流系统及其方法 |
CN103956167A (zh) * | 2014-05-06 | 2014-07-30 | 北京邮电大学 | 一种基于Web的可视化手语翻译方法及设备 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN105206123A (zh) * | 2015-10-27 | 2015-12-30 | 苏州大学 | 一种聋哑患者交流装置 |
CN109241286A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 用于生成文本的方法和装置 |
CN110287396A (zh) * | 2019-05-07 | 2019-09-27 | 清华大学 | 文本匹配方法及装置 |
CN110377911A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 对话框架下的意图识别方法和装置 |
-
2019
- 2019-11-21 CN CN201911150636.3A patent/CN110890097A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708866A (zh) * | 2012-06-01 | 2012-10-03 | 武汉大学 | 基于语义计算的听力或语言障碍人士交流系统及其方法 |
CN103956167A (zh) * | 2014-05-06 | 2014-07-30 | 北京邮电大学 | 一种基于Web的可视化手语翻译方法及设备 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN105206123A (zh) * | 2015-10-27 | 2015-12-30 | 苏州大学 | 一种聋哑患者交流装置 |
CN109241286A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 用于生成文本的方法和装置 |
CN110287396A (zh) * | 2019-05-07 | 2019-09-27 | 清华大学 | 文本匹配方法及装置 |
CN110377911A (zh) * | 2019-07-23 | 2019-10-25 | 中国工商银行股份有限公司 | 对话框架下的意图识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985358B (zh) | 情绪识别方法、装置、设备及存储介质 | |
KR20210070891A (ko) | 번역품질 평가 방법 및 장치 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN111191428B (zh) | 评论信息处理方法、装置、计算机设备和介质 | |
US11822568B2 (en) | Data processing method, electronic equipment and storage medium | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN109726397B (zh) | 中文命名实体的标注方法、装置、存储介质和电子设备 | |
US10831990B1 (en) | Debiasing textual data while preserving information | |
CN110268472B (zh) | 用于自动化对话系统的检测机构 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
WO2021143206A1 (zh) | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN115935182A (zh) | 模型训练方法、多轮对话中的话题分割方法、介质及装置 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN112633007B (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN113051895A (zh) | 语音识别的方法、装置、电子设备、介质和程序产品 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
US20120197894A1 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN113761209B (zh) | 文本拼接方法及装置、电子设备、存储介质 | |
CN114218393A (zh) | 数据分类方法、装置、设备和存储介质 | |
CN110890097A (zh) | 语音处理方法及装置、计算机存储介质、电子设备 | |
CN112131378A (zh) | 用于识别民生问题类别的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200317 |
|
RJ01 | Rejection of invention patent application after publication |