CN112331209A - 一种语音转文本的方法、装置、电子设备及可读存储介质 - Google Patents

一种语音转文本的方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112331209A
CN112331209A CN202011209676.3A CN202011209676A CN112331209A CN 112331209 A CN112331209 A CN 112331209A CN 202011209676 A CN202011209676 A CN 202011209676A CN 112331209 A CN112331209 A CN 112331209A
Authority
CN
China
Prior art keywords
voice
target
content
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011209676.3A
Other languages
English (en)
Other versions
CN112331209B (zh
Inventor
李金金
张克骞
刘晓华
李文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202011209676.3A priority Critical patent/CN112331209B/zh
Publication of CN112331209A publication Critical patent/CN112331209A/zh
Application granted granted Critical
Publication of CN112331209B publication Critical patent/CN112331209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明涉及即时通讯技术领域,具体涉及一种语音转文本的方法和装置。所述方法包括:接收用户指令,其中所述指令用于指示将目标语音转为文本;根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;根据分析结果,将所述目标语音内容转化为文本内容;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。本申请提供的语音转文本方案解决了现有技术方案中存在着的语音转文本无法表达语音中所包含的情绪的问题,使得语音转文本技术更丰富和具有趣味性。

Description

一种语音转文本的方法、装置、电子设备及可读存储介质
技术领域
本发明涉及即时通讯技术领域,具体涉及一种语音转文本的方法、装置、电子设备及可读存储介质。
背景技术
语音是人类通过发声器官发出具有一定社会意义的声音,是最直接地记录人地思维活动地符号体系,因其蕴含了文字信息无法比拟的丰富信息而被广泛使用。随着移动互联网发展,语音在即时通讯系统中被广泛使用,特别是在特定场景下进行了延伸,如语音转文字功能。但是目前语音转文字在实际运用过程中存在着不能将语音中包含的情绪体现出来而体验效果不佳,例如很多人对情绪不够敏感,无法很好地感知和掌握对方实际想表达的情绪,听觉障碍人群虽然能够使用语音转文字功能,但无法感受和理解语音蕴含的丰富信息,目前的语言转文本的方案大都无法将语音中包含的声学特征情绪呈现出来。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例公开了一种语音转文本的方法,应用于通讯终端,所述方法包括:
接收用户指令,其中所述指令用于指示将目标语音转为文本;
根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
根据分析结果,将所述目标语音内容转化为文本内容并显示;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。
进一步地,所述预存的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
进一步地,根据预存的语音分析模型分析识别所述目标语音内容包括:
根据语音语义分析模型,确定所述目标语音包括的语言类别;
根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容。
进一步地,根据预存的语音分析模型分析识别所述目标语音内容包括:
提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
根据所述声学特征模型,确定所述音频特征数据的类型;
根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号;
建立所述目标语音与所述目标情绪符号的映射关系。
进一步地,将所述目标语音内容转化为文本内容并显示,包括:
将根据分析结果获取的语言内容和具有映射关系的目标情绪符号按照预设的组合规则组合为文本;
将所述组合文本显示在预设的显示界面上。
进一步地,所述预设的组合规则包括:
将所述目标情绪符号排列在语言内容之后;或,
将所述目标情绪符号排列在语言内容中的情绪词之后或一个完整的意思表达之后;其中所述情绪词和完整的意思表达是根据语言内容的判断获得。
进一步地,所述预设的显示界面包括:
与所述目标语音消息框的距离满足预设条款的显示框。
进一步地,所述语音语义分析模型还包括可视化数据库,其中所述可视化数据库中包括多个与目标文字具有映射关系的图片或美术作品;所述方法还包括:
获取根据语音语义分析模型分析到的语言内容;
提取语言内容中的目标文字;
根据可视化数据库,将所述目标文件替换为与其具有映射关系的图片或美术作品进行表达。
可选地,在接收用户指令之前,所述方法还包括:通讯终端接收至少一条语音信息;
接收用户对所述至少一条语音信息的选择指令;其中被所述用户选择的语言信息即为目标语音。
可选地,通讯终端接收用户的选择指令的方式包括:
通讯终端的屏幕接收用户对目标语音信息框的满足预设条件的长按、重压、双击或指纹;其中,
当所述选择指令方式为重压时,所述通讯终端的屏幕为压力屏;
当所述选择指令方式为指纹验证时,所述通讯终端的屏幕为指纹屏。
另一方面本申请实施例提供了一种语音转文本的装置,所述装置包括:通讯模块、存储模块、分析模块、处理模块和显示模块,其中,
所述通讯模块,用于接收用户指令,其中所述指令用于指示将目标语音转为文本;
所述存储模块,用于存储语音分析模型;
所述分析模块,用于根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
所述处理模块,用于根据分析结果,将所述目标语音内容转化为文本内容;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号;
所述显示模块,用于显示所述文本内容。
可选地,所述存储模块存储的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
进一步地,所述分析模块包括确定单元、提取单元、匹配单元,其中,
所述确定单元,用于根据语音语义分析模型,确定所述目标语音包括的语言类别;所述匹配单元,用于根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容;
所述提取单元,用于提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
所述确定单元,还用于根据所述声学特征模型,确定所述音频特征数据的类型;
所述匹配单元,还用于根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号,并建立所述目标语音与所述目标情绪符号的映射关系。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述任一实施例中所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
本申请实施例提供的语音转文本的方案利用特定的语音分析模型,在语音转文本的过程中除了对语音中包含的语气词的分析外,还同时引入语音音频数据的声学特征分析来判断语音所包含的情绪,并在语音转为文本时将语音中包含的情绪以情绪符号的方式显示出来,本申请实施例提供的技术方案带来的有益效果是解决了现有技术方案中存在着的语音转文本无法表达语音中所包含的情绪的问题,使得语音转文本技术更丰富、更具有趣味性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种语音转文本的方法的流程示意图;
图2为本申请实施例提供的情绪数据库的素材示意图;
图3为本申请实施例提供的可视化数据库的素材示意图;
图4为本申请实施例提供的一种语音转文本的装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式,其中的“第一”“第二”等只是为了介绍清楚方案而进行的对象区分定义,并不对对象本身进行限制,当然“第一”和“第二”限定的对象可能是同一个终端、设备和用户等,也可能是同一种终端、设备和用户。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
此外应理解,本申请实施例中“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如a、b或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a、b、c可以是单个,也可以是多个。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
目前现有技术中的语音转文本的方案如背景技术中介绍在转换过程中会造成语音独具的声学特征等丰富信息缺失,导致用户无法真正感受到语音蕴含的丰富信息而造成理解出现较大的偏差,尤其是听觉障碍人群。基于此,本发明的以下实施例就是提供一种语音转文本的方法以解决上述至少之一的缺陷。
图1示出了本申请实施例提供的一种语音转文本的的流程示意图,该方法主要应用于通讯终端,可以包括:
S101、接收用户指令,其中所述指令用于指示将目标语音转为文本;
S102、根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
在进一步的可选实施例中,所述预存的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型,其中:
所述语音语义分析模型包括多种语言类别的子模型,用于分析语音消息中包括的语义内容。
所述语音情绪分析模型包括声学特征模型和情绪数据库,其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。声学特征模型主要用于对从语音音频数据中提取的声学特征,例如频率、音调等进行分析判断该声学特征符合具体哪一种情绪,以方便在情绪数据库中寻找与该情绪对应或具有映射关系的情绪符号(或称之为情绪素材)。
在进一步的可选实施例中,根据预存的语音分析模型分析识别所述目标语音内容包括:根据语音语义分析模型,确定所述目标语音包括的语言类别;根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容。例如,分析到语音包含的语言是英语,则选择英语语言模型对选择的语音进行分析以获取语音中所包含的内容。
在进一步的可选实施例中,根据预存的语音分析模型分析识别所述目标语音内容包括:
步骤1、提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
步骤2、根据所述声学特征模型,确定所述音频特征数据的类型;进一步地,判断该类型的音频数据对应哪一种情绪,例如分析完选择的音频数据认为该音频的声学特征符合开心或可爱的情绪,则去情绪数据库中去寻找与开心相匹配的情绪符号以匹配该目标音频。
步骤3、根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号;
步骤4、建立所述目标语音与所述目标情绪符号的映射关系。
S103、根据分析结果,将所述目标语音内容转化为文本内容并显示,其中所述文本内容至少包括:语言内容和情绪符号,其中所述情绪符号包括但不限于语言符号和非语言符号。
在本申请实施例中,语言符号在本申请中特指各种类型、国别的文字、例如英文、中文、韩文等各类型文字;例如开心、伤心、哀伤等表示情绪的各类文字。非语言符号在本申请中特指兼具美术表达和语义表达的非语言符号,包括通讯中字符表情(也叫颜文字)、表情图、表情包、可视化的能够表达情绪的美术作品或照片,如附图2所示的情绪数据库素材示意图中的各类型素材。
在进一步的可选实施例中,将所述目标语音内容转化为文本内容并显示,包括:将根据分析结果获取的语言内容和具有映射关系的目标情绪符号按照预设的组合规则组合为文本;将所述组合文本显示在预设的显示界面上,预设界面是指所述目标语音消息框的距离满足预设条款的显示框。例如在语音消息一定距离范围内的下方、上方、左边等。
在进一步的可选实施例中,所述预设的组合规则包括:
将所述目标情绪符号排列在语言内容之后;或,将所述目标情绪符号排列在语言内容中的情绪词之后或一个完整的意思表达之后;其中所述情绪词和完整的意思表达是根据语言内容的判断获得。例如,如果从语音信息中分析到包括的语言内容是“你好啊,我是XX”,根据语义分析模型可将这句话断句为“你好啊”和“我是XX”,可以结合语义分析到“你好啊”是一个带有情绪的完整意思表达,则可以将匹配的情绪符号排列在“你好啊”之后,就形成了“你好啊+情绪符号+我是XX”这样的文本。
在进一步的可选实施例中,所述语音语义分析模型还包括可视化数据库,可视化数据库的素材示例如图3所示,包括多个与目标文字具有映射关系的图片或美术作品;所述方法还包括:
步骤1、获取根据语音语义分析模型分析到的语言内容;
步骤2、提取语言内容中的目标文字;
步骤3、根据可视化数据库,将所述目标文件替换为与其具有映射关系的图片或美术作品进行表达。例如,转化后的文本时“这是一个漂亮的杯子+情绪符号”则可以将其中的“杯子”替换为可视化数据库中的杯子图片。
在可选实施例中,在接收用户指令之前,所述方法还包括:通讯终端接收至少一条语音信息;
接收用户对所述至少一条语音信息的选择指令;其中被所述用户选择的语言信息即为目标语音。
在可选实施例中,通讯终端接收用户的选择指令的方式包括:
通讯终端的屏幕接收用户对目标语音信息框的满足预设条件的长按、重压、双击或指纹;其中,
当所述选择指令方式为重压时,所述通讯终端的屏幕为压力屏;
当所述选择指令方式为指纹验证时,所述通讯终端的屏幕为指纹屏。
基于图1所示的语音转文本的方法,另一方面本申请实施例提供了一种语音转文本的装置,如图4所示,装置可以包括:401通讯模块、402存储模块、403分析模块、404处理模块和405显示模块,其中,
所述401通讯模块,用于接收用户指令,其中所述指令用于指示将目标语音转为文本;
所述402存储模块,用于存储语音分析模型;
所述403分析模块,用于根据预存的语音分析模型,分析识别所述目标语音内容,其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
所述404处理模块,用于根据分析结果,将所述目标语音内容转化为文本内容,其中所述文本内容至少包括语言内容和情绪符号;其中所述情绪符号包括但不限于语言符号和非语言符号;
所述405显示模块,用于显示所述文本内容。
可选地,所述存储模块存储的语音分析模型至少包括语音语义分析模型和语音情绪分析模型,其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库,其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
进一步地,所述分析模块包括确定单元、提取单元、匹配单元,其中,
所述确定单元,用于根据语音语义分析模型,确定所述目标语音包括的语言类别;所述匹配单元,用于根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容;
所述提取单元,用于提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
所述确定单元,还用于根据所述声学特征模型,确定所述音频特征数据的类型;
所述匹配单元,还用于根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号,并建立所述目标语音与所述目标情绪符号的映射关系。
可以理解的是,本实施例中的语音转文本的装置的上述各组成设备具有实现图1中所示的实施例中的方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或装置。上述模块和装置可以是软件和/或硬件,上述各模块和装置可以单独实现,也可以多个模块和装置集成实现。对于上述各模块和装置的功能描述具体可以参见图1中所示实施例中的方法的对应描述,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
可以理解的是,本发明实施例示意的结构并不构成对语音转文本的装置的具体结构的具体限定。在本申请另一些实施例中,语音转文本的装置可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以是硬件,软件,或软件和硬件的组合形式。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于调用操作指令,执行本申请任一实施方式中所提供的语音转文本的方法。
作为一个示例,图5示出了本申请实施例所适用的一种电子设备的结构示意图,如图5所示,该电子设备500包括处理器501和存储器503,其中,处理器501和存储器503相连,如通过总线502相连。可选的,电子设备500还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个。可以理解的是,本发明实施例示意的结构并不构成对电子设备500的具体结构的具体限定。在本申请另一些实施例中,电子设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实。可选地,电子设备还可以包括显示屏505,用于显示图像,或需要时接收用户的操作指令。
其中,处理器501应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器504可以包括接收机和发射机,收发器504应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
处理器501也可以包括一个或多个处理单元,例如:处理器501可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphicsprocessingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。其中,控制器可以是电子设备500的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。处理器501中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器501中的存储器为高速缓冲存储器。该存储器可以保存处理器501刚用过或循环使用的指令或数据。如果处理器501需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器501的等待时间,因而提高了系统的效率。
处理器501可以运行本申请实施例提供的语音转文本的方法,以便于降低用户的操作复杂度、提高终端设备的智能化程度,提升用户的体验。处理器501可以包括不同的器件,比如集成CPU和GPU时,CPU和GPU可以配合执行本申请实施例提供的语音转文本的方法,比如语音转文本的方法中部分算法由CPU执行,另一部分算法由GPU执行,以得到较快的处理效率。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘),也可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS),或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器503用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现本申请任一实施方式中所提供的语音转文本的方法。
存储器503可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器501通过运行存储在存储器503的指令,从而执行电子设备500的各种功能应用以及数据处理。存储器503可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,应用程序的代码等。存储数据区可存储电子设备500使用过程中所创建的数据(比如相机应用采集的图像、视频等)等。
存储器503还可以存储本申请实施例提供的语音转文本的方法对应的一个或多个计算机程序。该一个或多个计算机程序被存储在上述存储器503中并被配置为被该一个或多个处理器501执行,该一个或多个计算机程序包括指令,上述指令可以用于执行上述相应实施例中的各个步骤。
当然,本申请实施例提供的语音转文本的方法的代码还可以存储在外部存储器中。这种情况下,处理器501可以通过外部存储器接口运行存储在外部存储器中的语音转文本的方法的代码,处理器501可以控制运行语音转文本的流程。
显示屏505包括显示面板。显示面板可以采用液晶显示屏(liquid crystaldisplay,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备500可以包括1个或N个显示屏505,N为大于1的正整数。显示屏505可用于显示由用户输入的信息或提供给用户的信息以及各种图形用户界面(graphical userinterface,GUI)。例如,显示屏505可以显示照片、视频、网页、或者文件等。
本申请实施例提供的电子设备,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的语音转文本的方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的方法。本申请实施例提供的计算机程序产品,适用于上述方法任一实施例,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本发明实施例提供的语音转文本的方案包括:接收用户指令,其中所述指令用于指示将目标语音转为文本;根据预存的语音分析模型,分析识别所述目标语音内容,其中所述目标语音至少包括所述语音中包含的语言内容和情绪;根据分析结果,将所述目标语音内容转化为文本内容,其中所述文本内容至少包括语言内容和情绪符号;其中所述情绪符号包括但不限于语言符号和非语言符号。即本申请实施例提供的语音转文本的方案利用特定的语音分析模型,在语音转文本的过程中除了对语音中包含的语气词的分析外,还同时引入语音音频数据的声学特征分析来判断语音所包含的情绪,并在语音转为文本时将语音中包含的情绪以情绪符号的方式显示出来,本申请实施例提供的技术方案带来的有益效果是解决了现有技术方案中存在着的语音转文本无法表达语音中所包含的情绪的问题,使得语音转文本技术更丰富、更具有趣味性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块或单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以丢弃,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,还可以做出若干改进和润饰,这些变化、替换、改进和润饰也应视为都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种语音转文本的方法,应用于通讯终端,其特征在于,所述方法包括:
接收用户指令,其中所述指令用于指示将目标语音转为文本;
根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
根据分析结果,将所述目标语音内容转化为文本内容并显示;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号。
2.根据权利要求1所述的语音转文本的方法,其特征在于,所述预存的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
3.根据权利要求2所述的语音转文本的方法,其特征在于,根据预存的语音分析模型分析识别所述目标语音内容包括:
根据语音语义分析模型,确定所述目标语音包括的语言类别;
根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容。
4.根据权利要求3所述的语音转文本的方法,其特征在于,根据预存的语音分析模型分析识别所述目标语音内容包括:
提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
根据所述声学特征模型,确定所述音频特征数据的类型;
根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号;
建立所述目标语音与所述目标情绪符号的映射关系。
5.根据权利要求4所述的语音转文本的方法,其特征在于,所述将所述目标语音内容转化为文本内容并显示包括:
将根据分析结果获取的语言内容和具有映射关系的目标情绪符号按照预设的组合规则组合为文本;
将所述组合文本显示在预设的显示界面上。
6.根据权利要求5所述的语音转文本的方法,其特征在于,所述预设的组合规则包括:
将所述目标情绪符号排列在语言内容之后;或,
将所述目标情绪符号排列在语言内容中的情绪词之后或一个完整的意思表达之后;其中所述情绪词和完整的意思表达是根据语言内容的判断获得。
7.根据权利要求6所述的语音转文本的方法,其特征在于,所述预设的显示界面包括:
与所述目标语音消息框的距离满足预设条款的显示框。
8.根据权利要求7所述的语音转文本的方法,其特征在于,所述语音语义分析模型还包括可视化数据库,其中所述可视化数据库中包括多个与目标文字具有映射关系的图片或美术作品;所述方法还包括:
获取根据语音语义分析模型分析到的语言内容;
提取语言内容中的目标文字;
根据可视化数据库,将所述目标文件替换为与其具有映射关系的图片或美术作品进行表达。
9.根据权利要求1或8所述的语音转文本的方法,其特征在于,在接收用户指令之前,所述方法还包括:
通讯终端接收至少一条语音信息;
接收用户对所述至少一条语音信息的选择指令;其中被所述用户选择的语言信息即为目标语音。
10.根据权利要求9所述的语音转文本的方法,其特征在于,通讯终端接收用户的选择指令的方式包括:
通讯终端的屏幕接收用户对目标语音信息框的满足预设条件的长按、重压、双击或指纹;其中,
当所述选择指令方式为重压时,所述通讯终端的屏幕为压力屏;
当所述选择指令方式为指纹验证时,所述通讯终端的屏幕为指纹屏。
11.一种语音转文本的装置,其特征在于,所述装置包括:通讯模块、存储模块、分析模块、处理模块和显示模块,其中,
所述通讯模块,用于接收用户指令,其中所述指令用于指示将目标语音转为文本;
所述存储模块,用于存储语音分析模型;
所述分析模块,用于根据预存的语音分析模型,分析识别所述目标语音内容;其中所述目标语音至少包括所述语音中包含的语言内容和情绪;
所述处理模块,用于根据分析结果,将所述目标语音内容转化为文本内容;其中所述文本内容至少包括:语言内容和情绪符号;其中所述情绪符号包括但不限于:语言符号和非语言符号;
所述显示模块,用于显示所述文本内容。
12.根据权利要求11所述的语音转文本的装置,其特征在于,所述存储模块存储的语音分析模型至少包括:语音语义分析模型和语音情绪分析模型;其中,
所述语音语义分析模型包括多种语言类别的子模型;
所述语音情绪分析模型包括声学特征模型和情绪数据库;其中所述声学特征模型的分析结果与情绪数据库存在映射关系;所述情绪数据库包括多种情绪符号。
13.根据权利要求12所述的语音转文本的装置,其特征在于,所述分析模块包括确定单元、提取单元、匹配单元,其中,
所述确定单元,用于根据语音语义分析模型,确定所述目标语音包括的语言类别;所述匹配单元,用于根据确定的语言类别,选择与所述语言类别匹配的语言子模型分析并识别所述目标语音包括的内容;
所述提取单元,用于提取所述目标语音的音频特征数据;其中所述音频特征数据包括所述目标语音音频频率、波形、波幅;
所述确定单元,还用于根据所述声学特征模型,确定所述音频特征数据的类型;
所述匹配单元,还用于根据所述情绪数据库,为所述确定类型的音频特征数据匹配具有映射关系的目标情绪符号,并建立所述目标语音与所述目标情绪符号的映射关系。
14.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-10中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202011209676.3A 2020-11-03 2020-11-03 一种语音转文本的方法、装置、电子设备及可读存储介质 Active CN112331209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011209676.3A CN112331209B (zh) 2020-11-03 2020-11-03 一种语音转文本的方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011209676.3A CN112331209B (zh) 2020-11-03 2020-11-03 一种语音转文本的方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112331209A true CN112331209A (zh) 2021-02-05
CN112331209B CN112331209B (zh) 2023-08-08

Family

ID=74322956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011209676.3A Active CN112331209B (zh) 2020-11-03 2020-11-03 一种语音转文本的方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112331209B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630464A (zh) * 2021-08-10 2021-11-09 中国电信股份有限公司 分布式语音处理方法、系统、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
CN106024014A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种语音转换方法、装置及移动终端
CN106570106A (zh) * 2016-11-01 2017-04-19 北京百度网讯科技有限公司 一种输入过程中将语音信息转化为表情的方法和装置
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的插入方法、装置和电子设备
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及系统
CN109949794A (zh) * 2019-03-14 2019-06-28 合肥科塑信息科技有限公司 一种基于互联网技术的智能语音转换系统
CN110910898A (zh) * 2018-09-15 2020-03-24 华为技术有限公司 一种语音信息处理的方法和装置
CN111106995A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 一种消息显示方法、装置、终端及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
CN106024014A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种语音转换方法、装置及移动终端
CN106570106A (zh) * 2016-11-01 2017-04-19 北京百度网讯科技有限公司 一种输入过程中将语音信息转化为表情的方法和装置
CN106873800A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 信息输出方法和装置
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及系统
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的插入方法、装置和电子设备
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN110910898A (zh) * 2018-09-15 2020-03-24 华为技术有限公司 一种语音信息处理的方法和装置
CN109949794A (zh) * 2019-03-14 2019-06-28 合肥科塑信息科技有限公司 一种基于互联网技术的智能语音转换系统
CN111106995A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 一种消息显示方法、装置、终端及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630464A (zh) * 2021-08-10 2021-11-09 中国电信股份有限公司 分布式语音处理方法、系统、设备及存储介质
CN113630464B (zh) * 2021-08-10 2022-08-02 中国电信股份有限公司 分布式语音处理方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN112331209B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN110807388B (zh) 交互方法、装置、终端设备及存储介质
CN109040471B (zh) 情绪提示方法、装置、移动终端以及存储介质
WO2021083125A1 (zh) 通话控制方法及相关产品
WO2019011185A1 (zh) 一种会话信息处理方法、装置、电子设备
CN111045639B (zh) 语音输入方法、装置、电子设备及存储介质
CN114401438B (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN110599359B (zh) 社交方法、装置、系统、终端设备及存储介质
EP4336490A1 (en) Voice processing method and related device
CN112329451A (zh) 手语动作视频生成方法、装置、设备及存储介质
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及系统
Kanvinde et al. Bidirectional sign language translation
CN112331209A (zh) 一种语音转文本的方法、装置、电子设备及可读存储介质
CN113886644A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
WO2021114682A1 (zh) 会话任务生成方法、装置、计算机设备和存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN114567693B (zh) 视频生成方法、装置和电子设备
CN111144125B (zh) 文本信息处理方法、装置、终端设备及存储介质
CN111899738A (zh) 对话生成方法、装置及存储介质
CN112527105A (zh) 人机互动方法、装置、电子设备及存储介质
CN111161737A (zh) 数据处理方法、装置、电子设备和存储介质
CN110795581B (zh) 图像搜索方法、装置、终端设备及存储介质
US11769323B2 (en) Generating assistive indications based on detected characters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant