CN111862984B - 一种信号输入方法、装置、电子设备和可读存储介质 - Google Patents

一种信号输入方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN111862984B
CN111862984B CN201910411095.9A CN201910411095A CN111862984B CN 111862984 B CN111862984 B CN 111862984B CN 201910411095 A CN201910411095 A CN 201910411095A CN 111862984 B CN111862984 B CN 111862984B
Authority
CN
China
Prior art keywords
voice
recognized
probability value
emotion
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411095.9A
Other languages
English (en)
Other versions
CN111862984A (zh
Inventor
张睿雄
李武波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910411095.9A priority Critical patent/CN111862984B/zh
Priority to PCT/CN2020/090435 priority patent/WO2020233504A1/en
Publication of CN111862984A publication Critical patent/CN111862984A/zh
Application granted granted Critical
Publication of CN111862984B publication Critical patent/CN111862984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种信号输入方法、装置、电子设备和可读存储介质,其中,该方法包括:对待识别语音进行语音识别,得到所述待识别语音的文本信息;根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值;根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值;将所述文本信息和所述情绪程度值作为输入信息发送给目标设备,由于目标设备能够得到待识别语音的文本信息和待识别语音所表达出的情绪,因此有利于提高语音控制的准确率。

Description

一种信号输入方法、装置、电子设备和可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种信号输入方法、装置、电子设备和可读存储介质。
背景技术
随着语音识别技术的发展,语音识别技术已经被广泛的应用到各种技术场景中,例如,将语音技术应用到语音控制场景中,从而可以通过语音交流实现替代手动操作控制的目的。
但是在语音交流过程中,用户在输入语音时有时会带有各种各样的情绪,在不同的情绪下,输入的语音会出现正向的表达或者是负向的表达,例如:当用户在高兴时,输入的语音为“同意”时,则是正向的表达,表达出的意思和“同意”这个词的本意相同,当用户不高兴时,输入的语音为“同意”时,则可能是负向的表达,表达出的意思和“同意”这个词的本意完全相反,如果只将语音的文字信息作为输入时,输入的信息不能准确的表达用户真正的意图,从而会降低语音控制的准确率。
发明内容
有鉴于此,本申请的目的在于提供一种信号输入方法、装置、电子设备和可读存储介质,以提高语音控制的准确率。
第一方面,本申请实施例提供了一种信号输入方法,包括:
对待识别语音进行语音识别,得到所述待识别语音的文本信息;
根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值;
根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值;
将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
可选地,所述根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值,包括:
利用预设的向量词典,得到所述文本信息中各个字的字向量;
对所述文本信息中各个字的字向量进行求和,以将求和结果作为所述文本向量;
将所述文本向量输入训练好的文本情绪识别模型中,以得到所述第一概率。
可选地,所述根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值,包括:
利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值;
根据所述第一概率值和所述第二概率值,确定所述情绪程度值。
可选地,所述声学特征包括以下至少一种:
过零率、方均根RMS能量、基频F0、信噪比HNR、梅尔倒谱系数MFCC。
可选地,所述利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值,包括:
对所述待识别语音进行傅里叶变换,以得到所述待识别语音中每一帧的MFCC;
根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分;
利用所述目标语音部分的声学特征,得到所述第二概率值。
可选地,所述根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分,包括:
将所述待识别语音中每一帧的MFCC输入到训练好的音频类别模型中,以得到所述待识别语音中每一帧在各音频类别上的第四概率值,其中,所述音频类别包括:目标语音、静音和噪声;
对所述待识别语音中每一帧在各音频类别上的第四概率值进行比较,以将该帧中最大的第四概率值对应的音频类别作为该帧的音频类别;
对所述待识别语音中所述目标语音对应的帧进行统计,以得到所述目标语音部分。
可选地,所述利用所述目标语音部分的声学特征,得到所述第二概率值,包括:
按照所述目标语音部分中的帧从后到前的顺序,依次计算相邻两帧中相同声学特征的差量;
对第一特征和第二特征中相同的声学特征进行统计计算,以得到所述目标语音部分的各声学特征的统计量,其中,所述第一特征包括所述差量和所述目标语音部分中第一帧的声学特征,所述第二特征包括:所述目标语音部分中各帧的声学特征;
将所述统计量输入到训练好的声学分类器中,以得到所述第二概率值。
可选地,所述根据所述第一概率值和所述第二概率值,确定所述情绪程度值,包括:
根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值。
可选地,所述根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值,包括:
通过以下公式,得到所述待识别语音在该预设情绪上的所述情绪程度值:
y5=W2logp+W1·logq;
其中,p为所述第二概率值,q为所述第一概率值,W1为所述第一概率值的权重值,W2为所述第二概率值的权重值。
第二方面,本申请实施例提供了一种信号输入装置,包括:
识别单元,用于对待识别语音进行语音识别,得到所述待识别语音的文本信息,所述识别单元将所述文本信息发送给计算单元;
所述计算单元,用于根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值,所述计算单元将所述第一概率值发送给确定单元;
所述确定单元,用于根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值,所述确定单元将所述情绪程度值发送发送单元;
所述发送单元,用于将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
可选地,在所述计算单元的配置在用于根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值时,包括:
利用预设的向量词典,得到所述文本信息中各个字的字向量;
对所述文本信息中各个字的字向量进行求和,以将求和结果作为所述文本向量;
将所述文本向量输入训练好的文本情绪识别模型中,以得到所述第一概率。
可选地,在所述确定单元的配置在用于根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值时,包括:
利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值;
根据所述第一概率值和所述第二概率值,确定所述情绪程度值。
可选地,所述声学特征包括以下至少一种:
过零率、方均根RMS能量、基频F0、信噪比HNR、梅尔倒谱系数MFCC。
可选地,在所述确定单元的配置在用于利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值时,包括:
对所述待识别语音进行傅里叶变换,以得到所述待识别语音中每一帧的MFCC;
根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分;
利用所述目标语音部分的声学特征,得到所述第二概率值。
可选地,在所述确定单元的配置在用于根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分时,包括:
将所述待识别语音中每一帧的MFCC输入到训练好的音频类别模型中,以得到所述待识别语音中每一帧在各音频类别上的第四概率值,其中,所述音频类别包括:目标语音、静音和噪声;
对所述待识别语音中每一帧在各音频类别上的第四概率值进行比较,以将该帧中最大的第四概率值对应的音频类别作为该帧的音频类别;
对所述待识别语音中所述目标语音对应的帧进行统计,以得到所述目标语音部分。
可选地,在所述确定单元的配置在用于利用所述目标语音部分的声学特征,得到所述第二概率值时,包括:
按照所述目标语音部分中的帧从后到前的顺序,依次计算相邻两帧中相同声学特征的差量;
对第一特征和第二特征中相同的声学特征进行统计计算,以得到所述目标语音部分的各声学特征的统计量,其中,所述第一特征包括所述差量和所述目标语音部分中第一帧的声学特征,所述第二特征包括:所述目标语音部分中各帧的声学特征;
将所述统计量输入到训练好的声学分类器中,以得到所述第二概率值。
可选地,在所述确定单元的配置在用于根据所述第一概率值和所述第二概率值,确定所述情绪程度值时,包括:
根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值。
可选地,在所述确定单元的配置在用于根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值时,包括:
通过以下公式,得到所述待识别语音在该预设情绪上的所述情绪程度值:
y5=W2logp+W1·logq;
其中,p为所述第二概率值,q为所述第一概率值,W1为所述第一概率值的权重值,W2为所述第二概率值的权重值。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面中任一项所述信号输入方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面中任一项所述信号输入方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请中,在对待识别语音进行语音识别得到该待识别语音的文本信息后,还需要根据该文本信息对应的文本向量,得到该文本信息表达每种预设情绪的第一概率值,再根据第一概率值,确定待识别语音所表达出的每种预设情绪的情绪程度值,根据情绪程度值,可以对各预设情绪进行排序,排位越高的情绪越有可能是待识别语音对应的情绪,因此将文本信息和情绪程度值作为输入信息发送给目标设备后,目标设备可以确定出待识别语音的文本信息和待识别语音所表达出的情绪,并基于确定出的结果实现控制,由于目标设备能够得到待识别语音的文本信息和待识别语音所表达出的情绪,因此有利于提高语音控制的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的一种信号输入方法的流程示意图;
图2为本申请实施例一提供的另一种信号输入方法的流程示意图;
图3为本申请实施例一提供的另一种信号输入方法的流程示意图;
图4为本申请实施例一提供的另一种信号输入方法的流程示意图;
图5为本申请实施例一提供的另一种信号输入方法的流程示意图;
图6为本申请实施例一提供的另一种信号输入方法的流程示意图;
图7为本申请实施例二提供的一种信号输入装置的结构示意图;
图8为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
需要提前说明的是,本申请实施例涉及到的装置或电子设备等可以执行在单个服务器上,也可以执行在服务器组。服务器组可以是集中式的,也可以是分布式的。在一些实施例中,服务器相对于终端,可以是本地的,也可以是远程的。例如,服务器可以经由网络访问存储在服务请求方终端、服务提供方终端、或数据库、或其任意组合中的信息和/或数据。作为另一示例,服务器可以直接连接到服务请求方终端、服务提供方终端和数据库中至少一个,以访问存储的信息和/或数据。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。
另外,本申请实施例涉及到的装置或电子设备可以执行在接入设备或者第三方设备上,具体可以包括:移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能头盔、智能手表、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏设备、导航设备、或销售点(point ofsale,POS)设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、增强现实头盔等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。
值得注意的是,在本申请提出申请之前,仅利用文本信息实现控制,导致降低了语音控制的准确率。然而,本申请提供的一种信号输入方法、装置、电子设备和可读存储介质可以将文本信息和情绪程度值作为输入信息发送给目标设备,目标设备可以确定出待识别语音的文本信息和待识别语音所表达出的情绪,并基于确定出的结果实现控制,由于目标设备能够得到待识别语音的文本信息和待识别语音所表达出的情绪,因此有利于提高语音控制的准确率。
实施例一
图1为本申请实施例一提供的一种信号输入方法的流程示意图,如图1所示,该信号输入方法包括以下步骤:
步骤101、对待识别语音进行语音识别,得到所述待识别语音的文本信息。
步骤102、根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值。
步骤103、根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值。
步骤104、将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
具体的,在通过语音替代手动操作进行控制时,需要准确把握用户的真正意图,用户在不同情绪下的语音控制,其真正的意图可能会与语音对应的文字的本意相同或者完全相反,即:语音的文字存在正向的表达和负向的表达,例如:当用户在高兴时,输入的语音为“同意”时,则是正向的表达,表达出的意思和“同意”这个词的本意相同,当用户不高兴时,输入的语音为“同意”时,则可能是负向的表达,表达出的意思和“同意”这个词的本意完全相反,因此为了提高通过语音进行控制的准确率,需要结合文字信息和情绪两种因素。
在识别出待识别语音的文本信息之后,根据该文本信息对应的文本向量,得到文本信息表达每种预设情绪的第一概率值,例如:当预设情绪包括:生气、高兴、伤心、厌烦、惊讶和恐惧6类情绪时,根据该文本信息对应的文本向量得到文本信息表达生气、高兴、伤心、厌烦、惊讶和恐惧6类情绪的概率值,即:文本信息表达生气的概率值、文本信息表达高兴的概率值、文本信息表达伤心的概率值、文本信息表达厌恶的概率值、文本信息表达惊讶的概率值和文本信息表达恐惧的概率值,进一步的,可以得到用户在输入语音时,用户是生气的概率值、用户是高兴的概率值、用户是伤心的概率值、用户是厌恶的概率值、用户是惊讶的概率值和用户是恐惧的概率值,在得到上述第一概率值后,根据各预设情绪的第一概率值,确定待识别语音所表达出的每种预设情绪的情绪程度值,即:可以得到用户在输入语音时,在各预设情绪上的打分,分数越高的情绪越能表示用户输入语音时的情绪,由于能够通过情绪确定文字是正向的表达还是负向的表达,因此将文本信息和情绪程度值作为输入信息时,目标设备可以通过文本信息和情绪程度值来对用户的控制进行识别,例如:可以将最大的情绪程度值作为目标情绪,通过文本信息和目标情绪来对用户实际想要完成操作进行控制,当然也可以将情绪程度值中的最大值和文本信息作为输入信息,目标设备直接利用接收到的信息来实现控制,由于目标设备能够得到待识别语音的文本信息和待识别语音所表达出的情绪,因此有利于提高语音控制的准确率。
需要说明的是,具体的语音识别方法可以根据实际需要进行选择,在此不做具体限定。
在一个可行的实施方案中,图2为本申请实施例一提供的另一种信号输入方法的流程示意图,如图2所示,在执行步骤102时,可以通过以下步骤实现:
步骤201、利用预设的向量词典,得到所述文本信息中各个字的字向量。
步骤202、对所述文本信息中各个字的字向量进行求和,以将求和结果作为所述文本向量。
步骤203、将所述文本向量输入训练好的文本情绪识别模型中,以得到所述第一概率。
具体的,预先设置向量词典,通过向量词典可以查询到每个字对应的字向量,在得到待识别语音对应的文本信息之后,通过对照向量词典,得到文本信息中各个字的字向量,然后对各个字的字向量进行求和计算,得到文本信息对应的文本向量,例如:得到的字向量包括:字向量1、字向量2和字向量3,对字向量1、字向量2和字向量3进行求和计算,将求和结果作为文本信息对应的文本向量。
预先利用各预设情绪对应的文本向量样本对文本情绪识别模型进行训练,以得到训练好的文本情绪识别模型,在得到文本向量后,将该文本向量输入该训练好的文本情绪识别模型,并可以通过以下公式进行N次迭代后得到文本信息表达每种预设情绪的第一概率值:
y1=H1(x1,WH1);
其中,WH1为可学习参数,N为大于或者等于1的正整数,x1为进行第n次迭代时的输入参数,n的取值为[1,N],且n为正整数,当n的取值为[1,N-1]时,H1的函数为relu(WH1·x1),当n的取值为N时,H1的函数为softmax(WH1·x1),当n的取值为1时,文本向量作为输入参数,当n的取值为[2,N]时,上一次进行迭代的结果作为本次迭代的输入参数。
在一个可行的实施方案中,图3为本申请实施例一提供的另一种信号输入方法的流程示意图,如图3所示,在执行步骤103时,可以通过以下步骤实现:
步骤301、利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值。
步骤302、根据所述第一概率值和所述第二概率值,确定所述情绪程度值。
具体的,待识别语音包括文字部分和声学部分,声学部分能够表示用户在输入语音时的语气和语调等和情绪相关的声学特征,即:待识别语音的声学特征能够表示文本信息是正向的表达还是负向的表达,因此还需要利用待识别语音的声学特征,得到待识别语音的声学部分表达每种预设情绪的第二概率值,然后通过第一概率值和第二概率值,确定所述情绪程度值,通过上述方法,可以使确定出来的每种预设情绪的情绪程度值更佳准确。
在一个可行的实施方案中,所述声学特征包括以下至少一种:过零率、RMS(Root-Mean-Square energy方均根)能量、F0(Pitch,基频)、HNR(Harmonics-to-noise,信噪比)、MFCC(Mel-frequency cepstral coefficients,梅尔倒谱系数)。
需要注意的是,关于选择哪种参数或者哪几种参数作为声学特征可以根据实际需要进行设定,在此不做具体限定。
在一个可行的实施方案中,图4为本申请实施例一提供的另一种信号输入方法的流程示意图,如图4所示,在执行步骤301时,可以通过以下步骤实现:
步骤401、对所述待识别语音进行傅里叶变换,以得到所述待识别语音中每一帧的MFCC。
步骤402、根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分。
步骤403、利用所述目标语音部分的声学特征,得到所述第二概率值。
具体的,用户在输入待识别语音时,语句和语句之间会存在间隔(静音部分),并且也会受到周围环境的干扰(噪声部分),因此待识别语音中包括目标语音部分(用户输入的待识别语音中的语句)、静音部分和噪声部分,由于目标语音部分才是与控制相关的部分,因此为了降低数据处理量,需要得到目标语音部分,由于目标语音部分、静音部分和噪声部分对应的声学特征是存在差别的,因此在对待识别语音进行傅里叶变换得到待识别语音中每一帧的MFCC后,对每一帧的MFCC进行区分,从而得到待识别语音中的目标语音部分,然后利用目标语音部分的声学特征得到第二概率值。
在一个可行的实施方案中,图5为本申请实施例一提供的另一种信号输入方法的流程示意图,如图5所示,在执行步骤402时,可以通过以下步骤实现:
步骤501、将所述待识别语音中每一帧的MFCC输入到训练好的音频类别模型中,以得到所述待识别语音中每一帧在各音频类别上的第四概率值,其中,所述音频类别包括:目标语音、静音和噪声。
步骤502、对所述待识别语音中每一帧在各音频类别上的第四概率值进行比较,以将该帧中最大的第四概率值对应的音频类别作为该帧的音频类别。
步骤503、对所述待识别语音中所述目标语音对应的帧进行统计,以得到所述目标语音部分。
具体的,预先使用语音样本、静音样本和噪声样本对音频类别模型进行训练,在将音频类别模型训练好之后,可以通过训练好的音频类别模型对待识别语音中每一帧的MFCC进行识别,在对待识别语音中每一帧的MFCC进行识别时,可以采用M层MLP网络,网络每一层利用以下公式进行计算,以将最后的计算结果作为所述待识别语音中每一帧在各音频类别上的第四概率值:
y2=H2(x2,WH2);
其中,WH2为可学习参数,M为大于或者等于1的正整数,x2为进行第m次迭代时的输入参数,m的取值为[1,M],且m为正整数,当m的取值为[1,M-1]时,H2的函数为relu(WH2·x2),当m的取值为M时,H2的函数为softmax(WH2·x2),当m的取值为1时,所述待识别语音中每一帧的MFCC作为输入参数,当m的取值为[2,M]时,上一次进行迭代的结果作为本次迭代的输入参数。
在确定出该帧为目标语音帧的概率值、该帧为静音帧的概率值和该帧为噪声帧的概率值后,可以将该帧中最大的概率值对应的音频类别可以作为该帧的音频类别,然后对待识别语音中目标语音对应的帧进行统计,从而得到目标语音部分,例如:待识别语音中包括10帧,如果第一帧、第五帧和第八帧的音频类别为目标语音时,可以将第一帧、第五帧和第八帧作为目标语音部分。
在一个可行的实施方案中,图6为本申请实施例一提供的另一种信号输入方法的流程示意图,如图6所示,在执行步骤403时,可以通过以下步骤实现:
步骤601、按照所述目标语音部分中的帧从后到前的顺序,依次计算相邻两帧中相同声学特征的差量。
步骤602、对第一特征和第二特征中相同的声学特征进行统计计算,以得到所述目标语音部分的各声学特征的统计量,其中,所述第一特征包括所述差量和所述目标语音部分中第一帧的声学特征,所述第二特征包括:所述目标语音部分中各帧的声学特征。
步骤603、将所述统计量输入到训练好的声学分类器中,以得到所述第二概率值。
举例说明,在得到目标语音部分后,如果该目标语音部分按照从前到后的顺序依次包括待识别语音中的第一帧、第五帧和第八帧时,将第八帧作为被减数,将第五帧作为减数,计算第八帧和第五帧之间声学特征的差值,将第五帧作为被减数,将第一帧作为减数,计算第五帧和第一帧之间声学特征的差值,在计算两针之间的声学特征的差值时,如果声学特征包括过零率、RMS能量、F0、HNR、MFCC这五个特征,则需要利用两针中的过零率计算一次差值,利用两针中的RMS能量计算一次差值,利用两针中的F0计算一次差值,利用两针中的HNR计算一次差值,利用两针中的MFCC计算一次差值,从而得到两针在过零率上的差值、在RMS能量上的差值、在F0上的差值、在HNR上的差值、在MFCC上的差值,以计算第八帧和第五帧之间的差值为例,可以得到第八帧的过零率和第五帧的过零率的差值,第八帧的RMS能量和第五帧的RMS能量的差值,第八帧的F0和第五帧的F0的差值,第八帧的HNR和第五帧的HNR的差值,第八帧的MFCC和第五帧的MFCC的差值,从而得到相邻两帧中相同声学特征的差量,然后计算第一帧和第零帧中相同声学特征的差量,其中,第零帧的声学特征中的各参数均为0,第一帧和第零帧中相同声学特征的差量的计算方式可以参考第八帧和第五帧中相同声学特征的差量的计算方式。
在经过上述三次相同声学特征的差量计算后,将计算结果作为第一特征,然后将目标语音部分中各帧的声学特征作为第二特征,计算第一特征和第二特征中相同的声学特征进行统计计算,如果声学特征包括过零率、RMS能量、F0、HNR、MFCC这五个特征,则对第一特征中所有过零率进行统计计算,对第一特征中所有RMS能量进行统计计算,对第一特征中所有F0进行统计计算,对第一特征中所有HNR进行统计计算,对第一特征中所有MFCC进行统计计算,对第二特征进行相同的声学特征进行统计计算的方式可以参考对第一特征进行相同的声学特征进行统计计算的方式。
统计量包括:该声学特征的均值、方差、偏度、峰度、统计量的极值点信息(极值点值、极值点位置、极值点范围)和线性回归后的斜率等,当统计量包括X种,声学特征包括Y种时,得到的统计量的数量包括2·X·Y个。
预先对声学分类器进行进行训练,训练好的声学分类器可以通过输入的统计量得到待识别语音的声学部分表达每种预设情绪的第二概率值,在训练好的声学分类器中可以通过以下公式进行L次迭代后得到迭代结果:
y3=H3(x3,WH3)·T(x3,WT)+x3·(1-T(x3,WT));
通过以下公式得到所述第二概率值:
y4=H4(x4,WH4);
其中,WH3和WT均为可学习参数,L为大于或者等于1的正整数,x3为进行第k次迭代时的输入参数,k的取值为[1,L],且k为正整数,H3的函数为relu(WH3·x3),T函数=sigmoid(WT·x3),当k的取值为1时,所述目标语音部分的各声学特征的统计量作为输入参数,当k的取值为[2,L]时,上一次进行迭代的结果作为本次迭代的输入参数,H4的函数为softmax(WH4·x4),WH4为可学习参数,x4为输入的所述迭代结果。
在一个可行的实施方案中,在执行步骤302时,可以根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值。
具体的,由于文本部分和声学部分对确定情绪的贡献度不同,因此需要为第一概率值和第二概率值分配权重值,然后利用第一概率值、第二概率值,以及在该情绪下为第一概率值和第二概率值分配的权重值得到待识别语音在该预设情绪上的所述情绪程度值,通过上述方法有利于使得到情绪程度值的准确度更高,例如:当包括5种情绪时,可以为文本部分的5种情绪分配相同的第一权重,为声学部分的5种情绪分配相同的第二权重,以5中情绪中的一种情绪为例,在计算该情绪的情绪程度时,可以利用该情绪对应的第一概率值、该情绪对应的第二概率值、为该情绪分配的第一权重和为该情绪分配的第二权重得到该情绪对应的情绪程度值。
需要说明的是,对于文本部分或声学部分,每种预设情绪分配的权重值可以相同,或者也可以不同,权重值具体的分配方式可以根据实际需要进行设定,在此不做具体限定。
在一个可行的实施方案中,在根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值时,可以通过以下公式,得到所述待识别语音在该预设情绪上的所述情绪程度值:
y5=W2logp+W1·logq;
其中,p为所述第二概率值,q为所述第一概率值,W1为所述第一概率值的权重值,W2为所述第二概率值的权重值。
通过上述方式,当包括5中情绪时,可以得到5个情绪程度值,可以将这5种程度值都发送给目标设备,也可以将这5中情绪程度值中的最大值发送给目标设备。
在目标设备通过情绪程度值和文本信息对待识别语音进行识别后,可以得到待识别语音对应的情绪和文字内容,然后通过得到待识别语音对应的情绪和文字内容进行控制,例如:利用得到待识别语音对应的情绪和文字内容推动或改变剧情走向。
需要注意的是,实施例一中关于模型的具体训练方法可以根据实际需要进行设定,在此不做具体限定。
实施例二
图7为本申请实施例二提供的一种信号输入装置的结构示意图,如图7所示,该信号输入装置包括:
识别单元71,用于对待识别语音进行语音识别,得到所述待识别语音的文本信息,所述识别单元71将所述文本信息发送给计算单元72;
所述计算单元72,用于根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值,所述计算单元72将所述第一概率值发送给确定单元73;
所述确定单元73,用于根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值,所述确定单元73将所述情绪程度值发送发送单元74;
所述发送单元74,用于将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
在一个可行的实施方案中,在所述计算单元72的配置在用于根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值时,包括:
利用预设的向量词典,得到所述文本信息中各个字的字向量;
对所述文本信息中各个字的字向量进行求和,以将求和结果作为所述文本向量;
将所述文本向量输入训练好的文本情绪识别模型中,以得到所述第一概率。
在一个可行的实施方案中,在所述确定单元73的配置在用于根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值时,包括:
利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值;
根据所述第一概率值和所述第二概率值,确定所述情绪程度值。
在一个可行的实施方案中,所述声学特征包括以下至少一种:
过零率、方均根RMS能量、基频F0、信噪比HNR、梅尔倒谱系数MFCC。
在一个可行的实施方案中,在所述确定单元73的配置在用于利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值时,包括:
对所述待识别语音进行傅里叶变换,以得到所述待识别语音中每一帧的MFCC;
根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分;
利用所述目标语音部分的声学特征,得到所述第二概率值。
在一个可行的实施方案中,在所述确定单元73的配置在用于根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分时,包括:
将所述待识别语音中每一帧的MFCC输入到训练好的音频类别模型中,以得到所述待识别语音中每一帧在各音频类别上的第四概率值,其中,所述音频类别包括:目标语音、静音和噪声;
对所述待识别语音中每一帧在各音频类别上的第四概率值进行比较,以将该帧中最大的第四概率值对应的音频类别作为该帧的音频类别;
对所述待识别语音中所述目标语音对应的帧进行统计,以得到所述目标语音部分。
在一个可行的实施方案中,在所述确定单元73的配置在用于利用所述目标语音部分的声学特征,得到所述第二概率值时,包括:
按照所述目标语音部分中的帧从后到前的顺序,依次计算相邻两帧中相同声学特征的差量;
对第一特征和第二特征中相同的声学特征进行统计计算,以得到所述目标语音部分的各声学特征的统计量,其中,所述第一特征包括所述差量和所述目标语音部分中第一帧的声学特征,所述第二特征包括:所述目标语音部分中各帧的声学特征;
将所述统计量输入到训练好的声学分类器中,以得到所述第二概率值。
在一个可行的实施方案中,在所述确定单元73的配置在用于根据所述第一概率值和所述第二概率值,确定所述情绪程度值时,包括:
根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值。
在一个可行的实施方案中,在所述确定单元73的配置在用于根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值时,包括:
通过以下公式,得到所述待识别语音在该预设情绪上的所述情绪程度值:
y5=W2logp+W1·logq;
其中,p为所述第二概率值,q为所述第一概率值,W1为所述第一概率值的权重值,W2为所述第二概率值的权重值。
关于上述单元的详细介绍可参考实施例一的相关说明,在此不再详细赘述。
在本申请中,在对待识别语音进行语音识别得到该待识别语音的文本信息后,还需要根据该文本信息对应的文本向量,得到该文本信息表达每种预设情绪的第一概率值,再根据第一概率值,确定待识别语音所表达出的每种预设情绪的情绪程度值,根据情绪程度值,可以对各预设情绪进行排序,排位越高的情绪越有可能是待识别语音对应的情绪,因此将文本信息和情绪程度值作为输入信息发送给目标设备后,目标设备可以确定出待识别语音的文本信息和待识别语音所表达出的情绪,并基于确定出的结果实现控制,由于目标设备能够得到待识别语音的文本信息和待识别语音所表达出的情绪,因此有利于提高语音控制的准确率。
实施例三
图8为本申请实施例三提供的一种电子设备的结构示意图,包括:处理器801、存储介质802和总线803,所述存储介质802包括如图7所示的信号输入装置,所述存储介质802存储有所述处理器801可执行的机器可读指令,当电子设备运行上述的信号输入方法时,所述处理器801与所述存储介质802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行以下步骤:
对待识别语音进行语音识别,得到所述待识别语音的文本信息;
根据所述文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值;
根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值;
将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
在本申请实施例中,所述存储介质802还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
实施例四
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行以下步骤:
对所述待识别语音进行语音识别,得到所述待识别语音的文本信息;
根据文本信息对应的文本向量,得到所述文本信息表达每种预设情绪的第一概率值;
根据所述第一概率值,确定所述待识别语音所表达出的每种预设情绪的情绪程度值;
将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例一中其它所述的方法,关于具体执行的方法步骤和原理参见实施例一的说明,在此不再详细赘述。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,由于无需人工参与,因此有利于降低人工工作量,并且,通过该方法,可以在同一时间对多个目标乘车订单进行判断,即:可以支持大规模订单判责,因此有利于提高恶意驻留行为识别效率,进而更好地进行车辆资源调度。
本申请实施例所提供的数据处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种信号输入方法,其特征在于,包括:
对待识别语音进行语音识别,得到所述待识别语音的文本信息;
利用预设的向量词典,得到所述文本信息中各个字的字向量;对所述文本信息中各个字的字向量进行求和,以将求和结果作为文本向量;将所述文本向量输入训练好的文本情绪识别模型中,以得到第一概率值;
利用待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值;根据所述第一概率值和所述第二概率值,确定情绪程度值;
将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
2.如权利要求1所述的信号输入方法,其特征在于,所述声学特征包括以下至少一种:
过零率、方均根RMS能量、基频F0、信噪比HNR、梅尔倒谱系数MFCC。
3.如权利要求1所述的信号输入方法,其特征在于,所述利用所述待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值,包括:
对所述待识别语音进行傅里叶变换,以得到所述待识别语音中每一帧的MFCC;
根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分;
利用所述目标语音部分的声学特征,得到所述第二概率值。
4.如权利要求3所述的信号输入方法,其特征在于,所述根据所述待识别语音中每一帧的MFCC,对所述待识别语音中的每一帧进行识别,以得到所述待识别语音中的目标语音部分,包括:
将所述待识别语音中每一帧的MFCC输入到训练好的音频类别模型中,以得到所述待识别语音中每一帧在各音频类别上的第四概率值,其中,所述音频类别包括:目标语音、静音和噪声;
对所述待识别语音中每一帧在各音频类别上的第四概率值进行比较,以将该帧中最大的第四概率值对应的音频类别作为该帧的音频类别;
对所述待识别语音中所述目标语音对应的帧进行统计,以得到所述目标语音部分。
5.如权利要求3所述的信号输入方法,其特征在于,所述利用所述目标语音部分的声学特征,得到所述第二概率值,包括:
按照所述目标语音部分中的帧从后到前的顺序,依次计算相邻两帧中相同声学特征的差量;
对第一特征和第二特征中相同的声学特征进行统计计算,以得到所述目标语音部分的各声学特征的统计量,其中,所述第一特征包括所述差量和所述目标语音部分中第一帧的声学特征,所述第二特征包括:所述目标语音部分中各帧的声学特征;
将所述统计量输入到训练好的声学分类器中,以得到所述第二概率值。
6.如权利要求1所述的信号输入方法,其特征在于,所述根据所述第一概率值和所述第二概率值,确定所述情绪程度值,包括:
根据同一预设情绪下的所述第一概率值、所述第二概率值,以及在该情绪下为所述第一概率值和所述第二概率值分配的权重值,得到所述待识别语音在该预设情绪上的所述情绪程度值。
7.如权利要求5所述的信号输入方法,其特征在于,所述统计量包括所述声学特征的均值、方差、偏度、峰度、统计量的极值点信息和线性回归后的斜率。
8.一种信号输入装置,其特征在于,包括:
识别单元,用于对待识别语音进行语音识别,得到所述待识别语音的文本信息,所述识别单元将所述文本信息发送给计算单元;
所述计算单元,用于利用预设的向量词典,得到所述文本信息中各个字的字向量;对所述文本信息中各个字的字向量进行求和,以将求和结果作为文本向量;将所述文本向量输入训练好的文本情绪识别模型中,以得到第一概率值,所述计算单元将所述第一概率值发送给确定单元;
所述确定单元,用于利用待识别语音的声学特征,得到所述待识别语音的声学部分表达每种预设情绪的第二概率值;根据所述第一概率值和所述第二概率值,确定情绪程度值;
所述发送单元,用于将所述文本信息和所述情绪程度值作为输入信息发送给目标设备。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7中任一项所述的信号输入方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的信号输入方法。
CN201910411095.9A 2019-05-17 2019-05-17 一种信号输入方法、装置、电子设备和可读存储介质 Active CN111862984B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910411095.9A CN111862984B (zh) 2019-05-17 2019-05-17 一种信号输入方法、装置、电子设备和可读存储介质
PCT/CN2020/090435 WO2020233504A1 (en) 2019-05-17 2020-05-15 Systems and methods for emotion recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411095.9A CN111862984B (zh) 2019-05-17 2019-05-17 一种信号输入方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111862984A CN111862984A (zh) 2020-10-30
CN111862984B true CN111862984B (zh) 2024-03-29

Family

ID=72966076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411095.9A Active CN111862984B (zh) 2019-05-17 2019-05-17 一种信号输入方法、装置、电子设备和可读存储介质

Country Status (2)

Country Link
CN (1) CN111862984B (zh)
WO (1) WO2020233504A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102429365B1 (ko) * 2020-11-09 2022-08-05 주식회사 스피랩 음성감성 분석 시스템 및 방법
CN112925292B (zh) * 2021-01-24 2024-05-14 国网辽宁省电力有限公司电力科学研究院 一种基于分层分块的发电机组过程监测与故障诊断方法
CN113033450B (zh) * 2021-04-02 2022-06-24 山东大学 多模态连续情感识别方法、服务推理方法及系统
CN115376544A (zh) * 2021-05-19 2022-11-22 漳州立达信光电子科技有限公司 数据处理方法、装置及终端设备
CN113421543B (zh) * 2021-06-30 2024-05-24 深圳追一科技有限公司 一种数据标注方法、装置、设备及可读存储介质
CN113643046B (zh) * 2021-08-17 2023-07-25 中国平安人寿保险股份有限公司 适用于虚拟现实的共情策略推荐方法、装置、设备及介质
CN114065742B (zh) * 2021-11-19 2023-08-25 马上消费金融股份有限公司 一种文本检测方法和装置
CN114120425A (zh) * 2021-12-08 2022-03-01 云知声智能科技股份有限公司 一种情绪识别方法、装置、电子设备及存储介质
CN115396715B (zh) * 2022-08-18 2024-01-30 咪咕数字传媒有限公司 桌游互动方法、系统及存储介质
CN115101074B (zh) * 2022-08-24 2022-11-11 深圳通联金融网络科技服务有限公司 基于用户说话情绪的语音识别方法、装置、介质及设备
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法
CN118016106A (zh) * 2024-04-08 2024-05-10 山东第一医科大学附属省立医院(山东省立医院) 老年人情感健康分析与支持系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201212783D0 (en) * 2012-07-18 2012-08-29 Toshiba Res Europ Ltd A speech processing system
KR101564176B1 (ko) * 2014-12-15 2015-10-28 연세대학교 산학협력단 감정 인식 시스템 및 그 제어 방법
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN109313892A (zh) * 2017-05-17 2019-02-05 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
CN109472207A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 情绪识别方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
WO2016195474A1 (en) * 2015-05-29 2016-12-08 Charles Vincent Albert Method for analysing comprehensive state of a subject
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN106297826A (zh) * 2016-08-18 2017-01-04 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN106503805B (zh) * 2016-11-14 2019-01-29 合肥工业大学 一种基于机器学习的双模态人人对话情感分析方法
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法
CN109192225B (zh) * 2018-09-28 2021-07-09 清华大学 语音情感识别和标注的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201212783D0 (en) * 2012-07-18 2012-08-29 Toshiba Res Europ Ltd A speech processing system
KR101564176B1 (ko) * 2014-12-15 2015-10-28 연세대학교 산학협력단 감정 인식 시스템 및 그 제어 방법
CN109313892A (zh) * 2017-05-17 2019-02-05 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN109472207A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 情绪识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文微博情感分析模型SR-CBOW;刘秋慧;柴玉梅;刘箴;;小型微型计算机系统(08);全文 *
运用高斯混合模型识别动物声音情绪;刘恒;吴迪;苏家仪;杨春勇;侯金;;国外电子测量技术(11);全文 *

Also Published As

Publication number Publication date
WO2020233504A1 (en) 2020-11-26
CN111862984A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111862984B (zh) 一种信号输入方法、装置、电子设备和可读存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
CN111444329B (zh) 智能对话方法、装置和电子设备
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
US10403268B2 (en) Method and system of automatic speech recognition using posterior confidence scores
CN109859772A (zh) 情绪识别方法、装置及计算机可读存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
US10255911B2 (en) System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding
CN112259089B (zh) 语音识别方法及装置
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
WO2020211820A1 (zh) 语音情感识别方法和装置
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN112365876A (zh) 语音合成模型的训练方法、装置、设备以及存储介质
CN109165736A (zh) 应用于卷积神经网络的信息处理方法和装置
CN114267375B (zh) 音素检测方法及装置、训练方法及装置、设备和介质
CN113314119A (zh) 语音识别智能家居控制方法及装置
CN111508478B (zh) 语音识别方法和装置
CN114913859B (zh) 声纹识别方法、装置、电子设备和存储介质
CN111625649A (zh) 文本处理方法、装置、电子设备及介质
CN114625923A (zh) 视频检索模型的训练方法、视频检索方法、装置以及设备
CN117789699B (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN116705034A (zh) 声纹特征提取方法、说话人识别方法、模型训练方法及装置
CN113763968B (zh) 用于识别语音的方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant