CN108806716A - 用于基于情感框架的计算机化匹配的方法与装置 - Google Patents

用于基于情感框架的计算机化匹配的方法与装置 Download PDF

Info

Publication number
CN108806716A
CN108806716A CN201810620999.8A CN201810620999A CN108806716A CN 108806716 A CN108806716 A CN 108806716A CN 201810620999 A CN201810620999 A CN 201810620999A CN 108806716 A CN108806716 A CN 108806716A
Authority
CN
China
Prior art keywords
audio signal
user
emotion
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810620999.8A
Other languages
English (en)
Inventor
C·C·多斯曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imaginary Technology (beijing) Co Ltd
Original Assignee
Imaginary Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imaginary Technology (beijing) Co Ltd filed Critical Imaginary Technology (beijing) Co Ltd
Priority to CN201810620999.8A priority Critical patent/CN108806716A/zh
Publication of CN108806716A publication Critical patent/CN108806716A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请是关于用于基于情感框架的计算机化匹配的方法与装置。根据本申请一实施例的用于基于情感框架的计算机化匹配的方法可包括:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。本申请实施例可以更准确、有效的方式自用户语音中提取特征并降低特征的维度,以便可基于情感框架而非使用模式获得更成功的匹配。

Description

用于基于情感框架的计算机化匹配的方法与装置
技术领域
本申请是关于计算机化匹配技术,更具体地是关于基于情感框架的计算机化匹配。
背景技术
随着电子商务与网络技术的发展,用于在线购物和交友等的计算机化匹配技术变的越来越流行。在传统的基于文本的计算机化匹配系统中,用户需要详细说明字符串作为匹配准则以执行检索和匹配操作。这要求用户练习其逻辑思维过程从而可以准确的输入检索准则。因此,相较于自用户处提取真实信息而言,这种检索和匹配技术在捕捉用户的情感映射时并不有效。例如,为找到潜在的匹配对象,人们可基于针对大量个性问题的文字回答而配对。然而,仅非常少的配对的人可获得长期的幸福感,匹配成功率很难令人满意。
同时,观察发现人类在做出快速判断时是基于本能的情感倾向的。不幸的是,在传统的检索和匹配系统中,以直觉的方式表达用户的情感映像存在非常严重的限制。传统的检索和匹配系统很可能无法给用户返回有意义的匹配结果。
综上,计算机化匹配方面的改进仍是重要和紧迫的,以有效和准确地提供匹配结果。
发明内容
本申请实施例的目的之一是提供基于情感框架的计算机化匹配的方法和装置。
根据本申请的实施例,一用于基于情感框架的计算机化匹配的方法包括:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。
在本申请的实施例中,自该至少一音频信号中提取特征以产生该第一特征矩阵可包括:对该至少一音频信号进行数据清理,将所清理的音频信号分割成至少一段,自该至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数,基于矩阵长度门限将该若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至至少一特征矩阵,以及基于该至少一特征矩阵产生该第一特征矩阵。其中该对该至少一音频信号执行数据清理进一步包含以下步骤中的至少一者:移除该至少一音频信号中的噪音,基于沉默门限移除该至少一音频信号在开头和结尾处的沉默,以及移除该至少一音频信号中较预定义门限短的声音碎片。
在本申请的实施例中,其中将该第一特征矩阵转换为该第二特征矩阵包含:将该第一特征矩阵馈送至自动编码器,该自动编码器经由指示该用户的当前统计数据与历史统计数据的框架训练。该用户的当前统计数据与历史统计数据包括以下项中的至少一者:时间、情感、情感需求、内在动力、价值观、行为风格、情感模式、个人信息、教育程度、年龄、性别、性取向、收入、有意愿的开销数额、姓名、地点、愿意旅行的距离、应用软件的使用行为数据和/或模式、情感目标、情感状态、意识能量以及个人头像照片。该潜在匹配对象中每一者的数据是具有第二维度的特征矩阵。在本申请的实施例中,该匹配模型针对每一用户是专门训练的。该方法可包含使用该用户的历史匹配数据训练该匹配模型和/或使用历史上与该用户匹配的对象的数据训练该匹配模型。
本申请的实施例还提供了用于基于情感框架的计算机化匹配的装置,该装置可包括:至少一处理器;至少一存储器,包括存储其中的计算机程序指令;以及匹配模型。该至少一存储器及计算机程序指令经配置以与该至少一处理器及该匹配模型一起使得该装置执行以下操作:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。
本申请的另外实施例还提供了用于基于情感框架的计算机化匹配的装置,该装置可包括:用于自语音中识别情感的设备、机器学习模型,以及匹配模型。其中该用于自语音中识别情感的设备经配置以:接收来自用户的至少一音频信号,并自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵。该机器学习模型经配置以:将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度。该匹配模型经配置以:接收该第二特征矩阵与潜在匹配对象的数据,并为该用户产生匹配结果。
本申请的实施例还提供了用于基于情感框架的计算机化匹配的装置,该装置包括:至少一处理器;以及至少一存储器,包括存储其中的计算机程序指令。其中该至少一存储器及计算机程序指令经配置以与该至少一处理器一起使得该装置执行前述的或其它根据本申请实施例的方法。
本申请的又一实施例提供了一种非暂时性的、计算机可读存储媒质,具有存储于其内的计算机可执行指令。其中该计算机可执行指令经编程以实施前述的或其它根据本申请实施例的方法。
本申请实施例可以更准确、有效的方式自用户语音中提取特征并降低特征的维度,以便可基于情感框架而非使用模式获得更成功的匹配。
附图说明
为描述本申请所取得的优点和特征的方式,本申请的描述通过结合附图演示的具体的实施例展开。这些附图仅描述了本申请的示例性实施例,并不能因此而被认为用于限制本申请的范围。
图1是演示演示根据本申请一实施例的用于基于情感框架的计算机化匹配的系统的方块图
图2是演示根据本申请一实施例的用于基于情感框架的计算机化匹配的装置的方块图
图3是演示根据本申请一实施例的用于自语音中识别情感的方法的流程图
图4是演示根据本申请一实施例的用于自语音中识别情感的方法的流程图
图5是演示根据本申请一实施例的用于训练匹配模型的方法的流程图
具体实施方式
附图的详细说明意在作为本申请的当前优选实施例的说明,而非意在代表本申请能够得以实现的仅有形式。应理解的是,相同或等同的功能可以由意在包含于本申请的精神和范围之内的不同实施例完成。
当用户进行基于互联网的检索时,传统的计算机化匹配系统可基于文本类用户数据,如基于文本的调查给用户提供客制化的内容。这些计算机化匹配系统具有记录、分析或操作真实信息的能力,而且这些真实信息在本质上是客观的。例如,计算机化匹配系统可包含装配有鼠标、键盘或触摸板的计算机以接收用户的手部动作,这些手部动作会选择用户想要的具体文本或数字。尽管这些手部动作是用户“经深思熟虑后的思维过程”的结果,但计算机化匹配系统并不能捕捉并操作这些客观的精神状态,例如用户的情感偏好,或将它们转换为计算机可读形式以便可由计算机分析和存储。然而,众所周知的是,成功的匹配,其可能指出用户想要的产品或理想的配偶,是极大程度基于用户的本能情感偏好而非逻辑的、分析的思维过程。在没有考虑人类的情感的状况下,计算机化匹配系统相对于人类在很多应用,包括但不限于基于互联网的行销上都处于不利的位置。
本申请实施例可有力地、高效地将人类的情感偏好编码为计算机可读的,以便他们可像其它理性信息一样可被捕捉和传递。相应的,匹配成功率将极大的提高。
根据本申请的实施例,一用于基于情感框架的计算机化匹配的方法的基本阶段可包括:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。
根据本申请的另外实施例,一用于基于情感框架的计算机化匹配的装置的基本结构可包括:至少一处理器;至少一存储器,包括存储其中的计算机程序指令;以及匹配模型。其中该至少一存储器及计算机程序指令经配置以与该至少一处理器及匹配模型一起使得该装置执行以下操作:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。
本申请的又一实施例,一用于基于情感框架的计算机化匹配的装置可包括:用于自语音中识别情感的设备、机器学习模型,以及匹配模型。其中该用于自语音中识别情感的设备经配置以:接收来自用户的至少一音频信号,并自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵。该机器学习模型经配置以:将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度。该匹配模型经配置以:接收该第二特征矩阵与潜在匹配对象的数据,并为该用户产生匹配结果。
本申请实施例的更多细节将结合附图在下文做进一步演示。
图1是演示根据本申请一实施例的用于基于情感框架的计算机化匹配的系统100的方块图。
如图1所示,该用于基于情感框架的计算机化匹配的系统100可包含至少一用于接收和记录来自用户的语音的硬件设备12,以及根据本申请的实施例的用于基于情感框架的计算机化匹配的装置14。该至少一硬件设备12和用于基于情感框架的计算机化匹配的装置14可通过互联网16或局域网等连接。在本申请的另一实施例中,该至少一硬件设备12和用于基于情感框架的计算机化匹配的装置14可通过光纤或线缆等直接连接。
在本申请的一实施例中,该至少一硬件设备12可以是至少一计算机、人机接口或虚拟代理等,可包含处理器120及若干外设。该若干外设可包含麦克风121;至少一计算机存储器或其它非暂时性存储媒质,如RAM(Random Access Memory)123和内部存储124;网络适配器125;显示器127和扬声器129。语音可由麦克风121捕获、记录、数字化并存储在RAM 123中作为音频信号。该音频信号可通过互联网16自该至少一硬件设备12上传输至用于基于情感框架的计算机化匹配的装置14,其中该音频信号可先在处理队列中排队,以等待被该用于基于情感框架的计算机化匹配的装置14处理。在本申请的另外一实施例中,该至少一硬件设备12可进一步装配鼠标、键盘或触摸板以接收用户的手部动作,例如在键盘上打字以键入文本信息。
该用于基于情感框架的计算机化匹配的系统100的一个具体示例可以是在线购物网站或应用程序,该用于基于情感框架的计算机化匹配的装置14可由第三方商业系统提供或内嵌在该网站或应用中。用户,例如消费者,可通过该至少一硬件设备12,例如终端用户系统连接至该用于基于情感框架的计算机化匹配的装置14。商家可利用该用于基于情感框架的计算机化匹配的系统100提供其产品或服务信息,且消费者可选择购买哪些产品或服务。该用于基于情感框架的计算机化匹配的装置14可自商家的企业系统中选择可匹配消费者的心愿的产品。这种方式可有力促进商家和消费者之间的针对性交易。而且,该用于基于情感框架的计算机化匹配的装置14也可记录消费者的选择以用于后续的匹配,这些选择是消费者自呈现给他/她的若干产品或服务中作出的。
该用于基于情感框架的计算机化匹配的系统100的另一个具体示例可以是社交网站或应用程序,该用于基于情感框架的计算机化匹配的装置14可由第三方商业系统提供或内嵌在该网站或应用中。该用于基于情感框架的计算机化匹配的装置14可以利用用户的当前或过去情感框架将他们进行配对。例如,该用于基于情感框架的计算机化匹配的装置14可计算用户的情况框架,查找其过去的匹配数据,然后为其确定与所有潜在的匹配者的匹配可能性。
图2是演示根据本申请一实施例的用于基于情感框架的计算机化匹配的装置14的方块图,其可用于图1所示的用于基于情感框架的计算机化匹配的系统100。
如图2所示,在本申请的一实施例中,用于基于情感框架的计算机化匹配的装置14可由云托管,并包括用于自语音中识别情感的设备140、机器学习模型142及匹配模型144。该用于自语音中识别情感的设备140、机器学习模型142及匹配模型144可以是分离的或集成在一起。具体的,该用于自语音中识别情感的设备140可经配置以接收来自用户的至少一音频信号,并自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵。该机器学习模型142经配置以将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度。该匹配模型144经配置以将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型,并为该用户产生匹配结果。
为最大化匹配成功,特别是长期匹配成功,除使用当前用户数据训练外,机器学习模型142与匹配模型144还可用历史用户数据训练。例如,机器学习模型142可经由指示用户的当前统计数据与历史统计数据的框架训练。匹配模型144可由用户的历史匹配数据训练和/或历史上与该用户匹配的对象的数据训练。尽管匹配模型144可为若干用户提供计算机化匹配,然而匹配模型144是针对每一用户专门训练的。该用于基于情感框架的计算机化匹配的装置14可周期性或随机地对机器学习模型142与匹配模型144进行再训练,以便它们可以持续的完善。
该用于自语音中识别情感的设备140、机器学习模型142及匹配模型144中的一者或多者可进一步包含至少一处理器和至少一存储计算机编程指令的存储器。例如,根据本申请的一实施例,该用于自语音中识别情感的设备140可包含至少一处理器和至少一存储器,其中用于实施自语音中识别情感的计算机可编程指令存储在存储器中且可由处理器执行。在本申请的另一实施例中,该用于自语音中识别情感的设备140、机器学习模型142及匹配模型144可分享至少一处理器和至少一存储计算机程序指令的存储器。该至少一存储器可进一步存储用户数据的数据库,这些用户数据包括将要实施计算机化匹配的用户及该用户的潜在匹配对象的数据,及其它信息。
本领域技术人员应当理解的是,硬件与软件的分离/分布是为便于理解的概念性的分离/分布,并在其本质上有一定的随意性。而且,应用软件系统可在分布式计算机环境中执行。计算机程序及其相关的数据库可被存储在分离的文件服务器并被传输到本地主机而用于执行。因而,图2所示的用于自语音中识别情感的设备140仅是用于演示其如何实施的示范性实施例。本领域技术人员应当理解替换性的实施例也可用于实施本申请。
图3是演示根据本申请一实施例的用于自语音中识别情感的方法的流程图。该方法可由根据本申请一实施例的用于基于情感框架的计算机化匹配的装置14实施,例如如图2所示的用于基于情感框架的计算机化匹配的装置14。
根据本申请的一实施例,该用于基于情感框架的计算机化匹配的方法可由触发事件触发,例如用户浏览在线购物网站或应用程序,或用户访问交友应用程序或网站。该用于基于情感框架的计算机化匹配的装置14可通过互联网16或其它方式检测到触发事件。用户可以是人类或非人类,例如机器人等。根据本申请的一实施例,用户可主动发起匹配请求,匹配结果会以各种方式报告给客户。根据本申请的另一实施例,该用于基于情感框架的计算机化匹配的方法可以在没有用户请求的情况下实施。依据不同的应用设置,匹配结果可以对用户隐藏或报告给用户。
在该方法触发之后,可实施自用户语音中识别情感,例如可由根据本申请一实施例的用于自语音中识别情感的设备140实施。用户语音可在本地设备,例如,如图1所示的用于接收和记录来自用户的语音的至少一硬件设备12。该至少一硬件设备12可将接收的语音转换成音频信号。
如图3所示,在步骤300中,根据本申请的实施例,可接收来自用户的至少一音频信号,例如可由用于自语音中识别情感的设备140通过互联网16接收。在步骤302中,可自该至少一音频信号中提取特征以产生具有第一维度的特征矩阵,例如5维矩阵,其可表示为[X,X,X,X,X],其中X是通用数据(generic data)占位符(place holder)。
提取适当的特征用于开发语音中的任意内容是一个很重要的决策。特征将被选择以呈现意图的信息。对本领域技术人员而言,有三个重要的语音特征,即:激励源特征(excitation source features)、声道系统特征(vocal tract system features)和韵律特征(prosodic features)。根据本申请的一实施例,梅尔频率倒谱系数MFC(Melfrequency cepstrum)和巴克频率倒谱系数(Bark frequency cepstral coefficients)被从至少一段中提取。梅尔频率倒谱系数和巴克频率倒谱系数都是韵律特征。提取的特征可存储于数据库中以便也可在后续匹配中作为该用户的历史统计数据使用,除当前用户之外,该后续匹配还可针对的其他用户实施例。该数据库可以设置在该用于基于情感框架的计算机化匹配的装置14中,也可设置在可由该用于基于情感框架的计算机化匹配的装置14访问的云。
图4是演示根据本申请一实施例的用于自语音中识别情感的方法的流程图,其可用于如步骤302所述的自该至少一音频信号中提取特征以产生具有第一维度的特征矩阵。
如图4所示,在步骤402中,可在该接收的音频信号上执行数据清理。根据本申请的一实施例,对所接收的音频信号执行数据清理可进一步包含以下步骤中的至少一者:移除该音频信号中的噪音、基于沉默门限移除该音频信号在开头和结尾处的沉默,以及移除该音频信号中较预定义门限短的声音碎片。例如,对所接收的音频信号执行数据清理可进一步包括对所接收的音频信号执行带通滤波以控制该音频信号的频率为100-400kHz,以便自该音频信号中移除高频噪声和低频噪声。在本申请的一实施例中,该沉默门限可为-50db。换言之,对于响度低于-50db的声音碎片,其将被认为是沉默的并将自音频信号中移除。根据本申请的一实施例,该预定义门限可为1/4秒。换言之,对于长度短于1/4秒的声音碎片,其将被认为太短而不会被保留在音频信号中。类似的,数据清理将提高该用于自语音中识别情感的方法的效率和准确性。
根据本申请的一实施例,在步骤404中,该被清理过的音频信号可被分割成至少一段;然后在步骤406中自该至少一段中提取特征,其可通过快速傅里叶变换(FFT)实现。根据本申请的一实施例,梅尔频率倒谱系数和巴克频率倒谱系数被从至少一段中提取。用于自该至少一段中的每一者中提取梅尔频率倒谱系数和巴克频率倒谱系数的窗口的尺寸可在10-500ms之间。梅尔频率倒谱系数和巴克频率倒谱系数都是韵律特征。例如,梅尔频率倒谱系数是共同组成梅尔频率倒谱MFC(Mel frequency cepstrum)的系数,其代表声音的短期功率频谱。梅尔频率倒谱系数可基于频率的非线性梅尔缩放的功率谱对数(log powerspectrum)的线性余弦(cosine)变换。
除了梅尔频率倒谱系数和巴克频率倒谱系数,至少另一韵律特征,例如,发言者性别、响度、均一化频谱包络、功率谱分析、感性半宽度(perceptual ban width)、情感方块及音调系数等可自音频信号中提取以进一步改进结果。在本申请的一实施例中,激励源特征和声道系统特征中的至少一者也可被提取。
所提取的特征可在步骤408中基于矩阵长度门限而填充至特征矩阵。换言之,在将所提取的特征填充至特征矩阵之后,将会判断该特征矩阵的长度是否达到该长度门限。当该特征矩阵的长度达到该矩阵长度门限时,该用于自语音中识别情感的方法将自该执行特征填充的步骤跳出至后续的步骤。否则,该用于自语音中识别情感的方法将继续填充特征至特征矩阵以扩展该特征矩阵以达到该矩阵长度门限。该矩阵长度门限可不小于1秒。在本申请的一实施例中,所提取的梅尔频率倒谱系数和巴克频率倒谱系数被基于矩阵长度门限,例如1秒而填充至特征矩阵。基于矩阵长度门限填充特征至特征矩阵可获得实时的情感识别,并允许在普通语言的整个期间监控情感。根据本申请的实施例,矩阵长度门限可以是大于1秒的任何值。换言之,本申请的实施例也可处理大于1秒的任何尺寸的音频信号,这些优点在传统的用于自语音中识别情感的方法和装置中是缺失的。
根据本申请的一实施例,该用于自语音中识别情感的方法可进一步包括在步骤410中对该特征矩阵执行机器学习推断以识别在该音频信号中所指示的情感。具体的,对该特征矩阵执行机器学习推断进一步可包含将该特征矩阵馈送至机器学习模型以基于该特征矩阵产生第一特征矩阵。换言之,适当的模型将与特征一起被标识,以自所提取的特征中捕捉情感特定信息。该机器学习模型可以是神经网络或其它用于训练模型并学习最终特征与情感类别之间的映射的模型训练机制以,例如,发现听觉依据(auditory gi st)或它们对应的情感类别,如生气、高兴、悲伤等的组合。这些模型的训练可使用与一个或多个情感类别相关联的输入声音信号在单独的训练操作中进行。所得到的训练的模型可用于在常规操作中自语音中识别情感,通过让自语音信号获得听觉依据特征在所训练的模型中穿过而实现。训练的步骤可一遍一遍重复,从而使得对该特征矩阵执行机器学习推断不断改进。训练越多,就可取得更好的机器学习模型。在本申请的一实施例中,情感识别的方法在前处理,如提取和填充特征等可与训练该机器学习模型分开进行,相应的也可在不同的装置上分别执行。
自该至少一音频信号中提取特征而产生的具有第一维度的特征矩阵是高维度表征。对于高维度空间表示的数据,分析这些数据的方法,例如神经网络方法,常见的障碍在于所谓的“维数灾难”现象。为避免这些现象,根据本申请实施例的高维度数据表征可被转换为低维度数据表征。例如,在图3所示的步骤304中,根据本申请的一实施例,第一特征矩阵可被转换为第二特征矩阵,该第二特征矩阵具有低于第一维度的第二维度。例如,该转换可由根据本申请一实施例的机器学习模型142执行。举例而言,具有比第一特征矩阵更低维度的第二特征矩阵可以是具有3个维度矩阵,其可表示为[Y,Y,Y],其中Y是通用数据占位符。自高维度数据至低维度数据的压缩率可随时间改变,其可以是与有多少数据将被训练有关的函数。换言之,特征矩阵的压缩率并不是静态的。随着越来越多自用户处收集的数据被用于训练机器学习模型142,该机器学习模型142可以更高压缩率压缩特征矩阵。相应的,该用于基于情感框架的计算机化匹配的装置14可以更高效的方式工作。
各种机器学习模型可被用于将高维度数据转换为低维度数据。根据本申请的一实施例,该机器学习模型142可以是自动编码器,其可由指示用户的当前统计数据与历史统计数据的框架训练。该用户的当前统计数据与历史统计数据包括以下项中的至少一者:时间、情感、情感需求、内在动力、价值观、行为风格、情感模式、个人信息、教育程度、年龄、性别、性取向、收入、有意愿的开销数额、姓名、地点、愿意旅行的距离、应用软件的使用行为数据和/或模式、情感目标、情感状态、意识能量以及个人头像照片。相应的,当数据表征的维度被降低时,尽可能多的原始数据信息可被保留。
在步骤306中,该第二特征矩阵可被馈送至匹配模型144,例如可直接或间接由机器学习模型142执行。潜在匹配对象的数据也被馈送至匹配模型144以便在步骤308中匹配模型144可针对该用户产生匹配结果。根据本申请的一实施例,潜在匹配对象的数据与该第二特征矩阵具有相同的维度以便他们可以进行比较。该匹配模型144可测量用户与潜在匹配对象在特征向量空间的距离,其中特征向量空间描述所有用户的特征全集(universe offeatures)。该匹配结果可以是匹配的对象和/或匹配可能性。匹配对象可以是产品、人、位置等等与用户兴趣相关的内容。匹配可能性指示了用户与匹配对象间的成功匹配的几率。匹配结果可被存储在该用于基于情感框架的计算机化匹配的装置14可读取的数据库中,也可作为用户的历史匹配数据用于训练匹配模型144.
匹配模型144针对每一个用户是专门训练的,相应的当其执行针对每一用户的匹配时,其对每一用户是专用或唯一的。根据本申请的一实施例,匹配模型144可由使用历史上与用户匹配的对象的数据训练。例如,通过之前的匹配,用户可能找到一个好友,则可使用该好友的数据来针对该用户训练该匹配模型144。
图5是演示根据本申请一实施例的用于训练匹配模型144的方法的流程图。
如图5所示,在步骤500,可调取当前用户的历史匹配数据,例如可自当前用户的历史匹配数据库调取。在步骤502,历史上与该用户匹配的对象的数据可被调取,例如,可自与这些对象相关的数据库调取。在步骤504,当前用户的历史匹配数据及历史上与该用户匹配的对象的数据可被合并在一起。在步骤506中,可使用这些合并的数据训练该匹配模型144。通过使用当前用户的历史匹配数据及历史上与该用户匹配的对象的数据,该匹配模型144可在每一匹配中为每一用户优化匹配结果。
根据本申请实施例的方法也可在经编程的处理器上实施。然而,控制器、流程图、和模块等也可在通用或专用的计算机;经编程的微处理器或微控制器及外围集成电路元件;集成电路;及硬件电子或逻辑电路,如分立元件电路、可编程逻辑设备等类似元件上实施。总之,任何内设有状态机且这些状态机能实施附图所示的流程图的设备均可用于实施本申请的处理器功能。例如,本申请的一实施例提供了一用于基于情感框架的计算机化的匹配装置,其包含处理器以及存储器。其中用于基于情感框架的计算机化匹配的方法的计算机可编程指令存储在该存储器中,且该处理器经配置以执行该计算机可编程指令以实施该用于基于情感框架的计算机化匹配的方法。该方法可以是前述的或其它根据本申请实施例的方法。
本申请的一个较佳的可替换实施例是在存储有计算机可编程指令的非暂时性、计算机可读存储媒质上实施本申请的方法。该指令较佳的由计算机可执行组件执行,该计算机可执行组件较佳地集成在网络安全系统。该非暂时性、计算机可读存储媒质可存储在任何适当的计算机可读媒质上,例如,RAMs、ROMs、闪存、EEPROMs、光学存储设备(CD或DVD)、硬件驱动、软盘驱动或任何其它适当设备。计算机可执行组件较佳的是处理器,但指令可选择性或额外的由任何适当的专用硬件设备执行。例如,本申请的一实施例提供了一种非暂时性的、计算机可读存储媒质,具有存储于其内的计算机可编程指令。其中该计算机可编程指令经编程以实施前述的或其它根据本申请实施例的用于基于情感框架的计算机化匹配的方法。
尽管本申请以具体的实施例进行描述,但是显然对本领域技术人员而言有很多可选择的修改和变化,例如,实施例的各种组件、步骤可被互换、增加或替换在其它实施例中。而且各附图的所有组件和步骤对所公开的实施例并不都是必要的。例如,熟悉本领域的技术人员仍可能基于本申请的教示及揭示而作种种不背离本申请精神的替换及修饰,例如仅是实施独立权利要求中的元件。因此,本申请的保护范围应不限于实施例所揭示的内容,而应包括各种不背离本申请的替换及修饰,并为本专利申请权利要求书所涵盖。

Claims (29)

1.一种用于基于情感框架的计算机化匹配的方法,所述方法包括:
接收来自用户的至少一音频信号;
自所述至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;
将所述第一特征矩阵转换为具有第二维度的第二特征矩阵,所述第二维度小于所述第一维度;
将所述第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及
由所述匹配模型为所述用户产生匹配结果。
2.根据权利要求1所述的方法,其中自所述至少一音频信号中提取特征以产生所述第一特征矩阵包括:
对所述至少一音频信号进行数据清理;
将所清理的音频信号分割成至少一段;
自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数;
基于矩阵长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至至少一特征矩阵;以及
基于所述至少一特征矩阵产生所述第一特征矩阵。
3.根据权利要求2所述的方法,其中所述对所述至少一音频信号执行数据清理进一步包含以下步骤中的至少一者:
移除所述至少一音频信号中的噪音;
基于沉默门限移除所述至少一音频信号在开头和结尾处的沉默;以及
移除所述至少一音频信号中较预定义门限短的声音碎片。
4.根据权利要求1所述的方法,其中将所述第一特征矩阵转换为所述第二特征矩阵包含:
将所述第一特征矩阵馈送至自动编码器,所述自动编码器经由指示所述用户的当前统计数据与历史统计数据的框架训练。
5.根据权利要求4所述的方法,其中所述用户的当前统计数据与历史统计数据包括以下项中的至少一者:
时间;
情感;
情感需求;
内在动力;
价值观;
行为风格;
情感模式;
个人信息;
教育程度;
年龄;
性别;
性取向;
收入;
有意愿的开销数额;
姓名;
地点;
愿意旅游的距离;
应用软件的使用行为数据和/或模式;
情感目标;
情感状态;
意识能量;以及
个人头像照片。
6.根据权利要求1所述的方法,其中所述潜在匹配对象中每一者的数据是具有第二维度的特征矩阵。
7.根据权利要求1所述的方法,包括使用所述用户的历史匹配数据训练所述匹配模型。
8.根据权利要求1所述的方法,包括使用历史上与所述用户匹配的对象的数据训练所述匹配模型。
9.根据权利要求1所述的方法,其中所述匹配模型针对每一用户是专门训练的。
10.一种用于基于情感框架的计算机化匹配的装置,所述装置包括:
至少一处理器;
至少一存储器,包括存储其中的计算机程序指令;以及
匹配模型;
其中所述至少一存储器及计算机程序指令经配置以与所述至少一处理器及所述匹配模型一起使得所述装置执行以下操作:
接收来自用户的至少一音频信号;
自所述至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;
将所述第一特征矩阵转换为具有第二维度的第二特征矩阵,所述第二维度小于所述第一维度;
将所述第二特征矩阵与潜在匹配对象的数据馈送至所述匹配模型;以及
由所述匹配模型为所述用户产生匹配结果。
11.根据权利要求10所述的装置,其中自所述至少一音频信号中提取特征以产生所述第一特征矩阵包括:
对所述至少一音频信号进行数据清理;
将所清理的音频信号分割成至少一段;
自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数;
基于矩阵长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至至少一特征矩阵;以及
基于所述至少一特征矩阵产生所述第一特征矩阵。
12.根据权利要求11所述的装置,其中对所述至少一音频信号执行数据清理进一步包含以下步骤中的至少一者:
移除所述至少一音频信号中的噪音;
基于沉默门限移除所述至少一音频信号在开头和结尾处的沉默;以及
移除所述至少一音频信号中较预定义门限短的声音碎片。
13.根据权利要求10所述的装置,其中将所述第一特征矩阵转换为所述第二特征矩阵包含:
将所述第一特征矩阵馈送至自动编码器,所述自动编码器经由指示所述用户的当前统计数据与历史统计数据的框架训练。
14.根据权利要求13所述的装置,其中所述用户的所述当前统计数据与历史统计数据包括以下项中的至少一者:
时间;
情感;
情感需求;
内在动力;
价值观;
行为风格;
情感模式;
个人信息;
教育程度;
年龄;
性别;
性取向;
收入;
有意愿的开销数额;
姓名;
地点;
愿意旅游的距离;
应用软件的使用行为数据和/或模式;
情感目标;
情感状态;
意识能量;以及
个人头像照片。
15.根据权利要求10所述的装置,其中所述潜在匹配对象中每一者的数据是具有第二维度的特征矩阵。
16.根据权利要求10所述的装置,其中所述匹配模型是使用所述用户的历史匹配数据训练的。
17.根据权利要求10所述的装置,其中所述匹配模型是使用历史上与所述用户匹配的对象的数据训练的。
18.根据权利要求1所述的装置,其中所述匹配模型针对每一用户是专门训练的。
19.一种用于基于情感框架的计算机化匹配的装置,所述装置包括:
用于自语音中识别情感的设备;
机器学习模型;以及
匹配模型;
其中所述用于自语音中识别情感的设备经配置以:接收来自用户的至少一音频信号,并自所述至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;
所述机器学习模型经配置以:将所述第一特征矩阵转换为具有第二维度的第二特征矩阵,所述第二维度小于所述第一维度;以及
所述匹配模型经配置以:接收所述第二特征矩阵与潜在匹配对象的数据,并为所述用户产生匹配结果。
20.根据权利要求19所述的装置,其中自所述至少一音频信号中提取特征以产生所述第一特征矩阵包括:
对所述至少一音频信号进行数据清理;
将所清理的音频信号分割成至少一段;
自所述至少一段中提取若干梅尔频率倒谱系数和若干巴克频率倒谱系数;
基于矩阵长度门限将所述若干梅尔频率倒谱系数和若干巴克频率倒谱系数填充至至少一特征矩阵;以及
基于所述至少一特征矩阵产生所述第一特征矩阵。
21.根据权利要求20所述的装置,其中对所述至少一音频信号执行数据清理进一步包含以下步骤中的至少一者:
移除所述至少一音频信号中的噪音;
基于沉默门限移除所述至少一音频信号在开头和结尾处的沉默;以及
移除所述至少一音频信号中较预定义门限短的声音碎片。
22.根据权利要求19所述的装置,其中所述机器学习模型是经由指示所述用户的当前统计数据与历史统计数据的框架训练的自动编码器。
23.根据权利要求22所述的装置,其中所述用户的所述当前统计数据与历史统计数据包括以下项中的至少一者:
时间;
情感;
情感需求;
内在动力;
价值观;
行为风格;
情感模式;
个人信息;
教育程度;
年龄;
性别;
性取向;
收入;
有意愿的开销数额;
姓名;
地点;
愿意旅游的距离;
应用软件的使用行为数据和/或模式;
情感目标;
情感状态;
意识能量;以及
个人头像照片。
24.根据权利要求19所述的装置,其中所述潜在匹配对象中每一者的数据是具有第二维度的特征矩阵。
25.根据权利要求19所述的装置,其中所述匹配模型是使用所述用户的历史匹配数据训练的。
26.根据权利要求19所述的装置,其中所述匹配模型是使用历史上与所述用户匹配的对象的数据训练的。
27.根据权利要求19所述的装置,其中所述匹配模型针对每一用户是专门训练的。
28.一种用于基于情感框架的计算机化匹配的装置,所述装置包括:
至少一处理器;以及
至少一存储器,包括存储其中的计算机程序指令;
其中所述至少一存储器及计算机程序指令经配置以与所述至少一处理器一起使得所述装置执行根据权利要求1-9中任一项所述的方法。
29.一种非暂时性的、计算机可读存储媒质,具有存储于其内的计算机可执行指令,其中所述计算机可执行指令经编程以实施根据权利要求1-9中任一项所述的方法。
CN201810620999.8A 2018-06-15 2018-06-15 用于基于情感框架的计算机化匹配的方法与装置 Pending CN108806716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810620999.8A CN108806716A (zh) 2018-06-15 2018-06-15 用于基于情感框架的计算机化匹配的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810620999.8A CN108806716A (zh) 2018-06-15 2018-06-15 用于基于情感框架的计算机化匹配的方法与装置

Publications (1)

Publication Number Publication Date
CN108806716A true CN108806716A (zh) 2018-11-13

Family

ID=64086621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810620999.8A Pending CN108806716A (zh) 2018-06-15 2018-06-15 用于基于情感框架的计算机化匹配的方法与装置

Country Status (1)

Country Link
CN (1) CN108806716A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308101A (zh) * 2019-07-30 2021-02-02 杭州海康威视数字技术股份有限公司 进行对象识别的方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140219461A1 (en) * 2013-02-04 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
CN104091592A (zh) * 2014-07-02 2014-10-08 常州工学院 一种基于隐高斯随机场的语音转换系统
CN104903885A (zh) * 2012-12-21 2015-09-09 微软技术许可有限责任公司 矩阵因式分解中的特征嵌入
CN107123057A (zh) * 2017-03-22 2017-09-01 阿里巴巴集团控股有限公司 用户推荐方法及装置
US20170358298A1 (en) * 2013-10-04 2017-12-14 Nuance Communications, Inc. System and method of using neural transforms of robust audio features for speech processing
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104903885A (zh) * 2012-12-21 2015-09-09 微软技术许可有限责任公司 矩阵因式分解中的特征嵌入
US20140219461A1 (en) * 2013-02-04 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
US20170358298A1 (en) * 2013-10-04 2017-12-14 Nuance Communications, Inc. System and method of using neural transforms of robust audio features for speech processing
CN104091592A (zh) * 2014-07-02 2014-10-08 常州工学院 一种基于隐高斯随机场的语音转换系统
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107123057A (zh) * 2017-03-22 2017-09-01 阿里巴巴集团控股有限公司 用户推荐方法及装置
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308101A (zh) * 2019-07-30 2021-02-02 杭州海康威视数字技术股份有限公司 进行对象识别的方法和装置
WO2021018189A1 (zh) * 2019-07-30 2021-02-04 杭州海康威视数字技术股份有限公司 进行对象识别的方法和装置
CN112308101B (zh) * 2019-07-30 2023-08-22 杭州海康威视数字技术股份有限公司 进行对象识别的方法和装置

Similar Documents

Publication Publication Date Title
US11545173B2 (en) Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US10623573B2 (en) Personalized support routing based on paralinguistic information
US10770062B2 (en) Adjusting a ranking of information content of a software application based on feedback from a user
CN108091323B (zh) 用于自语音中识别情感的方法与装置
CN110704618B (zh) 确定对话数据对应的标准问题的方法及装置
WO2019119279A1 (en) Method and apparatus for emotion recognition from speech
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
CN112214607B (zh) 基于人工智能的交互方法、心理干预系统、终端和介质
CN112418059A (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
CN113243918A (zh) 基于多模态隐匿信息测试的风险检测方法及装置
WO2019237354A1 (en) Method and apparatus for computerized matching based on emotional profile
CN113438374B (zh) 智能外呼处理方法、装置、设备及存储介质
CN110442867A (zh) 图像处理方法、装置、终端及计算机存储介质
CN112860213B (zh) 音频的处理方法和装置、存储介质及电子设备
Shanthi et al. An integrated approach for mental health assessment using emotion analysis and scales
CN108806716A (zh) 用于基于情感框架的计算机化匹配的方法与装置
KR20210067283A (ko) 사용자 상태에 기반한 응답 음성을 생성하는 음성 에이전트 시스템 및 방법
US11526541B1 (en) Method for collaborative knowledge base development
KR102463243B1 (ko) 사용자 음성 분석 기반의 이명 상담 시스템
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Singhal et al. Analyzing the impact of gender on the automation of feedback for public speaking
Savla et al. Sentiment Analysis of Human Speech using Deep Learning
JP6930781B1 (ja) 学習方法、及びコンテンツ再生装置
Reddy et al. Fusion Based AER System Using Deep Learning Approach for Amplitude and Frequency Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination