CN109377988A - 用于智能音箱的交互方法、介质、装置和计算设备 - Google Patents

用于智能音箱的交互方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN109377988A
CN109377988A CN201811127131.0A CN201811127131A CN109377988A CN 109377988 A CN109377988 A CN 109377988A CN 201811127131 A CN201811127131 A CN 201811127131A CN 109377988 A CN109377988 A CN 109377988A
Authority
CN
China
Prior art keywords
lyrics
statement text
song
preset
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811127131.0A
Other languages
English (en)
Other versions
CN109377988B (zh
Inventor
魏永振
陈吉
张汉雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201811127131.0A priority Critical patent/CN109377988B/zh
Publication of CN109377988A publication Critical patent/CN109377988A/zh
Application granted granted Critical
Publication of CN109377988B publication Critical patent/CN109377988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了一种用于智能音箱的交互方法,包括:对用户输入的语音信息进行识别,得到识别后的语句文本;基于所述语句文本在预置歌词库中进行匹配;当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。本方法对用户输入不做任何限制和要求,智能音箱不是根据用户指令而播放歌曲,而是根据用户输入的语音信息所关联的情景而播放歌曲,改变了现有技术中智能音箱响应于用户输入的固定结构的指令而播放歌曲的交互模式,即改变了“用户发出指令,机器执行指令”这样生硬的人机交互模式,实现更为自然、更具趣味性的交互过程。本发明的实施方式还提供了一种用于智能音箱的交互装置、介质和计算设备。

Description

用于智能音箱的交互方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及用于智能音箱的交互方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
智能音箱是家庭消费者通过语音进行上网的一个工具入口,智能音箱通过麦克风采集用户的语音指令,并根据语音指令执行具体的动作,如播放音乐、查询天气、对话聊天等。其中,调查显示播放音乐是智能音箱所执行的最常见的任务。
现有技术中,智能音箱响应于用户输入的固定结构的指令而为用户播放歌曲,常见地,用户通过说出歌曲名称、歌手名、专辑名称的方式点播歌曲,例如,用户说出指令:“播放《A》”,智能音箱响应于该指令而播放歌曲《A》。这样“用户发出指令,机器执行指令”的人机交互模式非常生硬,不符合用户需求。
发明内容
但是,出于智能音箱与用户按照“用户发出指令,机器执行指令”的固有模式进行交互的原因,现有技术无法实现更为自然、更具趣味性的交互过程。
因此在现有技术中,想要智能音箱根据用户的语音信息所关联的场景而播放歌曲,进而实现更为自然、更具趣味性的交互过程,这是非常令人烦恼的过程。
为此,非常需要一种改进的用于智能音箱的交互方法,以实现更为自然、更具趣味性的交互过程。
在本上下文中,本发明的实施方式期望提供一种用于智能音箱的交互方法和装置。
在本发明实施方式的第一方面中,提供了一种用于智能音箱的交互方法,包括:对用户输入的语音信息进行识别,得到识别后的语句文本;基于所述语句文本在预置歌词库中进行匹配;当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。
在本发明的一个实施例中,在得到识别后的语句文本之后,上述方法还包括:对所述语句文本进行语义分析;当所述语句文本的语义分析结果表明所述语句文本不属于特定主题时,再执行所述基于所述语句文本在预置歌词库中进行匹配的操作;当所述语义分析结果表明所述语句文本属于特定主题时,基于所述语义分析结果执行与所述语义分析结果相对应的操作,不再执行所述基于所述语句文本在预置歌词库中进行匹配的操作。
在本发明的另一实施例中,在得到识别后的语句文本之后,上述方法还包括:对所述语句文本进行容错处理。所述基于所述语句文本在预置歌词库中进行匹配包括如下任一项:将所述语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配;或者,直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
在本发明的又一实施例中,上述对所述语句文本进行容错处理包括如下至少一项:去除所述语句文本中的语气词;将所述语句文本中的第一人称代词转换为第二人称代词;或者,将所述语句文本中的第二人称代词转换为第一人称代词。
在本发明的再一实施例中,上述将所述语句文本与预置歌词库中的歌词进行匹配包括:对于预置歌词库中的任一歌词,根据预设规则计算所述语句文本与所述歌词的匹配度,当所述匹配度超过预设阈值时,确定所述歌词为与所述语句文本相匹配的歌词。或者,上述将经过容错处理的语句文本与预置歌词库中的歌词进行匹配包括:对于预置歌词库中的任一歌词,根据预设规则计算所述经过容错处理的语句文本与所述歌词的匹配度,当所述匹配度超过预设阈值时,确定所述歌词为与所述语句文本相匹配的歌词。
在本发明的再一实施例中,在基于所述语句文本在预置歌词库中进行匹配之前,上述方法还包括:获取推广歌曲信息、所述用户的收藏歌曲信息或所述用户的历史播放歌曲信息;根据所述歌曲信息进行歌曲去重;基于去重后的各歌曲生成所述预置歌词库。
在本发明的再一实施例中,在基于所述语句文本在预置歌词库中进行匹配之前,上述方法还包括:获取所述用户的收藏歌曲信息和/或所述用户的历史播放歌曲信息,基于所述收藏歌曲信息和/或所述历史播放歌曲信息,生成第一子歌词库;获取推广歌曲信息,基于所述推广歌曲信息生成第二子歌词库;由所述第一子歌词库和所述第二子歌词库构成所述预置歌词库。上述基于所述语句文本在预置歌词库中进行匹配包括:先基于所述语句文本在所述第一子歌词库中进行匹配,如果匹配失败,再基于所述语句文本在所述第二子歌词库中进行匹配。
在本发明的再一实施例中,上述当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:当所述预置歌词库中存在多个与所述语句文本相匹配的歌词时,比较所述多个歌词对应的歌曲的历史播放次数,对历史播放次数最多的歌曲进行播放。
在本发明的再一实施例中,上述当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:对于所述歌词对应的歌曲,从所述歌词开始处进行播放。
在本发明的再一实施例中,上述播放所述相匹配的歌词对应的歌曲包括:播放包含所述歌词的歌曲片段。
在本发明的再一实施例中,上述当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:当所述预置歌词库中存在多个与所述语句文本相匹配的歌词且所述多个歌词对应于同一歌曲时,如果所述多个歌词中存在对应于所述歌曲的高潮部分的歌词,播放所述歌曲中包含所述相匹配的歌词的高潮部分。
在本发明的再一实施例中,上述当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲还包括:当所述预置歌词库中存在多个与所述语句文本相匹配的歌词且所述多个歌词对应于同一歌曲时,如果所述多个歌词中不存在对应于所述歌曲的高潮部分的歌词但存在对应于所述歌曲中带有主歌标识的歌词,播放所述歌曲中包含所述相匹配的歌词的带有主歌标识的部分。如果所述多个歌词中不存在对应于所述歌曲中高潮部分和带有主歌标识的歌词但存在对应于所述歌曲中带有副歌标识的歌词,播放所述歌曲中包含所述相匹配的歌词的带有副歌标识的部分。
在本发明的再一实施例中,上述方法还包括:响应于用户的第一触发操作,在播放所述歌曲后,输出所述歌曲名称对应的语音信息;并且/或者,响应于用户的第二触发操作,在播放所述歌曲后,从头开始播放所述歌曲。
在本发明实施方式的第二方面中,提供了一种用于智能音箱的交互装置,包括识别模块、匹配模块和播放模块。识别模块用于对用户输入的语音信息进行识别,得到识别后的语句文本。匹配模块用于基于所述语句文本在预置歌词库中进行匹配。播放模块用于当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。
在本发明的一个实施例中,上述装置还包括语义分析模块。语义分析模块用于在所述识别模块得到识别后的语句文本之后,对所述语句文本进行语义分析;当所述语句文本的语义分析结果表明所述语句文本不属于特定主题时,再通知所述匹配模块执行所述基于所述语句文本在预置歌词库中进行匹配的操作;当所述语义分析结果表明所述语句文本属于特定主题时,基于所述语义分析结果执行与所述语义分析结果相对应的操作.通知所述匹配模块不再执行所述基于所述语句文本在预置歌词库中进行匹配的操作。
在本发明的另一实施例中,上述装置还包括容错处理模块。容错处理模块用于在所述识别模块得到识别后的语句文本之后,对所述语句文本进行容错处理。所述匹配模块基于所述语句文本在预置歌词库中进行匹配包括如下任一项:所述匹配模块用于将所述语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配;或者,所述匹配模块用于直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
在本发明的又一实施例中,容错处理模块对所述语句文本进行容错处理包括如下至少一项:容错处理模块用于去除所述语句文本中的语气词;容错处理模块用于将所述语句文本中的第一人称代词转换为第二人称代词;或者,容错处理模块用于将所述语句文本中的第二人称代词转换为第一人称代词。
在本发明的再一实施例中,匹配模块将所述语句文本与预置歌词库中的歌词进行匹配包括:匹配模块用于对于预置歌词库中的任一歌词,根据预设规则计算所述语句文本与所述歌词的匹配度,当所述匹配度超过预设阈值时,确定所述歌词为与所述语句文本相匹配的歌词。或者,匹配模块将经过容错处理的语句文本与预置歌词库中的歌词进行匹配包括:匹配模块用于对于预置歌词库中的任一歌词,根据预设规则计算所述经过容错处理的语句文本与所述歌词的匹配度,当所述匹配度超过预设阈值时.确定所述歌词为与所述语句文本相匹配的歌词。
在本发明的再一实施例中,上述装置还包括预处理模块。所述预处理模块用于在所述匹配模块基于所述语句文本在预置歌词库中进行匹配之前,获取推广歌曲信息、所述用户的收藏歌曲信息或所述用户的历史播放歌曲信息;根据所述歌曲信息进行歌曲去重;基于去重后的各歌曲生成所述预置歌词库。
在本发明的再一实施例中,上述装置还包括预处理模块。所述预处理模块用于在所述匹配模块基于所述语句文本在预置歌词库中进行匹配之前,获取所述用户的收藏歌曲信息和/或所述用户的历史播放歌曲信息,基于所述收藏歌曲信息和/或所述历史播放歌曲信息,生成第一子歌词库;获取推广歌曲信息,基于所述推广歌曲信息生成第二子歌词库;由所述第一子歌词库和所述第二子歌词库构成所述预置歌词库。所述匹配模块基于所述语句文本在预置歌词库中进行匹配包括:所述匹配模块用于先基于所述语句文本在所述第一子歌词库中进行匹配,如果匹配失败,再基于所述语句文本在所述第二子歌词库中进行匹配。
在本发明的再一实施例中,播放模块当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:所述播放模块用于当所述预置歌词库中存在多个与所述语句文本相匹配的歌词时,比较所述多个歌词对应的歌曲的历史播放次数,对历史播放次数最多的歌曲进行播放。
在本发明的再一实施例中,播放模块当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:所述播放模块用于对于所述歌词对应的歌曲,从所述歌词开始处进行播放。
在本发明的再一实施例中,播放模块播放所述相匹配的歌词对应的歌曲包括:所述播放模块用于播放包含所述歌词的歌曲片段。
在本发明的再一实施例中,播放模块当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲包括:所述播放模块用于当所述预置歌词库中存在多个与所述语句文本相匹配的歌词且所述多个歌词对应于同一歌曲时,如果所述多个歌词中存在对应于所述歌曲的高潮部分的歌词,播放所述歌曲中包含所述相匹配的歌词的高潮部分。
在本发明的再一实施例中,播放模块当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲还包括:所述播放模块还用于当所述预置歌词库中存在多个与所述语句文本相匹配的歌词且所述多个歌词对应于同一歌曲时,如果所述多个歌词中不存在对应于所述歌曲的高潮部分的歌词但存在对应于所述歌曲中带有主歌标识的歌词,播放所述歌曲中包含所述相匹配的歌词的带有主歌标识的部分;如果所述多个歌词中不存在对应于所述歌曲中高潮部分和带有主歌标识的歌词但存在对应于所述歌曲中带有副歌标识的歌词,播放所述歌曲中包含所述相匹配的歌词的带有副歌标识的部分。
在本发明的再一实施例中,上述装置还包括触发执行模块。触发执行模块用于响应于用户的第一触发操作,在所述播放模块播放所述歌曲后,输出所述歌曲名称对应的语音信息;并且/或者,用于响应于用户的第二触发操作,在所述播放模块播放所述歌曲后,从头开始播放所述歌曲。
在本发明实施方式的第三方面中,提供了一种介质,存储有计算机可执行指令,所述指令在被处理器执行时用于实现:上述实施例中任一项所述的用于智能音箱的交互方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,处理器执行指令时实现:上述实施例中任一项所述的用于智能音箱的交互方法。
根据本发明实施方式的用于智能音箱的交互方法和装置,智能音箱基于用户输入的语音信息所对应的语句文本来寻找关联歌曲并播放,对用户输入不做任何限制和要求,不是根据用户指令而播放歌曲,而是根据用户输入的语音信息所关联的情景而播放歌曲,改变了现有技术中智能音箱响应于用户输入的固定结构的指令而播放歌曲的交互模式,即改变了“用户发出指令,机器执行指令”这样生硬的人机交互模式,实现更为自然、更具趣味性的交互过程。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的用于智能音箱的交互方法及其装置的应用场景;
图2示意性地示出了根据本发明一个实施例的用于智能音箱的交互方法的流程图;
图3A示意性地示出了根据本发明另一个实施例的用于智能音箱的交互方法的流程图;
图3B示意性地示出了根据本发明一个实施例的预置歌词库的示意图;
图3C示意性地示出了根据本发明另一个实施例的预置歌词库的示意图;
图4示意性地示出了根据本发明一个实施例的用于智能音箱的交互装置的框图;
图5A示意性地示出了根据本发明另一个实施例的用于智能音箱的交互装置的框图;
图5B示意性地示出了根据本发明又一个实施例的用于智能音箱的交互装置的框图;
图5C示意性地示出了根据本发明再一个实施例的用于智能音箱的交互装置的框图;
图5D示意性地示出了根据本发明再一个实施例的用于智能音箱的交互装置的框图;
图6示意性地示出了根据本发明实施方式的计算机可读存储介质产品的示意图;
图7示意性地示出了根据本发明实施方式的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种用于智能音箱的交互方法、介质、装置和计算设备。
在本文中,需要理解的是,所涉及的术语包括:智能音箱、语音信息、识别、语句文本、预置歌词库、匹配等。其中,智能音箱是家庭消费者通过语音进行上网的一个工具入口,智能音箱通过麦克风采集用户的语音指令,并根据语音指令执行具体的动作,如播放音乐、查询天气、对话聊天等;语音信息为基于声音记录的音频数据,识别是指将语音信息的内容转换为相应的文本,即得到语句文本,预置歌词库为基于预定设置规则所配置的包括多个歌词片段的数据库,匹配是指将语句文本与预置歌词库中的歌词片段进行匹配。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:
现有技术中,智能音箱响应于用户输入的固定结构的指令而为用户播放歌曲,而这样“用户发出指令,机器执行指令”的人机交互模式非常生硬,不符合用户需求。
为此,本发明实施例提供了一种用于智能音箱的交互方法和装置,该方法包括:对用户输入的语音信息进行识别,得到识别后的语句文本,基于所述语句文本在预置歌词库中进行匹配,当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。本方案中,智能音箱基于用户输入的语音信息所对应的语句文本来寻找关联歌曲并播放,对用户输入不做任何限制和要求,不是根据用户指令而播放歌曲,而是根据用户自然对话过程中的语音信息匹配相关歌曲并进行播放,改变了现有技术中智能音箱响应于用户输入的固定结构的指令而播放歌曲的交互模式,即改变了“用户发出指令,机器执行指令”这样生硬的人机交互模式,实现更为自然、更具趣味性的交互过程。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1详细阐述本发明实施例的用于智能音箱的交互方法及其装置的应用场景。
图1示意性地示出了根据本发明实施方式的用于智能音箱的交互方法及其装置的应用场景。如图1所示,该应用场景中包括智能音箱110和用户120进行交互,智能音箱110通过麦克风采集用户120输入的语音信息,并根据该语音信息执行相应的任务。目前来看播放音乐、回答常识问题和咨询天气是最常见的三种任务。
随着智能音箱的不断发展,智能音箱的使用场景从室内家居场景可以延伸至室外场景、车载场景等,在室内家居场景中,从客厅到卧室、厨房,应用于生活服务和智能家居交互,从播放音乐、播放新闻、查询天气、查询百科、购物、预定外卖等服务均可以涵盖,在室外场景中,智能音箱可以与可穿戴设备相结合,在车载场景中,智能音箱可以给汽车下达指令,实现播放音乐、导航、调节空调等功能。智能音箱的内容服务也可以发展至个性化语音识别和推送,结合用户群体特点给予特殊关怀,打造差异化服务。
示例性方法
下面结合图1的应用场景,参考图2~图3C来描述根据本发明示例性实施方式的用于智能音箱的交互方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明一个实施例的用于智能音箱的交互方法的流程图。如图2所示.该方法包括如下操作:
操作S201,对用户输入的语音信息进行识别,得到识别后的语句文本;
操作S202,基于该语句文本在预置歌词库中进行匹配;以及
操作S203,当预置歌词库中存在与该语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲。
在上述操作S201~S203中,对于用户输入的任意语音信息,在满足一定条件下智能音箱可以向用户播放与用户输入的语音信息相关联的歌曲,具体地,将用户输入的语音信息识别为语句文本,将语句文本与预置歌词库中的歌词进行匹配,当预置歌词库中存在于语句文本相匹配的歌词时,播放该歌词对应的歌曲,该歌曲即为与用户输入的语音信息相关联的歌曲。可以看到,智能音箱基于用户输入的语音信息所对应的语句文本来寻找关联歌曲并播放,对用户输入不做任何限制和要求,不是根据用户指令而播放歌曲,而是根据用户自然对话过程中的语音信息匹配相关歌曲并进行播放,改变了现有技术中智能音箱响应于用户输入的固定结构的指令而播放歌曲的交互模式,即改变了“用户发出指令,机器执行指令”这样生硬的人机交互模式,实现更为自然、更具趣味性的交互过程。
例如,在现有技术中,用户输入指令“播放《A》”时,智能音箱响应于该指令播放歌曲《A》,而在本公开的实施例中,用户轻轻哼唱歌曲《A》中的片段“往城市的边缘开”时,智能音箱获取到用户所哼唱的语音信息,根据该语音信息从预置歌词库中找到与该语音信息相匹配的歌词——“开,往城市边缘开”,而该歌词对应的歌曲为歌曲《A》,进而播放歌曲《A》,无需用户特意向智能音箱发出如“播放《A》”等此类固定结构的指令,整个交互过程更加自然顺畅,符合用户的表达习惯和对话习惯,无论是用户有意或是无意的输入,均可以为用户带来有趣和惊喜的使用体验。
在本发明的一个实施例中,在获取到用户输入的语音信息时,为了了解用户的需求,避免忽略掉用户的真正意图,在操作S201得到对语音信息进行识别后的语句文本之后,图2所示的方法还包括:对该语句文本进行语义分析得到语义分析结果,当语义分析结果表明该语句文本不属于特定主题时,再执行上述基于该语句文本在预置歌词库中进行匹配的操作S202;当语义分析结果表明该语句文本属于特定主题时,基于该语义分析结果执行与该语义分析结果相对应的操作,不再执行上述基于所述语句文本在预置歌词库中进行匹配的操作S202。其中,可以采用各种已知的语义分析技术进行对所述语句文本的语义分析,例如可以将语句本文与预置的各特定主题对应的词汇分别进行相似度计算,基于相似度计算结果获知语句文本对各特定主题的倾向程度,当语句文本对一个特定主题的倾向程度超过第一阈值时,确定该语句文本属于该特定主题,否则确定该语句文本不属于该特定主题,当然在其他例子中也可以采用其他方式进行语义识别,在此不做限制。
例如,用户输入的语音信息为“今天天气如何”,通过上述语义识别过程可以获知该语音信息属于“天气查询”特定主题,即获知了用户输入的语音信息带有明确的意图,则此种情况下用户并不需要智能音箱播放关联歌曲,而需要智能音箱执行符合用户意图的操作,因此,智能音箱响应于该语音信息应当查询天气情况并输出查询结果的语音信息,使得用户获知相应的天气状况,以协助用户正常工作生活和娱乐。
可以知道,本实施例通过语义识别将带有明确用户意图的用户输入筛选出来以执行符合用户意图的相应操作,而其他未带有明确用户意图的用户输入可以按照图2所示的方法找到相关联的歌曲并播放,更加全面地保证用户需求可以被满足,提升用户体验。
考虑到通常情况下,用户对歌曲歌词的记忆不一定完全准确,用户输入的语音信息所对应的语句文本与歌曲歌词不一定完全一致,为了提高匹配过程的鲁棒性,较为稳定地找到与用户语音输入相关联的歌曲并播放,在本发明的一个实施例中,在上述操作S201对用户输入的语音信息进行识别得到识别后的语句文本之后,图2所示的方法还包括:对该语句文本进行容错处理。
在此基础上,操作S202基于该语句文本在预置歌词库中进行匹配的过程可以是:先将该语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。或者,操作S202基于该语句文本在预置歌词库中进行匹配的过程也可以是:直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
一种情况下,用户输入语音时会习惯性地加上语气词,从而造成输入语音与歌曲歌词的不一致,则上述对该语句文本进行容错处理的过程可以是去除该语句文本中的语气词。具体地,去除语句文本中的“啊”、“吧”、“哦”、“嗯”、“呃”等语气词。例如,用户输入“嗯带着地图坐上飞机”,对该语句文本进行容错处理,将“嗯”去掉,得到“带着地图坐上飞机”,此种情况下,上述操作S202可以直接将经过容错处理的语句文本“带着地图坐上飞机”与预置歌词库中的歌词进行匹配,与之相匹配的歌词对应的歌曲为《一起去巴黎》,智能音箱播放歌曲《一起去巴黎》。
另一种情况下,用户输入语音时会说错人称代词,从而造成输入语音与歌曲歌词的不一致,则上述对该语句文本进行容错处理的过程可以是将该语句文本中的第一人称代词转换为第二人称代词,或者将该语句文本中的第二人称代词转换为第一人称代词。具体地,将语句文本中的“你”转换成“我”、将“你们”转换成“我们”、将“我”转换成“你”、将“我们”转换成“你们”等。例如,用户输入“今天的我不知道”,对该语句文本进行容错处理,将语句文本中的“我”转换成“你”,得到“今天的你不知道”,此种情况下,上述操作S202可以先将原语句文本“今天的我不知道”与预置歌词库中的歌词进行匹配,匹配不成功时,再将经过容错处理的语句文本“今天的你不知道”与预置歌词库中的歌词进行匹配,与之相匹配的歌词对应的歌曲为《一起去巴黎》,智能音箱播放歌曲《一起去巴黎》。
在本发明的一个实施例中,上述将该语句文本与预置歌词库中的歌词进行匹配包括:对于预置歌词库中的任一歌词,根据预设规则计算该语句文本与该歌词的匹配度,当匹配度超过预设阈值时,确定该歌词为与该语句文本相匹配的歌词。上述将经过容错处理的语句文本与预置歌词库中的歌词进行匹配包括:对于预置歌词库中的任一歌词,根据预设规则计算所述经过容错处理的语句文本与该歌词的匹配度,当匹配度超过预设阈值时,确定该歌词为与该语句文本相匹配的歌词。其中的预设阈值可以根据情况中对智能音箱所播放的歌曲与用户输入的关联程度的要求而设置,在此不做限制。
在本发明的实施例中,在操作S202基于该语句文本在预置歌词库中进行匹配之前,图2所示的方法需要构建预置歌词库,预置歌词库的配置状况能够决定匹配结果的好坏,为了优化匹配结果,本实施例选取推广歌曲信息和用户的个性化歌曲信息构建歌曲库,其中推广歌曲信息包括当前预定时间内的热门歌曲信息、与合作方约定需要推广的歌曲信息等一种或多种,用户的个性化歌曲信息可以包括用户的收藏歌曲信息、用户的历史播放歌曲信息等一种或多种,基于这样构建得到的歌词库所找到的与用户输入相关联的歌曲属于用户感兴趣的歌曲或者属于智能音箱需要推广给用户的歌曲,既可以满足用户需求也可以满足智能音箱相关的运营需求。
作为一个可选的实施例,上述构建预置歌词库的过程包括:获取推广歌曲信息、所述用户的收藏歌曲信息或所述用户的历史播放歌曲信息,根据所述歌曲信息进行歌曲去重,基于去重后的各歌曲生成预置歌词库。
作为另一个可选的实施例,上述构建预置歌词库的过程包括:获取用户的收藏歌曲信息和/或用户的历史播放歌曲信息,基于该用户的收藏歌曲信息和/或历史播放歌曲信息,生成第一子歌词库;获取推广歌曲信息,基于推广歌曲信息生成第二子歌词库;由第一子歌词库和第二子歌词库构成预置歌词库。则上述操作S202基于语句文本在预置歌词库中进行匹配包括:先基于该语句文本在第一子歌词库中进行匹配,如果匹配失败,再基于该语句文本在第二子歌词库中进行匹配。在本实施例中,基于用户的个性化歌曲信息构建的第一子歌词库相比于基于推广歌曲信息构建的第二子歌词库具有更高的权重,在匹配时先再第一子歌词库中匹配,再在第二子歌词库中匹配,优先满足用户的听歌偏好。
在上述操作S202基于语句文本在预置歌词库中进行匹配的过程中,一些情况下会出现多个匹配结果,可以按照以下策略从多个匹配结果中优选出一个匹配结果。
在多个匹配结果所对应的歌曲各不相同的情况下,作为一个可选的实施例,操作S203当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲包括:当预置歌词库中存在多个与该语句文本相匹配的歌词时,比较相匹配的多个歌词对应的歌曲的历史播放次数,对历史播放次数最多的歌曲进行播放。由于歌曲的历史播放次数能够反映歌曲的受欢迎程度,当用户输入与预置歌词库中的多个歌词相匹配且多个歌词对应于不同歌曲时,通过历史播放次数选取其中最受欢迎的歌曲为用户播放,在其他实施例中,也可以通过其他能够反映歌曲的受欢迎程度的数据作为标准进行选取,例如可以是被收藏次数、评论数量等等,在此不做限制。
在多个匹配结果所对应的歌曲相同的情况下,作为一个可选的实施例,操作S203当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲包括:当预置歌词库中存在多个与语句文本相匹配的歌词且相匹配的多个歌词对应于同一歌曲时,如果相匹配的多个歌词中存在对应于该歌曲的高潮部分的歌词,播放该歌曲中包含该相匹配的歌词的高潮部分。进一步地,作为另一个可选的实施例,操作S203当预置歌词库中存在与语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲还包括:当预置歌词库中存在多个与该语句文本相匹配的歌词且相匹配的多个歌词对应于同一歌曲时,如果相匹配的多个歌词中不存在对应于该歌曲的高潮部分的歌词但存在对应于该歌曲中带有主歌标识的歌词,播放该歌曲中包含该相匹配的歌词的带有主歌标识的部分;如果相匹配多个歌词中不存在对应于该歌曲中高潮部分和带有主歌标识的歌词但存在对应于该歌曲中带有副歌标识的歌词,播放该歌曲中包含该相匹配的歌词的带有副歌标识的部分。
本实施例中,当用户输入与预置歌词库中的多个歌词相匹配且多个歌词对应于同一歌曲时,如果有对应于该歌曲的高潮部分的匹配歌词,则优先播放相应的高潮部分,如果没有,则再查看是否存在对应于该歌曲的主歌部分的匹配歌词,有则优先播放该主歌部分,如果没有,则再查看是否存在对应于该歌曲的副歌部分的匹配歌词,有则播放该副歌部分。其中,歌曲的高潮部分、主歌部分和副歌部分对应的歌词在预置歌词库中已分别预先进行标记。由于用户对一首歌曲的熟悉程度通常按照高潮部分>主歌部分>副歌部分的顺序排列,一首歌曲对用户的吸引力也通常按照高潮部分>主歌部分>副歌部分的顺序排列,因此智能音箱在为用户播放歌曲时,优先播放高潮部分,次之播放主歌部分,在没有前二者的情况下才播放副歌部分,以最大程度地引发用户对于歌曲的共鸣和兴趣。
在本发明的一个实施例中,操作S203当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲可以是:对于该歌词对应的歌曲,从该歌词开始处进行播放。具体地,可以仅仅播放包含该歌词的歌曲片段。当然在其他实施例中,也可以从该歌词处开始播放,一直播放至该歌曲结束。例如,用户输入的语音信息对应的语句文本为“带着地图坐上飞机”,该语句文本与预置歌词库中的歌词“带着地图坐上飞机,要去巴黎叭啦叭叭”相匹配,对应于歌曲《一起去巴黎》,则智能音箱可以从该歌词处开始播放,只播放该歌词对应的歌曲片段,或者从该歌词处开始播放,播放至歌曲结束。
进一步地,在本发明的一个实施例中,图2所示的方法还包括:响应于用户的第一触发操作,在播放歌曲后,输出该歌曲名称对应的语音信息;并且/或者,响应于用户的第二触发操作,在播放歌曲后,从头开始播放该歌曲。也就是说,智能音箱除了为用户播放与用户输入相关联的歌曲之外,还可以响应于用户的第一触发操作为用户提供更多信息,如输出所播放的歌曲的名称、歌手、专辑名称、发行时间、相关的背景知识等,还可以响应于用户的第二触发操作再一次或多次播放该歌曲,以满足用户在听歌之后的进一步需求,其中第一触发操作可以是触控式触发、语音指令触发、姿态识别触发等,第二触发操作也可以是触控式触发、语音指令触发、姿态识别触发等,在此均不做限制。沿用上文中的例子,在智能音箱播放《一起去巴黎》的歌曲片段后,响应于用户的第一触发操作,如该第一触发操作是用户发出语音指令“歌曲名称和歌手名字”,则智能音输出语音信息:“一起去巴黎,陈绮贞”,以及,响应于用户的第二触发操作,如该第二触发操作是用户发出语音指令“重播”,则智能音箱重头开始播放该歌曲。
下面参考图3A~图3C,结合具体实施例对图2所示的方法做进一步说明。
图3A示意性地示出了根据本发明另一个实施例的用于智能音箱的交互方法的流程图。如图3A所示,该方法包括如下操作:
操作S301,获取用户输入的语音信息A。
操作S302,对语音信息A进行识别得到相应的语句文本A’。
操作S303,判断语句文本A’是否属于特定主题,否则执行操作S304。是则执行操作S316。
本操作中对语句文本A’进行语义识别,根据语义识别结果来判断用户输入是否属于预设的几种反映用户确切意图的特定主题,如果是,则需要按照用户意图执行操作,即根据用户的询问进行回答,根据用户的指示进行操作等。
操作S304,对语句文本A’进行容错处理得到语句文本A”。
本操作中的容错处理可以包括上文提到的对人称代词的转换、对语气词的去除等。
操作S305,基于语句文本A’或语句文本A”在预置歌词库中进行匹配,得到多个匹配歌词。
本操作中,可以先将语句文本A’与预置歌词库中的歌词进行匹配,当匹配不成功时,再将语句文本A”与预置歌词库中的歌词进行匹配,也可以直接将语句文本A”与预置歌词库中的歌词进行匹配。
图3B示意性地示出了根据本发明一个实施例的预置歌词库的示意图。
如图3B所示,该预置歌词库是基于用户的个性化歌曲信息动态生成的,该预置歌词库中包括:用户在近期预定时间(如一个月)内收听次数超过第二阈值的歌曲的歌词,用户收藏的歌曲的歌词,用户用于创建歌单的歌曲的歌词,等等。
图3C示意性地示出了根据本发明另一个实施例的预置歌词库的示意图。
如图3C所示,该预置歌词库是基于用户的个性化歌曲信息以及音乐运营人员人工建立的运营歌曲信息而生成的,该预置歌词库中包括:用户在近期预定时间(如一个月)内收听次数超过第二阈值的歌曲的歌词,用户收藏的歌曲的歌词,用户用于创建歌单的歌曲的歌词,近期预定时间(如一个月)内热门的歌曲的歌词,近期预定时间(如一个月)内需要推广的歌曲的歌词,等等。
上述操作S305基于图3B或3C所示的预置歌词库进行连续匹配,本例中当语句文本与预置歌词库的一段歌词的匹配度为100%时,确定匹配成功,该歌词为匹配歌词。
操作S306,判断匹配歌词是否对应于同一歌曲,是则执行操作S307,否则执行操作S314。
操作S307,判断匹配歌词中是否存在带有高潮部分标记的歌词,是则执行操作S308,否则执行操作S309。
操作S308,播放带有高潮部分标记的歌词对应的歌曲片段;
操作S309,判断匹配歌词中是否存在带有主歌部分标记的歌词,是则执行操作S310,否则执行操作S311。
操作S310,播放带有主歌部分标记的歌词对应的歌曲片段;
操作S311,判断匹配歌词中是否存在带有副歌部分标记的歌词,是则执行操作S312,否则执行操作S313。
操作S312,播放带有副歌部分标记的歌词对应的歌曲片段。
从操作S307~S312可以看出,当匹配得到的多个匹配歌词对应于同一歌曲时,根据优先级进行排他地检索播放,优先级为:高潮部分>主歌部分>副歌部分,若检索到对应于高潮部分的匹配歌词,则只播放相应的高潮部分,若未检索到对应于高潮部分的匹配歌词但检索到对应于主歌部分的匹配歌词,则只播放相应的主歌部分,若未检索到对应于高潮部分的匹配歌词也未检索到对应于主歌部分的匹配歌词但检索到对应于副歌部分的匹配歌词,则只播放相应的副歌部分。在其他实施例中,如果预置歌词库中没有对高潮部分、主歌部分和副歌部分对应的歌词进行标记,则不再执行上述操作S307~S312,从第一个匹配歌词对应的歌曲片段进行播放。
操作S313,从匹配歌词中随机选取一个歌词,播放该歌词对应的歌曲片段。
本操作中,也可以通过其他规则从匹配歌词中选取一个歌词,例如按照匹配成功的顺序等。
操作S314,比较多个匹配歌词对应的歌曲的历史播放次数,判断历史播放次数最多的歌曲是否对应于多个匹配歌词,是则执行操作S307,否则执行操作S315。
本操作中,当匹配得到的多个匹配歌词对应于不同的歌曲时,优先选择历史播放次数较多的歌曲进行播放。其中,当历史播放次数最多的歌曲对应于多个匹配歌词时,可以按照如操作S307~S313所示的策略从中选取一个歌词对应的歌曲片段进行播放。
操作S315,播放对应于历史播放次数最多的歌曲的匹配歌词对应的歌曲片段。
操作S316,基于语句文本A’的语义识别结果进行相应操作。
可见,用户在和智能音箱对话时,智能音箱通过自然语言理解基础,确认对话内容无明显领域倾向时,会优先针对用户输入在预置歌词库中进行检索匹配,匹配成功后,智能音箱加载并播放匹配歌词对应的歌曲或歌曲片段,为用户带来趣味性和惊喜。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图4~图5D对本发明示例性实施方式的、用于实现用于智能音箱的交互装置进行详细阐述。
图4示意性地示出了根据本发明一个实施例的用于智能音箱的交互装置的框图。如图4所示,该用于智能音箱的交互装置400包括识别模块401、匹配模块402和播放模块403。
识别模块401用于对用户输入的语音信息进行识别,得到识别后的语句文本。匹配模块402用于基于该语句文本在预置歌词库中进行匹配。播放模块403用于当预置歌词库中存在与该语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲。
可见,智能音箱基于用户输入的语音信息所对应的语句文本来寻找关联歌曲并播放,对用户输入不做任何限制和要求,不是根据用户指令而播放歌曲,而是根据用户自然对话过程中的语音信息匹配相关歌曲并进行播放,,改变了现有技术中智能音箱响应于用户输入的固定结构的指令而播放歌曲的交互模式,即改变了“用户发出指令,机器执行指令”这样生硬的人机交互模式,实现更为自然、更具趣味性的交互过程。
在本发明的一个实施例中,播放模块403当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲包括:播放模块403用于当预置歌词库中存在多个与该语句文本相匹配的歌词时,比较相匹配的多个歌词对应的歌曲的历史播放次数,对历史播放次数最多的歌曲进行播放。
在本发明的一个实施例中,播放模块403当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲包括:播放模块403用于对于相匹配的歌词对应的歌曲,从该歌词开始处进行播放。
具体地,播放模块403播放相匹配的歌词对应的歌曲包括:播放模块403用于播放包含该歌词的歌曲片段。
作为一个可选的实施例,播放模块403当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲包括:播放模块403用于当预置歌词库中存在多个与该语句文本相匹配的歌词且相匹配的多个歌词对应于同一歌曲时,如果相匹配的多个歌词中存在对应于该歌曲的高潮部分的歌词,播放该歌曲中包含该相匹配的歌词的高潮部分。
进一步地,作为另一个可选的实施例,播放模块403当预置歌词库中存在与语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲还包括:播放模块403还用于当预置歌词库中存在多个与该语句文本相匹配的歌词且相匹配的多个歌词对应于同一歌曲时,如果相匹配的多个歌词中不存在对应于该歌曲的高潮部分的歌词但存在对应于该歌曲中带有主歌标识的歌词,播放该歌曲中包含该相匹配的歌词的带有主歌标识的部分;如果相匹配的多个歌词中不存在对应于该歌曲中高潮部分和带有主歌标识的歌词但存在对应于该歌曲中带有副歌标识的歌词,播放该歌曲中包含该相匹配的歌词的带有副歌标识的部分。
图5A示意性地示出了根据本发明另一个实施例的用于智能音箱的交互装置的框图。如图5A所示,该用于智能音箱的交互装置510包括:识别模块401、匹配模块402、播放模块403和语义分析模块404。其中识别模块401、匹配模块402和播放模块403在上文中已经说明,重复的部分不再赘述。
语义分析模块404用于在识别模块401得到识别后的语句文本之后,对该语句文本进行语义分析;当该语句文本的语义分析结果表明该语句文本不属于特定主题时,再通知匹配模块402执行上述基于该语句文本在预置歌词库中进行匹配的操作;当语义分析结果表明该语句文本属于特定主题时,基于该语义分析结果执行与该语义分析结果相对应的操作,通知匹配模块402不再执行上述基于语句文本在预置歌词库中进行匹配的操作。
图5B示意性地示出了根据本发明又一个实施例的用于智能音箱的交互装置的框图。如图5B所示,该用于智能音箱的交互装置520包括:识别模块401、匹配模块402、播放模块403、语义分析模块404和容错处理模块405。其中识别模块401、匹配模块402、播放模块403和语义分析模块404在上文中已经说明,重复的部分不再赘述。
容错处理模块405用于在识别模块401得到识别后的语句文本之后,对该语句文本进行容错处理。
匹配模块402基于该语句文本在预置歌词库中进行匹配包括如下任一项:匹配模块402用于将该语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。或者,匹配模块402用于直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
在本发明的一个实施例中,容错处理模块405对该语句文本进行容错处理包括如下至少一项:容错处理模块405用于去除该语句文本中的语气词;容错处理模块405用于将该语句文本中的第一人称代词转换为第二人称代词;或者,容错处理模块405用于将该语句文本中的第二人称代词转换为第一人称代词。
在本发明的一个实施例中,匹配模块402将该语句文本与预置歌词库中的歌词进行匹配包括:匹配模块402用于对于预置歌词库中的任一歌词,根据预设规则计算该语句文本与该歌词的匹配度,当匹配度超过预设阈值时,确定该歌词为与该语句文本相匹配的歌词。或者,匹配模块402将经过容错处理的语句文本与预置歌词库中的歌词进行匹配包括:匹配模块402用于对于预置歌词库中的任一歌词,根据预设规则计算经过容错处理的语句文本与该歌词的匹配度,当匹配度超过预设阈值时,确定该歌词为与该语句文本相匹配的歌词。
图5C示意性地示出了根据本发明再一个实施例的用于智能音箱的交互装置的框图。如图5C所示,该用于智能音箱的交互装置530包括:识别模块401、匹配模块402、播放模块403、语义分析模块404、容错处理模块405和预处理模块406。其中识别模块401、匹配模块402、播放模块403、语义分析模块404和容错处理模块405在上文中已经说明,重复的部分不再赘述。
作为一个可选的实施例,预处理模块406用于在匹配模块402基于语句文本在预置歌词库中进行匹配之前,获取推广歌曲信息、用户的收藏歌曲信息或用户的历史播放歌曲信息;根据所获取的歌曲信息进行歌曲去重;基于去重后的各歌曲生成预置歌词库。
作为另一个可选的实施例,预处理模块406用于在匹配模块402基于语句文本在预置歌词库中进行匹配之前,获取用户的收藏歌曲信息和/或用户的历史播放歌曲信息,基于收藏歌曲信息和/或历史播放歌曲信息,生成第一子歌词库;获取推广歌曲信息,基于推广歌曲信息生成第二子歌词库;由第一子歌词库和第二子歌词库构成预置歌词库。
在此基础上,匹配模块402基于语句文本在预置歌词库中进行匹配包括:匹配模块402用于先基于该语句文本在第一子歌词库中进行匹配,如果匹配失败,再基于该语句文本在第二子歌词库中进行匹配。
图5D示意性地示出了根据本发明再一个实施例的用于智能音箱的交互装置的框图。如图5D所示,该用于智能音箱的交互装置540包括:识别模块401、匹配模块402、播放模块403、语义分析模块404、容错处理模块405、预处理模块406和触发执行模块407。其中识别模块401、匹配模块402、播放模块403、语义分析模块404、容错处理模块405和预处理模块406在上文中已经说明,重复的部分不再赘述。
触发执行模块407用于响应于用户的第一触发操作,在播放模块403播放歌曲后,输出歌曲名称对应的语音信息;并且/或者,用于响应于用户的第二触发操作,在播放模块403播放歌曲后,从头开始播放该歌曲。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
示例性介质
在介绍了本发明示例性实施方式的方法和装置之后,接下来,对本发明示例性实施方式的、用于智能音箱的交互介质进行介绍。
本发明实施例提供了一种介质,存储有计算机可执行指令,上述指令在被处理器执行时用于实现上述方法实施例中任一项所述的用于智能音箱的交互方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于智能音箱的交互方法中的步骤,例如,所述计算设备可以执行如图2中所示的:操作S201,对用户输入的语音信息进行识别,得到识别后的语句文本;操作S202,基于该语句文本在预置歌词库中进行匹配;以及操作S203,当预置歌词库中存在与该语句文本相匹配的歌词时,播放相匹配的歌词对应的歌曲。当然,所述计算设备也可以执行如图3A所示的操作步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
图6示意性地示出了根据本发明实施方式的计算机可读存储介质产品的示意图,如图6所示,描述了根据本发明的实施方式的用于智能音箱的交互的程序产品60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,介绍根据本发明的另一示例性实施方式的用于智能音箱的交互计算设备。
本发明实施例还提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述指令时实现上述方法实施例中任一项所述的用于智能音箱的交互方法。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的用于智能音箱的交互计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的信息呈现方法中的步骤。例如,所述处理单元可以执行如图2中所示的:操作S201,对用户输入的语音信息进行识别,得到识别后的语句文本;操作S202,基于所述语句文本在预置歌词库中进行匹配;以及操作S203,当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。当然,所述计算设备也可以执行如图3A所示的操作步骤。
下面参照图7来描述根据本发明的这种实施方式的用于智能音箱的交互计算设备70。如图7所示的计算设备70仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算设备70以通用计算设备的形式表现。计算设备70的组件可以包括但不限于:上述至少一个处理单元701、上述至少一个存储单元702、连接不同系统组件(包括存储单元702和处理单元701)的总线703。
总线703表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元702可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)7021和/或高速缓存存储器7022,还可以进一步包括只读存储器(ROM)7023。
存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025,这样的程序模块7024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备70也可以与一个或多个外部设备704(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与计算设备70交互的设备通信,和/或与使得计算设备70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且,计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器706通过总线703与计算设备70的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备70使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了基于即时通信消息记录的区块链处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种用于智能音箱的交互方法,包括:
对用户输入的语音信息进行识别,得到识别后的语句文本;
基于所述语句文本在预置歌词库中进行匹配;
当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。
2.根据权利要求1所述的方法,在得到识别后的语句文本之后,还包括:
对所述语句文本进行语义分析;
当所述语句文本的语义分析结果表明所述语句文本不属于特定主题时,再执行所述基于所述语句文本在预置歌词库中进行匹配的操作;
当所述语义分析结果表明所述语句文本属于特定主题时,基于所述语义分析结果执行与所述语义分析结果相对应的操作,不再执行所述基于所述语句文本在预置歌词库中进行匹配的操作。
3.根据权利要求1所述的方法,其中,在得到识别后的语句文本之后,还包括:对所述语句文本进行容错处理;
所述基于所述语句文本在预置歌词库中进行匹配包括如下任一项:
将所述语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配;或者
直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
4.根据权利要求3所述的方法,其中,所述对所述语句文本进行容错处理包括如下至少一项:
去除所述语句文本中的语气词;
将所述语句文本中的第一人称代词转换为第二人称代词;或者,
将所述语句文本中的第二人称代词转换为第一人称代词。
5.一种用于智能音箱的交互装置,包括:
识别模块,用于对用户输入的语音信息进行识别,得到识别后的语句文本;
匹配模块,用于基于所述语句文本在预置歌词库中进行匹配;
播放模块,用于当所述预置歌词库中存在与所述语句文本相匹配的歌词时,播放所述相匹配的歌词对应的歌曲。
6.根据权利要求5所述的装置,还包括:语义分析模块;
语义分析模块,用于在所述识别模块得到识别后的语句文本之后,对所述语句文本进行语义分析;当所述语句文本的语义分析结果表明所述语句文本不属于特定主题时,再通知所述匹配模块执行所述基于所述语句文本在预置歌词库中进行匹配的操作;当所述语义分析结果表明所述语句文本属于特定主题时,基于所述语义分析结果执行与所述语义分析结果相对应的操作,通知所述匹配模块不再执行所述基于所述语句文本在预置歌词库中进行匹配的操作。
7.根据权利要求5所述的装置,还包括:容错处理模块;
容错处理模块,用于在所述识别模块得到识别后的语句文本之后,对所述语句文本进行容错处理;
所述匹配模块基于所述语句文本在预置歌词库中进行匹配包括如下任一项:所述匹配模块,用于将所述语句文本与预置歌词库中的歌词进行匹配,当匹配失败时,再将经过容错处理的语句文本与预置歌词库中的歌词进行匹配;或者,用于直接将经过容错处理的语句文本与预置歌词库中的歌词进行匹配。
8.根据权利要求7所述的装置,其中,所述容错处理模块对所述语句文本进行容错处理包括如下至少一项:
所述容错处理模块,用于去除所述语句文本中的语气词;用于将所述语句文本中的第一人称代词转换为第二人称代词;或者,用于将所述语句文本中的第二人称代词转换为第一人称代词。
9.一种介质,存储有计算机可执行指令,所述指令在被处理器执行时用于实现:
如权利要求1至4中任一项所述的用于智能音箱的交互方法。
10.一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述指令时实现:
如权利要求1至4中任一项所述的用于智能音箱的交互方法。
CN201811127131.0A 2018-09-26 2018-09-26 用于智能音箱的交互方法、介质、装置和计算设备 Active CN109377988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811127131.0A CN109377988B (zh) 2018-09-26 2018-09-26 用于智能音箱的交互方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811127131.0A CN109377988B (zh) 2018-09-26 2018-09-26 用于智能音箱的交互方法、介质、装置和计算设备

Publications (2)

Publication Number Publication Date
CN109377988A true CN109377988A (zh) 2019-02-22
CN109377988B CN109377988B (zh) 2022-01-14

Family

ID=65402709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811127131.0A Active CN109377988B (zh) 2018-09-26 2018-09-26 用于智能音箱的交互方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN109377988B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032076A (zh) * 2019-03-18 2019-07-19 佛山市云米电器科技有限公司 一种基于汽车智能家居互联的离家模式控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
US20030072463A1 (en) * 2001-10-17 2003-04-17 E-Lead Electronic Co., Ltd. Sound-activated song selection broadcasting apparatus
CN103885949A (zh) * 2012-12-19 2014-06-25 中国科学院声学研究所 一种基于歌词的歌曲检索系统及其检索方法
CN104409087A (zh) * 2014-11-18 2015-03-11 广东欧珀移动通信有限公司 歌曲文件播放方法和系统
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质
CN107958038A (zh) * 2017-11-21 2018-04-24 北京小米移动软件有限公司 音箱控制方法及装置
CN108090140A (zh) * 2017-12-04 2018-05-29 维沃移动通信有限公司 一种歌曲播放方法及移动终端
CN108366319A (zh) * 2018-03-30 2018-08-03 京东方科技集团股份有限公司 智能音箱及其语音控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
US20030072463A1 (en) * 2001-10-17 2003-04-17 E-Lead Electronic Co., Ltd. Sound-activated song selection broadcasting apparatus
CN103885949A (zh) * 2012-12-19 2014-06-25 中国科学院声学研究所 一种基于歌词的歌曲检索系统及其检索方法
CN104409087A (zh) * 2014-11-18 2015-03-11 广东欧珀移动通信有限公司 歌曲文件播放方法和系统
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质
CN107958038A (zh) * 2017-11-21 2018-04-24 北京小米移动软件有限公司 音箱控制方法及装置
CN108090140A (zh) * 2017-12-04 2018-05-29 维沃移动通信有限公司 一种歌曲播放方法及移动终端
CN108366319A (zh) * 2018-03-30 2018-08-03 京东方科技集团股份有限公司 智能音箱及其语音控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032076A (zh) * 2019-03-18 2019-07-19 佛山市云米电器科技有限公司 一种基于汽车智能家居互联的离家模式控制方法

Also Published As

Publication number Publication date
CN109377988B (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
US8504508B2 (en) Artificial intelligence system
CN102682769B (zh) 对数字网络进行基于自然语言的控制
CN107480161A (zh) 用于媒体探究的智能自动化助理
CN101467142A (zh) 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法
WO2007043679A1 (ja) 情報処理装置およびプログラム
JP2009123124A (ja) 楽曲検索システム及び方法並びにそのプログラム
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
TW201434600A (zh) 具有可因應不同聲音信號產生相對應肢體動作之機器人
CN109903773A (zh) 音频处理方法、装置及存储介质
CN100403299C (zh) 信息处理设备、信息处理方法
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN109492126B (zh) 一种智能交互方法及装置
CN102377692A (zh) 即时通信中声音信息映射性输出的方法、终端和系统
CN109377988A (zh) 用于智能音箱的交互方法、介质、装置和计算设备
Becker et al. Natural and intuitive multimodal dialogue for in-car applications: The SAMMIE system
TWI297123B (en) Interactive entertainment center
KR20130103243A (ko) 음성 인식을 이용한 음악 선곡 서비스 제공 방법 및 장치
Valle et al. Simulating the soundscape through an analysis/resynthesis methodology
CN108875047A (zh) 一种信息处理方法及系统
KR102623467B1 (ko) 사용자 보컬 평가 정보에 기반한 기획사 추천 서비스 제공 방법, 장치 및 시스템
JP3920204B2 (ja) 通信カラオケシステムにおける推奨楽曲選出方法
Berman et al. Using sound to understand software architecture
Harrison et al. A statistical-learning model of harmony perception
Parente Clique: perceptually based, task oriented auditory display for GUI applications
Löf Generating and Manipulating Sound: Tools for digital music production

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant