CN107221323B - 语音点歌方法、终端及存储介质 - Google Patents

语音点歌方法、终端及存储介质 Download PDF

Info

Publication number
CN107221323B
CN107221323B CN201710413702.6A CN201710413702A CN107221323B CN 107221323 B CN107221323 B CN 107221323B CN 201710413702 A CN201710413702 A CN 201710413702A CN 107221323 B CN107221323 B CN 107221323B
Authority
CN
China
Prior art keywords
song
label
music
music attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710413702.6A
Other languages
English (en)
Other versions
CN107221323A (zh
Inventor
马雅茹
刘昕
苟津川
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rubu Technology Co.,Ltd.
Original Assignee
Beijing Rubo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rubo Technology Co Ltd filed Critical Beijing Rubo Technology Co Ltd
Priority to CN201710413702.6A priority Critical patent/CN107221323B/zh
Publication of CN107221323A publication Critical patent/CN107221323A/zh
Application granted granted Critical
Publication of CN107221323B publication Critical patent/CN107221323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音点歌方法、终端及存储介质,其中该方法包括:接收用户输入的语音信息;从语音信息中获取至少一个音乐属性标签;根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲;输出所述对应的歌曲。本发明通过音乐属性标签进行多轮语义分析,结合上下文综合理解用户意图,能够找到更符合用户需求的音乐资源,提高音乐服务的成功率;同时降低了对用户的要求,用户可以通过多轮对话逐渐细化自己的听歌需求。

Description

语音点歌方法、终端及存储介质
技术领域
本发明实施例涉及音乐服务技术,尤其涉及一种语音点歌方法、终端及存储介质。
背景技术
现有的基于语义理解的音乐服务主要是通过解析用户单句的查询意图,从中抽取“歌曲”或者“歌手”的信息,然后从音乐资源库中查找抽取到的信息,得到符合要求的音乐资源进行播放。
但是上述服务模式过于单一,并不符合正常的语言交互模式,所以对用户的要求很高,用户需要在一句简短的语音中将意图表达清楚,否则服务将反馈失败。另外,当用户需要一定的推理和询问帮助他完成意图表达时,这种简单的音乐服务也无法满足用户的需求,从而造成服务反馈失败。
针对上述问题,目前没有提出有效的解决方案。
发明内容
本发明提供一种语音点歌方法、终端及存储介质,能够推荐更符合用户需求的音乐,降低对用户的要求。
第一方面,本发明实施例提供了一种语音点歌方法,包括:
接收用户输入的语音信息;
从所述语音信息中获取至少一个音乐属性标签;
根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲;
输出所述对应的歌曲。
进一步地,从所述语音信息中获取至少一个音乐属性标签,包括:
对所述语音信息进行语音识别,得到语音识别结果;
将语音识别结果与预设的音乐属性标签库进行匹配,确定所述语音识别结果中包含的至少一个音乐属性标签,其中,所述音乐属性标签库包括:互为近义词的标签。
进一步地,在查找对应的歌曲之后,所述方法还包括:
存储本轮查找所使用的音乐属性标签及所述语音信息的输入时间。
进一步地,根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲,包括:
判断所述上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签的个数是否超过预设个数;
如果超过预设个数,按照第一预设规则丢弃部分音乐属性标签,保留预设个数的音乐属性标签;
按照预设个数的音乐属性标签查找对应的歌曲。
进一步地,在输出所述对应的歌曲之后,所述方法还包括:
如果所述对应的歌曲播放完毕,按照第二预设规则丢弃部分音乐属性标签,按照调整后的音乐属性标签重新查找对应的歌曲,并输出重新查找到的歌曲。
进一步地,在输出重新查找到的歌曲之后,所述方法还包括:
如果最后一个音乐属性标签对应的歌曲播放完毕,则重播该歌曲直到接收到新的语音信息。
进一步地,根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲,包括:
如果根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,无法查找到对应的歌曲,则丢弃上一轮查找过程所使用的音乐属性标签中的部分或全部标签,按照调整后的音乐属性标签查找对应的歌曲。
进一步地,在从所述语音信息中获取至少一个音乐属性标签之后,所述方法还包括:
如果所述至少一个音乐属性标签中包括歌曲信息,将所述歌曲信息与预设音乐词典中的信息进行匹配;
根据匹配的信息判断所述歌曲信息是否存在错误;
如果存在错误,按照所述匹配的信息更正所述歌曲信息。
第二方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的语音点歌方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的语音点歌方法。
本发明实施例的语音点歌方法、终端及存储介质,通过音乐属性标签进行多轮语义分析,结合上下文综合理解用户意图,能够找到更符合用户需求的音乐资源,提高音乐服务的成功率;同时降低了对用户的要求,用户可以通过多轮对话逐渐细化自己的听歌需求。
附图说明
图1是本发明实施例一提供的语音点歌方法的流程图;
图2是本发明实施例四提供的终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的语音点歌方法的流程图,本实施例可适用于音乐服务的情况,尤其是语音点歌的情况,该方法可以由语音点歌终端来执行,例如具有语音收发和数据处理功能的终端。如图1所示,该方法具体包括如下步骤:
步骤110,接收用户输入的语音信息。
其中,用户使用自然语言输入语音信息,例如,用户输入语音“我想听周杰伦的叶惠美”、“因为爱情”、“播放薛之谦的歌”等。
步骤120,从语音信息中获取至少一个音乐属性标签。
本步骤可以通过以下方式实现:对语音信息进行语音识别,得到语音识别结果,其中语音识别结果可以是文字信息;将语音识别结果与预设的音乐属性标签库进行匹配,确定语音识别结果中包含的至少一个音乐属性标签,其中,音乐属性标签库包括:互为近义词的标签。也就是说,从语音识别结果中查找与音乐属性标签库中的标签一致的内容,例如,语音识别结果是“我想听一首中文民谣”,将这句话与标签库中的标签进行匹配,抽取到“中文”、“民谣”两个标签。
具体可以使用现有的语音识别方法进行语音识别,例如,基于动态时间规整的算法、基于参数模型的隐马尔可夫法、基于非参数模型的矢量量化法、基于人工神经网络的算法等,本发明实施例对语音识别过程不进行详细说明。
音乐属性标签库可以参考已有的常用的音乐资源属性进行建立,属性类别如歌曲风格、乐器、歌手名、歌曲名、专辑名、语种等。举例而言,按歌曲风格构建的标签包括:摇滚、金属、流行、民谣等;按乐器构建的标签包括:萨克斯、钢琴曲、小提琴等;按语种构建的标签包括:英文、日语、韩语、粤语、中文等;按场景构建的标签包括:催眠、运动、婚礼;按歌手名构建的标签包括:周杰伦、孙燕姿、陈奕迅等。由于不同用户的语言表述是多样的,因此,本实施例的音乐属性标签库中设置同一标签对应的近义词(也称为规约词),以便更加准确的理解用户意图。例如,“英文”对应的近义词可以有“欧美”、“英语”,因为用户可能会说“我要听英文/英语/欧美歌”,因此音乐属性标签库可以存储互为近义词的标签“英文”、“欧美”和“英语”,以满足不同用户语言表述。音乐属性标签库能够保证每个音乐资源均有其对应的一个或多个标签来标明其属性。音乐属性标签库可以直接存储所有标签,也可以按照属性类别存储标签,或者采用其他存储方式,本发明实施例对此不进行限定。标签库越丰富完整,对于用户意图的解析就会更准确。音乐属性标签库可以存储在终端或服务器中。
步骤130,根据上一轮查找过程所使用的音乐属性标签与本轮获取的上述至少一个音乐属性标签,查找对应的歌曲。
本步骤中结合上一轮使用的标签及根据本轮语音获取的标签进行歌曲查找,相当于在用户的语音上下文中抽取关键信息,这样能够为用户推荐更符合需求预期的音乐资源。这种方式可以称为标签继承、上下文语义分析或者多轮语义分析。具体可以从音乐资源库查找歌曲,音乐资源库可以存储在终端或服务器中。查找到的歌曲可以是一首或多首。
为了查找某歌曲,用户可能会接连发出几条语音,以精确表达自己的意图,这几条语音中可能会出现重复的词语,通过标签继承会获取到重复的标签,为此本实施例在查找歌曲之前,可以对上一轮使用的标签和根据当前语音获取的标签进行查重,对重复的标签仅保留一个,这样使得最终参与查找的标签不存在冗余,更为清楚简洁。
步骤140,输出对应的歌曲。
本步骤中,输出可以是显示和/或播放。具体的,可以针对查找到的歌曲生成歌单,然后对歌单进行显示和/或播放。如果查找到多首歌曲,可以按照预设顺序播放查找到的歌曲,例如,先播放排名靠前的歌曲;也可以将歌曲展示给用户,根据用户的选择播放对应的歌曲。优选的,在查找到对应的歌曲后,可以显示提示信息或播放一段语音提示,例如,用户输入的语音信息是“南山南”,根据标签“南山南”查找到该歌曲后,显示提示信息“请欣赏南山南”或者播放语音提示“请欣赏南山南”,并播放该歌曲。
本实施例的技术方案通过音乐属性标签进行多轮语义分析,结合上下文综合理解用户意图,能够找到更符合用户需求的音乐资源,提高音乐服务的成功率;同时降低了对用户的要求,用户可以通过多轮对话逐渐细化自己的听歌需求。
在上述技术方案的基础上,优选的,在查找对应的歌曲之后,可以存储本轮查找所使用的音乐属性标签及该语音信息的输入时间。其中,每一轮查找以对应的语音输入时间为基准,由此根据语音信息的输入时间可以确定上一轮使用的标签,便于执行标签继承操作。
优选的,可以设置预设时间段,例如10分钟,在接收语音信息后,根据本轮语音信息的输入时间,获取本轮语音信息之前预设时间段内使用的标签,结合预设时间段内使用的标签和根据本轮语音获取的标签查找对应的歌曲。例如,9:00接收到语音信息,获取8:50至9:00之间使用的标签,结合该标签和根据当前语音获取的标签进行歌曲查找。考虑到时间间隔太长的语音,其所要查找的歌曲相关性较差,盲目的标签继承会降低歌曲查找的准确率,因此本优选实施方式设置预设时间段,可以避免不必要的标签继承,保证歌曲查找效率和准确度。
优选的,在步骤130中,如果根据上一轮查找过程所使用的音乐属性标签与本轮获取的至少一个音乐属性标签,无法查找到对应的歌曲,则丢弃上一轮查找过程所使用的音乐属性标签中的部分或全部标签,按照调整后的音乐属性标签查找对应的歌曲。如果根据调整后的标签能够查找到歌曲,则将调整后的标签作为本轮所使用的标签进行存储。如果标签调整后,仍然找不到对应的歌曲,则可以提示用户未查找到该歌曲,具体可以通过显示文字提示、语音提示、灯光提示等。
考虑到会出现新的音乐风格、歌手、专辑、歌曲等,因此本发明实施例中可以对音乐属性标签库进行更新,例如,可以根据工作人员输入的信息进行更新,也可以按照预设时间间隔自动获取信息以进行更新。对音乐属性标签库进行更新,能够保证标签的及时性和全面性,从而可以更准确地理解用户意图,提供满足用户需求的音乐资源。
此外,考虑到标签继承是基于同一用户账号的,在步骤130之前,上述方法还可以包括:获取当前用户的用户账号;将该用户账号与上一轮查找过程所对应的用户账号进行比较;如果一致,则根据上一轮查找过程所使用的音乐属性标签与本轮获取的至少一个音乐属性标签查找对应的歌曲;如果不一致,则根据本轮获取的至少一个音乐属性标签查找对应的歌曲。由此可以避免不同用户账号的标签继承,从而避免不必要的流程,提高歌曲查找效率。
实施例二
在上述实施例一的基础上,本实施例提供了步骤130的优选实施方式,包括如下步骤:判断上一轮查找过程所使用的音乐属性标签与本轮获取的至少一个音乐属性标签的个数是否超过预设个数;如果超过预设个数,按照第一预设规则丢弃部分音乐属性标签,保留预设个数的音乐属性标签;按照预设个数的音乐属性标签查找对应的歌曲。
其中,预设个数可以根据实际情况进行设置,保证不会因为标签继承个数过多导致查找速度慢,也不会因为无关的上下文标签继承导致所查找到的歌曲并非用户想听的歌曲。例如预设个数可以是3个。第一预设规则可以根据实际情况进行设置,例如,第一预设规则可以是丢弃时间最早的一个或多个标签;也可以是丢弃除了根据当前语音获取的标签之外的任意标签;还可以将标签显示给用户,提示用户选择丢弃哪些标签或者使用哪些标签。
如果根据预设个数的音乐属性标签不能查到对应的歌曲,则再次丢弃其中一个或多个标签,按照调整后的音乐属性标签查找对应的歌曲;如果根据预设个数的音乐属性标签能够查找到对应的歌曲,则将该预设个数的音乐属性标签作为本轮所使用的标签进行存储,并存储接收到语音信息的时间。
本实施例中,考虑到无限的标签继承,会导致查找不到对应的歌曲,需要对标签进行一次或多次调整,进而导致查找速度慢,耗时较长,因此设置了预设个数和第一预设规则,丢弃部分标签,始终保持预设个数的标签,保证歌曲查找效率和准确性。
优选的,在输出对应的歌曲之后,上述方法还可以包括:如果对应的歌曲播放完毕,按照第二预设规则丢弃部分音乐属性标签,按照调整后的音乐属性标签重新查找对应的歌曲,并输出重新查找到的歌曲。其中,第二预设规则可以是丢弃时间最早的一个或多个标签。
如果最后一个音乐属性标签对应的歌曲播放完毕,则重播该歌曲直到接收到新的语音信息。
本优选实施方式中,在歌曲播放完毕的情况下,通过调整标签进一步查找歌曲进行播放,直到用户发起新的语音信息,能够满足用户需求。
举例而言,用户发出语音“播一首适合睡前听的歌”,获取其中的标签是“睡前音乐”,根据该标签查找到tinpaula deanda:《why would i ever》,进行播放。之后用户再次发出语音“要听钢琴曲”,获取标签“钢琴曲”,同时默认继承上轮标签“睡前音乐”,综合两个标签查找符合“睡前音乐”和“钢琴曲”两个特征的音乐资源,查找到睡前钢琴曲《散落》,进行播放。用户再次发出语音“换个陈辉阳的”,获取标签“陈辉阳”,由于之前两轮中共继承累积了两个标签,还未达到三个标签的上限,故继承本轮标签后,综合三个标签查找符合“睡前音乐”、“钢琴曲”和“陈辉阳”三个特征的音乐资源,查找到陈辉阳的爱一个人,进行播放。
另外,可以根据用户输入的信号,对标签继承功能进行开启或关闭,更加方便用户根据自己的习惯进行语音点歌。
实施例三
本实施例在上述各实施例的基础上,提供了对语音识别结果进行纠错的实施方式,以提高歌曲查找的准确性。在从语音信息中获取至少一个音乐属性标签之后,上述方法还可以包括:如果至少一个音乐属性标签中包括歌曲信息,将歌曲信息与预设音乐词典中的信息进行匹配;根据匹配的信息判断歌曲信息是否存在错误;如果存在错误,按照匹配的信息更正歌曲信息。
其中,歌曲信息是指歌手、歌名、专辑名等具有确定文字的信息。预设音乐词典存储有音乐资源的属性信息及其对应关系,属性信息是歌手、歌名、专辑名等具有确定文字的信息,例如,预设音乐词典存储有歌曲、该歌曲的演唱者、该歌曲所属的专辑。匹配的信息可以包括完全匹配信息和部分匹配信息。
例如,接收到用户语音信息,音乐属性标签中包括歌曲信息“孙燕姿”和“第一”,通过与预设音乐词典中的信息进行匹配,没有找到“第一”且存在相似度较高的“第一天”,并且在预设音乐词典中“第一天”的演唱者是“孙燕姿”,由此将“第一”纠正为“第一天”。
考虑到歌手名、歌曲名、专辑等会存在音同字不同的情况,可以使用拼音对歌曲信息与预设音乐词典中的信息进行匹配,具体的,按照歌曲信息的文字和拼音从预设音乐词典中获取与该歌曲信息匹配的信息。简单来讲,如果匹配的属性信息中不包括与歌曲信息文字完全匹配的信息,可以确定该歌曲信息存在错误。错误类型可以是文字缺失或多余、拼音相同但文字不同等。
判断歌曲信息是否存在错误以及更正歌曲信息,包括以下情况:
(1)在仅有一个歌曲信息的情况下,判断匹配的信息中是否包括与歌曲信息文字完全匹配的信息;如果是,则确定该歌曲信息识别正确;如果否,则确定该歌曲信息存在错误。
其中如果除了文字完全匹配的信息之外,还存在其他同音不同字的信息或者相近的信息,也可以输出这些信息,提示用户进行选择。
例如,用户输入语音:黑色毛衣,语音识别结果也是黑色毛衣,通过其文字、拼音与预设音乐词典进行匹配,匹配的信息是黑色毛衣(这属于完全匹配信息),由此确定语音识别结果是正确的。假如除了黑色毛衣之外,匹配的信息还包括灰色毛衣(这属于部分匹配信息),则可以确定黑色毛衣识别正确,也可以将黑色毛衣和灰色毛衣展示给用户,提示用户进行选择。具体的,可以是语音输出匹配的信息,如1代表选择黑色毛衣,2代表选择灰色毛衣,用户语音答复1或2;也可以是在显示屏上显示匹配的信息,用户可以通过点击按键进行选择,也可以通过语音答复1或2进行选择。
在仅有一个歌曲信息的情况下,按照匹配的信息更正该歌曲信息的过程如下:
1)如果有多个匹配的信息且不包括文字完全匹配的信息,则分别计算各匹配的信息与该歌曲信息的相似度,将歌曲信息更正为相似度最大的信息。其中计算相似度的方法可以使用现有技术,例如,基于语义词典(如Wordnet、Hownet)的词语相似度算法,把所有词语组织在树形结构中,通过计算节点之间的路径长度作为词语距离;又如,基于语料统计的词语相似度算法,利用词语向量空间模型,该模型事先选择一组特征词,计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量),于是对每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。本发明对具体相似度计算过程不进行详细说明。
例如,语音识别结果和歌曲信息均是半岛,根据半岛和bandao进行匹配,在预设音乐词典里找到匹配的信息是半岛铁盒和伴岛,均不是文字完全匹配的信息,则分别计算半岛铁盒、伴岛与半岛的相似度,例如,基于语料统计的词语相似度算法进行计算,得到半岛铁盒与半岛的相似度最高,因此将半岛更正为半岛铁盒。这属于文字缺失的情况。
2)如果仅有一个匹配的信息且不是文字完全匹配的信息,则将该歌曲信息更正为该匹配的信息。
例如,语音识别结果和歌曲信息均是半岛,根据半岛和bandao进行匹配,在预设音乐词典里找到匹配的信息是半岛铁盒,结果唯一且不是文字完全匹配的信息,则将半岛更正为半岛铁盒。
又如,语音识别结果和歌曲信息均是“不想长大呀”,根据“不想长大呀”和“buxiangzhangdaya”进行匹配,在预设音乐词典里找到部分匹配信息是“不想长大”,结果唯一且不是文字完全匹配的信息,则将“不想长大呀”更正为“不想长大”。这属于文字多余的情况。
(2)在有多个歌曲信息的情况下,针对当前歌曲信息,根据预设音乐词典判断当前歌曲信息匹配的信息是否与其他识别正确的歌曲信息存在对应关系;如果是,则确定当前歌曲信息识别正确;如果否,则确定当前歌曲信息存在错误。
例如,语音识别结果是:我要听杨宗纬和张碧晨唱的良良,歌曲信息有杨宗纬、张碧晨、良良,通过与预设音乐词典的匹配,确定杨宗纬和张碧晨是识别正确的歌曲信息;将“良良”和“liangliang”分别在预设音乐词典中进行匹配,找到匹配的信息有良良和凉凉,此时根据与杨宗纬、张碧晨的对应关系进行判断,可以确定歌曲信息“良良”存在错误。这属于同音字导致的错误。
在有多个歌曲信息的情况下,按照匹配的信息更正歌曲信息的过程如下:根据识别正确的歌曲信息、与各歌曲信息匹配的属性信息及属性信息的对应关系,更正存在错误的歌曲信息。
例如,语音识别结果是:我要听杨宗纬和张碧晨唱的良良,确定歌曲信息有杨宗纬、张碧晨、良良,将“良良”和“liangliang”分别在预设音乐词典中进行匹配,找到匹配的信息及其对应关系如下:歌手良良演唱的良良、歌手杨宗纬和张碧晨演唱的凉凉,由此根据歌手名可以确定用户想要听的应该是凉凉,由此将良良更正为凉凉。
又如,语音识别结果是:我要听陈奕迅的圣诞节,歌曲信息为陈奕迅和圣诞节,利用“圣诞节”和“shengdanjie”在预设音乐词典里找到匹配的信息圣诞结及其演唱者陈奕迅,由此根据歌手名可以确定圣诞节是识别错误的,将圣诞节更正为圣诞结。这属于同音字导致的错误。
(3)如果不存在任何匹配的信息,则输出提示信息,提示用户输入语音错误;或者仍然按照语音识别结果进行歌曲检索,输出歌曲检索结果。
考虑到音乐资源会随时增加,本发明实施例可以根据更新的音乐资源对预设音乐词典进行更新,保证预设音乐词典的及时性和准确性,进而保证能够及时弥补语音识别错误的情况。
本实施例通过预设音乐词典对语音识别结果进行纠错,能够规避语音识别中出现的文字缺失、文字多余以及同音字导致的文字错误的情况,减少了由于资源名称不完整、资源名称文字多余或者文字识别错误造成的音乐资源检索错误或失败,提高音乐服务的成功率。
实施例四
图2是本发明实施例四提供的终端的结构示意图,如图2所示,该终端包括:处理器210、存储器220、输入装置230和输出装置240;终端中处理器210的数量可以是一个或多个,图2中以一个处理器210为例;终端中的处理器210、存储器220、输入装置230和输出装置240可以通过总线或其他方式连接,图2中以通过总线连接为例。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本发明实施例中的语音点歌方法对应的程序指令。处理器210通过运行存储在存储器220中的软件程序及指令,从而执行终端的各种功能应用以及数据处理,即实现上述的语音点歌方法。
存储器220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器220可进一步包括相对于处理器210远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置230可用于接收输入的语音信息和字符信息,以及产生与终端的用户设置以及功能控制有关的键信号输入,例如,输入装置230可以是麦克风、键盘、显示屏等。输出装置240可包括扬声器、显示屏等设备,其中扬声器用于播放语音和歌曲,显示屏用于显示歌曲及相关信息。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行一种语音点歌方法,该方法包括:
接收用户输入的语音信息;
从语音信息中获取至少一个音乐属性标签;
根据上一轮查找过程所使用的音乐属性标签与本轮获取的上述至少一个音乐属性标签,查找对应的歌曲;
输出对应的歌曲。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储有计算机程序(也称为计算机可执行指令),其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音点歌方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种语音点歌方法,其特征在于,包括:
接收用户输入的语音信息;
从所述语音信息中获取至少一个音乐属性标签;
根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲;
输出所述对应的歌曲;
其中,根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲,包括:
判断所述上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签的个数是否超过预设个数;
如果超过预设个数,按照第一预设规则丢弃部分音乐属性标签,保留预设个数的音乐属性标签;
按照预设个数的音乐属性标签查找对应的歌曲。
2.根据权利要求1所述的方法,其特征在于,从所述语音信息中获取至少一个音乐属性标签,包括:
对所述语音信息进行语音识别,得到语音识别结果;
将语音识别结果与预设的音乐属性标签库进行匹配,确定所述语音识别结果中包含的至少一个音乐属性标签,其中,所述音乐属性标签库包括:互为近义词的标签。
3.根据权利要求1所述的方法,其特征在于,在查找对应的歌曲之后,所述方法还包括:
存储本轮查找所使用的音乐属性标签及所述语音信息的输入时间。
4.根据权利要求1所述的方法,其特征在于,在输出所述对应的歌曲之后,所述方法还包括:
如果所述对应的歌曲播放完毕,按照第二预设规则丢弃部分音乐属性标签,按照调整后的音乐属性标签重新查找对应的歌曲,并输出重新查找到的歌曲。
5.根据权利要求4所述的方法,其特征在于,在输出重新查找到的歌曲之后,所述方法还包括:
如果最后一个音乐属性标签对应的歌曲播放完毕,则重播该歌曲直到接收到新的语音信息。
6.根据权利要求1所述的方法,其特征在于,根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,查找对应的歌曲,包括:
如果根据上一轮查找过程所使用的音乐属性标签与本轮获取的所述至少一个音乐属性标签,无法查找到对应的歌曲,则丢弃上一轮查找过程所使用的音乐属性标签中的部分或全部标签,按照调整后的音乐属性标签查找对应的歌曲。
7.根据权利要求1所述的方法,其特征在于,在从所述语音信息中获取至少一个音乐属性标签之后,所述方法还包括:
如果所述至少一个音乐属性标签中包括歌曲信息,将所述歌曲信息与预设音乐词典中的信息进行匹配;
根据匹配的信息判断所述歌曲信息是否存在错误;
如果存在错误,按照所述匹配的信息更正所述歌曲信息。
8.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的语音点歌方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的语音点歌方法。
CN201710413702.6A 2017-06-05 2017-06-05 语音点歌方法、终端及存储介质 Active CN107221323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710413702.6A CN107221323B (zh) 2017-06-05 2017-06-05 语音点歌方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710413702.6A CN107221323B (zh) 2017-06-05 2017-06-05 语音点歌方法、终端及存储介质

Publications (2)

Publication Number Publication Date
CN107221323A CN107221323A (zh) 2017-09-29
CN107221323B true CN107221323B (zh) 2019-05-28

Family

ID=59947114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710413702.6A Active CN107221323B (zh) 2017-06-05 2017-06-05 语音点歌方法、终端及存储介质

Country Status (1)

Country Link
CN (1) CN107221323B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918653B (zh) * 2017-11-16 2022-02-22 百度在线网络技术(北京)有限公司 一种基于喜好反馈的智能播放方法和装置
CN107943793A (zh) * 2018-01-10 2018-04-20 威盛电子股份有限公司 自然语言的语义解析方法
CN110148393B (zh) * 2018-02-11 2023-12-15 阿里巴巴集团控股有限公司 音乐生成方法、装置和系统以及数据处理方法
CN108376540A (zh) * 2018-05-07 2018-08-07 深圳乐华高科实业有限公司 一种智能卡拉ok系统及其使用方法
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109830240A (zh) * 2019-03-25 2019-05-31 出门问问信息科技有限公司 基于语音操作指令识别用户特定身份的方法、装置及系统
US12061971B2 (en) 2019-08-12 2024-08-13 Micron Technology, Inc. Predictive maintenance of automotive engines
US11042350B2 (en) * 2019-08-21 2021-06-22 Micron Technology, Inc. Intelligent audio control in vehicles
CN115203466A (zh) * 2021-04-12 2022-10-18 博泰车联网科技(上海)股份有限公司 确定音频的方法、计算机存储介质和电子设备
CN114154516A (zh) * 2021-11-17 2022-03-08 深圳Tcl新技术有限公司 对话管理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法
CN102236686A (zh) * 2010-05-07 2011-11-09 盛乐信息技术(上海)有限公司 语音分段式歌曲检索方法
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103870565A (zh) * 2014-03-11 2014-06-18 华东师范大学 一种基于互动百科知识的语义逻辑引导的搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100775585B1 (ko) * 2006-12-13 2007-11-15 삼성전자주식회사 문자 메시지에 대한 음악 추천 방법 및 그 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法
CN102236686A (zh) * 2010-05-07 2011-11-09 盛乐信息技术(上海)有限公司 语音分段式歌曲检索方法
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103870565A (zh) * 2014-03-11 2014-06-18 华东师范大学 一种基于互动百科知识的语义逻辑引导的搜索方法

Also Published As

Publication number Publication date
CN107221323A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107221323B (zh) 语音点歌方法、终端及存储介质
CN107239547B (zh) 用于语音点歌的语音纠错方法、终端及存储介质
US20210173834A1 (en) Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US10956006B2 (en) Intelligent automated assistant in a media environment
US10917758B1 (en) Voice-based messaging
US10811013B1 (en) Intent-specific automatic speech recognition result generation
CN110430476B (zh) 直播间搜索方法、系统、计算机设备和存储介质
US20180365567A1 (en) Voice activated virtual assistant with a fused response
JP6333831B2 (ja) 会話型インターフェースの一部として動的に適用されるフィルタリングオペレータを伴う適応会話状態管理のための方法
GB2458238A (en) Web site system for voice data search
US9922650B1 (en) Intent-specific automatic speech recognition result generation
Dethlefs et al. Conditional random fields for responsive surface realisation using global features
CN107247768A (zh) 语音点歌方法、装置、终端及存储介质
US20230022966A1 (en) Method and system for analyizing, classifying, and node-ranking content in audio tracks
US20240249718A1 (en) Systems and methods for phonetic-based natural language understanding
US20240221726A1 (en) Systems and methods for improving content discovery in response to a voice query
US20240185846A1 (en) Multi-session context
US11582174B1 (en) Messaging content data storage
US11823671B1 (en) Architecture for context-augmented word embedding
US20230070618A1 (en) Systems and methods for processing negation in natural language search queries
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
US11935533B1 (en) Content-related actions based on context
US11804225B1 (en) Dialog management system
CN117651943A (zh) 显示设备
Zidouni et al. Semantic annotation of transcribed audio broadcast news using contextual features in graphical discriminative models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Applicant after: Beijing Rubo Technology Co., Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Applicant before: BEIJING INTELLIGENT HOUSEKEEPER TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210825

Address after: 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100038

Patentee after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun County Economic Development Zone, Beijing 101500

Patentee before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right