CN114639385A - 一种基于语音识别的推荐方法和计算机设备 - Google Patents
一种基于语音识别的推荐方法和计算机设备 Download PDFInfo
- Publication number
- CN114639385A CN114639385A CN202011383831.3A CN202011383831A CN114639385A CN 114639385 A CN114639385 A CN 114639385A CN 202011383831 A CN202011383831 A CN 202011383831A CN 114639385 A CN114639385 A CN 114639385A
- Authority
- CN
- China
- Prior art keywords
- information
- target
- recommendation
- classification
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004044 response Effects 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims description 22
- 238000003058 natural language processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000010365 information processing Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 16
- 239000013598 vector Substances 0.000 description 41
- 239000004615 ingredient Substances 0.000 description 12
- 235000004213 low-fat Nutrition 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000000796 flavoring agent Substances 0.000 description 6
- 235000015277 pork Nutrition 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 235000002597 Solanum melongena Nutrition 0.000 description 4
- 244000061458 Solanum melongena Species 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 235000021419 vinegar Nutrition 0.000 description 4
- 239000000052 vinegar Substances 0.000 description 4
- 239000002994 raw material Substances 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于语音识别的推荐方法和计算机设备,所述基于语音识别的推荐方法包括:获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;根据所述分类信息确定所述语音信息对应的目标推荐文件;根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。本发明确定语音信息对应的分类信息和关键词,可以先确定符合分类信息的目标推荐文件,进而基于关键词在目标推荐文件中确定推荐信息;通过分类信息和关键词的结合,可以查询到更符合用户意图的推荐信息,提高了语音交互确定推荐信息的准确性。
Description
技术领域
本申请涉及语音交互领域,特别是涉及一种基于语音识别的推荐方法和计算机设备。
背景技术
语音交互是通过语音向机器下发指令,并得到机器的反馈结果。语音交互可以设备进行控制操作,包括各种智能物联网设备,如智能电视、智能冰箱、智能音箱等。
目前,可以基于语音交互得到推荐信息,但是,现有的语音交互通常是提取关键字,查询关键字以得到推荐信息,但是查询关键词无法确定用户的真实意图标识,例如,识别关键词为“鱼香肉丝”,机器无法确定是查询“鱼香肉丝”的典故,还是查询“鱼香肉丝”相关的商家。这样,不能准确查询到用户真实想要的信息,语音交互得到推荐信息的准确性较差。
因此,现有技术有待改进。
发明内容
本发明提供了一种基于语音识别的推荐方法和计算机设备,根据目标分类标识确定语音信息对应的目标知识图谱,在所述目标知识图谱中确定查询结果,可以得到更准确的查询结果,提高了通过语音识别进行查询的准确性。
第一方面,本发明实施例提供了基于语音识别的推荐方法,包括:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
在进一步的改进方案中,所述确定所述语音信息对应的分类信息和关键词,具体包括:
对所述语音信息进行识别,以得到所述语音信息对应的文字信息;
将所述文字信息输入自然语言处理模型,通过所述自然语音处理模型输出所述语音信息对应的分类信息和关键词。
在进一步的改进方案中,所述分类信息包括目标分类标识;所述根据所述分类信息确定所述语音信息对应的目标推荐文件,具体包括:
在预设的若干知识图谱中查询所述目标分类标识对应的目标知识图谱,并将所述目标知识图谱作为所述语音信息对应的目标推荐文件;其中,所述若干知识图谱的分类标识互不相同。
在进一步的改进方案中,所述分类信息还包括意图标识,所述目标知识图谱包括若干集合,每个集合均有各自分别对应的集合标识;所述将所述目标知识图谱作为所述语音信息对应的目标推荐文件之后,还包括:
在所述若干集合中查询集合标识与所述意图标识一致的目标集合;
采用查询到的所述目标集合替换所述目标推荐文件,以得到替换后的目标推荐文件。
在进一步的改进方案中,所述若干知识图谱至少包括:菜谱知识图谱、音乐知识图谱和视频知识图谱;所述菜谱知识图谱的分类标识为第一分类标识,所述音乐知识图谱的分类标识为第二分类标识,所述视频知识图谱的分类标识为第三分类标识;
相应的,所述在预设的若干知识图谱中查询所述目标分类标识对应的目标知识图谱包括:
当所述目标分类标识为第一分类标识时,在预设的若干知识图谱中查询所述第一分类标识对应的目标知识图谱为菜谱知识图谱;
当所述目标分类标识为第二分类标识时,在预设的若干知识图谱中查询所述第二分类标识对应的目标知识图谱为音乐知识图谱;
当所述目标分类标识为第三分类标识时,在预设的若干知识图谱中查询所述第三分类标识对应的目标知识图谱视频知识图谱。
在进一步的改进方案中,所述根据所述关键词在所述目标推荐文件中选取推荐信息,具体包括:
在所述目标推荐文件中查询所述关键词对应的若干候选信息;
获取所述若干候选信息中每个候选信息各自对应的权重值;
基于获取的各权重值在所述若干候选信息中确定预设数值个推荐信息,其中,每个推荐信息的权重值均大于任意一个非推荐信息,所述非推荐信息是所述若干候选信息中除了预设数值个推荐信息以外的候选信息。
在进一步的改进方案中,所述将选取的推荐信息作为所述语音信息对应的应答信息之后,还包括:
将所述应答信息转换为语音形式,以得到语音应答信息,并播放所述语音应答信息。
第二方面,本发明实施例提供了一种基于语音识别的查询装置,包括:
语音信息处理模块,用于获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
目标推荐文件确定模块,用于根据所述分类信息确定所述语音信息对应的目标推荐文件;
推荐模块,用于根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例中,获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;根据所述分类信息确定所述语音信息对应的目标推荐文件;根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。本发明确定语音信息对应的分类信息和关键词,可以先确定符合分类信息的目标推荐文件,进而基于关键词在目标推荐文件中确定推荐信息;通过分类信息和关键词的结合,可以查询到更符合用户意图的推荐信息,提高了语音交互确定推荐信息的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于语音识别的推荐方法的应用场景的示意图;
图2为本发明实施例中Transformer编码结构的示意图;
图3为本发明实施例中菜谱知识图谱的示意图;
图4为本发明实施例中一种基于语音识别的查询装置的结构示意图;
图5为本发明实施例中具体实施时,基于语音识别的查询装置的结构示意图;
图6为本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个
其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
发明人经过研究发现,语音交互是通过语音向机器下发指令,并得到机器的反馈结果。语音交互可以设备进行控制操作,包括各种智能物联网设备,如智能电视、智能冰箱、智能音箱等。
目前,可以基于语音交互得到推荐信息,但是,现有的语音交互通常是提取关键字,查询关键字以得到推荐信息,但是查询关键词无法确定用户的真实意图标识,例如,识别关键词为“鱼香肉丝”,机器无法确定是查询“鱼香肉丝”的典故,还是查询“鱼香肉丝”相关的商家。这样,不能准确查询到用户真实想要的信息,语音交互得到推荐信息的准确性较差。
为了解决上述问题,在本发明实施例中,获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;根据所述分类信息确定所述语音信息对应的目标推荐文件;根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。本发明确定语音信息对应的分类信息和关键词,可以先确定符合分类信息的目标推荐文件,进而基于关键词在目标推荐文件中确定推荐信息;通过分类信息和关键词的结合,可以查询到更符合用户需求的推荐信息,提高了语音交互确定推荐信息的准确性。
本发明实施例提供的一种基于语音识别的推荐方法,可以应用于电子设备中,所述电子设备为可以接收语音信息,对语音信息进行处理的设备,例如,电脑、智能终端、智能电视、智能音箱、智能冰箱等设备。
参阅图1,本实施例提供了一种基于语音识别的推荐方法,包括:
S1、获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词。
在本发明实施例中,所述待处理的语音信息为用于查询推荐信息的语音信息。所述获取待处理的语音信息可以是获取用户发出的语音信息。例如,用户说出:“糖醋排骨怎么做”,则“糖醋排骨怎么做”则为待处理的语音信息。
在本发明实施例中,所述分类信息用于反映所述语音信息涉及的内容所对应的分类。例如,语音信息为:“糖醋排骨怎么做”,则分类信息为菜谱,语音信息为:“播放音乐黑色毛衣”,则分类信息为:音乐。
所述关键词是查询推荐信息所需的关键信息,通过关键词可以精确查询到符合用户需求的推荐信息。例如,语音信息为:“糖醋排骨怎么做”,则关键词为:糖醋排骨。
在本发明实施例中,可以通过现有的语音识别技术确定语音信息中对应的分类信息和关键词。为了提高分类信息和关键词的准确度,可以先将语音信息转换为文字信息,并利用自然语言处理对文字信息进行处理,以确定语音信息中对应的分类信息和关键词。
具体的,步骤S1包括:
S11、对所述语音信息进行识别,以得到所述语音信息对应的文字信息。
在本发明实施例中,可以通过自动语音识别技术(Automatic SpeechRecognition,ASR)将语音信息转换为文字信息。ASR进行语音识别的过程包括:预先获取多个训练语音,多个训练语音中的每个训练语音均有该训练语音对应的文字,确定每个训练语音对应的训练参数,将确定的所有训练参数存放在语音参数库中;接收到待查询的语音信息后,对语音信息进行分析,以得到语音信息对应的若干语音参数,对于每个语音参数,将该语音参数与语音数据库中的所有训练参数进行比较,确定最接近该语音参数的训练参数,将训练参数对应的文字作为该语音信息对应的文字,根据所有语音参数各自分别对应的文字确定所述语音信息对应的文字信息。
S12、将所述文字信息输入自然语言处理模型,通过所述自然语音处理模型输出所述语音信息对应的分类信息和关键词。
在本发明实施例中,通过自然语言处理模型对文字信息中各词语进行分类,以确定标注为分类标注的词语,以得到分类信息,以及确定标注为关键词标注的词语,以得到关键词。将属于分类标注的词语作为文字信息对应的分类信息,将属于关键词标注的词语作为文字信息对应的关键词。
所述自然语言处理模型为已经训练好的自然语言处理模型,所述自然语言处理模型包括:转换器的双向编码器(BidirectionalEncoder Representations fromTransformers,BERT)网络、双向长短期记忆循环(Bi-directional Long Short-TermMemory,BiLSTM)网络和条件随机场(Conditional Random Field,CRF)网络。
BERT网络可以学习到文字信息中词语与词语之间的关系,以得到词向量。词语可以是一个中文字符或者多个中文字符组成的词,词语也可以是英文的一个单词。具体的,首先对文字信息进行分词,得到多个词语,再获取多个词语中每个词语各自对应的初始词向量,将多个初始词向量输入BERT网络,得到每个词语对应的输出词向量。
BERT网络采用Transformer编码结构来构建,参见图2,示出了Transformer编码结构的示意图。接下来举例说明Transformer编码结构的处理流程。
假设输入为文字信息,将文字信息中的每个词语均转换为各自分别对应的初始词向量,为各初始词向量加上位置编码,位置编码表示每个词语在文字信息中的位置以及不同词语之间的距离,将加上了位置编码的词向量输入到多头注意力模型,将经过多头注意力模型的词向量和未经过多头注意力模型的词向量进行相加,然后再进行归一化处理,得到中间词向量,再将中间词向量输入到前馈神经网络,将经过前馈神经网络处理后的中间词向量和未经过前馈神经网络处理的中间词向量相加,然后再进行归一化处理,得到输出词向量。
BiLSTM网络,属于循环神经网络,包括前向LSTM网络和后向LSTM网络,通过BiLSTM网络可以确定每个词对应的标注。BiLSTM网络预先设定了若干标注,所述若干标注至少包括分类信息对应的分类标注和关键词标注,在确定文字信息中每个词语对应的标注之后,将属于分类标注的词语作为该文字信息对应的分类信息,将属于关键词标注的词语作为该文字信息对应的关键词。
具体的,将文字信息对应的各输出词向量以正序输入前向LSTM网络,得到每个输出词向量对应的前向记忆词向量,将文字信息对应的各输出词向量以倒序输入后向LSTM网络,得到每个输出词向量对应的后向记忆词向量;对于每个输出词向量,将该输出词向量对应的前向记忆词向量和后向记忆词向量合并,以得到该输出词向量对应的记忆词向量。根据各记忆词向量确定BiLSTM网络的输出矩阵。所述记忆词向量中的各元素是该记忆词向量对应的输出词向量对应每个标注的概率值。即对于每个输出词向量,可以得到该词向量对应每个标注的概率值,将该词向量对应每个标注的概率值中最大概率值对应的标注作为该词向量的标注。
例如,对于文字信息“我爱中国”,划分的词语为:“我”、“爱”和“中国”,“我”对应的输出词向量为t1、“爱”对应的输出词向量为t2,“中国”对应的输出词向量为t3;前向LSTM网络至少包括:第一前向LSTM子网络(LSTM-l1)、第二前向LSTM子网络(LSTM-l2)和第三前向LSTM子网络(LSTM-l3);后向LSTM网络至少包括:第一后向LSTM子网络(LSTM-r1)、第二后向LSTM子网络(LSTM-r2)和第三后向LSTM子网络(LSTM-r3)。前向输入包括:将t1输入LSTM-l1,得到h-l1,将h-l1和t2输入LSTM-l2,得到h-l2,将h-l2和t3输入LSTM-l3,得到h-l3;后向输入包括:将t3输入LSTM-r1,得到h-r1,将h-r1和t2输入LSTM-r2,得到h-r2,将h-r2和t1输入LSTM-r3,得到h-r3。将h-l1和h-r3合并,得到t1对应的记忆词向量f1,将h-l2和h-r2合并,得到t2对应的记忆词向量f2,将h-l3和h-r1合并,得到t3对应的记忆词向量f3。根据f1、f2和f3确定输出矩阵。
假设f1为(x1,x2,x3),f1是t1对应的记忆词向量,其中,x1表示:t1属于标注y1的概率,x2表示:t1属于标注y2的概率,x3表示:t1属于标注y3的概率,若(x1,x2,x3)中,x1最大时,则将y1作为t1对应的标注。假设标注y1为关键词标注,则t1为关键词,即,在“我爱中国”中,“我”对应的标注为关键词标注,此文字信息中的关键词为“我”。
CRF网络用于对BiLSTM网络输出的结果进行调整。BiLSTM网络的输出结果为输出矩阵,用于反映每个词语各自分别对应每个标注的概率,CRF网络添加了一些约束来保证预测的标注是合法的,通过CRF网络对BiLSTM网络得到的输出矩阵进行调整,以得到每个词语各自分别对应的标注,根据每个词语各自分别对应的标注,可以确定文字信息对应的分类信息和关键词。
S2、根据所述分类信息确定所述语音信息对应的目标推荐文件。
在本发明实施例中,所述分类信息包括目标分类标识,所述目标分类标识是用于反映所述语音信息涉及的内容所对应的分类的标识。所述目标分类标识可以通过文字形式表示,通过自然语言处理模型可以直接输出文字形式表示的分类信息和关键词,因此,通过自然语言处理模型可以直接输出文字形式表示的目标分类标识。
在本发明实施例中,终端预先保存了数据,预先保存的数据可以划分为多个数据集,每个数据集均有各自分别的分类标识,并且任意两个数据集各自分别对应的分类标识不同。数据集的分类标识用于反映数据集属于哪个分类。基于分类信息(分类信息包括目标分类标识)可以在多个数据集中确定一个数据集,将确定的数据集作为目标推荐文件。
具体的,预先保存了多个数据集,多个数据集的分类标识互不相同;分类信息包括目标分类标识,将目标分类标识与每个数据集各自对应的分类标识进行匹配,选取分类标识与目标分类标识一致的数据集,将选取得到的数据集作为目标推荐文件。
例如,多个数据集分别为:A1、A2、A3和A4,其中,A1的分类标识为s1,A2的分类标识为s2,A3的分类标识为s3,A4的分类标识为s4,假设目标分类标识为s1,则将A1作为目标推荐文件。
在本发明实施例中,所述预先保存的数据集,可以是通过知识图谱的形式保存的数据集。所述知识图谱,用于描述客观存在的各实体、每个实体的属性,以及实体与实体之间的关联,可以更全面地描述数据。根据知识图谱可以更符合用户需求的推荐信息。每个知识图谱均有该知识图谱对应的分类标识。
具体的,步骤S2包括:
S21、获取预先保存的若干知识图谱,其中,所述若干知识图谱的分类标识互不相同。
在本发明实施例中,所述若干知识图谱中的每个知识图谱均是预先建立的,所述若干知识图谱至少包括:菜谱知识图谱、音乐知识图谱和视频知识图谱。每个知识图谱均有其对应的分类标识,知识图谱的分类标识用于反映知识图谱属于哪个分类,即反映知识图谱的类别。所述菜谱知识图谱的分类标识为第一分类标识,所述音乐知识图谱的分类标识为第二分类标识,所述视频知识图谱的分类标识为第三分类标识。所述第一分类标识、所述第二分类标识和所述第三分类标识均可以通过文字表示。所述第一分类标识可以为菜谱,所述第二分类标识可以为音乐,所述第三分类标识可以为视频。
接下来介绍建立知识图谱的详细过程。
以建立菜谱知识图谱为例进行说明。首先,在网络中爬取菜谱数据,对菜谱数据进行清洗、去重,将原非结构化数据转化为多个csv格式文件,多个csv格式文件分别代表知识图谱中每个本体,以及该本体的属性。使用kg_operate.py的python脚本以及neo4j的cypher语言将多个csv格式文件导入neo4j图数据库,以建立菜谱知识图谱。
S22、在所述若干知识图谱中查询所述目标分类标识对应的目标知识图谱,并将所述目标知识图谱作为所述语音信息对应的目标推荐文件。
在本发明实施例中,确定目标分类标识后,将所述目标分类标识和预先保存的若干知识图谱各自分别对应的分类标识进行匹配,以在所述若干知识图谱中确定所述目标分类标识对应的目标知识图谱。
具体的,当所述目标分类标识为第一分类标识时,在预设的若干知识图谱中查询所述第一分类标识对应的目标知识图谱为菜谱知识图谱;当所述目标分类标识为第二分类标识时,在预设的若干知识图谱中查询所述第二分类标识对应的目标知识图谱为音乐知识图谱;当所述目标分类标识为第三分类标识时,在预设的若干知识图谱中查询所述第三分类标识对应的目标知识图谱为视频知识图谱。
例如,语音信息为:“糖醋排骨怎么做”,则目标分类标识为:“菜谱”,则可以确定目标知识图谱为菜谱知识图谱;语音信息为:“歌曲:黑色毛衣”,则目标分类标识为:“音乐”,则可以确定目标知识图谱为音乐知识图谱;语音信息为:“推荐一部意大利电影”,则目标分类标识为:“视频”,则可以确定目标知识图谱为视频知识图谱。当确定目标知识图谱为菜谱知识图谱,则菜谱知识图谱为所述语音信息对应的目标推荐文件。
为了得到更准确的推荐信息,可以缩小的目标推荐文件的数据量。经过步骤S22之后,确定了目标知识图谱为目标推荐文件,所述目标知识图谱包括若干集合,一个集合中包括的数据是目标知识图谱中一个分类对应的数据,每个集合均有各自分别对应的集合标识。集合标识用于反映一个集合的分类。所述分类信息还包括意图标识,所述意图标识用于反映用户意图,通过自然语言处理模块可以输出的文字形式表示的意图标识。基于意图标识可以在目标知识图谱中选取一个集合作为目标推荐文件。
具体的,步骤S22之后还包括:
S23、在所述若干集合中查询集合标识与所述意图标识一致的目标集合。
在本发明实施例中,目标知识图谱包括多个集合,多个集合是从不同的角度对目标知识图谱对应的数据进行分类得到的。将意图标识对应的集合为若干集合各自分别对应的集合标识进行匹配,以确定与所述意图标识一致的集合标识,并将与所述意图标识一致的集合标识所对应的集合作为目标集合。
接下来通过实例介绍目标图谱包括多个集合。
参见图3,菜谱知识图谱包括:总菜谱集合(cookbook);以菜系分类的集合(cusine),包括:川菜集合(集合标识为川菜)、粤菜集合(集合标识为粤菜)等;以类型分类的集合(type),包括:快手菜谱(集合标识为快手菜)、低脂菜谱(集合标识为低脂)等;以每个菜谱分类的集合(recipe),集合标识为每个菜的菜名;以原料分类的集合(ingredient),集合标识为原料的名称,例如,鸡肉、牛肉等。ingredient在图3中包括ingredient1和ingredient2,ingredient1可以包括一个种类的所有集合,ingredient2可以包括另一个种类的所有集合,例如ingredient1包括主要食材对应的原料集合,ingredient2表示配料对应的原料集合。其中,cusine、type和cookbook之间的BELONG_TO表示属于的关系,recipe与ingredient之间的HAS_INGREDIENT代表含有原料的关系。
例如,对于文字信息:“低脂版三明治的做法”,目标分类标识为:“菜谱”,意图标识为:“低脂”;则目标知识图谱为菜谱知识图谱,根据意图标识可以在菜谱知识图谱中确定目标集合为低脂集合。
音乐知识图谱包括:总音乐集合;以风格分类的集合,包括流行集合(集合标识为流行)、摇滚集合(集合标识为摇滚)、古风集合(集合标识为古风)等;以语言分类的集合,包括华语集合(集合标识为华语)、日韩集合(集合标识为日韩)、英语集合(集合标识为英语)等;以每首歌曲分类的集合,集合标识为每首歌曲对应的歌名;以表演者分类的集合,集合标识为每位表演者的姓名。其中,以风格分类的集合和以语言分类的集合均属于总音乐集合,以每首歌曲分类的集合属于以语言分类的集合,也属于以风格分类的集合,以表演者分类的集合属于以每首歌曲分类的集合。
例如,对于文字信息:“播放白色风车”,目标类别为:“音乐”,意图标识为:“白色风车”,目标知识图谱为音乐知识图谱,根据意图可以确定集合为以每首歌曲分类的集合,集合标识为:“白色风车”。
视频知识图谱包括:总视频集合(program-book)、以类型分类的集合(sub-program),包括电视剧集合(集合标识为电视剧)、电影集合(集合标识为电影)、综艺集合(集合标识为综艺)等;以语言分类的集合,包括华语集合(集合标识为华语)、日韩集合(集合标识为日韩)、英语集合(集合标识为英语)等;以特点分类的集合(type),包括休闲集合(集合标识为休闲)、搞笑集合(集合标识为搞笑)、科幻集合(集合标识为科幻)、教育集合(集合标识为教育)等;以每个视频分类的集合,集合标识为每个视频对应的名称;以表演者分类的集合,集合标识为每位表演者的姓名。
例如,对于文字信息:“收看综艺乘风破浪的姐姐们”,目标分类标识为:“视频”,意图标识为:“综艺”;目标知识图谱为视频知识图谱,根据意图标识可以确定目标集合为综艺集合。
在本发明实施例中,由于分类信息和关键词均为自然语言处理模型输出的文字形式的信息,应将分类信息和关键词转换为计算机能够识别的待处理式:{"domain":"cookbook","intent":"recipe_search","slot":{"ingredient_name":"茄子"}},其中,domain表示目标分类标识,intent表示意图标识,slot表示关键词。获取待处理式中的目标分类标识,通过目标分类标识确定目标知识图谱,并获取待处理式中的意图标识,通过意图标识在目标知识图谱中确定目标集合,以得到目标推荐文件。
S3、根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
在本发明实施例中,根据所述关键词在所述目标推荐文件中选取推荐信息,在目标推荐文件中,符合关键词的信息可能存在多个,需要在多个符合关键词的信息中选取推荐信息。
在本发明实施例中,所述目标分类标识、所述意图标识和所述关键词分别对应不同查询优先级,设定目标分类标识的查询优先级为第一优先级,意图标识的查询优先级为第二优先级,关键词的查询优先级为第三优先级。确定语音信息对应的目标分类标识、所述意图标识和所述关键词后,通过所述目标分类标识、所述意图标识和所述关键词确定推荐信息的过程,是按照查询优先级从高到低的顺序进行逐层查询,以确定推荐信息。
也就是说,通过所述目标分类标识、所述意图标识和所述关键词确定推荐信息包括三个层级的查询过程;首先,基于查询优先级为第一优先级的目标分类标识确定目标知识图谱,其次,基于查询优先级为第二优先级的意图标识,在目标知识图谱中确定目标集合,最后,基于查询优先级为第三优先级的关键词,在目标集合中查询关键词对应的推荐信息。
例如,对于文字信息:“低脂版三明治的做法”,通过自然语言处理模型已经得到文字信息对应的目标分类标识、意图标识和关键词;其中,目标分类标识为:“菜谱”,意图标识为:“低脂”,关键词为:“三明治”;则根据目标分类标识在若干知识图谱中确定目标知识图谱为菜谱知识图谱,根据意图标识可以在菜谱知识图谱中确定目标集合为低脂集合,在低脂集合中查询“三明治”对应的推荐信息。
具体的,步骤S3包括:
S31、在所述目标推荐文件中查询所述关键词对应的若干候选信息。
在本发明实施例中,通过关键词在目标推荐文件中查询到若干候选信息,例如,在上例中,在低脂集合中查询“三明治”对应的推荐信息,低脂集合中可能存在多个三明治的菜谱,将查询到的“三明治”的多个菜谱作为所述关键词对应的若干候选信息。
S32、获取所述若干候选信息中每个候选信息各自对应的权重值。
在本发明实施例中,所述权重值可以是每个候选信息对应的点击量,所述权重值可以是每个候选信息对应的评分,所述权重值还可以是每个候选信息对应的喜爱度,或者,所述权重值可以是点击量、评分和喜爱度的综合值。
S33、基于获取的各权重值在所述若干候选信息中确定预设数值个推荐信息,其中,每个推荐信息的权重值均大于任意一个非推荐信息,所述非推荐信息是所述若干候选信息中除了预设数值个推荐信息以外的候选信息。
在本发明实施例中,按照每个候选信息各自分别对应的权重值对若干候选信息进行排序,以得到一个候选信息队列。在所述候选信息队列中选择预设数值个推荐信息。所述预设数值可以自定义设置,例如设置为25。在若干候选信息中,除了预设数值个推荐信息以外的候选信息为非推荐信息。
在本发明实施例中,在确定目标知识图谱后,根据关键词和意图标识确定适用于知识图谱查询的cypher语言,根据关键词和意图标识对应的cypher语言在目标知识图谱中确定查询结果。
例如,确定意图标识为菜谱后,即目标集合为“菜谱集合”,则关键词和意图标识对应的cypher语言可以是:"MATCH(ingredient_name:ingredient{name:"茄子"})-[:HAS_INGREDIENT]<-(recipes)RETURN recipes LIMIT 25",其中,关键词为“茄子”,"ingredient"是目标推荐文件(原料集合),25是预设数值。意思是,在原料集合:ingredient中查询25个符合关键词“茄子”的推荐信息。
在本发明实施例中,所述若干候选信息的数量可能小于预设数值。例如,语音信息为:白色风车的主唱是谁,则可能只有一个若干候选信息,当所述若干候选信息的数量小于预设数值时,则将所述若干候选信息作为查询结果。
在具体实施时,所述预设数值也可以设置为1,即在所述若干候选信息中选取权重值最大的推荐信息。
S4、将所述应答信息转换为语音形式,以得到语音应答信息,并播放所述语音应答信息。
在本发明实施例中,可以实现对话形式的查询,即用户发出语音,设备得到推荐信息后,将应答信息转换为语音应答信息,通过发声单元,以播放语音应答信息。具体的,通过从文本到语音(Text To Speech,TTS)的方法,可以将应答信息转换为语音形式,以得到语音应答信息,通过设备中的发声单元播放语音应答信息。
在本发明实施例中,当执行所述基于语音识别的推荐方法的设备具有显示功能时,可以将应答信息显示出来。
在本发明实施例中,获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;根据所述分类信息确定所述语音信息对应的目标推荐文件;根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。本发明确定语音信息对应的分类信息和关键词,可以先确定符合分类信息的目标推荐文件,进而基于关键词在目标推荐文件中确定推荐信息;通过分类信息和关键词的结合,可以查询到更符合用户意图的推荐信息,提高了语音交互确定推荐信息的准确性。
基于上述一种基于语音识别的推荐方法,参见图4,本发明实施例还提供了一种基于语音识别的查询装置,包括:
语音信息处理模块,用于获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
目标推荐文件确定模块,用于根据所述分类信息确定所述语音信息对应的目标推荐文件;
推荐模块,用于根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
进一步地,参见图5,所述语音信息处理模块包括:语音采集单元、自动语音识别(Automatic Speech Recognition,ASR)单元和自然语言处理(Natural LanguageProcessing,NLP)单元。所述语音采集单元用户获取语音信息;所述ASR单元用于将语音信息转换为文字信息,所述NLP单元用于对文字信息进行识别,以得到语音信息确定分类信息和关键词。所述基于语音识别的查询装置还包括:从文本到语音(Text To Speech,TTS)单元、发声单元和显示单元。TTS单元用于将应答信息转换为语音应答信息,发声单元用于播放语音应答信息,显示单元用于显示应答信息。
具体实施时,语音采集单元采集语音信息,将语音信息发送到自动语音识别单元,通过自动语音识别单元用于将所述语音信息转换为文字信息,在通过自然语言处理单元对文字信息进行处理,以得到文字信息对应的分类信息和关键词。目标推荐文件确定模块根据所述分类信息确定所述语音信息对应的目标推荐文件,推荐模块根据所述关键词在所述目标推荐文件中选取推荐信息。即在目标知识图谱中确定目标知识图谱,通过关键词在目标知识图谱中查询推荐信息。将推荐信息作为语音信息对应的应答信息,通过从文本到语音单元将应用信息转换为语音应答信息,通过发生单元播放语音应答信息,并通过显示单元显示应答信息。
在一个实施例中,本发明提供了一种计算机设备,该设备可以是终端,内部结构如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6所示的仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于语音识别的推荐方法,其特征在于,包括:
获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
根据所述分类信息确定所述语音信息对应的目标推荐文件;
根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
2.根据权利要求1所述的基于语音识别的推荐方法,其特征在于,所述确定所述语音信息对应的分类信息和关键词,具体包括:
对所述语音信息进行识别,以得到所述语音信息对应的文字信息;
将所述文字信息输入自然语言处理模型,通过所述自然语音处理模型输出所述语音信息对应的分类信息和关键词。
3.根据权利要求1所述的基于语音识别的推荐方法,其特征在于,所述分类信息包括目标分类标识;所述根据所述分类信息确定所述语音信息对应的目标推荐文件,具体包括:
在预设的若干知识图谱中查询所述目标分类标识对应的目标知识图谱,并将所述目标知识图谱作为所述语音信息对应的目标推荐文件;其中,所述若干知识图谱的分类标识互不相同。
4.根据权利要求3所述的基于语音识别的推荐方法,其特征在于,所述分类信息还包括意图标识,所述目标知识图谱包括若干集合,每个集合均有各自分别对应的集合标识;所述将所述目标知识图谱作为所述语音信息对应的目标推荐文件之后,还包括:
在所述若干集合中查询集合标识与所述意图标识一致的目标集合;
采用查询到的所述目标集合替换所述目标推荐文件,以得到替换后的目标推荐文件。
5.根据权利要求3所述的基于语音识别的推荐方法,其特征在于,所述若干知识图谱至少包括:菜谱知识图谱、音乐知识图谱和视频知识图谱;所述菜谱知识图谱的分类标识为第一分类标识,所述音乐知识图谱的分类标识为第二分类标识,所述视频知识图谱的分类标识为第三分类标识;
相应的,所述在预设的若干知识图谱中查询所述目标分类标识对应的目标知识图谱包括:
当所述目标分类标识为第一分类标识时,在预设的若干知识图谱中查询所述第一分类标识对应的目标知识图谱为菜谱知识图谱;
当所述目标分类标识为第二分类标识时,在预设的若干知识图谱中查询所述第二分类标识对应的目标知识图谱为音乐知识图谱;
当所述目标分类标识为第三分类标识时,在预设的若干知识图谱中查询所述第三分类标识对应的目标知识图谱视频知识图谱。
6.根据权利要求5所述的基于语音识别的推荐方法,其特征在于,所述根据所述关键词在所述目标推荐文件中选取推荐信息,具体包括:
在所述目标推荐文件中查询所述关键词对应的若干候选信息;
获取所述若干候选信息中每个候选信息各自对应的权重值;
基于获取的各权重值在所述若干候选信息中确定预设数值个推荐信息,其中,每个推荐信息的权重值均大于任意一个非推荐信息,所述非推荐信息是所述若干候选信息中除了预设数值个推荐信息以外的候选信息。
7.根据权利要求1所述的基于语音识别的推荐方法,其特征在于,所述将选取的推荐信息作为所述语音信息对应的应答信息之后,还包括:
将所述应答信息转换为语音形式,以得到语音应答信息,并播放所述语音应答信息。
8.一种基于语音识别的查询装置,其特征在于,包括:
语音信息处理模块,用于获取待处理的语音信息,并确定所述语音信息对应的分类信息和关键词;
目标推荐文件确定模块,用于根据所述分类信息确定所述语音信息对应的目标推荐文件;
推荐模块,用于根据所述关键词在所述目标推荐文件中选取推荐信息,并将选取的推荐信息作为所述语音信息对应的应答信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的基于语音识别的推荐方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的基于语音识别的推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383831.3A CN114639385A (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的推荐方法和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383831.3A CN114639385A (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的推荐方法和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114639385A true CN114639385A (zh) | 2022-06-17 |
Family
ID=81945226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011383831.3A Pending CN114639385A (zh) | 2020-12-01 | 2020-12-01 | 一种基于语音识别的推荐方法和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114639385A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628140A (zh) * | 2023-07-20 | 2023-08-22 | 湖南华菱电子商务有限公司 | 基于人机交互的信息推送方法及装置、人机交互系统 |
-
2020
- 2020-12-01 CN CN202011383831.3A patent/CN114639385A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628140A (zh) * | 2023-07-20 | 2023-08-22 | 湖南华菱电子商务有限公司 | 基于人机交互的信息推送方法及装置、人机交互系统 |
CN116628140B (zh) * | 2023-07-20 | 2023-10-27 | 湖南华菱电子商务有限公司 | 基于人机交互的信息推送方法及装置、人机交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
WO2018157703A1 (zh) | 自然语言的语义提取方法及装置和计算机存储介质 | |
US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
CN109241524A (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN113569088B (zh) | 一种音乐推荐方法、装置以及可读存储介质 | |
CN111444326B (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN101271459B (zh) | 一种生成词库的方法、一种输入的方法和一种输入法系统 | |
KR102475235B1 (ko) | 리소스 정렬 방법, 정렬 모델을 트레이닝하는 방법 및 대응하는 장치 | |
CN111046225B (zh) | 音频资源处理方法、装置、设备及存储介质 | |
CN109976702A (zh) | 一种语音识别方法、装置及终端 | |
CN109920409B (zh) | 一种声音检索方法、装置、系统及存储介质 | |
CN111626049A (zh) | 多媒体信息的标题修正方法、装置、电子设备及存储介质 | |
CN105488135A (zh) | 直播内容分类方法及装置 | |
CN113704507B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
US20220058213A1 (en) | Systems and methods for identifying dynamic types in voice queries | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
Kilgour et al. | Text-driven separation of arbitrary sounds | |
CN112382287A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN114639385A (zh) | 一种基于语音识别的推荐方法和计算机设备 | |
CN114328913A (zh) | 一种文本分类方法、装置、计算机设备和存储介质 | |
CN113506553A (zh) | 一种基于迁移学习的音频自动标注方法 | |
CN117235250A (zh) | 一种对话摘要生成方法、装置和设备 | |
CN111353070A (zh) | 视频标题的处理方法、装置、电子设备及可读存储介质 | |
JP6571231B1 (ja) | 検索装置および方法 | |
CN112447173A (zh) | 语音交互方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |