CN113204685A

CN113204685A - 资源信息获取方法及装置、可读存储介质、电子设备

Info

Publication number: CN113204685A
Application number: CN202110450145.1A
Authority: CN
Inventors: 石凯
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-03

Abstract

本公开涉及人工智能技术领域，提供了一种资源信息获取方法及装置、可读存储介质、电子设备，该方法包括：识别语音信息对应的文本信息，并获取所述文本信息对应的实体片段；计算所述实体片段与实体资源库中各预存实体之间的相似系数，根据所述相似系数在所述预存实体中确定多个候选实体；分别计算各所述候选实体与所述实体片段之间的编辑距离，根据所述编辑距离在多个所述候选实体中确定目标实体；获取所述目标实体对应的目标资源信息，并将所述目标资源信息发送至终端。本公开通过多层召回策略，在实体资源库中模糊匹配出与实体片段相对应的目标实体，提高了目标资源信息的准确率。

Description

资源信息获取方法及装置、可读存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种资源信息获取方法、资源信息获取装置、计算机可读存储介质及电子设备。

背景技术

随着人工智能的飞速发展，越来越多的移动终端安装有具备语音助手功能的应用程序，以更好的实现与用户的交互功能。在实际应用场景中，语音助手采集的用户语音信息呈现时效性的特点。当一个热点事件发生后，用户询问相关热点实体的频率激增。

现有技术中，通过预先配置实体资源库，并采用将用户语音信息与实体资源库进行精确匹配的方案，召回与用户语音信息相关的资源链接。但是，对于新生的热门实体，不少与用户尚处于探索学习阶段，难以完全准确地描述实体名称。采用现有技术中精确匹配的方法，会存在无法召回资源链接，或召回的资源链接不足的情况，获取资源信息的效率低。

发明内容

本公开的目的在于提供一种资源信息获取方法、资源信息获取装置、计算机可读存储介质及电子设备，进而至少在一定程度上解决了现有技术中资源信息获取效率低的问题。

根据本公开的第一方面，提供一种资源信息获取方法，所述方法包括：识别语音信息对应的文本信息，并获取所述文本信息对应的实体片段；计算所述实体片段与实体资源库中各预存实体之间的相似系数，根据所述相似系数在所述预存实体中确定多个候选实体；分别计算各所述候选实体与所述实体片段之间的编辑距离，根据所述编辑距离在多个所述候选实体中确定目标实体，并获取所述目标实体对应的目标资源信息。

根据本公开的第二方面，提供一种资源信息获取装置，所述资源信息获取装置包括：实体片段获取模块，用于识别语音信息对应的文本信息，并获取所述文本信息对应的实体片段；候选实体确定模块，用于计算所述实体片段与实体资源库中各预存实体之间的相似系数，根据所述相似系数在所述预存实体中确定多个候选实体；资源信息获取模块，用于分别计算各所述候选实体与所述实体片段之间的编辑距离，根据所述编辑距离在多个所述候选实体中确定目标实体，并获取所述目标实体对应的目标资源信息。

根据本公开的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的资源信息获取方法。

根据本公开的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的资源信息获取方法。

由上述技术方案可知，本公开示例性实施例中的指令信息获取方法及装置、系统、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开的资源信息获取方法，识别语音信息对应的文本信息，并获取文本信息对应的实体片段；首先，计算实体片段与实体资源库中各预存实体之间的相似系数，根据相似系数在预存实体中确定多个候选实体；然后，分别计算各候选实体与实体片段之间的编辑距离，根据编辑距离在多个候选实体中确定目标实体，并获取目标实体对应的目标资源信息。本公开中的资源信息获取方法，能够通过相似系数从实体资源库中粗召回多个候选实体，再通过编辑距离对粗召回的多个候选实体进行精确召回，得到目标实体。本方法通过多层召回策略，在实体资源库中模糊匹配出与实体片段相对应的目标实体，提高了目标实体与实体片段的相关度，进而提升了目标资源信息的准确率，进而提升了用户与移动终端的交互体验。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了热点事件频次与事件的关系结构示意图；

图2示意性示出了本示例性实施方式的一种系统架构的示意图；

图3示意性示出了本示例性实施方式的电子设备的示意图；

图4示意性示出了根据本公开的一实施例的资源信息获取方法的流程示意图；

图5示意性示出了根据本公开的一实施例的判断文本信息的所属领域的方法流程示意图；

图6示意性示出了根据本公开的一实施例的计算相似系数的方法流程示意图；

图7示意性示出了根据本公开的一实施例的确定目标实体的方法流程示意图；

图8示意性示出了根据本公开的一实施例的另一确定目标实体的方法流程示意图；

图9示意性示出了根据本公开的一实施例的更新实体资源库的方法流程示意图；

图10示意性示出了根据本公开的一实施例的确定预存实体的方法流程示意图；

图11示意性示出了根据本公开的一实施例的计算热词得分的方法流程示意图；

图12示意性示出了根据本公开的一具体实施例的资源信息获取方法的流程示意图；

图13示意性示出了根据本公开的一实施例的资源信息获取装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本领域的相关技术中，受社会新闻、娱乐消息、影视综艺等热点事件的影响，语音助手采集的用户需求呈现显著的时效性的特点。对于新生的热点实体名词，不少用户尚处于探索学习阶段，难以完全准确地描述清楚实体名称。例如，综艺节目《乘风破浪的姐姐》播出后，不少用户的用户需求是：“我想看乘风破浪”。除此之外，语音识别技术对新实体的识别能力不够，例如，教育类APP“题拍拍”上架后，语音识别技术的识别结果为“提拍拍”，“T拍拍”等。如果采用精确匹配的方案，上述实体都无法召回，导致资源信息获取的效率较低，进而使得语音助手的智能程度较低，用户体验较差。

另外，当一个热点事件发生后，用户询问相关热点实体的频率激增。图1示出了热点事件频次与事件的关系结构示意图，如图1所示，热点事件频次随时间变化可分为爆发期、消退期和稳定期三个阶段。如果在爆发前期做好干预，为该热点事件的热点实体适配相关资源，则可以取得较大收益；如果在消退期才适配资源，则收益很小，用户体验较差。

现有的语音助手针对上述场景产生的技术问题，大多采用的方案是人工挖掘和适配。当热点事件发生后，由运营人员观察线上用户语音信息对应的热门实体，如果发现了相关热门实体的请求量剧增，则适配相关资源，并扩充热门实体的模糊说法以提高召回。这种人工挖掘热门实体的方法有如下缺点：1.时效性不足，当人工发现热门实体，完成资源适配和模糊召回整个流程后，热门事件可能已经处于消退期，会导致资源不合理分配。2.召回不足，线上用户语音信息的量级非常大，运营人员不可能全部观察，只能采取抽样的方式，召回的资源不足。3.人工成本高，没有实现自动化过程，需要长期配备运营人员，不仅耗费大量的人力物力，热门实体挖掘的效率也较低。

基于相关技术中存在的问题，本公开实施例首先提供了一种资源信息获取方法，该资源信息获取方法应用于本公开示例性实施方式的系统架构中。图2示出了本公开示例性实施方式的一种系统架构的示意图，如图2所示，该系统架构200可以包括：终端210、网络220和服务器230。终端210可以是具有音频采集功能的各种电子设备，包括但不限于手机、平板电脑、个人电脑、智能穿戴设备等。网络220用以在终端210和服务器230之间提供通信链路的介质，可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。应该理解，图2中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器230可以是多个服务器组成的服务器集群等。

本公开实施方式所提供的资源信息获取方法可以由终端210执行，例如在终端210获取语音信息，根据语音信息确定目标实体，并获取目标实体对应的目标资源信息。

另外，本公开实施方式所提供的的资源信息获取方法也可以由服务器230执行，例如终端210获取语音信息之后，将语音信息上传到服务器230，使服务器230根据语音信息确定目标实体，获取目标实体对应的目标资源信息，并将目标资源信息返回至终端210，本公开对此不做限定。

本公开的示例性实施方式提供一种用于实现资源信息获取方法的电子设备，其可以是图2中的终端210或服务器230。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行资源信息获取方法。

电子设备可以以各种形式来实施，例如可以包括手机、平板电脑、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)、导航装置、可穿戴设备、无人机等移动设备，以及台式电脑、智能电视等固定设备。

下面以图3中的移动终端300为例，对电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图3中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端300可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端300的结构限定。在另一些实施方式中，移动终端300也可以采用与图3不同的接口连接方式，或多种接口连接方式的组合。

如图3所示，移动终端300具体可以包括：处理器310、内部存储器321、外部存储器接口322、USB接口330、充电管理模块340、电源管理模块341、电池342、天线1、天线2、移动通信模块350、无线通信模块360、音频模块370、扬声器371、受话器372、麦克风373、耳机接口374、传感器模块380、显示屏幕390、摄像模组391、指示器392、马达393、按键394以及用户标识模块(Subscriber Identification Module，SIM)卡接口395等。传感器模块380可以包括触摸传感器3801、压力传感器3802、陀螺仪传感器3803、气压传感器3804等。

移动终端300通过图形处理器(Graphics Processing Unit，缩写：GPU)、显示屏幕390及应用处理器等实现显示功能。GPU用于执行数学和几何计算，以实现图形渲染，并连接显示屏幕390和应用处理器。处理器310可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。移动终端300可以包括一个或多个显示屏幕390，用于显示图像，视频等。

移动终端300可以通过音频模块370、扬声器371、受话器372、麦克风373、耳机接口374及应用处理器等实现音频功能。例如音乐播放、录音等。音频模块370用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。扬声器371，用于将音频电信号转换为声音信号。受话器372，用于将音频电信号转换成声音信号。麦克风373，用于将声音信号转换为电信号。耳机接口374，用于连接有线耳机。

下面对本公开示例性实施方式的资源信息获取方法和资源信息获取装置进行具体说明。图4示出了资源信息获取方法的流程示意图，如图4所示，该资源信息获取方法至少包括以下步骤：

步骤S410：识别语音信息对应的文本信息，并获取文本信息对应的实体片段；

步骤S420：计算实体片段与实体资源库中各预存实体之间的相似系数，根据相似系数在预存实体中确定多个候选实体；

步骤S430：分别计算各候选实体与实体片段之间的编辑距离，根据编辑距离在多个候选实体中确定目标实体，并获取目标实体对应的目标资源信息。

本公开中的资源信息获取方法，能够通过相似系数从实体资源库中粗召回多个候选实体，再通过编辑距离对粗召回的多个候选实体进行精确召回，得到目标实体。本方法通过多层召回策略，在实体资源库中模糊匹配出与实体片段相对应的目标实体，提高了目标实体与实体片段的相关度，进而提升了目标资源信息的准确率，进而提升了用户与移动终端的交互体验。

为了使本公开的技术方案更清晰，接下来对指令信息获取方法的各步骤进行说明。

在步骤S410中，识别语音信息对应的文本信息，并获取文本信息对应的实体片段。

在本公开的示例性实施例中，移动终端可以接收并响应用户的录音请求，开启录音功能，实时采集用户的语音信息。其中，录音请求可以是用户通过触发移动终端上的录音按钮所形成的，还可以是用户通过预设语音唤醒移动终端上的录音功能所形成的。该预设语音可以是用户自定义设置的语音信息，还可以是移动终端预先设定的语音信息，本公开对此不做具体限定。

在本公开的示例性实施例中，在获取到语音信息之后，通过语音识别技术识别语音信息对应的文本信息。其中，语音识别技术可以是自动语音识别(Automatic SpeechRecognition，ASR)技术。

在本公开的示例性实施例中，可以通过文本实体识别技术获取文本信息对应的实体片段。实体片段可以包括人名、地名、机构名、专有名词等。

具体地，可以将文本信息输入命名实体识别(Named Entity Recognition，NER)模型中，以使NER模型对文本信息进行实体提取，以得到文本信息对应的一个或多个实体片段。其中，NER模型可以为BiLSTM+CRF、BERT等深度学习模型，本公开对此不做具体限定。比如，若文本信息为“帮我打开王者荣耀游戏”，则经过文本实体识别获取到的实体片段为“王者荣耀”。

在本公开的示例性实施例中，由于语音助手线上的语音信息数量较大，为了提高效率，一般采用领域分治的方案。即判断语音信息对应的所属领域，针对领域的不同，采用不同的处理方案。因此，在获取文本信息对应的实体片段之前，可以通过判断文本信息的所属领域，并根据所属领域对文本信息进行筛选。

具体地，图5示出了判断文本信息的所属领域的方法流程示意图，如图5所示，该流程至少包括步骤S510至步骤S520，详细介绍如下：

在步骤S510中，根据文本信息确定文本信息对应的领域信息。

在本公开的示例性实施例中，可以将文本信息输入领域分类模型中，根据领域分类模型获取文本信息对应的领域信息。其中，领域分类模型可以为fasttext、textCNN、BERT等深度学习模型，本公开对此不做具体限定。

在步骤S520中，在根据领域信息判定文本信息属于目标领域时，获取文本信息对应的实体片段。

在本公开的示例性实施例中，领域信息可以是领域标识，根据领域标识判定文本信息对应的所属领域。在该文本信息对应的所属领域为目标领域时，进行文本信息的实体片段的获取。

其中，目标领域可以包括游戏领域、视频领域、音频领域、应用程序领域等一个或多个领域，本公开对目标领域的数量和类型不做具体限定。

另外，若文本信息对应的所属领域不属于上述目标领域的范畴，则可以将所属领域作为文本信息的标签，并将文本信息放入文本信息库中。当然，还可以将属于目标领域的文本信息也放入文本信息库中。

在本公开的示例性实施例中，在获得文本信息对应的实体片段之后，判断实体资源库中是否存在实体片段，若实体资源库中存在该实体片段，则可以直接从实体资源库中获取实体片段对应的资源信息作为目标资源信心。

其中，将实体片段与实体资源库中的预存实体进行匹配，根据匹配结果来判断实体资源库中是否存在实体片段。具体地，若实体片段与实体资源库中的任一预存实体完全匹配，即匹配度为100％，则判定实体资源库中存在实体片段；若实体片段与实体资源库中的所有预存实体均不完全匹配，则判定实体资源库中不存在实体片段。

在步骤S420中，计算实体片段与实体资源库中各预存实体之间的相似系数，根据相似系数在预存实体中确定多个候选实体。

在本公开的示例性实施例中，实体资源库存储有一个或多个预存实体、各预存实体对应的一个或多个资源信息。其中，资源信息可以包括购买链接信息，下载链接信息，详情介绍信息，热点新闻信息等，本公开对此不做具体限定。可以将一个或多个预存实体，以及各预存实体对应的一个或多个资源信息以key-value键值对的形式存储至实体资源库中，预存实体作为键值对的key值，预存实体对应的资源信息作为键值对的value值。

在本公开的示例性实施例中，由于语音信息可能存在口语化、模糊描述、环境噪声、ASR识别有误的情况，基于实体资源库的精确匹配方案不能有效召回目标实体，进而无法获得目标资源信息。本实施例采用基于局部敏感哈希的粗召回，局部敏感哈希是一种通过哈希变换计算文本相似度的算法，计算复杂度为O(log(n))，计算耗时不会随实体资源库中预存实体数量的增加而线性增加。

图6示出了计算相似系数的方法流程示意图，如图6所示，该流程至少包括步骤S610至步骤S620，详细介绍如下：

在步骤S610中，将实体片段与实体片段的拼音信息进行合并，以得到合并实体片段，并计算合并实体片段对应的哈希码。

在本公开的示例性实施例中，获取实体片段对应的拼音信息，可以将实体片段中的每个字与各字对应的拼音信息按照文本顺序进行合并，还可以将整体的实体片段与该整体实体片段对应的整体拼音信息进行合并，以得到合并实体片段。在得到合并实体片段之后，将合并实体片段进行哈希变换得到合并实体片段对应的哈希码。

举例而言，若实体片段为“和平静音”，则该实体片段对应的合并实体片段可以是“和he平ping静jing音yin”，该合并实体片段对应的哈希码为“0110110001”。

当然，该实体片段对应的合并实体片段还可以是“和平静音hepingjingyin”。

在步骤S620中，根据合并实体片段对应的哈希码和各合并预存实体对应的哈希码计算相似系数。

在本公开的示例性实施例中，该相似系数可以是杰卡德相似系数(Jaccardsimilarity coefficient)，可以通过局部敏感哈希算法计算合并实体片段对应的哈希码和各预存实体对应的哈希码之间的杰卡德距离(Jaccard Distance)，利用1减去杰卡德距离即为杰卡德相似系数。实体片段与预存实体之间的杰卡德距离越小，表明相似系数越大。

其中，可以预先按照上述实施例中计算合并实体片段对应的哈希码的方式，计算各预存实体对应的哈希码，并将各预存实体对应的哈希码存储是实体资源库中。通过直接在实体资源库中获取各预存实体对应的哈希码，计算各预存实体与实体片段之间的相似系数。

比如，表1示出了实体资源库中部分预存实体，如表1所示，实体资源库中存储有预存实体，预存实体与预存实体的拼音信息合并生成的合并预存实体，以及合并预存实体对应的哈希码。

表1实体资源库中的部门预存实体

预存实体	合并预存实体	哈希码
			王者荣耀	王wang者zhe荣rong耀yao	1101101010
火线精英	火huo线xian精jing英ying	0110110101
			使命召唤	使shi命ming召zhao唤huan	0011000011
和平营地	和he平ping营ying地di	0110110011
			和平精英	和he平ping精jing英ying	0110110001

本实施例的方法，一方面，采用将实体片段及实体片段对应的拼音信息合并作为输入计算相似系数，解决了汉语中同音字模糊匹配问题，提高了相似系数的计算准确率；另一方面，采用基于局部敏感哈希的粗召回，不仅能在实体资源库中找到最相关的实体，还不会增加计算量，减少系统消耗。

在本公开的示例性实施例中，可以通过哈希变换得到实体片段以及各预存实体对应的哈希码，计算实体片段对应的哈希码与各预存实体对应的哈希码之间的杰卡德距离，将该杰卡德距离作为实体片段与预存实体之间的相似系数。

在本公开的示例性实施例中，按照实体片段与各预存实体之间的相似系数，对各预存实体进行排序。可以按照相似系数从大到小的顺序排序，获取前预设个数的预存实体作为候选实体。其中，预设个数可以根据实际情况进行设定，比如，可以获取top100的预存实体作为候选实体，还可以获取top200的预存实体作为候选实体，本公开对此不做具体限定。

在步骤S430中，分别计算各候选实体与实体片段之间的编辑距离，根据编辑距离在多个候选实体中确定目标实体，并获取目标实体对应的目标资源信息。

在本公开的示例性实施例中，编辑距离是指两个字符串之间，由一个字符串转成另一个字符串所需的最小编辑操作次数。可以通过计算各候选实体与实体片段之间的编辑距离，还可以通过计算合并候选实体与合并实体片段之间的编辑距离。

比如，实体片段为“和平静音”与部分候选实体之间的编辑距离d如下：

d(和he平ping静jing音yin，火huo线xian精jing英ying)＝11

d(和he平ping静jing音yin，和he平ping营ying地di)＝5

d(和he平ping静jing音yin，和he平ping精jing英ying)＝2

在本公开的示例性实施例中，目标实体可以包括一个或多个。可以根据各候选实体与实体片段之间的编辑距离的大小，对各候选实体进行排序。可以按照编辑距离从小到大的顺序排序，可以获取top1的候选实体作为目标实体，还可以获取top10的候选实体作为目标实体，本公开对此不做具体限定。

在本公开的示例性实施例中，可以获取各候选实体对应的实体特征信息，根据候选实体的编辑距离和实体特征信息，在多个候选实体中确定目标实体。

具体地，图7示出了确定目标实体的方法流程示意图，如图7所示，该流程至少包括步骤S710至步骤S720，详细介绍如下：

在步骤S710中，分别获取候选实体对应的实体特征信息，实体特征信息包括候选实体的实时状态信息，以及候选实体与用户相关的用户特征信息。

在本公开的示例性实施例中，由于领域的不同，候选实体的实时状态信息和用户特征信息也会不同。比如，在应用程序领域，则候选实体为一应用程序，候选实体的实时状态信息包括该应用程序的实时下载量、应用程序的累计下载量、应用程序是否已经下架等信息。用户特征信息包括用户是否已经安装该应用程序、用户使用该应用程序的频次等信息。

在步骤S720中，基于各候选实体对应的编辑距离和实体特征信息计算候选实体对应的目标得分，并根据目标得分在多个候选实体中确定目标实体。

在本公开的示例性实施例中，预先对编辑距离和实体特征信息配置权重，根据各候选实体对应的编辑距离和实体特征信息，以及对应的权重，计算各候选实体的目标得分。可以对多个试题特征信息分配不同的权重，分别将候选实体的编辑距离、实体特征信息乘以对应的权重之后求和，以得到候选实体的目标得分。

其中，可以根据目标得分的大小按照由大到小的顺序，对候选实体进行排序。可以获取目标得分为top1的候选实体，或获取目标得分为top3的候选实体作为目标实体，本公开对此不做具体限定。

在本公开的示例性实施例中，可以根据编辑距离的大小对候选实体进行筛选，得到备选实体。再通过备选实体的编辑距离和实体特征信息，在备选实体中确定目标实体。

具体地，图8示出了另一确定目标实体的方法流程示意图，如图8所示，该流程至少包括步骤S810至步骤S820，详细介绍如下：

在步骤S810中，根据编辑距离在多个候选实体中确定备选实体。

在本公开的示例性实施例中，可以按照编辑距离从小到大的顺序对多个候选实体进行排序，可以获取top10的候选实体作为备选实体，还可以获取top20的候选实体作为备选实体，本公开对此不做具体限定。

在步骤S820中，基于备选实体对应的编辑距离和实体特征信息计算备选实体对应的目标得分，并根据目标得分确定目标实体。

在本公开的示例性实施例中，获取备选实体对应的实体特征信息，基基于备选实体对应的编辑距离和实体特征信息计算备选实体对应的目标得分，目标得分的计算方法在上述实施例中已进行详细描述，在此不做赘述。

另外，可以根据目标得分的大小按照由大到小的顺序，对备选实体进行排序。可以获取目标得分为top1的备选实体，或获取目标得分为top3的备选实体作为目标实体，本公开对此不做具体限定。

在本公开的示例性实施例中，判断目标得分是否大于得分阈值；在目标得分大于得分阈值时，将目标得分对应的备选实体配置为目标实体。其中，得分阈值可以根据实际场景进行设定，比如，可以将得分阈值设定为90，还可以将得分阈值设定为96等，本公开对此不做具体限定。

另外，若目标得分小于或等于得分阈值，则目标实体为空。

在本公开的示例性实施例中，可以在实体资源库中获取目标实体对应的资源信息作为目标资源信息，还可以根据目标实体实时获取目标资源信息，本公开对此不做具体限定。

需要说明的是，为了提高本实施例中的模糊匹配的准确率和召回率，上述各领域对应的实体特征信息、实体特征信息和编辑距离对应的权重、以及得分阈值均可以通过线下测试得到。

在本公开的示例性实施例中，可以根据目标实体在实体资源库中获取目标实体对应的目标资源信息，还可以实时获取目标实体对应的目标资源信息，可以将获取到的目标资源信息展示在终端设备对应的显示屏幕上。

在本公开的示例性实施例中，可以根据语音信息实时进行热门实体的挖掘，并获取热门实体对应的资源信息，将热门实体作为预存实体，对实体资源库进行更新

具体地，图9示出了更新实体资源库的方法流程示意图，如图9所示，该流程至少包括步骤S910至步骤S920，详细介绍如下：

在步骤S910中，对实体片段进行文本切词处理，以得到实体片段对应的候选热词。

在本公开的示例性实施例中，根据文本切词算法对实体片段进行文本切词处理。其中，文本切词算法可以是基于理解的分词方法，还可以是基于统计的分词方法，本公开对此不做具体限定，

比如，若实体片段为“和平静音”，则经过文本切词处理之后，实体片段对应的候选热词包括“和平”、“静音”、“平静”、“和平静音”。

在步骤S920中，根据候选热词确定预存实体，并将预存实体和预存实体对应的资源信息存储至实体资源库中。

在本公开的示例性实施例中，可以将候选热词作为预存实体。还可以将候选热词存储至热词缓存数据库中，并将在热词缓存数据库中记录各候选热词出现的频次，热词缓存数据库可以是redis数据库。若该候选热词出现的频次大于频次阈值，则将该候选热词作为预存实体存储至实体资源库中。其中，该频次阈值可以根据实际情况进行设定，比如，可以设定频次阈值为10次，或频次阈值为20次等，本公开对此不做具体限定。

另外，还可以判断各候选热词与实体片段的所属领域是否相关，若候选热词与实体片段的所属领域相关，则将候选热词作为预存实体存储至实体资源库中。其中，判定候选热词与实体片段的所属领域是否相关的方法可以根据所属领域的不同而不同。比如，若所属领域为应用程序领域，则可以调用应用程序的数据接口，通过该数据接口搜索是否存在与候选热词对应的资源信息；若应用程序中存在与候选热词对应的资源信息，则判定该候选热词与实体片段的所属领域相关。

在本公开的示例性实施例中，获取预存实体对应的资源信息，并将资源信息存储至实体资源库中预存实体对应的存储单元中。可以由运营人员手动配置预存实体对应的资源信息，热更新到实体资源库中。还可以调用预存实体对应的数据接口，通过数据接口获取与预存实体对应的资源信息，将资源信息动态更新到实体资源库中。

在本公开的示例性实施例中，图10示出了确定预存实体的方法流程示意图，如图10所示，该流程至少包括步骤S1010至步骤S1020，详细介绍如下：

在步骤S1010中，根据候选热词的频率信息计算候选热词的热词得分。

在本公开的示例性实施例中，将候选热词，以及候选热词对应的频率信息和热词得分存储至热词缓存数据库中。具体地，可以将候选热词，以及候选热词对应的频率信息和热词得分以key-value的形式存储在热词缓存数据库中。其中，将候选热词作为key值，将候选热词对应的频率信息和热词得分作为value值。

另外，候选热词的频率信息可以包括候选热词对应的出现频次和信息熵，候选热词的键值对可以为：{候选热词：(出现频次，信息熵，热词得分)}。

在本公开的示例性实施例中，判断热词缓存数据库中是否存在候选热词；若热词缓存数据库中存在候选热词，则根据候选热词对应的频率信息和热词得分对热词缓存数据库中与候选热词对应的键值对进行更新；若热词缓存数据库中不存在候选热词，则在热词缓存数据库中创建与候选热词对应的键值对，并将候选热词对应的频率信息和热词得分存储至候选热词对应的键值对中。

其中，在每次获得候选热词对应的频率信息和热词得分之后，均对热词缓存数据库中的候选热词对应的键值对进行动态更新。

在本公开的示例性实施例中，图11示出了计算热词得分的方法流程示意图，如图11所示，该流程至少包括步骤S1110至步骤S1120，详细介绍如下：

在步骤S1110中，获取候选热词的出现频次和信息熵。

在本公开的示例性实施例中，判断热词缓存数据库中是否存在候选热词对应的键值对；若热词缓存数据库中存在候选热词对应的键值对，则获取候选热词对应的历史出现频次，将历史出现频次加1，以获得候选热词的出现频次；若热词缓存数据库中不存在候选热词对应的键值对，则在热词缓存数据库中创建以候选热词为key值的键值对，并获得候选热词的出现频次为1。

在本公开的示例性实施例中，候选热词的信息熵可以根据候选热词在本所属领域的出现概率和候选热词在其他领域的出现概率计算得到。计算公式如公式(1)所示：

S＝-(P₁×log₂P₁+P₂×log₂P₂) (1)

其中，S表示候选热词的信息熵，P₁表示候选热词在所属领域的出现概率，P₂表示候选热词在其他领域的出现概率。

另外，可以将候选热词与文本信息库中的文本信息进行匹配，获得与候选热词相匹配的文本信息，并根据文本信息的领域标签，获取候选热词在所属领域的出现概率，和在其他领域的出现概率。

举例而言，以目标领域是应用程序领域为例：若文本信息1为：“设置闹钟”，领域标签为非目标领域；文本信息2为：“王者荣耀的账号怎么充值”，领域标签为非目标领域；文本信息3为：“我要听一首周杰伦的七里香”，领域标签为非目标领域；文本信息4为：“打开欢乐斗地主”，领域标签为目标领域；文本信息5为：“打开王者荣耀”，领域标签为目标领域。若此时候选热词为“王者荣耀”，则P₁为1/2，P₂为1/3。

需要说明的是，可以在文本信息库中仅获取前10万条文本信息计算P₁和P₂，以提高计算效率，当然，获取文本信息的数量不做具体限定。

在步骤S1120中，根据候选热词的出现频次和信息熵计算候选热词的热词得分。

在本公开的示例性实施例中，利用出现频次除以信息熵，以得到候选热词的热词得分。

在步骤S1020中，根据候选热词的热词得分对候选热词进行排序，并将前预设位数的候选热词配置为预存实体。

在本公开的示例性实施例中，根据热词得分的大小，按照由小到大的顺序对预设时间段内所有的候选热词进行动态排序，将前预设位数的候选热词配置确定预存实体。其中，预设时间段可以是与当前时间段间隔10分钟，预设位数可以是100，本公开对此不做具体限定。

下面结合具体场景对本示例实施方式中的资源信息获取方法进行详细的说明，图12示出了本公开的一具体实施例的资源信息获取的方法流程示意图，如图12所示：在步骤S1210中，获取语音信息，并识别语音信息对应的文本信息；在步骤S1220中，将文本信息输入领域分类模型，确定文本信息的所属领域；在步骤S1230中，在文本信息对应的所属领域为目标领域时，对文本信息进行实体识别，确定文本信息对应的一个或多个实体片段；在步骤S1240中，判断实体资源库中是否存在实体片段；在步骤S1250中，若实体资源库中存在实体片段，则在实体资源库中获取实体片段对应的目标资源信息；在步骤S1260中，若实体资源库中不存在实体片段，进行模糊匹配；在步骤S1270中，若实体资源库中不存在实体片段，进行实体挖掘。

其中，在步骤S1260中，模糊匹配的过程包括：在步骤S1262中，计算实体片段与实体资源库中各预存实体之间的相似系数，根据相似系数确定候选实体；在步骤S1264中，计算实体片段与候选实体之间的编辑距离，根据编辑距离确定备选实体；在步骤S1266中，计算实体片段与备选实体之间的目标得分，根据目标得分确定目标实体。

另外，在步骤S1270中，实体挖掘的过程包括：在步骤S1272中，对实体片段进行文本切词处理，以获得候选热词；在步骤S1274中，获取候选热词的频率信息和热词得分，并将候选热词的频率信息和热词得分存储至热词缓存数据库中；在步骤S1276中，根据热词得分在候选热词中确定预存实体；在步骤S1278中，获取预存实体对应的资源信息，将预存实体和资源信息存储至实体资源库中。

本实施例的资源信息获取方法，一方面，通过语音信息确定对应的候选热词，配合redis数据库，实时计算候选热词的热词得分，根据候选热词的热词得分对实体资源库进行更新，实现了热门实体的在线挖掘，提高了实体挖掘的效率；另一方面，通过分别计算实体片段与各预存实体之间的相似系数、编辑距离以及目标得分，确定了实体片段的目标实体，实现了模糊匹配，提高了召回率和匹配效率；再一方面，通过上述端到端的热门实体在线挖掘和模糊匹配框架，实现了完整的实体资源库的构建和实体高效召回策略，提高了资源信息获取的效率和准确率。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

以下介绍本公开的装置实施例，可以用于执行本公开上述的资源信息获取方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的资源信息获取方法的实施例。

图13示意性示出了根据本公开的一个实施例的资源信息获取装置的框图。

参照图13所示，根据本公开的一个实施例的资源信息获取装置1300，资源信息获取装置1300包括：实体片段获取模块1301、候选实体确定模块1302、以及资源信息获取模块1303。具体地：

实体片段获取模块1301，用于识别语音信息对应的文本信息，并获取文本信息对应的实体片段；

候选实体确定模块1302，用于计算实体片段与实体资源库中各预存实体之间的相似系数，根据相似系数在预存实体中确定多个候选实体；

资源信息获取模块1303，用于分别计算各候选实体与实体片段之间的编辑距离，根据编辑距离在多个候选实体中确定目标实体，并获取目标实体对应的目标资源信息。

在本公开的示例性实施例中，资源信息获取模块1303，还可以用于分别获取候选实体对应的实体特征信息，实体特征信息包括候选实体的实时状态信息，以及候选实体与用户相关的用户特征信息；基于各候选实体对应的编辑距离和实体特征信息计算候选实体对应的目标得分，并根据目标得分在多个候选实体中确定目标实体。

在本公开的示例性实施例中，资源信息获取模块1303，还可以用于根据编辑距离在多个候选实体中确定备选实体；基于备选实体对应的编辑距离和实体特征信息计算备选实体对应的目标得分，并根据目标得分确定目标实体。

在本公开的示例性实施例中，资源信息获取模块1303，还可以用于判断目标得分是否大于得分阈值；在目标得分大于得分阈值时，将目标得分对应的备选实体配置为目标实体。

在本公开的示例性实施例中，候选实体确定模块1302，还可以用于将实体片段和实体片段的拼音信息进行合并，以得到合并实体片段，并计算合并实体片段对应的哈希码；根据合并实体片段对应的哈希码和各合并预存实体对应的哈希码计算相似系数。

在本公开的示例性实施例中，实体片段获取模块1301，还可以用于根据文本信息确定文本信息对应的领域信息；在根据领域信息判定文本信息属于目标领域时，获取文本信息对应的实体片段。

在本公开的示例性实施例中，资源信息获取装置还可以包括数据库更新(图中未示出)，该数据库更新模块用于对实体片段进行文本切词处理，以得到实体片段对应的候选热词；根据候选热词确定预存实体，并将预存实体和预存实体对应的资源信息存储至实体资源库中。

在本公开的示例性实施例中，数据库更新模块还可以用于根据候选热词的频率信息计算候选热词的热词得分；根据候选热词的热词得分对候选热词进行排序，并将前预设位数的候选热词配置为预存实体。

在本公开的示例性实施例中，数据库更新模块还可以用于获取候选热词的频率信息，其中，候选热词的频率信息包括候选热词的出现频次和信息熵；根据候选热词的出现频次和信息熵计算候选热词的热词得分。

在本公开的示例性实施例中，数据库更新模块还可以用于将候选热词，以及候选热词对应的频率信息和热词得分存储至热词缓存数据库中。

在本公开的示例性实施例中，数据库更新模块还可以用于判断热词缓存数据库中是否存在候选热词；若是，则根据候选热词对应的频率信息和热词得分对热词缓存数据库中与候选热词对应的键值对进行更新；若否，则在热词缓存数据库中创建与候选热词对应的键值对，并将候选热词对应的频率信息和热词得分存储至候选热词对应的键值对中。

上述资源信息获取装置中各模块的具体细节在资源信息获取方法部分实施方式中已经详细说明，未披露的细节内容可以参见资源信息获取方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图4至图12中任意一个或多个步骤。

本公开的示例性实施方式还提供了一种用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种资源信息获取方法，其特征在于，包括：

识别语音信息对应的文本信息，并获取所述文本信息对应的实体片段；

计算所述实体片段与实体资源库中各预存实体之间的相似系数，根据所述相似系数在所述预存实体中确定多个候选实体；

分别计算各所述候选实体与所述实体片段之间的编辑距离，根据所述编辑距离在多个所述候选实体中确定目标实体，并获取所述目标实体对应的目标资源信息。

2.根据权利要求1所述的资源信息获取方法，其特征在于，根据所述编辑距离在多个所述候选实体中确定目标实体，包括：

分别获取所述候选实体对应的实体特征信息，所述实体特征信息包括所述候选实体的实时状态信息，以及所述候选实体与用户相关的用户特征信息；

基于各所述候选实体对应的编辑距离和实体特征信息计算所述候选实体对应的目标得分，并根据所述目标得分在多个所述候选实体中确定所述目标实体。

3.根据权利要求2所述的资源信息获取方法，其特征在于，基于各所述候选实体所述编辑距离和所述实体特征信息计算所述候选实体对应的目标得分，并根据所述目标得分在多个所述候选实体中确定所述目标实体，包括：

根据所述编辑距离在多个所述候选实体中确定备选实体；

基于所述备选实体对应的编辑距离和实体特征信息计算所述备选实体对应的目标得分，并根据所述目标得分确定所述目标实体。

4.根据权利要求3所述的资源信息获取方法，其特征在于，根据所述目标得分确定所述目标实体，包括：

判断所述目标得分是否大于得分阈值；

在所述目标得分大于所述得分阈值时，将所述目标得分对应的备选实体配置为所述目标实体。

5.根据权利要求1所述的资源信息获取方法，其特征在于，计算所述实体片段与实体资源库中各预存实体之间的相似系数，包括：

将所述实体片段和所述实体片段的拼音信息进行合并，以得到合并实体片段，并计算所述合并实体片段对应的哈希码；

根据所述合并实体片段对应的哈希码和各合并预存实体对应的哈希码计算所述相似系数。

6.根据权利要求1所述的资源信息获取方法，其特征在于，获取所述文本信息对应的实体片段，包括：

根据所述文本信息确定所述文本信息对应的领域信息；

在根据所述领域信息判定所述文本信息属于目标领域时，获取所述文本信息对应的实体片段。

7.根据权利要求1所述的资源信息获取方法，其特征在于，所述方法还包括：

对所述实体片段进行文本切词处理，以得到所述实体片段对应的候选热词；

根据所述候选热词确定所述预存实体，并将所述预存实体和所述预存实体对应的资源信息存储至所述实体资源库中。

8.根据权利要求7所述的资源信息获取方法，其特征在于，根据所述候选热词确定所述预存实体，包括：

根据所述候选热词的频率信息计算所述候选热词的热词得分；

根据所述候选热词的热词得分对所述候选热词进行排序，并将前预设位数的候选热词配置为所述预存实体。

9.根据权利要求8所述的资源信息获取方法，其特征在于，根据所述候选热词的频率信息计算所述候选热词的热词得分，包括：

获取所述候选热词的频率信息，其中，所述候选热词的频率信息包括所述候选热词的出现频次和信息熵；

根据所述候选热词的出现频次和信息熵计算所述候选热词的热词得分。

10.根据权利要求9所述的资源信息获取方法，其特征在于，在根据所述候选热词的频率信息计算所述候选热词的热词得分之后，所述方法还包括：

将所述候选热词，以及所述候选热词对应的频率信息和热词得分存储至热词缓存数据库中。

11.根据权利要求10所述的资源信息获取方法，其特征在于，将所述候选热词，以及所述候选热词对应的频率信息和热词得分存储至热词缓存数据库中，包括：

判断所述热词缓存数据库中是否存在所述候选热词；

若是，则根据所述候选热词对应的频率信息和热词得分对所述热词缓存数据库中与所述候选热词对应的键值对进行更新；

若否，则在所述热词缓存数据库中创建与所述候选热词对应的键值对，并将所述候选热词对应的频率信息和热词得分存储至所述候选热词对应的键值对中。

12.一种资源信息获取装置，其特征在于，包括：

实体片段获取模块，用于识别语音信息对应的文本信息，并获取所述文本信息对应的实体片段；

候选实体确定模块，用于计算所述实体片段与实体资源库中各预存实体之间的相似系数，根据所述相似系数在所述预存实体中确定多个候选实体；

资源信息获取模块，用于分别计算各所述候选实体与所述实体片段之间的编辑距离，根据所述编辑距离在多个所述候选实体中确定目标实体，并获取所述目标实体对应的目标资源信息。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至11中任一项所述的资源信息获取方法。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至11中任一项所述的资源信息获取方法。