CN117078358A

CN117078358A - 基于语音识别的元宇宙电商平台系统智能构建方法及系统

Info

Publication number: CN117078358A
Application number: CN202311321646.5A
Authority: CN
Inventors: 袁道红
Original assignee: Beijing Future Chain Technology Co ltd
Current assignee: Beijing Future Chain Technology Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-11-17

Abstract

本发明公开了一种基于语音识别的元宇宙电商平台系统智能构建方法及系统，涉及语音分析技术领域。该方法包括：采集用户的购买商品语音信号，并进行识别，以得到语音识别结果；利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别，确定候选目标商品图像；利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像；利用基于单幅图像的三维重建技术对目标商品图像进行三维重建，以得到对应商品的三维重建模型，并向对应用户进行展示。本发明可实现精准高效的信息识别及商品三维模型构建，为用户提供有针对性的高质量商品场景展示。

Description

基于语音识别的元宇宙电商平台系统智能构建方法及系统

技术领域

本发明涉及语音分析技术领域，具体而言，涉及一种基于语音识别的元宇宙电商平台系统智能构建方法及系统。

背景技术

元宇宙电商平台能让用户在更加真实的场景中进行消费，使得用户有更加优质的消费体验；然而，普通的元宇宙电商平台往往无法实时获取用户的实际消费需求信息，从而无法为用户提供有针对性的商品场景展示，显著降低了元宇宙电商平台的实际应用价值。

尽管部分元宇宙电商平台已经应用了语音识别技术，来实时获取用户的消费需求信息，但仍然存在一定的识别误差，无法为用户提供有针对性的高质量商品场景展示。因此，如何充分利用有效的语音识别技术，建立能够充分满足用户需求的高质量元宇宙电商平台系统有非常重要的价值和意义。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种基于语音识别的元宇宙电商平台系统智能构建方法及系统，结合基于语音深度去噪的多语音识别模型互验方法、多图像增强互验的OCR技术、基于超分辨率重建的多区域峰值信噪比检测方法、基于单张图像的三维重建技术，实现精准高效的信息识别及商品三维模型构建，为用户提供有针对性的高质量商品场景展示。

为了解决上述技术问题，本发明采用的技术方案为：

第一方面，本发明提供一种基于语音识别的元宇宙电商平台系统智能构建方法，包括以下步骤：

采集用户的购买商品语音信号，并利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果；

利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别，以得到对应商品图像的文字识别结果；

根据语音识别结果和各个商品图像的文字识别结果确定候选目标商品图像；

利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像；

利用基于单幅图像的三维重建技术对目标商品图像进行三维重建，以得到对应商品的三维重建模型，并向对应用户进行展示。

本方法利用了基于语音深度去噪的多语音识别模型互验方法，更加精准地对用户的语音信号进行识别，从而能够更加精准地获取用户的购买意向信息；同时，本方法还利用了多图像增强互验的OCR技术，对商品图像数据库中所有商品图像进行文字识别，提升了文字识别的精准度，从而能够更加精准地挑选出候选目标商品图像；在此基础上，本方法利用了基于超分辨率重建的多区域峰值信噪比检测方法，对候选目标商品图像进行了充分检测，更加精准地获取了最终的目标商品图像；最终，再利用基于单张图像的三维重建技术对目标商品图像进行三维重建，得到了高质量的商品三维重建模型，建立能够充分满足用户需求的高质量元宇宙电商平台系统，为每位用户提供有针对性的高质量商品场景展示。

基于第一方面，上述利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果的方法包括以下步骤：

利用语音去噪方法对该购买商品语音信号进行去噪，以得到去噪语音信号；

利用多种语音识别模型对去噪语音信号进行识别，以得到并根据多个识别结果确定最终的语音识别结果。

基于第一方面，上述利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别的方法包括以下步骤：

利用多种图像增强方法分别对预置的商品图像数据库中所有商品图像进行增强处理，以得到对应商品的多个增强图像；

利用OCR技术对所有商品的各个增强图像进行文字识别，以得到并根据对应商品的多个文字识别结果确定对应商品的最终文字识别结果。

基于第一方面，上述利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像的方法包括以下步骤：

对候选目标商品图像分别进行图像超分辨率重建，以得到对应的重建图像；

将重建图像进行多等分划分处理，并在每个等分区域上进行峰值信噪比检测，以得到并根据各个区域检测结果确定对应的候选目标商品图像是否为目标商品图像。

第二方面，本发明提供一种基于语音识别的元宇宙电商平台系统智能构建系统，包括语音识别模块、文字识别模块、候选商品确定模块、图像筛选模块以及三维重建模块，其中：

语音识别模块，用于采集用户的购买商品语音信号，并利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果；

文字识别模块，用于利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别，以得到对应商品图像的文字识别结果；

候选商品确定模块，用于根据语音识别结果和各个商品图像的文字识别结果确定候选目标商品图像；

图像筛选模块，用于利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像；

三维重建模块，用于利用基于单幅图像的三维重建技术对目标商品图像进行三维重建，以得到对应商品的三维重建模型，并向对应用户进行展示。

本系统通过语音识别模块、文字识别模块、候选商品确定模块、图像筛选模块以及三维重建模块等多个模块的结合，建立能够充分满足用户需求的高质量元宇宙电商平台系统，可以根据用户的语音输入信息，为每位用户提供有针对性的高质量商品场景展示。本系统利用了基于语音深度去噪的多语音识别模型互验方法，更加精准地对用户的语音信号进行识别，从而能够更加精准地获取用户的购买意向信息；同时，本系统还利用了多图像增强互验的OCR技术，对商品图像数据库中所有商品图像进行文字识别，提升了文字识别的精准度，从而能够更加精准地挑选出候选目标商品图像；在此基础上，本系统利用了基于超分辨率重建的多区域峰值信噪比检测方法，对候选目标商品图像进行了充分检测，更加精准地获取了最终的目标商品图像；最终，再利用基于单张图像的三维重建技术对目标商品图像进行三维重建，得到了高质量的商品三维重建模型，建立能够充分满足用户需求的高质量元宇宙电商平台系统，为每位用户提供有针对性的高质量商品场景展示。

第三方面，本申请提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

本发明至少具有如下优点或有益效果：

本发明提供一种基于语音识别的元宇宙电商平台系统智能构建方法及系统，利用了基于语音深度去噪的多语音识别模型互验方法，更加精准地对用户的语音信号进行识别，从而能够更加精准地获取用户的购买意向信息；同时，本发明还利用了多图像增强互验的OCR技术，对商品图像数据库中所有商品图像进行文字识别，提升了文字识别的精准度，从而能够更加精准地挑选出候选目标商品图像；在此基础上，本发明利用了基于超分辨率重建的多区域峰值信噪比检测方法，对候选目标商品图像进行了充分检测，更加精准地获取了最终的目标商品图像；最终，再利用基于单张图像的三维重建技术对目标商品图像进行三维重建，得到了高质量的商品三维重建模型，建立能够充分满足用户需求的高质量元宇宙电商平台系统，为每位用户提供有针对性的高质量商品场景展示。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于语音识别的元宇宙电商平台系统智能构建方法的流程图；

图2为本发明实施例一种基于语音识别的元宇宙电商平台系统智能构建方法中进行语音识别的流程图；

图3为本发明实施例一种基于语音识别的元宇宙电商平台系统智能构建方法中进行文字识别的流程图；

图4为本发明实施例一种基于语音识别的元宇宙电商平台系统智能构建系统的原理框图；

图5为本发明实施例提供的一种电子设备的结构框图。

附图标记说明：100、语音识别模块；200、文字识别模块；300、候选商品确定模块；400、图像筛选模块；500、三维重建模块；101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例的描述中，“多个”代表至少2个。

实施例

如图1-图3所示，第一方面，本发明实施例提供一种基于语音识别的元宇宙电商平台系统智能构建方法，包括以下步骤：

S1、采集用户的购买商品语音信号，并利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果；

进一步地，如图2所示，包括：

S11、利用语音去噪方法对该购买商品语音信号进行去噪，以得到去噪语音信号；

S12、利用多种语音识别模型对去噪语音信号进行识别，以得到并根据多个识别结果确定最终的语音识别结果。

在本发明的一些实施例中，某一用户直接将意向购买的商品以语音的形式进行输入，系统提取语音信号（例如，用户语音输入‘张裕葡萄酒’）；利用基于语音深度去噪的多语音识别模型互验方法对用户的语音进行识别（识别出‘张裕葡萄酒’），具体包括：首先利用语音去噪方法对语音进行深度去噪，在此基础上，利用多种语音识别技术对语音进行识别。如果多个语音识别结果不一致，利用少数服从多数的原则，例如绝大多数的方法将某一段语音信号识别为A,少部分方法将某一段语音信号识别为文字B，最后将该段语音信号识别为文字A。

S2、利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别，以得到对应商品图像的文字识别结果；

进一步地，如图3所示，包括：

S21、利用多种图像增强方法分别对预置的商品图像数据库中所有商品图像进行增强处理，以得到对应商品的多个增强图像；

S22、利用OCR技术对所有商品的各个增强图像进行文字识别，以得到并根据对应商品的多个文字识别结果确定对应商品的最终文字识别结果。

在本发明的一些实施例中，利用多种图像增强方法分别对图像进行增强处理；在不同的图像增强方法基础上，分别利用OCR技术对文字进行识别。如果多个识别结果不一致，利用少数服从多数的原则。例如，在绝大多数图像增强方法对图像增强之后，将某一文字识别为‘金’；在少数图像增强方法对图像增强之后，将某一文字识别为‘全’，最后将该文字识别为‘金’。

S3、根据语音识别结果和各个商品图像的文字识别结果确定候选目标商品图像；将含有‘张裕葡萄酒’文字的商品图像识别出来，作为候选目标商品图像。

S4、利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像；

进一步地，包括：对候选目标商品图像分别进行图像超分辨率重建，以得到对应的重建图像；将重建图像进行多等分划分处理，并在每个等分区域上进行峰值信噪比检测，以得到并根据各个区域检测结果确定对应的候选目标商品图像是否为目标商品图像。

在本发明的一些实施例中，对任意一幅候选目标商品图像，对其进行图像超分辨率重建。在此基础上，将该图像进行4等分，并在每个等分区域上进行峰值信噪比检测。如果所有等分区域峰值信噪比都较高，认定该图像为目标商品图像；如果不能保证所有等分区域上峰值信噪比都较高，认定该图像为非目标商品图像。对所有候选目标商品图像进行检测，直接删除非目标商品图像，得到最终的目标商品图像。

S5、利用基于单幅图像的三维重建技术对目标商品图像进行三维重建，以得到对应商品的三维重建模型，并向对应用户进行展示。

将所有的目标商品图像都利用上述方法进行三维重建，从而为该用户提供有针对性的高质量商品场景展示。基于上述方法步骤，建立能够充分满足用户需求的高质量元宇宙电商平台系统，可以根据用户的语音输入信息，为每位用户提供有针对性的高质量商品场景展示。

如图4所示，第二方面，本发明实施例提供一种基于语音识别的元宇宙电商平台系统智能构建系统，包括语音识别模块100、文字识别模块200、候选商品确定模块300、图像筛选模块400以及三维重建模块500，其中：

语音识别模块100，用于采集用户的购买商品语音信号，并利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果；

文字识别模块200，用于利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别，以得到对应商品图像的文字识别结果；

候选商品确定模块300，用于根据语音识别结果和各个商品图像的文字识别结果确定候选目标商品图像；

图像筛选模块400，用于利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像；

三维重建模块500，用于利用基于单幅图像的三维重建技术对目标商品图像进行三维重建，以得到对应商品的三维重建模型，并向对应用户进行展示。

本系统通过语音识别模块100、文字识别模块200、候选商品确定模块300、图像筛选模块400以及三维重建模块500等多个模块的结合，建立能够充分满足用户需求的高质量元宇宙电商平台系统，可以根据用户的语音输入信息，为每位用户提供有针对性的高质量商品场景展示。本系统利用了基于语音深度去噪的多语音识别模型互验方法，更加精准地对用户的语音信号进行识别，从而能够更加精准地获取用户的购买意向信息；同时，本系统还利用了多图像增强互验的OCR技术，对商品图像数据库中所有商品图像进行文字识别，提升了文字识别的精准度，从而能够更加精准地挑选出候选目标商品图像；在此基础上，本系统利用了基于超分辨率重建的多区域峰值信噪比检测方法，对候选目标商品图像进行了充分检测，更加精准地获取了最终的目标商品图像；最终，再利用基于单张图像的三维重建技术对目标商品图像进行三维重建，得到了高质量的商品三维重建模型，建立能够充分满足用户需求的高质量元宇宙电商平台系统，为每位用户提供有针对性的高质量商品场景展示。

如图5所示，第三方面，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（NetworkProcessor，NP）等；还可以是数字信号处理器（Digital Signal Processing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于语音识别的元宇宙电商平台系统智能构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语音识别的元宇宙电商平台系统智能构建方法，其特征在于，所述利用基于语音深度去噪的多语音识别模型互验方法对该购买商品语音信号进行识别，以得到语音识别结果的方法包括以下步骤：

3.根据权利要求1所述的一种基于语音识别的元宇宙电商平台系统智能构建方法，其特征在于，所述利用多图像增强互验的OCR技术，对预置的商品图像数据库中所有商品图像进行文字识别的方法包括以下步骤：

4.根据权利要求1所述的一种基于语音识别的元宇宙电商平台系统智能构建方法，其特征在于，所述利用基于超分辨率重建的多区域峰值信噪比检测方法，对所有候选目标商品图像进行检测，以筛选得到目标商品图像的方法包括以下步骤：

5.一种基于语音识别的元宇宙电商平台系统智能构建系统，其特征在于，包括语音识别模块、文字识别模块、候选商品确定模块、图像筛选模块以及三维重建模块，其中：

6.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。