CN106713899A

CN106713899A - 基于全息成像和语音识别的交互三维立体影像系统及方法

Info

Publication number: CN106713899A
Application number: CN201710137312.0A
Authority: CN
Inventors: 燕小成; 吕蕾; 吴艳娜; 周栋梁
Original assignee: Shandong Normal University
Current assignee: Shandong Center Information Technology Ltd By Share Ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-05-24
Anticipated expiration: 2037-03-09
Also published as: CN106713899B

Abstract

本发明公开了基于全息成像和语音识别的交互三维立体影像系统及方法，包括计算机控制系统，所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连，所述影像播放与音响系统用于画面与声音的输出，所述光学成像系统用于实现三维立体画面的展示，所述计算机控制系统包括语音识别模块，所述语音识别模块包括数据库，通过对输入的用户语音信息与数据库进行匹配，实现对用户的人群定向识别。本发明使得360°全息成像系统可进行人机交互，使用更加灵活，实用性大大增强。

Description

基于全息成像和语音识别的交互三维立体影像系统及方法

技术领域

本发明涉及立体影像技术领域，特别是涉及基于全息成像和语音识别的交互三维立体影像系统及方法。

背景技术

360°全息成像技术(360-degree holographic imaging)是一种新兴的3D技术，也可简单称为全息或360全息。此技术根据光的反射原理，配合人眼的视觉误差，进行集成制作出多角度、全方位的360°立体悬浮影像。可将成像独立展示，也可与实物相结合。

目前，以360°全息成像技术(360-degree holographic imaging)为基础的360°全息成像系统主要由光学成像系统、计算机控制系统、影视播放系统和音响系统组成。就国内发展状况看，360°全息成像系统应用场景只是进行科技展览(科技馆的展示)，并未得到大量的实际应用。可进行人机交互的360°全息成像系统也不存在。

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统，对于不同的语音识别系统，人们所采用的具体识别方法及技术不同，但其基本原理都是相同的，即将采集到的语音信号送到特征提取模块处理，将所得到的语音特征参数送入模型库模块，由声音模式匹配模块根据模型库对该段语音进行识别，最后得出识别结果。当前的语音识别在模型库进行匹配时，现有的搜索算法为利用语音学与语言学信息，把输入的语音特征向量序列X＝X₁，X₂，……，X_T转化成词序列W＝W₁，W₂，…，W_N并输出。

现有的360°全息成像系统和语音识别技术存在以下缺点：

1、360°全息成像系统无法实现人机交互。

2、360°全息成像系统需要用户自主处理适合360°全息成像系统的视频源。

3.360°全息成像系统的语音识别精度不佳。

综上所述，现有技术中对于360°全息成像系统所存在的人机交互及使用不便等的问题，尚缺乏有效的解决方案。

发明内容

为了解决现有技术的不足，本发明提供了基于全息成像和语音识别的交互三维立体影像系统，将语音识别应用于360°全息成像系统以达到人机交互的目的。开发相关配套软件，对语音识别与360°全息成像系统进行实时控制，并能自动处理适合360°全息成像系统的视频源。采用“定向使用人群”的语音识别技术来提高语音识别的精准度。

基于全息成像和语音识别的交互三维立体影像系统，包括计算机控制系统，所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连，所述影像播放与音响系统用于画面与声音的输出，所述光学成像系统用于实现三维立体画面的展示，所述计算机控制系统包括语音识别模块，所述语音识别模块包括数据库，通过对输入的用户语音信息与数据库进行匹配，实现对用户的人群定向识别。

进一步的，所述数据库包括第一数据库及第二数据库，所述第一数据库为人群定向数据库，该数据库包括高频专业词汇，以便对使用者进行人群定向，所述第二数据库包括定向人群的专业用语和常用语。

进一步的，所述语音识别模块在实现语音识别时具体为：自动收集用户语音信息，将收集的用户语音信息与人群定向数据库进行匹配，对用户进行人群定向，该定向结果为人群的行业，通过对人群定向的正确性进行检测直至符合要求为止。

进一步的，计算机控制系统对人群定向的正确性进行检测的方法为：计算机控制系统在对人群定向后，(用户在使用本产品时)计算机控制系统依然自动收集用户语音信息，并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇)，如果用户语音信息与反向匹配结果误差小于等于设定值(例如10％)，计算机控制系统则认为人群定向正确。

进一步的，计算机控制系统根据人群定向的结果，进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果，该结果为符合定向人群的专业用语和常用语。

进一步的，所述计算机控制系统中还包括视频源处理模块，视频源处理模块通过以下方式实现对视频源的处理：在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件，采用十字分割的方式对四个JMF播放器进行分割，四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频，其中正面和后面、左面和右面互为对称。播放器的视频组件用于支持JMF播放器对视频的播放，播放器的控制组件实现对视频播放行为的控制。

进一步的，本发明还公开了基于360°全息成像和语音识别的交互式三维立体影像系统的实现方法，包括：

计算机控制系统实现对语音识别，通过对输入的用户语音信息与数据库进行匹配，实现对用户的人群定向识别；

影像播放与音响系统用于对计算机控制系统的画面与声音的输出；

光学成像系统用于实现对计算机控制系统的三维立体画面的展示。

进一步的，计算机控制系统实现对语音识别时，首先建立数据库，所述数据库包括第一数据库及第二数据库，所述第一数据库为人群定向数据库，该数据库包括高频专业词汇，以便对使用者进行人群定向，所述第二数据库包括定向人群的专业用语和常用语。

进一步的，计算机控制系统实现对语音识别时具体为：自动收集用户语音信息，将收集的用户语音信息与人群定向数据库进行匹配，对用户进行人群定向，该定向结果为人群的行业，通过对人群定向的正确性进行检测直至符合要求为止。

进一步的，计算机控制系统实现对视频源处理，视频源处理通过以下方式实现对视频源的处理：在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件，采用十字分割的方式对四个JMF播放器进行分割，四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频，其中正面和后面、左面和右面互为对称。

与现有技术相比，本发明的有益效果是：

1、使得360°全息成像系统可进行人机交互，使用更加灵活，实用性大大增强。

2、优化语音识别速度，提高了用户体验。

3、为产品提供的配套软件，使得非专业人士不经培训便可应用，使用难度降低，普及也相对容易。

4、交互式3维立体影像系统不再是专业设备，娱乐家居亦可使用。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1交互式3维立体影像系统构成图；

图2改进后的语音识别过程图；

图3配套软件中视频源处理功能的原理图；

图4配套软件界面展示图；

图5配套软件导入视频源展示图；

图6配套软件相关语音、画面设置展示图；

图7交互式3维立体影像系统实地测试展示图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释部分:定向使用人群，即通过对用户行为数据的分析，找出潜在目标客群的共同行为特征的受众。

正如背景技术所介绍的，现有技术中存在360°全息成像系统所存在的人机交互及使用不便等不足，为了解决如上的技术问题，本申请提出了基于360°全息成像和语音识别的交互式三维立体影像系统。

本申请的一种典型的实施方式中，如图1所示，包括计算机控制系统，所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连，所述计算机控制系统包括语音识别模块，所述语音识别模块建立数据库，通过对输入的用户语音信息与数据库进行匹配，实现对用户的人群定向识别。

其中，影像播放与音响系统负责画面与声音的输出，光学成像系统负责三维立体画面的展示，配套软件则在计算机控制系统运行，实时对语音识别、画面、声音进行控制。

图2为改进后的语音识别过程图，在计算机控制系统中的语音识别功能的语言模型匹配环节进行“定向使用人群”的改进，数据库包括第一数据库及第二数据库，所述第一数据库为人群定向数据库，该数据库包括高频专业词汇，以便对使用者进行人群定向，所述第二数据库为定向人群专业用语和常用语数据库，包括定向人群的专业用语和常用语。

语音识别模块在实现语音识别时具体步骤为：

1)用户在使用语音识别时，计算机控制系统自动收集用户语音信息。

2)将收集的用户语音信息与人群定数据库一进行匹配，对使用者进行人群定向，该定向结果为人群的行业。

3)反复重复步骤二，计算机控制系统对人群定向的正确性进行检测，计算机控制系统对人群定向的正确性进行检测的方法为：计算机控制系统在对人群定向后，用户在使用本产品时，计算机控制系统依然自动收集用户语音信息，并依据当前人群定向结果(该定向结果为人群的行业)继续与第一数据库进行反向匹配(即根据人群定向结果匹配专业高频词汇)得到反向匹配结果(该结果为专业高频词汇)，如果用户语音信息与反向匹配结果误差小于等于10％,计算机控制系统会认为人群定向正确。

4)根据人群定向的结果，系统将从定向人群专业用语和常用语数据库进行搜索得到最终结果，即符合定向人群的专业用语和常用语。

计算机控制系统中还包括视频源处理模块，如图3所示，为配套软件中视频源处理功能的原理图，视频源处理模块通过以下方式实现对视频源的处理：在容器(JPanel)中添加四个JMF播放器(Player)、一个播放器的视频组件和控制组件(Component)，采用十字分割的方式对四个JMF播放器(Player)进行分割，四个JMF播放器(Player)分别播放用户导入的正面、后面、左面、右面视频，其中正面和后面、左面和右面互为对称。如图中JMF播放器1对应用户导入的视频源正面，如图中JMF播放器2对应用户导入的视频源后面，如图中JMF播放器3对应用户导入的视频源左面，如图中JMF播放器4对应用户导入的视频源右面。该技术无需计算机大量运算便可得到处理后的视频源，处理时间大大降低。

本申请的另一种典型的实施方式中，提供了基于360°全息成像和语音识别的交互式三维立体影像系统，该基于360°全息成像和语音识别的交互式三维立体影像系统中还包括开发适用于交互式3维立体影像系统的配套软件，集成对语音识别控制、用户信息、视频源处理等功能。为方便后期软件的维护与跨平台性，该配套软件采用java程序语言开发设计。

上述配套软件安装在计算机中，配套软件界面如图4所示。配套软件导入视频源展示如图5所述。用户导入视频源后，点击图4中的开始按钮即可运行整个系统。图6为配套软件相关语音、画面设置展示图，包括语音识别的语言，视频的清晰度与音量的大小。图7为交互式3维立体影像系统实地测试展示图。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于全息成像和语音识别的交互三维立体影像系统，其特征是，包括计算机控制系统，所述计算机控制系统分别与影视播放与音响系统及光学成像系统相连，所述影像播放与音响系统用于画面与声音的输出，所述光学成像系统用于实现三维立体画面的展示，所述计算机控制系统包括语音识别模块，所述语音识别模块包括数据库，通过对输入的用户语音信息与数据库进行匹配，实现对用户的人群定向识别。

2.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统，其特征是，所述数据库包括第一数据库及第二数据库，所述第一数据库为人群定向数据库，该数据库包括高频专业词汇，以便对使用者进行人群定向，所述第二数据库包括定向人群的专业用语和常用语。

3.如权利要求1所述的基于全息成像和语音识别的交互三维立体影像系统，其特征是，所述语音识别模块在实现语音识别时具体为：自动收集用户语音信息，将收集的用户语音信息与人群定向数据库进行匹配，对用户进行人群定向，该定向结果为人群的行业，通过对人群定向的正确性进行检测直至符合要求为止。

4.如权利要求3所述的基于全息成像和语音识别的交互三维立体影像系统，其特征是，计算机控制系统对人群定向的正确性进行检测的方法为：计算机控制系统在对人群定向后，计算机控制系统依然自动收集用户语音信息，并依据当前人群定向结果继续与第一数据库进行反向匹配即根据人群定向结果匹配专业高频词汇，得到反向匹配结果，该结果为专业高频词汇，如果用户语音信息与反向匹配结果误差小于等于设定值，计算机控制系统则认为人群定向正确。

5.如权利要求4所述的基于全息成像和语音识别的交互三维立体影像系统，其特征是，计算机控制系统根据人群定向的结果，进一步从第二数据库即定向人群专业用语和常用语数据库进行搜索得到最终结果，该结果为符合定向人群的专业用语和常用语。

6.如权利要求1-5任一所述的基于全息成像和语音识别的交互三维立体影像系统，其特征是，所述计算机控制系统中还包括视频源处理模块，视频源处理模块通过以下方式实现对视频源的处理：在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件，采用十字分割的方式对四个JMF播放器进行分割，四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频，其中正面和后面、左面和右面互为对称。

7.基于基于全息成像和语音识别的交互三维立体影像系统的实现方法，其特征是，包括：

8.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法，其特征是，计算机控制系统实现对语音识别时，首先建立数据库，所述数据库包括第一数据库及第二数据库，所述第一数据库为人群定向数据库，该数据库包括高频专业词汇，以便对使用者进行人群定向，所述第二数据库包括定向人群的专业用语和常用语。

9.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法，其特征是，计算机控制系统实现对语音识别时具体为：自动收集用户语音信息，将收集的用户语音信息与人群定向数据库进行匹配，对用户进行人群定向，该定向结果为人群的行业，通过对人群定向的正确性进行检测直至符合要求为止。

10.如权利要求7所述的基于全息成像和语音识别的交互三维立体影像系统的实现方法，其特征是，计算机控制系统实现对视频源处理，视频源处理通过以下方式实现对视频源的处理：在容器中添加四个JMF播放器、一个播放器的视频组件和控制组件，采用十字分割的方式对四个JMF播放器进行分割，四个JMF播放器分别播放用户导入的正面、后面、左面、右面视频，其中正面和后面、左面和右面互为对称。