CN117808013A

CN117808013A - 一种互动式多语言交流系统

Info

Publication number: CN117808013A
Application number: CN202410223531.0A
Authority: CN
Inventors: 杨成琰
Original assignee: Jinan Infant Teachers College
Current assignee: Jinan Infant Teachers College
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02

Abstract

本发明公开了一种互动式多语言交流系统，涉及多语言交流系统技术领域，包括显示屏、麦克风设备、服务器和语音识别模块，所述显示屏与服务器通过互联网连接，所述显示屏与麦克风设备通过电信号数据线连接，所述服务器内安装语音识别模块，所述语音识别模块用于对语音信号进行识别处理；所述语音识别模块包括：语音输入处理单元、语音信号预处理单元和语音指令解析单元。本发明通过设计有语音识别模块，实现了对用户语音数据转文本的预处理功能，实现语音到文本的准确识别和多语言翻译，提高了多语言交流的流畅度，提供更自然的交互方式。

Description

一种互动式多语言交流系统

技术领域

本发明涉及多语言交流系统技术领域，具体为一种互动式多语言交流系统。

背景技术

在全球化发展趋势下，为方便各国人民在大环境中高效友好交流，在生活中的医院、机场等国际场合中均安装有智能化语音交流设备，方便各国人民在外高效交流和获取所需信息，但在多语言交流系统中存在不同语音的口音、语速和环境噪音的影响，导致语音识别的准确性低，从而交流翻译的结果出现偏差，难以有效交流。

现有交流系统技术中缺少对语音数据的处理功能，不能将语音有效识别进而转换为对应文本进行翻译，导致交流系统准确率低，无法提供高效多语言交互的技术平台。

因此，本申请提出一种互动式多语言交流系统能够解决对语音的准确识别和文本转化的问题，有效解决多语言系统不能满足不同语言使用者的要求的问题。

专利文件CN109872264B公开了一种互动式多语言文化体验系统及其互动方法，上述专利实现了解决了交流中语言不通的问题，极大地提高了多语言文化交流的体验水平，但上述专利不能实现对用户语音数据转文本的预处理功能。

专利文件CN111488744B公开了一种多模态语言信息AI翻译方法、系统和终端，上述专利实现了能够克服种种语言障碍，使交流非常方便，但上述专利不能实现对语言的种类选择和实时翻译显示功能。

专利文件CN106598956B公开了一种语言转换服务器系统，上述专利实现了为人们生活提供了便利，为科学技术传播提供渠道，节约了社会资源，具有技术前瞻性，其实现对现代社会发展，世界各国间的更深入交流发挥重大的意义，但上述专利不能实现根据用户需求对语音指令文本对应翻译的功能。

专利文件CN111507115B公开了一种多模态语言信息人工智能翻译方法、系统和设备，上述专利实现了能够将留言用户所使用的各种语言信息模态翻译为接听用户所能理解的语言信息模态，使交流非常方便，但上述专利不能实现不同语言匹配翻译引擎的功能。

综上所述，上述专利不能实现对用户语音数据转文本的预处理功能、对语言的种类选择和实时翻译显示功能、根据用户需求对语音指令文本对应翻译的功能和不同语言匹配翻译引擎的功能，导致不能语音识别不准确、不能实时交流翻译结果、不能选择语言种类匹配翻译引擎和交流交互速度慢效果差的问题；

为此，本申请提出了一种能实现对用户语音数据转文本的预处理功能、对语言的种类选择和实时翻译显示功能、根据用户需求对语音指令文本对应翻译的功能和不同语言匹配翻译引擎的功能的互动式多语言交流系统。

发明内容

本发明的目的在于提供一种互动式多语言交流系统，以解决上述背景技术中提出的不能实现对用户语音数据转文本的预处理功能、对语言的种类选择和实时翻译显示功能、根据用户需求对语音指令文本对应翻译的功能和不同语言匹配翻译引擎的功能，导致不能语音识别不准确、不能实时交流翻译结果、不能选择语言种类匹配翻译引擎和交流交互速度慢效果差技术问题。

为实现上述目的，本发明提供如下技术方案：一种互动式多语言交流系统，包括显示屏、麦克风设备、服务器和语音识别模块，所述显示屏与服务器通过互联网连接，所述显示屏与麦克风设备通过电信号数据线连接，所述服务器内安装语音识别模块，所述语音识别模块用于对语音信号进行识别处理；

所述语音识别模块包括：语音输入处理单元、语音信号预处理单元和语音指令解析单元；

所述语音输入处理单元与麦克风设备通过电数据信号线连接，所述语音处理单元内设计有Google Speech-to-Text API，对麦克风设备收集的语音数据进行语音识别；

所述语音信号预处理单元内设计有LibROSA开源语音处理库，对语音输入处理单元识别的语音数据信号进行去除噪音和降低干扰的预处理操作；

所述语音指令解析单元内设计有NLP自然语言处理算法解析引擎，所述语音指令解析单元与翻译引擎模块通过电数据信号线连接。

优选的，所述显示屏内设计有用户界面模块，用户界面模块与显示屏通过电数据信号线连接，用户界面模块用于提供用户进行交流信息选择和查看语音文本；

用户界面模块包括：语音输入控制单元、语言选择界面单元和实时翻译显示单元；

语音输入控制单元内设计有Web Speech API语音输入集成，允许用户点击麦克风设备按钮和说出特定关键词触发麦克风设备的语音输入电路，语音输入控制单元接收用户语音将用户语音转换为语音数据电信号；

语言选择界面单元使用React前端框架创建交互式语言选择组件，提供下拉菜单，允许用户在显示屏上选择输入和输出的语言形式；

实时翻译显示单元使用WebSocket与显示屏建立实时连接，通过翻译引擎翻译文本并实时更新用户界面信息显示翻译结果。

优选的，所述服务器内设计有翻译引擎模块，翻译引擎模块与用户界面模块通过数据线连接；

翻译引擎内模块包括：文本翻译单元、实时翻译管理单元和翻译质量优化单元；

文本翻译单元内设计有Google Translate API和Microsoft Translator API接口，文本翻译单元通过云端和本地部署与服务器进行局域连接，通过API调用，将用户语音输入的文本翻译为目标语言，并将翻译结果返回给客户端显示屏；

实时翻译管理单元与服务器通过云端和本地部署进行局域连接，实时翻译管理单元与服务器端建立WebSocket连接，实时翻译管理单元监听语音识别结果并实时进行翻译，通过WebSocket向客户端显示屏推送实时翻译结果；

翻译质量优化单元通过TensorFlow机器学习框架使用用户反馈数据，实施机器学习算法不断优化翻译引擎的性能。

优选的，所述显示屏内设计有多语言支持模块，多语言支持模块用于对翻译语言进行文件配置和优化；

多语言支持模块包括：语言支持列表管理单元、用户语言选择单元和多语言性能优化单元；

语言支持列表管理单元使用MySQL数据库管理系统存储支持的语言列表，并通过API进行动态更新；

用户语言选择单元内设计有React技术，用户在显示屏界面上选择源语言和目标语言，前端框架负责将用户选择的语言配置保存在用户的配置文件中；

多语言性能优化单元通过云端和本地部署连接到服务器，根据用户选择的语言配置选择适当的语音识别和翻译引擎，并进行性能优化满足不同语言的要求。

优选的，所述服务器内设计有实时交流模块，实时交流模块用于对语音数据和翻译数据进行实时传输推送；

实时交流模块包括：WebSocket连接单元、实时数据传输单元和异步处理单元；

WebSocket连接单元通过WebSocket协议在服务器和客户端显示屏之间建立实时双向通信连接，用于传输语音识别结果和实时翻译数据；

实时数据传输单元将服务器内的翻译结果通过JSON格式传输给客户端显示屏，客户端显示屏监听WebSocket事件来接收和处理实时翻译数据；

异步处理单元通过云端和本地部署与服务器局域连接，使用异步任务队列处理实时翻译任务，并推送给客户端显示屏。

优选的，所述服务器内设计有用户反馈改进模块，用户反馈改进模块用于优化翻译模型；

用户反馈改进模块包括：用户评分评论单元、用户反馈数据存储单元和翻译质量分析单元；

用户评分评论单元设计在显示屏的前端界面组件中，用户通过点击按钮和输入文字对交流结果进行评价和反馈；

用户反馈数据存储单元使用MongoDB数据库存储评分评论单元采集的用户评分评论数据，并将用户评分评论数据通过云端和本地配置连接上传至服务器内；

翻译质量分析单元采用PyTorch机器学习框架算法对用户反馈的数据进行分析，不断优化翻译模型。

优选的，所述交流系统内设计有安全隐私模块，安全隐私模块用于对服务器和客户端之间的数据进行隐私加密；

安全隐私模块包括：数据加密单元、用户协议单元和访问控制单元；

数据加密单元通过SSL/TLS协议来加密在服务器和客户端之间传输的数据；

用户协议单元采用网站和应用程序的法律文本编辑工具提供清晰的隐私政策和用户协议，明确用户了解数据使用规则；

访问控制单元内设计有身份验证和授权机制，使用令牌、OAuth和生物身份验证机制确保授权用户才能访问服务器和客户端的相关隐私数据。

优选的，所述显示屏内设计有离线功能模块，离线功能模块用于对进行无网络连接的翻译交流；

离线功能模块包括：离线语音识别单元、离线翻译单元和离线模式提示单元；

离线语音识别单元利用Web Speech API的离线语音识别功能，允许在无网络连接时进行麦克风设备语音输入；

离线翻译单元在服务器本地存储常用语言翻译结果数据库，在离线时使用存储的翻译结果进行翻译输出；

离线模式提示单元使用本地存储的保存离线模式状态，并通过通知API向用户显示离线提示。

优选的，所述使用方法包括以下步骤：

S1、语音输入：用户的语音输入通过麦克风设备上的话筒传输到服务器，语音识别结果通过网络传输到服务器，由Google Speech-to-Text API处理；

S2、交流翻译：翻译结果在服务器端实时生成，并通过WebSocket协议传输给客户端，客户端监听WebSocket事件，接收并处理实时翻译数据，更新用户界面；

S3、用户反馈：用户的评分和评论通过用户界面传输到服务器，评分和评论数据存储在服务器的数据库中，供进一步分析和优化使用；

S4、离线翻译：离线模式状态通过本地存储保存在用户设备上，当设备处于离线状态时，系统使用本地存储的离线翻译结果，无需进行实时网络传输。

优选的，所述使用方法还包括以下步骤：

S11、用户通过按钮和特定词激活麦克风设备的语音输入电路，语音识别模块对语音数据信号进行预处理，并将语音转换为对应语言文本；

S21、用户在界面上选择源语言和目标语言，通过下拉菜单或其他交互元素完成语言配置，服务器接收并处理Google Speech-to-Text API返回的文本结果，翻译引擎将文本翻译为用户选择的目标语言，实时翻译结果通过WebSocket协议推送到客户端；

S31、用户对翻译质量进行评价和评论，用户评分和评论通过界面组件传输到服务器，服务器接收并存储用户评分和评论数据，翻译质量分析模块使用机器学习算法对用户反馈数据进行分析，以进一步优化翻译模型；

S41、系统检测到设备无网络连接时，切换至离线模式，离线模式下，系统利用本地存储的翻译结果，保持语音输入和翻译功能可用。

与现有技术相比，本发明的有益效果是：

1.本发明通过设计有语音识别模块，实现了对用户语音数据转文本的预处理功能，实现语音到文本的准确识别和多语言翻译，提高了多语言交流的流畅度，提供更自然的交互方式；

2.本发明通过设计有用户界面模块，实现了对语言的种类选择和实时翻译显示功能，提供用户友好的交互方式，解决了用户不能轻松进行语音输入和获取实时翻译导致交流效率低的问题；

3.本发明通过设计有翻译引擎模块，实现了根据用户需求对语音指令文本对应翻译的功能，扩大了交流系统的适用群体，解决了不能满足不同语言使用者的翻译交流需求的问题；

4.本发明通过设计有多语言支持模块，实现了不同语言匹配翻译引擎的功能，对选定的引擎进行优化，满足了不同语言的翻译交流需求。

附图说明

图1为本发明的语音识别模块示意图；

图2为本发明的用户界面模块示意图；

图3为本发明的翻译引擎模块示意图；

图4为本发明的多语言支持模块示意图；

图5为本发明的离线功能模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明提供的一种实施例：一种互动式多语言交流系统，包括显示屏、麦克风设备、服务器和语音识别模块，所述显示屏与服务器通过互联网连接，所述显示屏与麦克风设备通过电信号数据线连接，所述服务器内安装语音识别模块，所述语音识别模块用于对语音信号进行识别处理；

所述语音指令解析单元内设计有NLP自然语言处理算法解析引擎，所述语音指令解析单元与翻译引擎模块通过电数据信号线连接；

进一步，服务器接收用户的语音输入数据，语音输入传递给Google Speech-to-Text API，Google Speech-to-Text API将语音转换为文本，文本结果传递给语音信号预处理模块，服务器接收语音识别模块传来的文本结果，使用LibROSA进行语音信号预处理，去除噪音、降低干扰等，预处理后的文本传递给语音指令解析模块，服务器接收经过预处理的文本结果，使用NLP自然语言处理技术解析文本，识别用户的指令或请求，解析后的指令传递给翻译引擎模块，执行相应的操作。

实施例2

请参阅图1-图2，本发明提供的一种实施例：一种互动式多语言交流系统，所述显示屏内设计有用户界面模块，用户界面模块与显示屏通过电数据信号线连接，用户界面模块用于提供用户进行交流信息选择和查看语音文本；

实时翻译显示单元使用WebSocket与显示屏建立实时连接，通过翻译引擎翻译文本并实时更新用户界面信息显示翻译结果；

进一步，用户点击或触发语音输入按钮，应用启动Web Speech API的语音识别功能，话筒采集用户语音输入并传输给服务器，Web Speech API监听语音输入，将语音转换为文本，文本结果传递给语音识别模块，用户通过界面上的下拉菜单选择源语言和目标语言，用户的语言选择被保存在前端状态管理中，用户确认语言选择，触发配置更新，配置信息传递给语音识别模块和实时翻译显示模块，实时监听WebSocket连接，等待服务器推送的翻译结果，当服务器有新的翻译结果时，接收并解析JSON数据，更新用户界面上的实时翻译显示区域，展示最新的翻译结果。

实施例3

请参阅图1、图2和图3，本发明提供的一种实施例：一种互动式多语言交流系统，所述服务器内设计有翻译引擎模块，翻译引擎模块与用户界面模块通过数据线连接；

翻译质量优化单元通过TensorFlow机器学习框架使用用户反馈数据，实施机器学习算法不断优化翻译引擎的性能；

进一步，服务器接收解析后的语音指令或用户输入的文本，根据用户配置选择源语言和目标语言，使用翻译API中的Google Translate API和Microsoft Translator API将文本翻译为目标语言，翻译结果传递给实时翻译管理单元，服务器实时监听语音识别模块的结果和文本翻译模块的翻译结果，将实时翻译结果以JSON格式打包通过WebSocket协议推送实时翻译结果给用户界面模块，服务器接收用户的评分和评论数据，使用机器学习算法对评分和评论数据进行分析，根据分析结果优化翻译引擎的模型和算法，提升翻译质量。

实施例4

请参阅图1和图4，本发明提供的一种实施例：一种互动式多语言交流系统，所述显示屏内设计有多语言支持模块，多语言支持模块用于对翻译语言进行文件配置和优化；

多语言性能优化单元通过云端和本地部署连接到服务器，根据用户选择的语言配置选择适当的语音识别和翻译引擎，并进行性能优化满足不同语言的要求；进一步，服务器使用数据库管理系统存储支持的语言列表，通过API动态更新语言支持列表，用户通过界面选择源语言和目标语言，用户选择的语言配置保存在前端状态管理中，配置信息传递给语音识别模块和实时翻译显示模块，服务器根据用户选择的语言配置，选择适当的语音识别和翻译引擎，对选定的引擎进行性能优化，以满足不同语言的需求。

实施例5

请参阅图1-图5，本发明提供的一种实施例：一种互动式多语言交流系统，所述服务器内设计有实时交流模块，实时交流模块用于对语音数据和翻译数据进行实时传输推送；

异步处理单元通过云端和本地部署与服务器局域连接，使用异步任务队列处理实时翻译任务，并推送给客户端显示屏；

进一步，服务器和客户端通过WebSocket协议建立实时双向通信连接，服务器通过WebSocket实时将翻译结果以JSON格式传输给客户端，客户端监听WebSocket事件，接收并处理实时翻译数据，服务器使用Celery异步任务队列处理实时翻译任务，异步任务队列确保翻译任务不影响系统性能。

实施例6

请参阅图1、图3和图5，本发明提供的一种实施例：一种互动式多语言交流系统，所述显示屏内设计有离线功能模块，离线功能模块用于对进行无网络连接的翻译交流；

离线模式提示单元使用本地存储的保存离线模式状态，并通过通知API向用户显示离线提示；

进一步，用户在离线状态时使用Web Speech API的离线模式进行语音输入，离线语音输入被传输到服务器，在本地存储中保存一部分常用语言翻译结果，当离线时，系统使用本地存储的翻译结果，无需进行实时网络传输，使用本地存储保存离线模式状态，通过通知API向用户显示离线提示。

工作原理，首先用户启动多语言互动式交流应用，应用加载用户界面，显示语言选择、实时翻译显示区域以及语音输入控制按钮，用户点击语音输入按钮，启动Web SpeechAPI的语音识别功能，用户通过话筒进行语音输入，Web Speech API监听语音输入并将其传输到服务器，用户在界面上选择源语言和目标语言，通过下拉菜单或其他交互元素完成语言配置；

然后，服务器接收用户的语音输入，语音输入被传输到Google Speech-to-TextAPI，将语音转换为文本，服务器进行语音信号预处理，提高语音识别准确性，文本结果传递给翻译引擎模块，根据用户配置选择源语言和目标语言，使用翻译API将文本翻译为目标语言，实时翻译结果通过WebSocket协议推送到客户端，更新用户界面，用户对翻译质量进行评价和评论，评分和评论数据存储在服务器的数据库中，供进一步分析和优化使用，翻译引擎模块使用机器学习算法对用户反馈数据进行分析，不断优化翻译模型；

最后，数据传输过程中使用HTTPS协议进行加密，保障数据传输的安全性，用户身份验证和授权机制通过令牌、OAuth和生物身份验证方式实现，控制对敏感数据的访问权限，系统检测到设备无网络连接时，切换至离线模式，离线模式下，系统利用本地存储的翻译结果，保持语音输入和翻译功能可用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种互动式多语言交流系统，其特征在于：包括显示屏、麦克风设备、服务器和语音识别模块，所述显示屏与服务器通过互联网连接，所述显示屏与麦克风设备通过电信号数据线连接，所述服务器内安装语音识别模块，所述语音识别模块用于对语音信号进行识别处理；

2.根据权利要求1所述的一种互动式多语言交流系统，其特征在于：所述显示屏内设计有用户界面模块，用户界面模块与显示屏通过电数据信号线连接，用户界面模块用于提供用户进行交流信息选择和查看语音文本；

3.根据权利要求1所述的一种互动式多语言交流系统，其特征在于：所述服务器内设计有翻译引擎模块，翻译引擎模块与用户界面模块通过数据线连接；

4.根据权利要求1所述的一种互动式多语言交流系统，其特征在于：所述显示屏内设计有多语言支持模块，多语言支持模块用于对翻译语言进行文件配置和优化；

5.根据权利要求3所述的一种互动式多语言交流系统，其特征在于：所述服务器内设计有实时交流模块，实时交流模块用于对语音数据和翻译数据进行实时传输推送；

6.根据权利要求5所述的一种互动式多语言交流系统，其特征在于：所述服务器内设计有用户反馈改进模块，用户反馈改进模块用于优化翻译模型；

7.根据权利要求1所述的一种互动式多语言交流系统，其特征在于：所述交流系统内设计有安全隐私模块，安全隐私模块用于对服务器和客户端之间的数据进行隐私加密；

8.根据权利要求1所述的一种互动式多语言交流系统，其特征在于：所述显示屏内设计有离线功能模块，离线功能模块用于对进行无网络连接的翻译交流；

9.根据权利要求1-8任意一项所述的一种互动式多语言交流系统的使用方法，其特征在于：所述使用方法包括以下步骤：

10.根据权利要求9所述的一种互动式多语言交流系统的使用方法，其特征在于：所述使用方法还包括以下步骤：

S41、系统检测到设备无网络连接时，切换至离线模式，离线模式下，系统利用本地存储的翻译结果，保持语音输入和翻译功能的使用。