CN117316163B

CN117316163B - 一种无纸化办公会议设备及方法

Info

Publication number: CN117316163B
Application number: CN202311286929.0A
Authority: CN
Inventors: 吴儒敏; 吴妙琼
Original assignee: Jiangmen Medley Electronic Technology Co ltd
Current assignee: Jiangmen Medley Electronic Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-05-31
Anticipated expiration: 2043-10-08
Also published as: CN117316163A

Abstract

本申请涉及语音会议的技术领域，公开了一种无纸化办公会议设备及方法，所述无纸化办公会议设备包括若干参会终端和通信连接于各所述参会终端的主控制器，所述参会终端包括显示器、录像器、录音器和播音器，所述主控制器包括语言特征信息获取模块、发言文本数据生成模块、收听文本音频数据生成模块和收听文本音频数据发送模块；本申请提高远程会议中信息传达准确性的效果。

Description

一种无纸化办公会议设备及方法

技术领域

本申请涉及语音会议的技术领域，尤其是涉及一种无纸化办公会议设备及方法。

背景技术

随着经济全球化的进程，许多大型企业在不同的国家或地区开设有分公司、子公司、门店等，因此，许多大型企业的会议需要身处不同地区的职员参与，不同地区的职员可能存在语种、口音和语言习惯的差异，从而造成容易造成其他参会人员理解上的偏差，进而影响会议的信息传达效果；目前，市场上已有许多用于远程会议的多媒体会议设备，然而，现有的多媒体会议设备难以解决不同地区职员语言差异的问题。

发明内容

为了提高远程会议中信息传达的准确性，本申请提供一种无纸化办公会议设备及方法。

本申请的发明目的一采用如下技术方案实现：

一种无纸化办公会议设备，包括若干参会终端和通信连接于各所述参会终端的主控制器，所述参会终端包括显示器、录像器、录音器和播音器，所述主控制器包括：

语言特征信息获取模块，用于识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息；

发言文本数据生成模块，用于获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据；

收听文本音频数据生成模块，用于获取收听参会者的语言特征信息，基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据；

收听文本音频数据发送模块，用于若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端；

所述语言特征信息包括口语特征信息和人员语种信息。

通过采用上述技术方案，无纸化办公会议设备包括若干供参会人员使用的参会终端和通信连接于各参会终端的主控制器，其中参会终端包括显示器、录像器、录音器和播音器，以便使各参会人员之间进行视频语音会议，录像器和录音器还具备作为识别参会人员身份的输入设备的功能；主控制器包括语言特征信息获取模块、发言文本数据生成模块、收听文本音频数据生成模块和收听文本音频数据发送模块，以便对发言参会者的语音进行采集、识别和翻译等处理，并将处理后的信息传递至各收听参会者。

本申请的发明目的二采用如下技术方案实现：

一种无纸化办公会议方法，应用于上述无纸化办公会议设备，包括：

识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息；

获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据；

获取收听参会者的语言特征信息，基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据；

若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端；

所述语言特征信息包括口语特征信息和人员语种信息。

通过采用上述技术方案，识别所有参会终端对应参会者的身份信息，以便确定各参会者所掌握的语种情况，以及参会者的口语特征情况等语言特征信息；获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型，识别发言语音数据对应的语种，根据发言参会者的口语特征和语种，匹配经过对应类型语音数据特化训练的特征语音识别算法，从而对发言语音数据进行识别，得到对应的发言文本数据；获取收听参会者的语言特征信息，以便确定收听参会者所掌握的语种类型，以便将发言文本数据翻译为符合收听参会者所掌握语言的收听文本数据，便于后续通过收听参会者所了解的语种文字向收听参会者展示翻译后的字幕，基于收听文本数据生成收听音频数据，便于后续通过收听参会者所了解的语种音频向收听参会者播放翻译后的语音；若收听参会者所掌握的语种包括语音语种信息，则仅向该收听参会者展示翻译后的文本信息，对发言参会者的原始发言语音数据无需进行翻译，便于收听参会者根据发言参会者的原始发言语音数据理解发言参会者所表达的内容，若收听参会者不掌握原始发言语音的语种，则还需要向收听参会者播放收听音频数据，便于收听参会者通过视觉或听觉获知发言参会者所需传达的内容。

本申请在一较佳示例中：所述识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息，包括：

获取参会者的生物特征数据，将所述生物特征数据输入至职员生物数据库中，基于所述生物特征数据匹配对应的身份信息；

基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息。

通过采用上述技术方案，获取参会者的生物特征数据并输入至职员生物数据库中进行匹配，以确定各参会者的身份信息；根据参会者的身份信息从职员资料数据库中匹配对应的语言特征信息，以便后续根据各参会者的语言特征信息选择合适的语音识别算法，并确定对应的语种翻译程序。

本申请在一较佳示例中：所述基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息，包括：

基于参会者的身份信息从职员资料数据库中获取对应的年龄信息、性别信息，以及学习经历信息、工作经历信息、户籍信息和籍贯信息；

基于所述年龄信息和性别信息，以确定生理特征信息；基于所述学习经历信息、工作经历信息、户籍信息和籍贯信息，以确定参会者在每一曾住地区的生活时长；

基于参会者在各曾住地区的生活时长占比，确定参会者的每一种地区口音的可靠性参数，以确定口音特征信息；

基于所述生理特征信息和所述口音特征信息，生成口语特征信息。

通过采用上述技术方案，根据参会者的身份信息从职员资料数据库中获取该参会者的个人信息包括参会者的性别、年龄，以及户籍信息、籍贯信息、学习经历信息和工作经历信息；根据参会者的年龄信息和性别信息，获知参会者的生理特征，从而确定参会者的生理特征信息，基于参会者的学习经历信息、工作经历信息、户籍信息和籍贯信息，分析参会者在每一曾住地区的生活时长，以便后续判断该参会者的口音受各地口音的影响程度；基于参会者在各曾住地区的生活时长占比，计算参会者的每一种地区口音的可靠性参数，进而确定口音特征参数；进一步根据生理特征信息和口音特征信息生成口语特征信息。

本申请在一较佳示例中：所述获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据，包括：

接收来自发言终端的发言语音数据并输入至语音语义识别模型中，对所述发言语音数据进行语种识别，生成语音语种信息；

获取发言参会者的口语特征信息，基于所述口语特征信息和语音语种信息匹配对相应口语特征、语种进行过特化训练的特征语音识别算法；

将所述发言语音数据输入至特征语音识别算法中，识别所述发言语音数据，以生成发言文本数据。

通过采用上述技术方案，接收发言终端发出的发言参会者的发言语音数据并输入至预设的语音语义识别模型中，初步对发言语音数据进行语种识别，确定发言参会者所使用的语种，以得到语音语种信息；获取发言参会者的口语特征信息，以便获知发言参会者口语的特征，如口音、年龄、性别等的特征，进而匹配对发言参会者对应的口语特性、语种进行过特化训练的特征语音识别算法，以便提高对发言语音数据识别的准确性；将发言语音数据输入至特征语音识别算法中，使用特征语音识别算法识别发言语音数据，以得到发言文本数据。

本申请在一较佳示例中：所述人员语种信息包括第一语种信息和第二语种信息，所述第一语种信息为参会者的最擅长语种；

所述基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据，包括：

基于收听参会者的人员语种信息确定第一语种信息；

将发言文本数据输入至语音语种译第一语种程序，生成收听文本数据；

将收听文本数据输入至文本转音频程序，生成收听音频数据。

通过采用上述技术方案，从收听参会者的人员语种信息确定收听参会者最擅长的第一语种；将发言文本数据从语音语种翻译为第一语种的文本，得到收听文本数据，便于收听参会者通过阅读收听文本数据，接收发言参会者在会议上传达的信息；将收听文本数据输入至文本转音频程序中，以得到收听音频数据，便于收听参会者通过听收听音频数据，接收发言参会者在会议上传达的信息。

本申请在一较佳示例中：所述若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端之后，包括：

将所述收听文本数据发送至审稿终端；

实时接收所述审稿终端发出的翻译修正信息，基于所述翻译修正信息对收听文本数据进行更正，生成更正提示信息并发送至对应的收听终端。

通过采用上述技术方案，由于对发言参会者的发言语音数据进行翻译处理后得到的收听文本数据可能存在错误，因此，将所述收听文本数据发送至审稿终端，便于由审核终端协助检查收听文本数据是否存在翻译错误；实时接收所述审稿终端发出的翻译修正信息，基于翻译修正信息对收听文本数据进行更正，并发出更正提示信息，以便提示收听参会者之前所查看的收听文本数据存在错误且已经修正，从而提高收听参会者对发言参会者所传达内容理解的准确性。

本申请在一较佳示例中：所述将所述收听文本数据发送至审稿终端之前，还包括：

将所述语音语种信息、发言参会者的口语特征信息与各收听参会者的语言特征信息进行匹配，计算各收听参会者与发言参会者的之间的语言特征相似度；

基于语言特征相似度从高到低对各发言参会者进行排序，生成相似度排序表单；

基于所述相似度表单确定选取至少一个收听参会者为翻译审稿者，并将对应的收听终端定义为审稿终端；

向所述审稿终端发送审稿请求信息。

通过采用上述技术方案，将发言语音信息对应的语音语种信息、发言参会者的口语特征信息与每一收听参会者的语言特征信息进行匹配，以计算各收听参会者与发言参会者之间的语言相似度数值；根据语言相似度数值从高到低对各发言参会者进行排序，得到相似度排序名单，以便获知各收听参会者与发言参会者所掌握语种和口语特征的相似程度；基于相似度表单选取至少一个收听参会者作为翻译审稿者，并将其所使用的收听终端定义为审稿终端，便于后续对收听文本数据的准确性进行审核和修正；向审稿终端发送审稿请求信息，以便提示翻译审稿者协助对翻译后音频和文本的准确性进行审核。

本申请的发明目的三采用如下技术方案实现：

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述无纸化办公会议方法的步骤。

本申请的发明目的四采用如下技术方案实现：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述无纸化办公会议方法的步骤。

综上所述，本申请包括以下至少一种有益技术效果：

1. 无纸化办公会议设备包括若干供参会人员使用的参会终端和通信连接于各参会终端的主控制器，其中参会终端包括显示器、录像器、录音器和播音器，以便使各参会人员之间进行视频语音会议，录像器和录音器还具备作为识别参会人员身份的输入设备的功能；主控制器包括语言特征信息获取模块、发言文本数据生成模块、收听文本音频数据生成模块和收听文本音频数据发送模块，以便对发言参会者的语音进行采集、识别和翻译等处理，并将处理后的信息传递至各收听参会者。

2. 识别所有参会终端对应参会者的身份信息，以便确定各参会者所掌握的语种情况，以及参会者的口语特征情况等语言特征信息；获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型，识别发言语音数据对应的语种，根据发言参会者的口语特征和语种，匹配经过对应类型语音数据特化训练的特征语音识别算法，从而对发言语音数据进行识别，得到对应的发言文本数据；获取收听参会者的语言特征信息，以便确定收听参会者所掌握的语种类型，以便将发言文本数据翻译为符合收听参会者所掌握语言的收听文本数据，便于后续通过收听参会者所了解的语种文字向收听参会者展示翻译后的字幕，基于收听文本数据生成收听音频数据，便于后续通过收听参会者所了解的语种音频向收听参会者播放翻译后的语音；若收听参会者所掌握的语种包括语音语种信息，则仅向该收听参会者展示翻译后的文本信息，对发言参会者的原始发言语音数据无需进行翻译，便于收听参会者根据发言参会者的原始发言语音数据理解发言参会者所表达的内容，若收听参会者不掌握原始发言语音的语种，则还需要向收听参会者播放收听音频数据，便于收听参会者通过视觉或听觉获知发言参会者所需传达的内容。

3. 获取参会者的生物特征数据并输入至职员生物数据库中进行匹配，以确定各参会者的身份信息；根据参会者的身份信息从职员资料数据库中匹配对应的语言特征信息，以便后续根据各参会者的语言特征信息选择合适的语音识别算法，并确定对应的语种翻译程序。

附图说明

图1是本申请实施例一中主控制器的一原理框图。

图2是本申请实施例二中无纸化办公会议方法的流程图。

图3是本申请实施例二中无纸化办公会议方法的另一流程图。

图4是本申请实施例三中的设备示意图。

具体实施方式

以下结合附图1至4对本申请作进一步详细说明。

实施例一

本申请公开一种无纸化办公会议设备，包括若干参会终端和主控制器，其中参会终端的数量应当根据参会人员数量而定，每一参会人员使用一台参会终端，各参会终端均通信连接于主控制器，主控制器用于控制音频、文本数据在各参会终端之间的数据处理和传递。

参会终端包括显示器、录像器、录音器和播音器，其中显示器用于在视频会议中显示参会者本人的视频和其他参会者的视频，也可根据实际需求显示文档等视频数据，录像器用于录制参会者本人的影像；录音器用于录制参会者的发言，播音器用于播放其他参会者的语音、或者是影像资料的配音；从而便于各参会人员之间进行视频和/或语音会议，录像器和录音器还具备作为识别参会人员身份的输入设备的功能。

如图1所示，主控制器包括语言特征信息获取模块、发言文本数据生成模块、收听文本音频数据生成模块和收听文本音频数据发送模块。各功能模块的详细说明如下：

收听文本音频数据发送模块，用于若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端。

主控制器包括语言特征信息获取模块、发言文本数据生成模块、收听文本音频数据生成模块和收听文本音频数据发送模块，以便对发言参会者的语音进行采集、识别和翻译等处理，并将处理后的信息传递至各收听参会者。

关于主控制器的具体限定可以参见下文中对于无纸化办公会议方法的限定，在此不再赘述；上述主控制器中的各个模块可全部或部分通过软件、硬件及其组合来实现；上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以是以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例二

参照图2，本申请公开一种无纸化办公会议方法，应用于上述实施例中的无纸化办公会议设备，可适用于召开远程跨国和/或地区的远程语音视频会议，具体包括如下步骤：

S10：识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息。

在本实施例中，参会终端可根据当前的语音输入/输出状态分为发言终端和收听终端，发言终端和收听终端用于区分参会终端的瞬时状态，发言终端与收听终端之间可以相互转化，同理，参会者包括发言参会者和收听参会者，发言参会者与发言终端相对应，收听参会者与收听终端相对应；语言特征信息包括口语特征信息和人员语种信息，口语特征信息是指用于记录参会者口音情况的信息，人员语种信息是指用于记录参会者所掌握的语种的信息。

具体地，识别所有参会终端对应参会者的身份信息，具体可以是通过录像器获取参会者的人脸图像进行识别和匹配后确定参会者的身份信息，也可以是通过录音器录制参会者的语音音频进行识别和匹配后确定参会者的身份信息，也可以是参会者直接在参会终端输入自己的身份信息，以便语音会议中的各方相互辨别身份；基于各参会者的身份信息获取对应的语言特征信息，以便确定各参会者所掌握的语种情况，以及参会者的口语特征情况等语言特征信息。

其中，在步骤S10中，包括：

S11：获取参会者的生物特征数据，将所述生物特征数据输入至职员生物数据库中，基于所述生物特征数据匹配对应的身份信息。

在本实施例中，生物特征数据是指可以用于识别人员身份的生物信息，具体可以是人脸图像、语音音频等；职员生物数据库是指用于存储本单位所有职员的生物特征数据的数据库。

具体地，获取参会者的人脸图像和/或语音音频并输入至职员生物数据库中进行匹配，以确定各参会者的身份信息。

S12：基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息。

在本实施例中，职员资料数据库是指用于存储本单位所有职员的个人资料的数据库，所存储的职员个人资料至少包括年龄信息、性别信息，以及学习经历信息、工作经历信息、户籍信息和籍贯信息。

具体地，根据参会者的身份信息从职员资料数据库中匹配对应的职员个人资料，进而确定参会者的语言特征信息，以便后续根据各参会者的语言特征信息选择合适的语音识别算法，并确定对应的语种翻译程序。

进一步地，语言特征信息获取模块还包括：

身份信息匹配子模块，用于获取参会者的生物特征数据，将所述生物特征数据输入至职员生物数据库中，基于所述生物特征数据匹配对应的身份信息；

职员资料数据匹配子模块，用于基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息。

其中，在步骤S12中，包括：

S121：基于参会者的身份信息从职员资料数据库中获取对应的年龄信息、性别信息，以及学习经历信息、工作经历信息、户籍信息和籍贯信息。

在本实施例中，学习经历信息包括职员的学前教育、小学、初中、高中、大学、研究生等学习阶段的起止时间和学校所在地区信息；工作经历信息包括职员的每一段劳动关系的起止时间和工作地点信息；户籍信息包括职员的所有户籍变动记录对应的户籍地点和变动时间信息。

具体地，根据参会者的身份信息从职员资料数据库中获取该参会者的个人信息包括参会者的性别、年龄，以及户籍信息、籍贯信息、学习经历信息和工作经历信息，便于后续分析参会者在各地区的生活时长。

S122：基于所述年龄信息和性别信息，以确定生理特征信息；基于所述学习经历信息、工作经历信息、户籍信息和籍贯信息，以确定参会者在每一曾住地区的生活时长。

在本实施例中，生理特征信息是指根据参会者的年龄、性别而构成生理特征的信息；曾住地区是指参会者曾经生活过的地区。

由于许多语音识别算法的识别准确性都与训练相关，因此，将不同年龄、性别、地区人员的语音识别训练数据分类成不同的训练数据集后，再根据不同的训练数据集对语音识别算法进行针对性训练后，便于后续使用不同的针对性语音识别算法识别不同类型人群的语音，有利于提高语音识别算法对相应类型人群语音识别的准确性。

具体地，根据参会者的年龄信息和性别信息，获知参会者的生理特征，从而确定参会者的生理特征信息；基于参会者的学习经历信息、工作经历信息、户籍信息和籍贯信息，分析参会者在每一曾住地区的生活时长，拟制参会者在籍贯地生活N年，优选的，N=5，以设置为参会者父母语言习惯对参会者口音的影响因素，从而便于后续判断该参会者的口音受各地口音的影响程度。

具体地，设N=5，“（”、“）”为开区间符号，“[”、“]”为闭区间符号，某参会者年龄刚满30周岁，籍贯为A地，户籍地为B地且从未变更，其在[0至5]岁学龄前生活于B地，（5-18]岁于C地上幼儿园至高中毕业，（18-22]岁于D地上大学，（22-26]岁于D地工作，（26-30]岁于C地工作，则该参会者拟制在A地生活5年，B地生活5年，C地生活17年，D地生活8年；优选的，当参会者的个人资料中对某段时间的具体生活、学习、工作地点未记载清楚时，视为该参会者当时生活于户籍地；参会者的学习、工作地点应当以其实际学习、工作地点为准，而非以学校、企业的工商注册地址为准。

S123：基于参会者在各曾住地区的生活时长占比，确定参会者的每一种地区口音的可靠性参数，以确定口音特征信息。

在本实施例中，各地区口音的可靠性参数是指根据参会者在各地区生活或拟制生活时间占该参会者所有生活时间比例的参数；口音特征信息是指根据参会者的所有可靠性参数所确定的用于评估参会者口音特征的信息。

具体地，基于参会者在各曾住地区的生活时长占比，计算参会者的每一种地区口音的可靠性参数；以上文中的参会者为例，其A地口音的可靠性参数为5/35=14.3%，B地口音的可靠性参数为5/35=14.3%，C地口音的可靠性参数为17/35=48.6%，D地口音的可靠性参数为8/35=22.9%；基于各地区口音的可靠性参数确定口音特征参数。

进一步地，在计算各地区口音的可靠性参数时，还可以为参会者在不同年龄阶段设置不同的权重参数，例如，参会者在[0至10]岁的生活时间的权重参数设置为1.0，参会者在[10至20）岁的生活时间的权重参数设置为1.1，参会者在[20至30）岁的生活时间的权重参数设置为1.2，以此类推，则根据上述参会者的例子，修正后该参会者拟制在A地生活5年，B地生活5年，C地生活5+（8×1.1）+（4×1.2）=18.6年，D地生活（2×1.1）+（6×1.2）=9.4年；以便将参会者越接近当前时间的生活经历对其口音的影响程度设置得权重越大。

S124：基于所述生理特征信息和所述口音特征信息，生成口语特征信息。

具体地，进一步根据生理特征信息和口音特征信息生成口语特征信息。

进一步地，职员资料数据匹配子模块还包括：

职员资料数据获取子模块，用于基于参会者的身份信息从职员资料数据库中获取对应的年龄信息、性别信息，以及学习经历信息、工作经历信息、户籍信息和籍贯信息；

生理特征信息确定子模块，用于基于所述年龄信息和性别信息，以确定生理特征信息；基于所述学习经历信息、工作经历信息、户籍信息和籍贯信息，以确定参会者在每一曾住地区的生活时长；

口音特征信息确定子模块，用于基于参会者在各曾住地区的生活时长占比，确定参会者的每一种地区口音的可靠性参数，以确定口音特征信息；

口语特征信息生成子模块，用于基于所述生理特征信息和所述口音特征信息，生成口语特征信息。

S20：获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据。

在本实施例中，发言语音数据是指发言参会者输入至发言终端内的语音音频的数据；语音语义识别模型是指具有语音识别和语义识别功能的算法模型，内置有多种进行过不同类型针对性训练的语音识别算法；语音语种信息是指发言语音数据对应的语种信息；特征语音识别算法是指对发言参会者的口语特征和语音语种进行过针对性训练的语音识别算法；发言文本数据是指使用特征语音识别算法对发言语音数据进行语音识别后得到的文本数据。

具体地，获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型，识别发言语音数据对应的语种，根据发言参会者的口语特征和语种，匹配经过对应类型语音数据特化训练的特征语音识别算法，从而对发言语音数据进行识别，得到对应的发言文本数据。

其中，在步骤S20中，包括：

S21：接收来自发言终端的发言语音数据并输入至语音语义识别模型中，对所述发言语音数据进行语种识别，生成语音语种信息。

具体地，接收发言终端发出的发言参会者的发言语音数据并输入至预设的语音语义识别模型中，初步对发言语音数据进行语种识别，确定发言参会者所使用的语种，以得到语音语种信息。

S22：获取发言参会者的口语特征信息，基于所述口语特征信息和语音语种信息匹配对相应口语特征、语种进行过特化训练的特征语音识别算法。

具体地，获取发言参会者的口语特征信息，以便获知发言参会者口语的特征，如口音、年龄、性别等的特征，进而匹配对发言参会者对应的口语特性、语种进行过特化训练的特征语音识别算法，以便提高对发言语音数据识别的准确性。

S23：将所述发言语音数据输入至特征语音识别算法中，识别所述发言语音数据，以生成发言文本数据。

具体地，将发言语音数据输入至特征语音识别算法中，使用特征语音识别算法识别发言语音数据，以得到发言文本数据。

进一步地，发言文本数据生成模块还包括：

语音语种信息生成子模块，用于接收来自发言终端的发言语音数据并输入至语音语义识别模型中，对所述发言语音数据进行语种识别，生成语音语种信息；

特征语音识别算法匹配子模块，用于获取发言参会者的口语特征信息，基于所述口语特征信息和语音语种信息匹配对相应口语特征、语种进行过特化训练的特征语音识别算法；

发言语音数据识别子模块，用于将所述发言语音数据输入至特征语音识别算法中，识别所述发言语音数据，以生成发言文本数据。

S30：获取收听参会者的语言特征信息，基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据。

在本实施例中，收听文本数据是指对发言文本数据进行翻译后得到的文本数据；收听音频数据是指基于收听文本数据进行文本音频转化后生成的音频数据。

具体地，获取收听参会者的语言特征信息，以便确定收听参会者所掌握的语种类型，以便将发言文本数据翻译为符合收听参会者所掌握语言的收听文本数据，便于后续通过收听参会者所了解的语种文字向收听参会者展示翻译后的字幕，基于收听文本数据生成收听音频数据，便于后续通过收听参会者所了解的语种音频向收听参会者播放翻译后的语音。

其中，在步骤S30中，包括：

S31：基于收听参会者的人员语种信息确定第一语种信息。

在本实施例中，人员语种信息包括第一语种信息和第二语种信息，第一语种为参会者的最擅长语种；第二语种为参会者所掌握的语种，第二语种信息可以是参会者自己填报而生成的，也可以是根据参会者所持有的语言技能证书、修学过的课程而自动生成的。

具体地，从收听参会者的人员语种信息确定收听参会者最擅长的第一语种。

S32：将发言文本数据输入至语音语种译第一语种程序，生成收听文本数据。

具体地，将发言文本数据从语音语种翻译为第一语种的文本，得到收听文本数据，便于收听参会者通过阅读收听文本数据，接收发言参会者在会议上传达的信息。

S33：将收听文本数据输入至文本转音频程序，生成收听音频数据。

具体地，将收听文本数据输入至文本转音频程序中，以得到收听音频数据，便于收听参会者通过听收听音频数据，接收发言参会者在会议上传达的信息。

进一步地，收听文本音频数据生成模块还包括：

第一语种信息确定子模块，用于基于收听参会者的人员语种信息确定第一语种信息；

收听文本数据生成子模块，用于32将发言文本数据输入至语音语种译第一语种程序，生成收听文本数据；

收听音频数据生成子模块，用于将收听文本数据输入至文本转音频程序，生成收听音频数据。

S40：若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端。

具体地，若收听参会者所掌握的语种包括语音语种信息，则仅向该收听参会者展示翻译后的文本信息，对发言参会者的原始发言语音数据无需进行翻译，便于收听参会者根据发言参会者的原始发言语音数据理解发言参会者所表达的内容，若收听参会者不掌握原始发言语音的语种，则还需要向收听参会者播放收听音频数据，便于收听参会者通过视觉或听觉获知发言参会者所需传达的内容。

其中，如图3所示，在步骤S40之后，无纸化办公会议方法还包括：

S50：将所述收听文本数据发送至审稿终端。

在本实施例中，审稿终端是指翻译审稿者所使用的参会终端，翻译审稿者是指具有对本申请无纸化办公会议方法中翻译处理执行审稿工作的参会者；审稿终端和翻译审稿者均为临时确定的，当发言参会者改变时，审稿终端和翻译审稿者会根据后续发言的实际翻译语种和翻译需求进行变更。

具体地，由于对发言参会者的发言语音数据进行翻译处理后得到的收听文本数据可能存在错误，因此，将所述收听文本数据发送至审稿终端，便于由审核终端协助检查收听文本数据是否存在翻译错误。

其中，在步骤S50之前，包括：

S51：将所述语音语种信息、发言参会者的口语特征信息与各收听参会者的语言特征信息进行匹配，计算各收听参会者与发言参会者的之间的语言特征相似度。

在本实施例中，语言特征相似度是指收听参会者与发言参会者之间的语言特征信息的相似度，具体是指收听参会者与发言参会者之间的口语特征信息的相似度。

具体地，将发言语音信息对应的语音语种信息、发言参会者的口语特征信息与每一收听参会者的语言特征信息进行匹配，以计算各收听参会者与发言参会者之间的语言相似度数值，具体的计算公式可以根据实际需求进行调整，优选的，生理特征信息的权重占20%，口音特征信息的权重占80%。

S52：基于语言特征相似度从高到低对各发言参会者进行排序，生成相似度排序表单。

具体地，根据语言相似度数值从高到低对各发言参会者进行排序，得到相似度排序名单，以便获知各收听参会者与发言参会者所掌握语种和口语特征的相似程度。

S53：基于所述相似度表单确定选取至少一个收听参会者为翻译审稿者，并将对应的收听终端定义为审稿终端。

具体地，基于相似度表单选取一个或多个收听参会者作为翻译审稿者，优选的，翻译审稿者的人数可以根据会议重要程度和会议参会者数量而确定；并将其所使用的收听终端定义为审稿终端，便于后续对收听文本数据的准确性进行审核和修正；优选的，翻译审稿者选择相似度表单中排序最前的发言参会者担任；还可以根据实际需求为部分具有重要发言需求的参会者设置审稿豁免标记，以避免选中带有审稿豁免标记的收听参会者作为翻译审稿者，使这些参会者能够专注于会议内容而减少对他们的打扰。

S54：向所述审稿终端发送审稿请求信息。

具体地，向审稿终端发送审稿请求信息，以便提示翻译审稿者协助对翻译后音频和文本的准确性进行审核。

S60：实时接收所述审稿终端发出的翻译修正信息，基于所述翻译修正信息对收听文本数据进行更正，生成更正提示信息并发送至对应的收听终端。

在本实施例中，翻译修正信息是指用于对收听文本数据进行更正的信息；更正提示信息是指用于提示收听参会者当前收听文本数据存在修正内容的信息。

具体地，实时接收所述审稿终端发出的翻译修正信息，基于翻译修正信息对收听文本数据进行更正，并发出更正提示信息，以便提示收听参会者之前所查看的收听文本数据存在错误且已经修正，从而提高收听参会者对发言参会者所传达内容理解的准确性。

进一步地，主控制器还包括：

审稿文本发送模块，用于将所述收听文本数据发送至审稿终端；

翻译修正模块，用于实时接收所述审稿终端发出的翻译修正信息，基于所述翻译修正信息对收听文本数据进行更正，生成更正提示信息并发送至对应的收听终端。

其中，审稿文本发送模块还包括：

语言特征相似度计算子模块，用于将所述语音语种信息、发言参会者的口语特征信息与各收听参会者的语言特征信息进行匹配，计算各收听参会者与发言参会者的之间的语言特征相似度；

相似度排序表单生成子模块，用于基于语言特征相似度从高到低对各发言参会者进行排序，生成相似度排序表单；

审稿终端选取子模块，用于基于所述相似度表单确定选取至少一个收听参会者为翻译审稿者，并将对应的收听终端定义为审稿终端；

审稿请求发送子模块，用于向所述审稿终端发送审稿请求信息。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例三

一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储身份信息、语言特征信息、发言语音数据、语音语义识别模型、语音语种信息、口语特征信息、特征语音识别算法、发言文本数据、人员语种信息、收听文本数据、收听音频数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现无纸化办公会议方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

S10：识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息；

S20：获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据；

S30：获取收听参会者的语言特征信息，基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）、DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种无纸化办公会议设备，其特征在于，包括若干参会终端和通信连接于各所述参会终端的主控制器，所述参会终端包括显示器、录像器、录音器和播音器，所述主控制器包括：语言特征信息获取模块，用于识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息；

收听文本音频数据生成模块，用于获取收听参会者的语言特征信息，基于收听参会者的人员语种信息将所述发言文本数据翻译为收听文本数据，基于收听文本数据生成收听音频数据；收听文本音频数据发送模块，用于若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端；

所述语言特征信息包括口语特征信息和人员语种信息；

所述语言特征信息获取模块还包括：

职员资料数据匹配子模块，用于基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息；

所述职员资料数据匹配子模块还包括：

生理特征信息确定子模块，用于基于所述年龄信息和性别信息，以确定生理特征信息；基于所述学习经历信息、工作经历信息、户籍信息和籍贯信息，拟制参会者在籍贯地生活N年，以确定参会者在每一曾住地区的生活时长；

口音特征信息确定子模块，用于基于参会者在各曾住地区的生活时长占比，确定参会者的每一种地区口音的可靠性参数，以确定口音特征信息；各地区口音的可靠性参数是指根据参会者在各地区生活或拟制生活时间占该参会者所有生活时间比例的参数；

2.一种无纸化办公会议方法，其特征在于，应用于权利要求1所述无纸化办公会议设备，包括：

所述语言特征信息包括口语特征信息和人员语种信息；

所述识别所有参会终端对应参会者的身份信息，以获取各参会者的语言特征信息，包括：获取参会者的生物特征数据，将所述生物特征数据输入至职员生物数据库中，基于所述生物特征数据匹配对应的身份信息；

基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息；

所述基于所述身份信息，从职员资料数据库中匹配对应参会者的语言特征信息，包括：

基于所述年龄信息和性别信息，以确定生理特征信息；基于所述学习经历信息、工作经历信息、户籍信息和籍贯信息，拟制参会者在籍贯地生活N年，以确定参会者在每一曾住地区的生活时长；

基于参会者在各曾住地区的生活时长占比，确定参会者的每一种地区口音的可靠性参数，以确定口音特征信息；各地区口音的可靠性参数是指根据参会者在各地区生活或拟制生活时间占该参会者所有生活时间比例的参数；

3.根据权利要求2所述的一种无纸化办公会议方法，其特征在于：所述获取发言参会者的发言语音数据和语言特征信息并输入至预设的语音语义识别模型中，识别语音语种信息，基于发言参会者的口语特征信息和语音语种信息匹配对应的特征语音识别算法，识别所述发言语音数据以生成发言文本数据，包括：

4.根据权利要求2所述的一种无纸化办公会议方法，其特征在于：所述人员语种信息包括第一语种信息和第二语种信息，所述第一语种信息为参会者的最擅长语种；

基于收听参会者的人员语种信息确定第一语种信息；

5.根据权利要求2所述的一种无纸化办公会议方法，其特征在于：所述若收听参会者的人员语种信息包含发言参会者的语音语种信息，将发言语音数据和收听文本数据发送至收听终端；若收听参会者的人员语种信息不包含发言参会者的语音语种信息，将收听音频数据和收听文本数据发送至收听终端之后，包括：

将所述收听文本数据发送至审稿终端；

6.根据权利要求5所述的一种无纸化办公会议方法，其特征在于：所述将所述收听文本数据发送至审稿终端之前，还包括：

向所述审稿终端发送审稿请求信息。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求2至6任一项所述无纸化办公会议方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求2至6任一项所述无纸化办公会议方法的步骤。