CN115662437B - 一种多话筒同时使用场景下的语音转写方法 - Google Patents

一种多话筒同时使用场景下的语音转写方法 Download PDF

Info

Publication number
CN115662437B
CN115662437B CN202211688332.4A CN202211688332A CN115662437B CN 115662437 B CN115662437 B CN 115662437B CN 202211688332 A CN202211688332 A CN 202211688332A CN 115662437 B CN115662437 B CN 115662437B
Authority
CN
China
Prior art keywords
transcription
audio
tasks
microphones
engines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211688332.4A
Other languages
English (en)
Other versions
CN115662437A (zh
Inventor
陈宇基
程显超
余吉昌
张常华
朱正辉
赵定金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Baolun Electronics Co ltd
Original Assignee
Guangdong Baolun Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Baolun Electronics Co ltd filed Critical Guangdong Baolun Electronics Co ltd
Priority to CN202211688332.4A priority Critical patent/CN115662437B/zh
Publication of CN115662437A publication Critical patent/CN115662437A/zh
Application granted granted Critical
Publication of CN115662437B publication Critical patent/CN115662437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种多话筒同时使用场景下的语音转写方法,包括如下步骤:步骤1:确定当前会议的转写引擎数量,每一种转写引擎对应的授权路数;步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;步骤3:每一个转写任务绑定一个循环音频处理任务;步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;步骤5:对第一音频进行转写并输出文本;步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。本发明实现实时会议中多人同时发言的语音转写,并输出文本。

Description

一种多话筒同时使用场景下的语音转写方法
技术领域
本发明涉及语音转写策略处理技术领域,具体是一种多话筒同时使用场景下的语音转写方法。
背景技术
像视频会议或者现场会议,会设置多个话筒,对于像跨语言等需要转写呈文本输出的会议,需要转写引擎将话筒传送过来的语音转写成文本输出,以便于听众能够看到文字字幕。现在的一些会议中,有时候会有多人同时讲话,按现有只转写一个话筒音频的方法不能满足,语音转写的便利程度还有进一步待提高。
发明内容
针对现有技术的不足,本发明的目的是提供一种多话筒同时使用场景下的语音转写方法,其能够解决背景技术所描述的问题。
实现本发明的目的的技术方案为:一种多话筒同时使用场景下的语音转写方法,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎允许同时转写多少数量的同语言的音频,不同种类的转写引擎允许转写不同的语言并输出对应语言的文本;
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应;
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;
步骤5:对第一音频进行转写并输出文本。
进一步地,在步骤1中,同一种语言的转写引擎为一个或多个。
进一步地,在步骤1中,不同语言的转写引擎之间的数量相同或相异。
进一步地,在步骤4中,若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
进一步地,在步骤5之后,还包括:
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。
本发明的有益效果为:本发明根据转写引擎的授权路数创建转写任务并绑定各自的循环音频处理任务,从而可以轮询获取到第一音频并进行转写,实现在实时会议中多人同时发言的语音转写,并输出文本,从而提高了语音转写的智能化和便利程度,提高用户体验度。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面,结合附图以及具体实施方案,对本发明做进一步描述:
如图1所示,一种多话筒同时使用场景下的语音转写方法,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎可以同时转写多少数量的同语言的音频。
在本步骤中,不同种类的转写引擎可以转写不同的语言并输出对应语言的文本。例如,中文转写引擎可以将中文语音转写为中文文本,英文转写引擎可以将英文语音转写为英文文本。
需要说明的是,同一种语言的转写引擎并不要求只能是一个,例如中文转写引擎,可以为一个也可以为多个(两个以上)。不同语言的转写引擎之间也不要求数量相同,可以相同也可以相异。
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务。
在本步骤中,假设中文转写引擎的授权路数为n(例如为10),则创建n个转写任务和n个循环音频处理任务。
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应。
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频。若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
步骤5:对第一音频进行转写并输出文本(也即是文字),并将转写结果的输出文本分发给各个客户端,以便于各个客户端前的与会者能够看到文本。
在本步骤中,即完成了一次音频转写处理。
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频,由于在步骤4中,会不断接收到来自话筒传输过来的新的音频,从而可以按最先到达的顺序依次不断对音频进行转写。
本发明根据转写引擎的授权路数创建转写任务并绑定各自的循环音频处理任务,从而可以轮询获取到第一音频并进行转写,实现在实时会议中多人同时发言的语音转写,并输出文本,从而提高了语音转写的智能化和便利程度,提高用户体验度。
本说明书所公开的实施例只是对本发明单方面特征的一个例证,本发明的保护范围不限于此实施例,其他任何功能等效的实施例均落入本发明的保护范围内。对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (5)

1.一种多话筒同时使用场景下的语音转写方法,其特征在于,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎允许同时转写多少数量的同语言的音频,不同种类的转写引擎允许转写不同的语言并输出对应语言的文本;
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应;
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;
步骤5:对第一音频进行转写并输出文本。
2.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤1中,同一种语言的转写引擎为一个或多个。
3.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤1中,不同语言的转写引擎之间的数量相同或相异。
4.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤4中,若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
5.根据权利要求1-4任一项所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤5之后,还包括:
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。
CN202211688332.4A 2022-12-28 2022-12-28 一种多话筒同时使用场景下的语音转写方法 Active CN115662437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211688332.4A CN115662437B (zh) 2022-12-28 2022-12-28 一种多话筒同时使用场景下的语音转写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211688332.4A CN115662437B (zh) 2022-12-28 2022-12-28 一种多话筒同时使用场景下的语音转写方法

Publications (2)

Publication Number Publication Date
CN115662437A CN115662437A (zh) 2023-01-31
CN115662437B true CN115662437B (zh) 2023-04-18

Family

ID=85022584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211688332.4A Active CN115662437B (zh) 2022-12-28 2022-12-28 一种多话筒同时使用场景下的语音转写方法

Country Status (1)

Country Link
CN (1) CN115662437B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863966B (zh) * 2023-09-01 2024-01-12 广东保伦电子股份有限公司 一种单路引擎多麦克风语音转写系统与角色分离方法
CN118301248A (zh) * 2024-04-17 2024-07-05 广东保伦电子股份有限公司 一种会议转写方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200411627A (en) * 2002-12-17 2004-07-01 Japan Science & Tech Corp Robottic vision-audition system
WO2006083690A2 (en) * 2005-02-01 2006-08-10 Embedded Technologies, Llc Language engine coordination and switching
CN108231065A (zh) * 2016-12-12 2018-06-29 株式会社速录抓吧 多语者语音识别校正系统
CN109213971A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 庭审笔录的生成方法及装置
CN109309804A (zh) * 2018-09-29 2019-02-05 芜湖星途机器人科技有限公司 一种智能会议系统
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN113450797A (zh) * 2021-06-29 2021-09-28 苏州科达科技股份有限公司 基于在线会议的音频处理方法、设备、存储介质及系统
CN114071059A (zh) * 2021-11-10 2022-02-18 中铁建工集团山东有限公司 一种智能化建筑施工管理用无线视频会议系统
CN114913857A (zh) * 2022-06-23 2022-08-16 中译语通科技股份有限公司 基于多语言会议系统的实时转写方法、系统、设备及介质
CN115101068A (zh) * 2022-06-17 2022-09-23 沈阳创思佳业科技有限公司 一种多人对话场景下提高音频转写准确性的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10453445B2 (en) * 2016-02-16 2019-10-22 Carnegie Mellon University System and method for multi-user GPU-accelerated speech recognition engine for client-server architectures

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200411627A (en) * 2002-12-17 2004-07-01 Japan Science & Tech Corp Robottic vision-audition system
WO2006083690A2 (en) * 2005-02-01 2006-08-10 Embedded Technologies, Llc Language engine coordination and switching
CN108231065A (zh) * 2016-12-12 2018-06-29 株式会社速录抓吧 多语者语音识别校正系统
CN109213971A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 庭审笔录的生成方法及装置
CN109309804A (zh) * 2018-09-29 2019-02-05 芜湖星途机器人科技有限公司 一种智能会议系统
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN113450797A (zh) * 2021-06-29 2021-09-28 苏州科达科技股份有限公司 基于在线会议的音频处理方法、设备、存储介质及系统
CN114071059A (zh) * 2021-11-10 2022-02-18 中铁建工集团山东有限公司 一种智能化建筑施工管理用无线视频会议系统
CN115101068A (zh) * 2022-06-17 2022-09-23 沈阳创思佳业科技有限公司 一种多人对话场景下提高音频转写准确性的方法和系统
CN114913857A (zh) * 2022-06-23 2022-08-16 中译语通科技股份有限公司 基于多语言会议系统的实时转写方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Moody et al..Machine translation of conversation on the digitized battlefield.《2001 MILCOM Proceedings Communications for Network-Centric Operations: Creating the Information Force》.2001,第635-639页. *
秦凤枝.解读人工智能语音转写技术在会议中的应用.《电子世界》.2020,(第22期),第190-191页. *

Also Published As

Publication number Publication date
CN115662437A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN115662437B (zh) 一种多话筒同时使用场景下的语音转写方法
CN102017513B (zh) 用于实时网络通信的方法、实时多语种通信的方法及系统
US9894121B2 (en) Guiding a desired outcome for an electronically hosted conference
US6412011B1 (en) Method and apparatus to enhance a multicast information stream in a communication network
CN109977218B (zh) 一种应用于对话场景的自动应答系统和方法
US11710488B2 (en) Transcription of communications using multiple speech recognition systems
US20050206721A1 (en) Method and apparatus for disseminating information associated with an active conference participant to other conference participants
US20060067499A1 (en) Method and apparatus for querying a list of participants in a conference
US20110246172A1 (en) Method and System for Adding Translation in a Videoconference
US20080300852A1 (en) Multi-Lingual Conference Call
CN104756473A (zh) 处理并发语音
WO2000060809A8 (en) Apparatus and method for establishing an audio conference in a networked environment
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
CN109729228A (zh) 人工智能呼叫系统
CN101668163B (zh) 视讯会议中的点名方法和设备
CN101502043A (zh) 用于实施语音会议的方法和语音会议系统
US20230096543A1 (en) Systems and methods for providing real-time automated language translations
WO2021076136A1 (en) Meeting inputs
CN112818705B (zh) 基于组间共识的多语种语音翻译系统与方法
CN112995568B (zh) 一种基于视频客服系统及构建方法
CN112818706B (zh) 基于逆向结果稳定性的语音翻译实时争端记录系统与方法
RU2781493C1 (ru) Роботизированная вопросно-ответная система с голосовым модулем "Виртуальный ассистент"
WO2024133950A1 (fr) Méthode pour acheminer un contenu numerique multimedia en temps reel a partir d'une fonction d4adressage et d'equipements de traduction
JP2005151044A (ja) 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム
CN114185511A (zh) 一种音频数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 56 Nanli East Road, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province, 510000

Applicant after: Guangdong Baolun Electronics Co.,Ltd.

Address before: No.19 Chuangyuan Road, Zhongcun street, Panyu District, Guangzhou, Guangdong 510000

Applicant before: GUANGZHOU ITC ELECTRONIC TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant