CN115662437B - 一种多话筒同时使用场景下的语音转写方法 - Google Patents
一种多话筒同时使用场景下的语音转写方法 Download PDFInfo
- Publication number
- CN115662437B CN115662437B CN202211688332.4A CN202211688332A CN115662437B CN 115662437 B CN115662437 B CN 115662437B CN 202211688332 A CN202211688332 A CN 202211688332A CN 115662437 B CN115662437 B CN 115662437B
- Authority
- CN
- China
- Prior art keywords
- transcription
- audio
- tasks
- microphones
- engines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 77
- 230000035897 transcription Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 27
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 238000013475 authorization Methods 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种多话筒同时使用场景下的语音转写方法,包括如下步骤:步骤1:确定当前会议的转写引擎数量,每一种转写引擎对应的授权路数;步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;步骤3:每一个转写任务绑定一个循环音频处理任务;步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;步骤5:对第一音频进行转写并输出文本;步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。本发明实现实时会议中多人同时发言的语音转写,并输出文本。
Description
技术领域
本发明涉及语音转写策略处理技术领域,具体是一种多话筒同时使用场景下的语音转写方法。
背景技术
像视频会议或者现场会议,会设置多个话筒,对于像跨语言等需要转写呈文本输出的会议,需要转写引擎将话筒传送过来的语音转写成文本输出,以便于听众能够看到文字字幕。现在的一些会议中,有时候会有多人同时讲话,按现有只转写一个话筒音频的方法不能满足,语音转写的便利程度还有进一步待提高。
发明内容
针对现有技术的不足,本发明的目的是提供一种多话筒同时使用场景下的语音转写方法,其能够解决背景技术所描述的问题。
实现本发明的目的的技术方案为:一种多话筒同时使用场景下的语音转写方法,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎允许同时转写多少数量的同语言的音频,不同种类的转写引擎允许转写不同的语言并输出对应语言的文本;
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应;
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;
步骤5:对第一音频进行转写并输出文本。
进一步地,在步骤1中,同一种语言的转写引擎为一个或多个。
进一步地,在步骤1中,不同语言的转写引擎之间的数量相同或相异。
进一步地,在步骤4中,若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
进一步地,在步骤5之后,还包括:
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。
本发明的有益效果为:本发明根据转写引擎的授权路数创建转写任务并绑定各自的循环音频处理任务,从而可以轮询获取到第一音频并进行转写,实现在实时会议中多人同时发言的语音转写,并输出文本,从而提高了语音转写的智能化和便利程度,提高用户体验度。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面,结合附图以及具体实施方案,对本发明做进一步描述:
如图1所示,一种多话筒同时使用场景下的语音转写方法,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎可以同时转写多少数量的同语言的音频。
在本步骤中,不同种类的转写引擎可以转写不同的语言并输出对应语言的文本。例如,中文转写引擎可以将中文语音转写为中文文本,英文转写引擎可以将英文语音转写为英文文本。
需要说明的是,同一种语言的转写引擎并不要求只能是一个,例如中文转写引擎,可以为一个也可以为多个(两个以上)。不同语言的转写引擎之间也不要求数量相同,可以相同也可以相异。
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务。
在本步骤中,假设中文转写引擎的授权路数为n(例如为10),则创建n个转写任务和n个循环音频处理任务。
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应。
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频。若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
步骤5:对第一音频进行转写并输出文本(也即是文字),并将转写结果的输出文本分发给各个客户端,以便于各个客户端前的与会者能够看到文本。
在本步骤中,即完成了一次音频转写处理。
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频,由于在步骤4中,会不断接收到来自话筒传输过来的新的音频,从而可以按最先到达的顺序依次不断对音频进行转写。
本发明根据转写引擎的授权路数创建转写任务并绑定各自的循环音频处理任务,从而可以轮询获取到第一音频并进行转写,实现在实时会议中多人同时发言的语音转写,并输出文本,从而提高了语音转写的智能化和便利程度,提高用户体验度。
本说明书所公开的实施例只是对本发明单方面特征的一个例证,本发明的保护范围不限于此实施例,其他任何功能等效的实施例均落入本发明的保护范围内。对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。
Claims (5)
1.一种多话筒同时使用场景下的语音转写方法,其特征在于,包括如下步骤:
步骤1:确定当前会议的转写引擎数量,以及每一种转写引擎对应的授权路数,授权路数表征当前转写引擎允许同时转写多少数量的同语言的音频,不同种类的转写引擎允许转写不同的语言并输出对应语言的文本;
步骤2:根据授权路数,为每一种转写引擎创建对应数量的转写任务和循环音频处理任务;
步骤3:每一个转写任务绑定一个循环音频处理任务,从而使得转写任务和循环音频处理任务一一对应;
步骤4:循环音频处理任务对接收来自话筒发送过来的音频进行轮询遍历,找到当前循环音频处理任务对应的转写任务相同语言的且没有被其他转写任务占用的最早到达的音频,并记为第一音频;
步骤5:对第一音频进行转写并输出文本。
2.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤1中,同一种语言的转写引擎为一个或多个。
3.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤1中,不同语言的转写引擎之间的数量相同或相异。
4.根据权利要求1所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤4中,若接收来自话筒相同语言的话筒数量大于同语言的转写引擎数量,则多个同语言的话筒共用这些同语言的转写引擎。
5.根据权利要求1-4任一项所述的多话筒同时使用场景下的语音转写方法,其特征在于,在步骤5之后,还包括:
步骤6:重复步骤4和步骤5,从而不断循环处理第一音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211688332.4A CN115662437B (zh) | 2022-12-28 | 2022-12-28 | 一种多话筒同时使用场景下的语音转写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211688332.4A CN115662437B (zh) | 2022-12-28 | 2022-12-28 | 一种多话筒同时使用场景下的语音转写方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115662437A CN115662437A (zh) | 2023-01-31 |
CN115662437B true CN115662437B (zh) | 2023-04-18 |
Family
ID=85022584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211688332.4A Active CN115662437B (zh) | 2022-12-28 | 2022-12-28 | 一种多话筒同时使用场景下的语音转写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115662437B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863966B (zh) * | 2023-09-01 | 2024-01-12 | 广东保伦电子股份有限公司 | 一种单路引擎多麦克风语音转写系统与角色分离方法 |
CN118301248A (zh) * | 2024-04-17 | 2024-07-05 | 广东保伦电子股份有限公司 | 一种会议转写方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200411627A (en) * | 2002-12-17 | 2004-07-01 | Japan Science & Tech Corp | Robottic vision-audition system |
WO2006083690A2 (en) * | 2005-02-01 | 2006-08-10 | Embedded Technologies, Llc | Language engine coordination and switching |
CN108231065A (zh) * | 2016-12-12 | 2018-06-29 | 株式会社速录抓吧 | 多语者语音识别校正系统 |
CN109213971A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 庭审笔录的生成方法及装置 |
CN109309804A (zh) * | 2018-09-29 | 2019-02-05 | 芜湖星途机器人科技有限公司 | 一种智能会议系统 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN113450797A (zh) * | 2021-06-29 | 2021-09-28 | 苏州科达科技股份有限公司 | 基于在线会议的音频处理方法、设备、存储介质及系统 |
CN114071059A (zh) * | 2021-11-10 | 2022-02-18 | 中铁建工集团山东有限公司 | 一种智能化建筑施工管理用无线视频会议系统 |
CN114913857A (zh) * | 2022-06-23 | 2022-08-16 | 中译语通科技股份有限公司 | 基于多语言会议系统的实时转写方法、系统、设备及介质 |
CN115101068A (zh) * | 2022-06-17 | 2022-09-23 | 沈阳创思佳业科技有限公司 | 一种多人对话场景下提高音频转写准确性的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10453445B2 (en) * | 2016-02-16 | 2019-10-22 | Carnegie Mellon University | System and method for multi-user GPU-accelerated speech recognition engine for client-server architectures |
-
2022
- 2022-12-28 CN CN202211688332.4A patent/CN115662437B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200411627A (en) * | 2002-12-17 | 2004-07-01 | Japan Science & Tech Corp | Robottic vision-audition system |
WO2006083690A2 (en) * | 2005-02-01 | 2006-08-10 | Embedded Technologies, Llc | Language engine coordination and switching |
CN108231065A (zh) * | 2016-12-12 | 2018-06-29 | 株式会社速录抓吧 | 多语者语音识别校正系统 |
CN109213971A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 庭审笔录的生成方法及装置 |
CN109309804A (zh) * | 2018-09-29 | 2019-02-05 | 芜湖星途机器人科技有限公司 | 一种智能会议系统 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN113450797A (zh) * | 2021-06-29 | 2021-09-28 | 苏州科达科技股份有限公司 | 基于在线会议的音频处理方法、设备、存储介质及系统 |
CN114071059A (zh) * | 2021-11-10 | 2022-02-18 | 中铁建工集团山东有限公司 | 一种智能化建筑施工管理用无线视频会议系统 |
CN115101068A (zh) * | 2022-06-17 | 2022-09-23 | 沈阳创思佳业科技有限公司 | 一种多人对话场景下提高音频转写准确性的方法和系统 |
CN114913857A (zh) * | 2022-06-23 | 2022-08-16 | 中译语通科技股份有限公司 | 基于多语言会议系统的实时转写方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
J. Moody et al..Machine translation of conversation on the digitized battlefield.《2001 MILCOM Proceedings Communications for Network-Centric Operations: Creating the Information Force》.2001,第635-639页. * |
秦凤枝.解读人工智能语音转写技术在会议中的应用.《电子世界》.2020,(第22期),第190-191页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115662437A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115662437B (zh) | 一种多话筒同时使用场景下的语音转写方法 | |
CN102017513B (zh) | 用于实时网络通信的方法、实时多语种通信的方法及系统 | |
US9894121B2 (en) | Guiding a desired outcome for an electronically hosted conference | |
US6412011B1 (en) | Method and apparatus to enhance a multicast information stream in a communication network | |
CN109977218B (zh) | 一种应用于对话场景的自动应答系统和方法 | |
US11710488B2 (en) | Transcription of communications using multiple speech recognition systems | |
US20050206721A1 (en) | Method and apparatus for disseminating information associated with an active conference participant to other conference participants | |
US20060067499A1 (en) | Method and apparatus for querying a list of participants in a conference | |
US20110246172A1 (en) | Method and System for Adding Translation in a Videoconference | |
US20080300852A1 (en) | Multi-Lingual Conference Call | |
CN104756473A (zh) | 处理并发语音 | |
WO2000060809A8 (en) | Apparatus and method for establishing an audio conference in a networked environment | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
CN109729228A (zh) | 人工智能呼叫系统 | |
CN101668163B (zh) | 视讯会议中的点名方法和设备 | |
CN101502043A (zh) | 用于实施语音会议的方法和语音会议系统 | |
US20230096543A1 (en) | Systems and methods for providing real-time automated language translations | |
WO2021076136A1 (en) | Meeting inputs | |
CN112818705B (zh) | 基于组间共识的多语种语音翻译系统与方法 | |
CN112995568B (zh) | 一种基于视频客服系统及构建方法 | |
CN112818706B (zh) | 基于逆向结果稳定性的语音翻译实时争端记录系统与方法 | |
RU2781493C1 (ru) | Роботизированная вопросно-ответная система с голосовым модулем "Виртуальный ассистент" | |
WO2024133950A1 (fr) | Méthode pour acheminer un contenu numerique multimedia en temps reel a partir d'une fonction d4adressage et d'equipements de traduction | |
JP2005151044A (ja) | 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム | |
CN114185511A (zh) | 一种音频数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 56 Nanli East Road, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province, 510000 Applicant after: Guangdong Baolun Electronics Co.,Ltd. Address before: No.19 Chuangyuan Road, Zhongcun street, Panyu District, Guangzhou, Guangdong 510000 Applicant before: GUANGZHOU ITC ELECTRONIC TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |