JP7548482B2 - 音声通話の制御方法、装置、コンピュータプログラム及び電子機器 - Google Patents
音声通話の制御方法、装置、コンピュータプログラム及び電子機器 Download PDFInfo
- Publication number
- JP7548482B2 JP7548482B2 JP2023528949A JP2023528949A JP7548482B2 JP 7548482 B2 JP7548482 B2 JP 7548482B2 JP 2023528949 A JP2023528949 A JP 2023528949A JP 2023528949 A JP2023528949 A JP 2023528949A JP 7548482 B2 JP7548482 B2 JP 7548482B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- energy
- branch
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/085—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using digital techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Description
Claims (14)
- サーバが実行する、音声通話の制御方法であって、
混合された通話音声を取得するステップであって、前記混合された通話音声は、少なくとも1つの分岐音声を含む、ステップと、
前記通話音声に対して周波数領域変換を行い、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を決定するステップと、
ニューラルネットワークに基づいて各周波数点における前記エネルギー情報に対して分離処理を行い、各周波数点における対応する各分岐音声の該周波数点の全てのエネルギーにおけるエネルギー占有比率を決定するステップと、
各周波数点における各分岐音声の前記エネルギー占有比率に基づいて前記通話音声に含まれる分岐音声の数を決定するステップと、
前記分岐音声の数に基づいて、通話音声の制御方式を設定して前記音声通話を制御するステップと、を含む、方法。 - 前記通話音声に対して周波数領域変換を行い、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を決定するステップは、
前記通話音声に対してフレーム分割処理を行い、少なくとも1つのフレームの音声情報を取得するステップと、
各フレームの前記音声情報に対して周波数領域変換を行い、周波数領域の音声エネルギースペクトルを取得するステップと、
前記音声エネルギースペクトルに基づいて、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を決定するステップと、を含む、請求項1に記載の方法。 - 各フレームの前記音声情報に対して周波数領域変換を行い、周波数領域の音声エネルギースペクトルを取得するステップは、
時間領域の各フレームの前記音声情報に対してフーリエ変換を行い、各フレームの前記音声情報に対応する周波数領域の音声エネルギースペクトルを取得するステップ、を含む、請求項2に記載の方法。 - 前記音声エネルギースペクトルに基づいて、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を決定するステップは、
前記音声エネルギースペクトルにおける各周波数点に対応する振幅に対してモジュラス求め処理を行い、前記音声エネルギースペクトルに対応する振幅スペクトルを取得するステップと、
前記振幅スペクトルの二乗値を求め、前記二乗値に対して対数演算を行い、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を生成するステップと、を含む、請求項2又は3に記載の方法。 - 前記ニューラルネットワークは、長短期記憶ニューラルネットワークを含み、
ニューラルネットワークに基づいて各周波数点における前記エネルギー情報に対して分離処理を行い、各周波数点における対応する各分岐音声の該周波数点の全てのエネルギーにおけるエネルギー占有比率を決定するステップは、
前記エネルギー情報を予め設定された音声分離モデルに入力し、長短期記憶ニューラルネットワークに基づく畳み込み処理を行い、各周波数点における対応する分岐音声を決定するステップと、
各周波数点における対応する各分岐音声の該周波数点におけるエネルギー情報に基づいて、各周波数点における前記各分岐音声の該周波数点におけるエネルギー占有比率を決定するステップと、を含む、請求項1乃至4の何れかに記載の方法。 - 単一音声に対応する第1の音声サンプル、及び前記単一音声を含む混合音声に対応する第2の音声サンプルを取得するステップと、
前記第1の音声サンプルから第1の音声特徴を抽出し、前記第2の音声サンプルから第2の音声特徴を抽出するステップと、
前記第2の音声特徴を、長短期記憶人工ニューラルネットワークに基づいて構築された音声分離モデルに入力し、前記第2の音声特徴から分離された予測音声、及び前記予測音声の前記第2の音声サンプルにおける対応する予測エネルギー占有比率を決定するステップと、
前記第1の音声サンプルの前記第2の音声サンプルにおける実際エネルギー占有比率と前記予測エネルギー占有比率との比較結果に基づいて、前記音声分離モデルのパラメータを更新するステップと、をさらに含む、請求項5に記載の方法。 - 各周波数点における各分岐音声の前記エネルギー占有比率に基づいて前記通話音声に含まれる分岐音声の数を決定するステップは、
各分岐音声について、該分岐音声の各周波数点における対応するエネルギー占有比率に基づいて、該分岐音声の前記エネルギー占有比率の平均値を求めるステップと、
各分岐音声の前記平均値及び所定閾値に基づいて、前記通話音声に含まれる分岐音声の数を決定するステップと、を含む、請求項5又は6に記載の方法。 - 各分岐音声の前記平均値及び所定閾値に基づいて、前記通話音声に含まれる分岐音声の数を決定するステップは、
各分岐音声の前記平均値と前記所定閾値との差の絶対値が差閾値よりも小さい場合、前記分岐音声の数が複数であると判定するステップと、
各分岐音声の前記平均値と前記所定閾値との差の絶対値が前記差閾値以上である場合、前記分岐音声の数が1つであると判定するステップと、を含む、請求項7に記載の方法。 - 前記分岐音声の数が複数であると判定された場合、前記分岐音声の数に基づいて、通話音声の制御方式を設定して前記音声通話を制御するステップは、
設定された音声抽出方式に基づいて、主要発言者の音声を抽出するステップ、を含む、請求項1乃至8の何れかに記載の方法。 - 前記分岐音声の数が複数であると判定された場合、設定された音声抽出方式に基づいて、主要発言者の音声を抽出するステップは、
各周波数点における複数の分岐音声のそれぞれに対応するエネルギー占有比率に基づいて、前記エネルギー占有比率のうちの最大値に対応する分岐音声を前記主要発言者の音声として認識するステップと、
前記エネルギー情報から前記主要発言者の音声に対応する周波数情報を決定するステップと、
前記周波数情報に基づいて前記通話音声から前記主要発言者の音声を抽出するステップと、を含む、請求項9に記載の方法。 - 前記分岐音声の数は、1つ又は少なくとも2つを含み、
前記分岐音声の数に基づいて、通話音声の制御方式を設定して前記音声通話を制御するステップは、
前記分岐音声の数が1つである場合、設定されたシングルトークのエコー処理方式に基づいて、前記分岐音声のエコー音声を認識し、前記エコー音声に対してシングルトークエコー除去を行うステップと、
前記分岐音声の数が少なくとも2つである場合、設定されたダブルトークのエコー処理方式に基づいて、前記分岐音声に対応するエコー音声をそれぞれ認識し、前記エコー音声に対してダブルトークエコー除去を行うステップと、を含む、請求項1乃至10の何れかに記載の方法。 - 音声通話の制御装置であって、
混合された通話音声を取得する取得部であって、前記混合された通話音声は、少なくとも1つの分岐音声を含む、取得部と、
前記通話音声に対して周波数領域変換を行い、前記通話音声の周波数領域における各周波数点に対応するエネルギー情報を決定する変換部と、
ニューラルネットワークに基づいて各周波数点における前記エネルギー情報に対して分離処理を行い、各周波数点における対応する各分岐音声の該周波数点の全てのエネルギーにおけるエネルギー占有比率を決定する分離部と、
各周波数点における各分岐音声の前記エネルギー占有比率に基づいて前記通話音声に含まれる分岐音声の数を決定する数決定部と、
前記分岐音声の数に基づいて、通話音声の制御方式を設定して前記音声通話を制御する制御部と、を含む、装置。 - プロセッサにより実行される際に、請求項1乃至11の何れかに記載の音声通話の制御方法を実現する、コンピュータプログラム。
- 1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶する記憶装置と、を含む電子機器であって、
前記1つ又は複数のプログラムは、前記1つ又は複数のプロセッサにより実行される際に、前記1つ又は複数のプロセッサに請求項1乃至11の何れかに記載の音声通話の制御方法を実現させる、電子機器。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110083388.6A CN113571082B (zh) | 2021-01-21 | 2021-01-21 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
| CN202110083388.6 | 2021-01-21 | ||
| PCT/CN2022/072460 WO2022156655A1 (zh) | 2021-01-21 | 2022-01-18 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023549411A JP2023549411A (ja) | 2023-11-24 |
| JP7548482B2 true JP7548482B2 (ja) | 2024-09-10 |
Family
ID=78160943
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023528949A Active JP7548482B2 (ja) | 2021-01-21 | 2022-01-18 | 音声通話の制御方法、装置、コンピュータプログラム及び電子機器 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20230051413A1 (ja) |
| JP (1) | JP7548482B2 (ja) |
| CN (1) | CN113571082B (ja) |
| WO (1) | WO2022156655A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113571082B (zh) * | 2021-01-21 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
| US11798549B2 (en) * | 2021-03-19 | 2023-10-24 | Mitel Networks Corporation | Generating action items during a conferencing session |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010066506A (ja) | 2008-09-10 | 2010-03-25 | Panasonic Electric Works Co Ltd | 収音装置 |
| JP2012173584A (ja) | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、その方法及びプログラム |
| JP2018205449A (ja) | 2017-06-01 | 2018-12-27 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
| WO2020110228A1 (ja) | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
| JP2020134657A (ja) | 2019-02-18 | 2020-08-31 | 日本電信電話株式会社 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5672175B2 (ja) * | 2011-06-28 | 2015-02-18 | 富士通株式会社 | 話者判別装置、話者判別プログラム及び話者判別方法 |
| US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
| CN108449496B (zh) * | 2018-03-12 | 2019-12-10 | Oppo广东移动通信有限公司 | 语音通话数据检测方法、装置、存储介质及移动终端 |
| CN109410978B (zh) * | 2018-11-06 | 2021-11-09 | 北京如布科技有限公司 | 一种语音信号分离方法、装置、电子设备及存储介质 |
| CN109830245B (zh) * | 2019-01-02 | 2021-03-12 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
| CN112133324A (zh) * | 2019-06-06 | 2020-12-25 | 北京京东尚科信息技术有限公司 | 通话状态检测方法、装置、计算机系统和介质 |
| CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
| CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
| CN111048119B (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 通话音频混音处理方法、装置、存储介质和计算机设备 |
| CN111402898B (zh) * | 2020-03-17 | 2023-07-25 | 北京远鉴信息技术有限公司 | 音频信号处理方法、装置、设备及存储介质 |
| CN112116920B (zh) * | 2020-08-10 | 2022-08-05 | 北京大学 | 一种说话人数未知的多通道语音分离方法 |
| CN112216285B (zh) * | 2020-08-28 | 2023-06-23 | 厦门快商通科技股份有限公司 | 多人会话检测方法、系统、移动终端及存储介质 |
| CN113571082B (zh) * | 2021-01-21 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 语音通话的控制方法、装置、计算机可读介质及电子设备 |
-
2021
- 2021-01-21 CN CN202110083388.6A patent/CN113571082B/zh active Active
-
2022
- 2022-01-18 JP JP2023528949A patent/JP7548482B2/ja active Active
- 2022-01-18 WO PCT/CN2022/072460 patent/WO2022156655A1/zh not_active Ceased
- 2022-10-26 US US17/974,455 patent/US20230051413A1/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010066506A (ja) | 2008-09-10 | 2010-03-25 | Panasonic Electric Works Co Ltd | 収音装置 |
| JP2012173584A (ja) | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、その方法及びプログラム |
| JP2018205449A (ja) | 2017-06-01 | 2018-12-27 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
| WO2020110228A1 (ja) | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
| JP2020134657A (ja) | 2019-02-18 | 2020-08-31 | 日本電信電話株式会社 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN113571082A (zh) | 2021-10-29 |
| WO2022156655A1 (zh) | 2022-07-28 |
| JP2023549411A (ja) | 2023-11-24 |
| US20230051413A1 (en) | 2023-02-16 |
| CN113571082B (zh) | 2024-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
| KR102535338B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
| CN107623614A (zh) | 用于推送信息的方法和装置 | |
| CN108335696A (zh) | 语音唤醒方法和装置 | |
| CN113555032B (zh) | 多说话人场景识别及网络训练方法、装置 | |
| CN114913859B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
| CN115312040B (zh) | 语音唤醒方法、装置、电子设备和计算机可读存储介质 | |
| CN111627458A (zh) | 一种声源分离方法及设备 | |
| US20260004788A1 (en) | Method and apparatus for performing speech enhancement, storage medium, device, and product | |
| US20240290338A1 (en) | Speech processing | |
| US20230084055A1 (en) | Method for generating federated learning model | |
| CN109697978B (zh) | 用于生成模型的方法和装置 | |
| JP7548482B2 (ja) | 音声通話の制御方法、装置、コンピュータプログラム及び電子機器 | |
| CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
| CN111508530B (zh) | 语音情感识别方法、装置及存储介质 | |
| CN112489662B (zh) | 用于训练语音处理模型的方法和装置 | |
| CN113516992B (zh) | 一种音频处理方法、装置、智能设备及存储介质 | |
| CN112750469B (zh) | 语音中检测音乐的方法、语音通信优化方法及对应的装置 | |
| CN114333844A (zh) | 声纹识别方法、装置、介质及设备 | |
| CN115113855A (zh) | 音频数据处理方法、装置、电子设备和存储介质 | |
| CN115130569A (zh) | 音频处理方法、装置及计算机设备、存储介质、程序产品 | |
| CN117011429A (zh) | 一种虚拟表情的生成方法以及相关装置 | |
| CN116129927A (zh) | 一种语音处理方法、装置及计算机可读存储介质 | |
| CN111858916B (zh) | 用于聚类句子的方法和装置 | |
| HK40052891A (en) | Control method of voice call, device, computer readable medium and electronic equipment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230516 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240624 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240730 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240813 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7548482 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |


