JP6800809B2 - 音声処理装置、音声処理方法およびプログラム - Google Patents
音声処理装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP6800809B2 JP6800809B2 JP2017108959A JP2017108959A JP6800809B2 JP 6800809 B2 JP6800809 B2 JP 6800809B2 JP 2017108959 A JP2017108959 A JP 2017108959A JP 2017108959 A JP2017108959 A JP 2017108959A JP 6800809 B2 JP6800809 B2 JP 6800809B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- signal
- voice
- separation
- sound sources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Description
第1の実施形態にかかる音声処理装置は、音声を発した音源の個数(音源数)に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。入力信号は、例えばマイクなどの音声入力装置により取得される音声の信号である。分離信号は、入力信号を音源ごとに分離して得られる信号である。
第2の実施形態にかかる音声処理装置は、音声を発した音源の個数が1の場合、音源の方向の音声を強調した出力信号を生成して出力する。これにより、例えば後段の音声認識などの処理の精度をさらに向上させることが可能となる。
第3の実施形態では、音声処理装置の機能を複数の装置に分散した音声処理システムとして実現した例を説明する。以下では、第1の実施形態の音声処理装置100の機能を分散する例を説明するが、第2の実施形態の音声処理装置100−2の機能を分散するように構成してもよい。
111 受付部
112 分離部
113 判定部
114、114−2 出力制御部
115 認識部
200−3 クライアント装置
201−3 通信制御部
300−3 サーバ装置
301−3 通信制御部
400−3 ネットワーク
Claims (12)
- n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、を備え、
前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
音声処理装置。 - n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
を備える音声処理装置。 - n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
を備える音声処理装置。 - 前記出力制御部は、音声を発した音源の個数が1の場合、n個の前記入力信号のうち1つを出力信号として選択する、
請求項1から請求項3のいずれか1項に記載の音声処理装置。 - 前記出力信号に対して音声認識を実行する認識部をさらに備える、
請求項1から請求項3のいずれか1項に記載の音声処理装置。 - 前記閾値は、複数の前記分離信号のパワーの平均値である、
請求項2または請求項3に記載の音声処理装置。 - n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、を含み、
前記出力制御ステップは、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御ステップは、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
音声処理方法。 - n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
を含む音声処理方法。 - n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
を含む音声処理方法。 - コンピュータを、
n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、として機能させ、
前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
プログラム。 - コンピュータを、
n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
として機能させるためのプログラム。 - コンピュータを、
n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017108959A JP6800809B2 (ja) | 2017-06-01 | 2017-06-01 | 音声処理装置、音声処理方法およびプログラム |
US15/891,075 US10504523B2 (en) | 2017-06-01 | 2018-02-07 | Voice processing device, voice processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017108959A JP6800809B2 (ja) | 2017-06-01 | 2017-06-01 | 音声処理装置、音声処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018205449A JP2018205449A (ja) | 2018-12-27 |
JP6800809B2 true JP6800809B2 (ja) | 2020-12-16 |
Family
ID=64460532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017108959A Active JP6800809B2 (ja) | 2017-06-01 | 2017-06-01 | 音声処理装置、音声処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10504523B2 (ja) |
JP (1) | JP6800809B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102190986B1 (ko) * | 2019-07-03 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 생성 방법 |
JP2021135462A (ja) * | 2020-02-28 | 2021-09-13 | 日本電信電話株式会社 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
CN113576527A (zh) * | 2021-08-27 | 2021-11-02 | 复旦大学 | 一种利用声控进行超声输入判断的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3859612B2 (ja) | 2003-04-10 | 2006-12-20 | 株式会社アドバンスト・メディア | 会議録音・書き起こしシステム |
JP4411959B2 (ja) * | 2003-12-18 | 2010-02-10 | ソニー株式会社 | 音声集音・映像撮像装置 |
JP4867804B2 (ja) | 2007-06-12 | 2012-02-01 | ヤマハ株式会社 | 音声認識装置及び会議システム |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US8918197B2 (en) * | 2012-06-13 | 2014-12-23 | Avraham Suhami | Audio communication networks |
JP6005443B2 (ja) | 2012-08-23 | 2016-10-12 | 株式会社東芝 | 信号処理装置、方法及びプログラム |
JP6543844B2 (ja) | 2015-08-27 | 2019-07-17 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
-
2017
- 2017-06-01 JP JP2017108959A patent/JP6800809B2/ja active Active
-
2018
- 2018-02-07 US US15/891,075 patent/US10504523B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018205449A (ja) | 2018-12-27 |
US20180350370A1 (en) | 2018-12-06 |
US10504523B2 (en) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2898508B1 (en) | Methods and systems for selecting layers of encoded audio signals for teleconferencing | |
US20190172476A1 (en) | Deep learning driven multi-channel filtering for speech enhancement | |
EP2446642B1 (en) | Method and apparatus for processing audio signals | |
US9955277B1 (en) | Spatial sound characterization apparatuses, methods and systems | |
CN107168518B (zh) | 一种用于头戴显示器的同步方法、装置及头戴显示器 | |
CN112205006B (zh) | 音频内容的自适应再混合 | |
JP2019518985A (ja) | 分散したマイクロホンからの音声の処理 | |
Han et al. | Real-time binaural speech separation with preserved spatial cues | |
JP6800809B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
US11399253B2 (en) | System and methods for vocal interaction preservation upon teleportation | |
US9837100B2 (en) | Ambient sound rendering for online meetings | |
EP3005362B1 (en) | Apparatus and method for improving a perception of a sound signal | |
WO2010105695A1 (en) | Multi channel audio coding | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
CN113784274A (zh) | 三维音频系统 | |
WO2020017518A1 (ja) | 音声信号処理装置 | |
KR102112018B1 (ko) | 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법 | |
CN112005492B (zh) | 用于动态声音均衡的方法 | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
KR102575293B1 (ko) | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 | |
JP6994221B2 (ja) | 抽出発生音補正装置、抽出発生音補正方法、プログラム | |
JP2015103824A (ja) | 音声発生システムおよび音声発生機器用スタンド | |
WO2020017517A1 (ja) | 音声信号処理システム、及び音声信号処理装置 | |
CN117896666A (zh) | 用于回放音频数据的方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201125 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6800809 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |