JP7613587B2 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法及び信号処理プログラム Download PDFInfo
- Publication number
- JP7613587B2 JP7613587B2 JP2023531334A JP2023531334A JP7613587B2 JP 7613587 B2 JP7613587 B2 JP 7613587B2 JP 2023531334 A JP2023531334 A JP 2023531334A JP 2023531334 A JP2023531334 A JP 2023531334A JP 7613587 B2 JP7613587 B2 JP 7613587B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- recognition results
- utterance
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
本実施の形態では、以下の3つの処理によって、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果(回り込み発話)を精度よく棄却することを実現した。
次に、実施の形態に係る信号処理装置について説明する。図1は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。
次に、回り込み発話棄却部103について説明する。図2は、図1に示す回り込み発話棄却部103の構成の一例を模式的に示す図である。図2に示すように、回り込み発話棄却部103は、同タイミング発話検出部1031(第1の検出部)、発話類似度計算部1032(計算部)、及び、棄却部1033を有する。
次に、信号処理装置100が実行する信号処理について説明する。図3は、実施の形態に係る信号処理の処理手順を示すフローチャートである。
次に、図3に示す回り込み発話棄却処理(ステップS3)の処理手順について説明する。図4は、図3に示す回り込み発話棄却処理の処理手順を示すフローチャートである。
図5は、実施の形態に係る信号処理装置100を適用した場合の性能評価結果を示す図である。図5では、音声認識文字誤り率(CER:Character Error Rate)を評価した結果を示す。図5では、VAD単独で音声を処理した場合及び非特許文献4に記載の技術を用いて音声を用いて処理した場合の評価結果を示す。
このように、実施の形態に係る信号処理装置100は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する。そして、信号処理装置100は、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する。そして、信号処理装置100は、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回った発話の音声認識結果のペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する。
信号処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置100の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
図6は、プログラムが実行されることにより、信号処理装置100が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
101-1~101-N 発話区間検出部
102-1~102-N 音声認識部
103 回り込み発話棄却部
1031 同タイミング発話検出部
1032 発話類似度計算部
1033 棄却部
Claims (7)
- 複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する第1の検出部と、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する計算部と、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部と、
を有することを特徴とする信号処理装置。 - 前記計算部は、発話ごとの発話区間の重複率を用いて前記類似度を計算することを特徴とする請求項1に記載の信号処理装置。
- 前記計算部は、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して前記類似度を計算することを特徴とする請求項1または2に記載の信号処理装置。
- 前記複数のマイクにそれぞれ入力された各発話の発話区間の音声に対して音声認識を行う音声認識部をさらに有する請求項1~3のいずれか一つに記載の信号処理装置。
- 前記複数のマイクにそれぞれ入力された発話の音声から、発話が存在する発話区間をそれぞれ検出し、各発話の発話区間の音声を前記音声認識部に出力する第2の検出部をさらに有することを特徴とする請求項4に記載の信号処理装置。
- 信号処理装置が実行する信号処理方法であって、
複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する工程と、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する工程と、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する工程と、
を含んだことを特徴とする信号処理方法。 - 複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出するステップと、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算するステップと、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却するステップと、
をコンピュータに実行させるための信号処理プログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/025207 WO2023276159A1 (ja) | 2021-07-02 | 2021-07-02 | 信号処理装置、信号処理方法及び信号処理プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023276159A1 JPWO2023276159A1 (ja) | 2023-01-05 |
| JP7613587B2 true JP7613587B2 (ja) | 2025-01-15 |
Family
ID=84691089
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023531334A Active JP7613587B2 (ja) | 2021-07-02 | 2021-07-02 | 信号処理装置、信号処理方法及び信号処理プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240321273A1 (ja) |
| JP (1) | JP7613587B2 (ja) |
| WO (1) | WO2023276159A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120356461B (zh) * | 2025-06-18 | 2025-09-02 | 浙江嗨皮网络科技有限公司 | 一种音频特征识别的音频内容提取方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010092914A1 (ja) | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| WO2010092913A1 (ja) | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| WO2021125037A1 (ja) | 2019-12-17 | 2021-06-24 | ソニーグループ株式会社 | 信号処理装置、信号処理方法、プログラムおよび信号処理システム |
-
2021
- 2021-07-02 JP JP2023531334A patent/JP7613587B2/ja active Active
- 2021-07-02 WO PCT/JP2021/025207 patent/WO2023276159A1/ja not_active Ceased
- 2021-07-02 US US18/575,327 patent/US20240321273A1/en not_active Abandoned
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010092914A1 (ja) | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| WO2010092913A1 (ja) | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
| WO2021125037A1 (ja) | 2019-12-17 | 2021-06-24 | ソニーグループ株式会社 | 信号処理装置、信号処理方法、プログラムおよび信号処理システム |
Non-Patent Citations (1)
| Title |
|---|
| HORIGUCHI, Shota et al.,Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones,Interspeech 2020,2020年10月,p.344-348,ISSN 1990-9772 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20240321273A1 (en) | 2024-09-26 |
| WO2023276159A1 (ja) | 2023-01-05 |
| JPWO2023276159A1 (ja) | 2023-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10902856B2 (en) | System and method of diarization and labeling of audio data | |
| CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
| US9672829B2 (en) | Extracting and displaying key points of a video conference | |
| KR102887109B1 (ko) | 스피치 인식 | |
| US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
| US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
| WO2017162053A1 (zh) | 一种身份认证的方法和装置 | |
| KR20170007107A (ko) | 음성인식 시스템 및 방법 | |
| CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
| JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
| CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
| JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
| KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
| JP7613587B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
| JP2025514776A (ja) | 結合セグメント化及び自動音声認識 | |
| JP4787979B2 (ja) | 雑音検出装置および雑音検出方法 | |
| Këpuska | Wake-up-word speech recognition | |
| Zelenák et al. | Speaker overlap detection with prosodic features for speaker diarisation | |
| JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
| JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
| Tong et al. | Fusion of acoustic and tokenization features for speaker recognition | |
| JP7035476B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
| JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
| CN114333784A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
| Suzuki et al. | Bottleneck feature-mediated DNN-based feature mapping for throat microphone speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231101 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241209 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7613587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |


