JP7348445B2 - 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム - Google Patents
話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7348445B2 JP7348445B2 JP2021189143A JP2021189143A JP7348445B2 JP 7348445 B2 JP7348445 B2 JP 7348445B2 JP 2021189143 A JP2021189143 A JP 2021189143A JP 2021189143 A JP2021189143 A JP 2021189143A JP 7348445 B2 JP7348445 B2 JP 7348445B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech
- diarization
- speaker diarization
- audio file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000004590 computer program Methods 0.000 title claims description 6
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Pinball Game Machines (AREA)
- Telephone Function (AREA)
Description
310:基準設定部
320:話者識別部
330:話者ダイアライゼーション部
Claims (13)
- コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
前記少なくとも1つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
前記少なくとも1つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
を含み、
前記話者識別を実行する段階は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
前記確認する段階は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
前記話者ダイアライゼーションを実行する段階は、
前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
クラスタのインデックスを前記残りの発話区間にマッピングする段階
を含み、
前記クラスタリングする段階は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。 - コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
前記少なくとも1つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
前記少なくとも1つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
を含み、
前記話者識別を実行する段階は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
前記確認する段階は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
前記話者ダイアライゼーションを実行する段階は、
前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
クラスタのインデックスを前記残りの発話区間にマッピングする段階
を含み、
前記クラスタリングする段階は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。 - 前記基準音声を設定する段階は、
前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定すること
を含む、請求項1又は2に記載の話者ダイアライゼーション方法。 - 前記基準音声を設定する段階は、
前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定すること
を含む、請求項1又は2に記載の話者ダイアライゼーション方法。 - 前記基準音声を設定する段階は、
録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定すること
を含む、請求項1又は2に記載の話者ダイアライゼーション方法。 - 前記話者識別を実行する段階は、
前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする段階
を含む、請求項1~5のうちのいずれか一項に記載の話者ダイアライゼーション方法。 - 請求項1~6のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させるためのコンピュータプログラム。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
を含み、
前記話者識別部は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
前記話者識別部は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
前記話者ダイアライゼーション部は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
前記類似度行列に対して固有値分解を実行して固有値を抽出し、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。 - コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
を含み、
前記話者識別部は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
前記話者識別部は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
前記話者ダイアライゼーション部は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
前記類似度行列に対して固有値分解を実行して固有値を抽出し、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。 - 前記基準設定部は、
前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定する
請求項8又は9に記載のコンピュータシステム。 - 前記基準設定部は、
前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定する
請求項8又は9に記載のコンピュータシステム。 - 前記基準設定部は、
録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定する
請求項8又は9に記載のコンピュータシステム。 - 前記話者識別部は、
前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする
請求項8~12のうちのいずれか一項に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210006190A KR102560019B1 (ko) | 2021-01-15 | 2021-01-15 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
KR10-2021-0006190 | 2021-01-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022109867A JP2022109867A (ja) | 2022-07-28 |
JP7348445B2 true JP7348445B2 (ja) | 2023-09-21 |
Family
ID=82405264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021189143A Active JP7348445B2 (ja) | 2021-01-15 | 2021-11-22 | 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220230648A1 (ja) |
JP (1) | JP7348445B2 (ja) |
KR (1) | KR102560019B1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538481B2 (en) * | 2020-03-18 | 2022-12-27 | Sas Institute Inc. | Speech segmentation based on combination of pause detection and speaker diarization |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
US20230169981A1 (en) * | 2021-11-30 | 2023-06-01 | Samsung Electronics Co., Ltd. | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
US20230283496A1 (en) * | 2022-03-02 | 2023-09-07 | Zoom Video Communications, Inc. | Engagement analysis for remote communication sessions |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010175614A (ja) | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011059500A (ja) | 2009-09-11 | 2011-03-24 | Yahoo Japan Corp | 話者クラスタリング装置および話者クラスタリング方法 |
US20160283185A1 (en) | 2015-03-27 | 2016-09-29 | Sri International | Semi-supervised speaker diarization |
JP2018063313A (ja) | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
WO2019198265A1 (en) | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Corporation | Speech recognition system and method using speech recognition system |
WO2020068056A1 (en) | 2018-09-25 | 2020-04-02 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
WO2020117639A2 (en) | 2018-12-03 | 2020-06-11 | Google Llc | Text independent speaker recognition |
WO2020188724A1 (ja) | 2019-03-18 | 2020-09-24 | 富士通株式会社 | 話者識別プログラム、話者識別方法、および話者識別装置 |
JP2021001988A (ja) | 2019-06-24 | 2021-01-07 | 株式会社日立製作所 | 音声認識装置、音声認識方法及び記憶媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009109712A (ja) * | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
WO2012175094A1 (en) * | 2011-06-20 | 2012-12-27 | Agnitio, S.L. | Identification of a local speaker |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
KR101616112B1 (ko) * | 2014-07-28 | 2016-04-27 | (주)복스유니버스 | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 |
CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
US9584946B1 (en) * | 2016-06-10 | 2017-02-28 | Philip Scott Lyren | Audio diarization system that segments audio input |
US10559311B2 (en) * | 2017-03-31 | 2020-02-11 | International Business Machines Corporation | Speaker diarization with cluster transfer |
US10867610B2 (en) * | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
CN112204657B (zh) * | 2019-03-29 | 2023-12-22 | 微软技术许可有限责任公司 | 利用提前停止聚类的讲话者分离 |
WO2021045990A1 (en) * | 2019-09-05 | 2021-03-11 | The Johns Hopkins University | Multi-speaker diarization of audio input using a neural network |
KR102396136B1 (ko) * | 2020-06-02 | 2022-05-11 | 네이버 주식회사 | 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템 |
US11468900B2 (en) * | 2020-10-15 | 2022-10-11 | Google Llc | Speaker identification accuracy |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
-
2021
- 2021-01-15 KR KR1020210006190A patent/KR102560019B1/ko active IP Right Grant
- 2021-11-22 JP JP2021189143A patent/JP7348445B2/ja active Active
-
2022
- 2022-01-14 US US17/576,492 patent/US20220230648A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010175614A (ja) | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011059500A (ja) | 2009-09-11 | 2011-03-24 | Yahoo Japan Corp | 話者クラスタリング装置および話者クラスタリング方法 |
US20160283185A1 (en) | 2015-03-27 | 2016-09-29 | Sri International | Semi-supervised speaker diarization |
JP2018063313A (ja) | 2016-10-12 | 2018-04-19 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
WO2019198265A1 (en) | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Corporation | Speech recognition system and method using speech recognition system |
WO2020068056A1 (en) | 2018-09-25 | 2020-04-02 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
WO2020117639A2 (en) | 2018-12-03 | 2020-06-11 | Google Llc | Text independent speaker recognition |
WO2020188724A1 (ja) | 2019-03-18 | 2020-09-24 | 富士通株式会社 | 話者識別プログラム、話者識別方法、および話者識別装置 |
JP2021001988A (ja) | 2019-06-24 | 2021-01-07 | 株式会社日立製作所 | 音声認識装置、音声認識方法及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR102560019B1 (ko) | 2023-07-27 |
KR20220103507A (ko) | 2022-07-22 |
JP2022109867A (ja) | 2022-07-28 |
TW202230342A (zh) | 2022-08-01 |
US20220230648A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7348445B2 (ja) | 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
JP2003177778A (ja) | 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 | |
EP3682443B1 (en) | Voice-controlled management of user profiles | |
Sidiropoulos et al. | On the use of audio events for improving video scene segmentation | |
CN108615532A (zh) | 一种应用于声场景的分类方法及装置 | |
CN114465737A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
US20160210988A1 (en) | Device and method for sound classification in real time | |
KR20170136200A (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
KR102215082B1 (ko) | Cnn 기반 이미지 검색 방법 및 장치 | |
JP7453733B2 (ja) | マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム | |
Bhati et al. | Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings. | |
CN104239372B (zh) | 一种音频数据分类方法及装置 | |
Royo-Letelier et al. | Disambiguating music artists at scale with audio metric learning | |
TWI834102B (zh) | 與說話者識別結合的說話者分離方法、系統及電腦程式 | |
KR102399673B1 (ko) | 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치 | |
US20230169988A1 (en) | Method and apparatus for performing speaker diarization based on language identification | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
CN112735432B (zh) | 音频识别的方法、装置、电子设备及存储介质 | |
Karlos et al. | Speech recognition combining MFCCs and image features | |
KR102482827B1 (ko) | 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램 | |
CN110852206A (zh) | 一种联合全局特征和局部特征的场景识别方法及装置 | |
Zhang et al. | A two phase method for general audio segmentation | |
WO2023175841A1 (ja) | マッチング装置、マッチング方法、及びコンピュータ読み取り可能な記録媒体 | |
US20230169981A1 (en) | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230710 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7348445 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |