JP6731802B2 - 検出装置、検出方法及び検出プログラム - Google Patents
検出装置、検出方法及び検出プログラム Download PDFInfo
- Publication number
- JP6731802B2 JP6731802B2 JP2016135403A JP2016135403A JP6731802B2 JP 6731802 B2 JP6731802 B2 JP 6731802B2 JP 2016135403 A JP2016135403 A JP 2016135403A JP 2016135403 A JP2016135403 A JP 2016135403A JP 6731802 B2 JP6731802 B2 JP 6731802B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- acoustic signal
- detection
- posterior probability
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000001514 detection method Methods 0.000 claims description 187
- 230000008569 process Effects 0.000 description 46
- 230000010365 information processing Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 102220171488 rs760746448 Human genes 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 102200012170 rs10084168 Human genes 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を用いて、実施形態に係る検出処理の一例について説明する。図1は、実施形態に係る検出処理の一例を示す図である。図1では、本願に係る検出装置100が、ユーザが利用する端末装置であるユーザ端末10から音響信号を取得し、取得した音響信号から音声区間を検出する処理の一例を示している。
図3を用いて、実施形態に係る検出装置100が含まれる検出処理システム1の構成について説明する。図3は、実施形態に係る検出処理システム1の構成例を示す図である。図3に例示するように、実施形態に係る検出処理システム1には、ユーザ端末10と、検出装置100と、情報処理装置200とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図3に示した検出処理システム1に含まれる装置は、図3に示した台数に限られない。例えば、検出処理システム1は、複数台のユーザ端末10を含んでもよい。
次に、図4を用いて、実施形態に係る検出装置100の構成について説明する。図4は、実施形態に係る検出装置100の構成例を示す図である。図4に示すように、検出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、検出装置100は、検出装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10や、情報処理装置200との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、学習データ記憶部121と、音響モデル記憶部122とを有する。
学習データ記憶部121は、実施形態に係る処理に用いるモデルを学習するための学習データに関する情報を記憶する。図5に、実施形態に係る学習データ記憶部121の一例を示す。図5は、実施形態に係る学習データ記憶部121の一例を示す図である。図5に示した例では、学習データ記憶部121は、「学習データID」、「学習データ」といった項目を有する。
音響モデル記憶部122は、識別処理に用いられるモデルに関する情報を記憶する。図6に、実施形態に係る音響モデル記憶部122の一例を示す。図6は、実施形態に係る音響モデル記憶部122の一例を示す図である。図6に示した例では、音響モデル記憶部122は、「音響モデルID」、「学習に用いるデータ」といった項目を有する。
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、検出装置100内部の記憶装置に記憶されている各種プログラム(検出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
取得部131は、各種情報を取得する。具体的には、取得部131は、ユーザ端末10から、所定の時間長の音響信号を取得する。取得部131は、取得した音響信号を識別部132に送る。なお、音響信号は、音声認識の処理対象となる話者から発せられた音声(目的音声)、目的音声以外のノイズや、目的音声以外の音声である背景発話等を含む場合がある。また、音響信号は、ユーザ端末10に音声が入力された際の音の大きさ(音圧)や、音の高さ(周波数)や、音の種類(波形)等の情報を含むものであってもよい。
識別部132は、取得部131によって取得された音響信号が示す情報が音声か非音声であるかを識別する。例えば、識別部132は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部131によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。図4に示すように、実施形態に係る識別部132は、判定部133と、算出部134とが協働することにより、処理を実現する。すなわち、以下の説明において、判定部133や算出部134が実行する処理は、識別部132が実行する処理と読み替えてもよい。
判定部133は、音響信号が音声であるか否かを予め学習した音響モデルを用いて、取得部131によって取得された音響信号に音声が含まれるか否かを判定する。例えば、判定部133は、多数の話者の発話データを学習データとして学習されたDNNを用いて、音響信号の所定の区間が音声を含むか否かを判定する。
算出部134は、音響モデルの音素事後確率を算出する。そして、算出部134は、音響信号の所定の区間において、算出された音素事後確率に基づいて、目的音声と背景発話とを識別する。
検出部135は、識別部132によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。例えば、検出部135は、識別部132によって算出されたエントロピーが所定の閾値を超えない区間を、目的音声が含まれる音声区間として検出する。
送信部136は、各種情報を送信する。例えば、送信部136は、検出部135によって検出された音声区間に関する情報を情報処理装置200に送信する。なお、音声区間に関する情報は、実際に音声区間として切り出された範囲の音響信号であってもよいし、音響信号のうち、いずれの範囲が目的音声を含む音声区間であるかを示す情報であってもよい。
次に、図7を用いて、実施形態に係る検出装置100による処理の手順について説明する。図7は、実施形態に係る処理手順を示すフローチャートである。
上述した検出装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、検出装置100の他の実施形態について説明する。
上記実施形態では、エントロピーの値が所定の閾値を超えるか否かに基づいて、目的音声と背景発話とを識別する処理を説明した。ここで、所定の閾値は、予め定められた一定の値に限られず、種々の学習処理を経て最適化されるようにしてもよい。
上記実施形態では、音声か非音声かを判定するモデルと、目的音声と背景発話とを識別するモデルとを同じ音響モデルとして示した。しかし、これらの処理を実現する音響モデルは、別々のモデルであってもよい。例えば、実施形態に係る音響モデルは、音声と非音声を判定する判定モデルと、発話データによって発せられた音素を識別する識別モデルとで実現されてもよい。これらのモデルは、それぞれDNNによって多数の発話者の発話データを学習する。そして、判定モデルは、発話データによって音声か非音声かを判定する処理を学習する。また、識別モデルは、発話データによって発せられた音素を学習する。このように、実施形態に係る処理は、DNNによって学習された別々のモデルによって実現されてもよい。
上記実施形態では、DNNを利用して学習されたモデルを用いることを示した。しかし、検出装置100は、DNNに限らず、他の学習処理を利用して学習されたモデルを利用してもよい。例えば、検出装置100は、既知の機械学習によって学習されたモデルを利用してもよい。すなわち、検出装置100は、上記のように音素の事後確率のエントロピーを算出可能なモデルであれば、任意のモデルを用いてもよい。
上述してきた実施形態に係る検出装置100や、ユーザ端末10や、情報処理装置200は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、検出装置100を例に挙げて説明する。図8は、検出装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
上述してきたように、実施形態に係る検出装置100は、取得部131と、識別部132と、検出部135とを有する。取得部131は、所定の時間長の音響信号を取得する。識別部132は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部131によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。検出部135は、識別部132によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。
10 ユーザ端末
100 検出装置
110 通信部
120 記憶部
121 学習データ記憶部
122 音響モデル記憶部
130 制御部
131 取得部
132 識別部
133 判定部
134 算出部
135 検出部
136 送信部
200 情報処理装置
Claims (6)
- 所定の時間長の音響信号を取得する取得部と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得部によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し、算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別部と、
前記識別部によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出部と、
を備えることを特徴とする検出装置。 - 前記識別部は、
前記音響モデルの音素事後確率に基づいて、前記目的音声と前記背景発話とを識別する、
ことを特徴とする請求項1に記載の検出装置。 - 前記識別部は、
前記音響信号における前記音響モデルの音素事後確率のエントロピーを算出し、
前記検出部は、
前記識別部によって算出されたエントロピーが所定の閾値を超えない区間を、前記目的音声が含まれる音声区間として検出する、
ことを特徴とする請求項1又は2に記載の検出装置。 - 前記識別部は、
音響信号が音声であるか否かを学習した前記音響モデルを用いて、前記取得部によって取得された音響信号に音声が含まれるか否かを判定し、音声が含まれると判定された音響信号から、前記音響モデルを用いて前記目的音声と前記背景発話とを識別する、
ことを特徴とする請求項1〜3のいずれか一つに記載の検出装置。 - コンピュータが実行する検出方法であって、
所定の時間長の音響信号を取得する取得工程と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得工程によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し、算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別工程と、
前記識別工程によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出工程と、
を含んだことを特徴とする検出方法。 - 所定の時間長の音響信号を取得する取得手順と、
音響信号における音素の尤度を測定する音響モデルを用いて、前記取得手順によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し、算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別手順と、
前記識別手順によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出手順と、
をコンピュータに実行させることを特徴とする検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016135403A JP6731802B2 (ja) | 2016-07-07 | 2016-07-07 | 検出装置、検出方法及び検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016135403A JP6731802B2 (ja) | 2016-07-07 | 2016-07-07 | 検出装置、検出方法及び検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018005122A JP2018005122A (ja) | 2018-01-11 |
JP6731802B2 true JP6731802B2 (ja) | 2020-07-29 |
Family
ID=60946284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016135403A Active JP6731802B2 (ja) | 2016-07-07 | 2016-07-07 | 検出装置、検出方法及び検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6731802B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7222265B2 (ja) * | 2018-03-22 | 2023-02-15 | カシオ計算機株式会社 | 音声区間検出装置、音声区間検出方法及びプログラム |
US11276390B2 (en) | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
US20230005488A1 (en) * | 2019-12-17 | 2023-01-05 | Sony Group Corporation | Signal processing device, signal processing method, program, and signal processing system |
CN112002347B (zh) * | 2020-08-14 | 2024-05-14 | 海宁奕斯伟集成电路设计有限公司 | 语音检测方法、装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6436088B2 (ja) * | 2013-10-22 | 2018-12-12 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
US20160275968A1 (en) * | 2013-10-22 | 2016-09-22 | Nec Corporation | Speech detection device, speech detection method, and medium |
-
2016
- 2016-07-07 JP JP2016135403A patent/JP6731802B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018005122A (ja) | 2018-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916352B2 (ja) | 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答 | |
JP2021527840A (ja) | 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム | |
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
EP3770905A1 (en) | Speech recognition method, apparatus and device, and storage medium | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
EP3444809B1 (en) | Personalized speech recognition method and system | |
US20160189715A1 (en) | Speech recognition device and method | |
US20090119103A1 (en) | Speaker recognition system | |
JP6731802B2 (ja) | 検出装置、検出方法及び検出プログラム | |
US20200219384A1 (en) | Methods and systems for ambient system control | |
US11393459B2 (en) | Method and apparatus for recognizing a voice | |
WO2019213443A1 (en) | Audio analytics for natural language processing | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
JP6892426B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
GB2576960A (en) | Speaker recognition | |
US20210249033A1 (en) | Speech processing method, information device, and computer program product | |
JP2008146054A (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
CN111429919B (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
KR101925248B1 (ko) | 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치 | |
EP1387350A1 (en) | Spoken man-machine interface with speaker identification | |
Jaiswal et al. | CAQoE: a novel no-reference context-aware speech quality prediction metric |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6731802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |