JP2021162685A - 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム - Google Patents
発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム Download PDFInfo
- Publication number
- JP2021162685A JP2021162685A JP2020063344A JP2020063344A JP2021162685A JP 2021162685 A JP2021162685 A JP 2021162685A JP 2020063344 A JP2020063344 A JP 2020063344A JP 2020063344 A JP2020063344 A JP 2020063344A JP 2021162685 A JP2021162685 A JP 2021162685A
- Authority
- JP
- Japan
- Prior art keywords
- score
- voice
- utterance
- calculation unit
- utterance section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000004364 calculation method Methods 0.000 claims abstract description 178
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims description 62
- 238000003384 imaging method Methods 0.000 claims description 42
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000007429 general method Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Description
<本実施形態の概要>
まず、実施形態1における発話区間検知の手法の概要について説明する。本実施形態では、発話する音声を含む外部音から音声特徴量を抽出して音声確率を出力するとともに、発話者の口の動きを含む口唇画像から口唇特徴量を抽出して発話確率を出力する。そして、これらの音声確率及び発話確率を統合した結果から、発話区間を検知する。これにより、発話区間を高精度に検知でき、雑音(特に人声雑音)環境下における検知性能を優れたものとすることができる。
次に、図1〜3を用いて、実施形態1に係る発話区間検知装置及び音声認識装置の構成について説明する。本実施形態に係る音声認識装置1は、一般的なパーソナルコンピュータ相当の機能を有し、図1に示すように、発話者の口の動きを撮像する、カメラ等の撮像装置31と、外部音を電気信号に変換するマイク32と、音声認識装置1の各部を制御する制御部(演算処理部)35と、制御部の動作に必要なソフトウェアプログラムやデータを記憶する記憶部36と、を備えている。
次に、図4及び5を用いて、実施形態1に係る発話区間検知装置10及び音声認識装置1(特に音声認識エンジン20)の動作について説明する。まず、発話区間検知装置10の動作について説明する。
log Pv(t) = log P_sv(t) + log P_Lv(t) (1)
Pv(t):時刻tにおける統合スコア
P_sv(t):時刻tにおける音声確率
P_Lv(t):時刻tにおける発話確率
log Ps(t) = log P_ss(t) + log P_Ls(t) (2)
Ps(t):時刻tにおける統合スコア
P_ss(t):時刻tにおける音声音韻確率
P_Ls(t):時刻tにおける口唇音韻確率
本実施形態は、外部音取得時の音環境や、口唇画像撮像時の撮像環境等の環境を考慮して発話区間検知及び音声認識を行うことを除いて、実施形態1と実質的に同じであるので、重複する内容については説明を省略する。
図6を用いて、実施形態2に係る発話区間検知装置及び音声認識装置の構成について説明する。図6に示すように、本実施形態に係る音声認識装置2は、撮像装置31による口唇画像の撮像時の撮像環境を測定する撮像環境測定部33と、マイク32による外部音の取得時の音環境を測定する音環境測定部34と、を更に備えている。
次に、図7及び8を用いて、実施形態2に係る発話区間検知装置10及び音声認識装置2(特に音声認識エンジン20)の動作について説明する。
log Pv(t) = w_sv × log P_sv(t) + w_Lv × log P_Lv(t) (3)
Pv(t):時刻tにおける統合スコア
P_sv(t):時刻tにおける音声確率
P_Lv(t):時刻tにおける発話確率
w_sv:音声確率に対する重み(0以上、1以下の実数)
w_Lv:発話確率に対する重み(0以上、1以下の実数)
ただし、w_sv + w_Lv = 1
log Ps(t) = w_ss × log P_ss(t) + w_Ls × log P_Ls(t) (4)
Ps(t):時刻tにおける統合スコア
P_ss(t):時刻tにおける音声音韻確率
P_Ls(t):時刻tにおける口唇音韻確率
w_ss:音声音韻確率に対する重み(0以上、1以下の実数)
w_Ls:口唇音韻確率に対する重み(0以上、1以下の実数)
ただし、w_ss + w_Ls = 1
10:発話区間検知装置(発話区間検知エンジン)
11:発話スコア算出部
11a:口唇特徴量抽出部
11b:発話スコア出力部
12:音声スコア算出部
12a:音声特徴量抽出部
12b:音声スコア出力部
13:第1のスコア演算部
14:発話区間決定部
20:音声認識エンジン
21:口唇音韻スコア算出部
22:音声音韻スコア算出部
23:第2のスコア演算部
24:音声認識部
31:撮像装置
32:マイク
33:撮像環境測定部
34:音環境測定部
35、111、121:制御部
36:記憶部
41:口唇DNN
42:音声DNN
100:分散処理システム(発話区間検知システム及び音声認識システム)
110:クライアント装置
120:サーバー装置
Claims (18)
- 発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知装置であって、
発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する発話スコア算出部と、
外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する音声スコア算出部と、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、
前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、
を備えることを特徴とする発話区間検知装置。 - 前記スコア演算部は、前記発話スコアと前記音声スコアとをそれぞれ重み付けして前記所定の演算処理を行う
ことを特徴とする請求項1記載の発話区間検知装置。 - 前記スコア演算部は、音環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更する
ことを特徴とする請求項2記載の発話区間検知装置。 - 前記スコア演算部は、音環境がより悪いほど前記発話スコアの重みを増加させる一方で前記音声スコアの重みを減少させる
ことを特徴とする請求項3記載の発話区間検知装置。 - 前記スコア演算部は、撮像環境に応じて前記発話スコアの重みと前記音声スコアの重みとを変更する
ことを特徴とする請求項2〜4のいずれかに記載の発話区間検知装置。 - 前記スコア演算部は、撮像環境がより悪いほど前記発話スコアの重みを減少させる一方で前記音声スコアの重みを増加させる
ことを特徴とする請求項5記載の発話区間検知装置。 - 前記発話決定部は、前記スコア演算部による前記演算処理の結果を閾値と比較し、当該比較の結果に基づいて発話者の発話区間を決定する
ことを特徴とする請求項1〜6のいずれかに記載の発話区間検知装置。 - 前記発話決定部は、音環境に応じて前記閾値を変更する
ことを特徴とする請求項7記載の発話区間検知装置。 - 前記発話決定部は、撮像環境に応じて前記閾値を変更する
ことを特徴とする請求項7又は8記載の発話区間検知装置。 - 請求項1〜9のいずれかに記載の発話区間検知装置を備えることを特徴とする音声認識装置。
- 前記スコア演算部は、第1のスコア演算部であり、
請求項1〜9のいずれかに記載の発話区間検知装置と、
前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す口唇音韻スコアを前記口唇画像に基づいて算出する口唇音韻スコア算出部と、
前記発話区間決定部によって決定された前記発話区間における各音韻の確からしさの度合いを示す音声音韻スコアを前記外部音に基づいて算出する音声音韻スコア算出部と、
前記口唇音韻スコアと前記音声音韻スコアとをそれぞれ重み付けして所定の演算処理を行う第2のスコア演算部と、
前記第2のスコア演算部による前記演算処理の結果から発話者が発話する音声の内容を決定する音声認識部と、を備え、
前記音声スコアの重みに対する前記発話スコアに対する重みの比率は、前記音声音韻スコアの重みに対する前記口唇音韻スコアの重みの比率より大きい
ことを特徴とする音声認識装置。 - 前記第2のスコア演算部は、音環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項11記載の音声認識装置。 - 前記第2のスコア演算部は、音環境がより悪いほど前記口唇音韻スコアの重みを増加させる一方で前記音声音韻スコアの重みを減少させる
ことを特徴とする請求項12記載の音声認識装置。 - 前記第2のスコア演算部は、撮像環境に応じて前記口唇音韻スコアの重みと前記音声音韻スコアの重みとを変更する
ことを特徴とする請求項11〜13のいずれかに記載の音声認識装置。 - 前記第2のスコア演算部は、撮像環境がより悪いほど前記口唇音韻スコアの重みを減少させる一方で前記音声音韻スコアの重みを増加させる
ことを特徴とする請求項14記載の音声認識装置。 - 発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知システムであって、
発話者の口の動きを含む口唇画像に基づいて口唇特徴量を算出する口唇特徴量算出部と、
外部音に基づいて音声特徴量を算出する音声特徴量算出部と、
前記口唇特徴量算出部にて算出された前記口唇特徴量に基づいて、発話の確からしさの度合いを示す発話スコアを出力する発話スコア出力部と、
前記音声特徴量算出部にて算出された前記音声特徴量に基づいて、音声の確からしさの度合いを示す音声スコアを出力する音声スコア出力部と、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うスコア演算部と、
前記スコア演算部による前記演算処理の結果に基づいて、発話者の発話区間を決定する発話区間決定部と、
を備えることを特徴とする発話区間検知システム。 - 発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知方法であって、
発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出するステップと、
外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出するステップと、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行うステップと、
前記演算処理の結果に基づいて、発話者の発話区間を決定するステップと、
を含むことを特徴とする発話区間検知方法。 - 発話者の口の動きと、発話する音声を含む外部音とに基づいて、発話者の発話区間を検知する発話区間検知プログラムであって、
発話者の口の動きを含む口唇画像に基づいて発話の確からしさの度合いを示す発話スコアを算出する処理と、
外部音に基づいて音声の確からしさの度合いを示す音声スコアを算出する処理と、
前記発話スコア及び前記音声スコアを用いて所定の演算処理を行う処理と、
前記演算処理の結果に基づいて、発話者の発話区間を決定する処理と、
をコンピュータに実行させることを特徴とする発話区間検知プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020063344A JP7511374B2 (ja) | 2020-03-31 | 2020-03-31 | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020063344A JP7511374B2 (ja) | 2020-03-31 | 2020-03-31 | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021162685A true JP2021162685A (ja) | 2021-10-11 |
JP7511374B2 JP7511374B2 (ja) | 2024-07-05 |
Family
ID=78003227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020063344A Active JP7511374B2 (ja) | 2020-03-31 | 2020-03-31 | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7511374B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7498231B2 (ja) | 2022-08-25 | 2024-06-11 | Necパーソナルコンピュータ株式会社 | 情報処理装置、音声認識支援方法、及び音声認識支援プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2013160938A (ja) * | 2012-02-06 | 2013-08-19 | Mitsubishi Electric Corp | 音声区間検出装置 |
US20180182415A1 (en) * | 2013-08-23 | 2018-06-28 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
WO2020144857A1 (ja) * | 2019-01-11 | 2020-07-16 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
-
2020
- 2020-03-31 JP JP2020063344A patent/JP7511374B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2013160938A (ja) * | 2012-02-06 | 2013-08-19 | Mitsubishi Electric Corp | 音声区間検出装置 |
US20180182415A1 (en) * | 2013-08-23 | 2018-06-28 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
WO2020144857A1 (ja) * | 2019-01-11 | 2020-07-16 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7498231B2 (ja) | 2022-08-25 | 2024-06-11 | Necパーソナルコンピュータ株式会社 | 情報処理装置、音声認識支援方法、及び音声認識支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7511374B2 (ja) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
JP5494468B2 (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP2011186351A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
JP2011059186A (ja) | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 | |
KR101893789B1 (ko) | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
JP6705410B2 (ja) | 音声認識装置、音声認識方法、プログラム及びロボット | |
CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
JP4730812B2 (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
KR101992955B1 (ko) | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP7515121B2 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP3798530B2 (ja) | 音声認識装置及び音声認識方法 | |
KR101658452B1 (ko) | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240328 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240625 |