JP6833147B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents
情報処理装置、プログラム及び情報処理方法 Download PDFInfo
- Publication number
- JP6833147B2 JP6833147B2 JP2020564014A JP2020564014A JP6833147B2 JP 6833147 B2 JP6833147 B2 JP 6833147B2 JP 2020564014 A JP2020564014 A JP 2020564014A JP 2020564014 A JP2020564014 A JP 2020564014A JP 6833147 B2 JP6833147 B2 JP 6833147B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- image
- utterance
- reliability
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 18
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000007613 environmental effect Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 101000878595 Arabidopsis thaliana Squalene synthase 1 Proteins 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
音声認識装置100は、インターフェース部(以下、I/F部という)101と、音声信号処理部102と、音声発話尤度算出部103と、画像発話尤度算出部104と、環境情報判定部105と、発話区間検出部108と、音声認識部109とを備える。
音声認識システム120は、音声認識装置100と、集音装置としてのN個のマイクロホン1211、1212、・・・、121Nと、撮像装置としてのカメラ122と、車速計123とを備える。本実施の形態では、音声認識システム120は、搭乗者をモニタリングするためのカメラ122が搭載された車内環境における車載音声認識システムとなっている。
ここで、Nは、1以上の整数である。本実施の形態では、Nは、音声認識システム120が搭載されている車130に設けられている座席数M(Mは1以上の整数)以上の数となっている。図2の例では、N≧M、M=4となっている。
マイクロホン1211、1212、・・・、121Nの各々を特に区別する必要がない場合には、マイクロホン121という。
本実施の形態においては、1つのマイクロホン121は、無指向性のマイクロホンであり、N個のマイクロホン1211、1212、・・・、121Nを一定間隔に配置することにより、アレイマイクが構成されているものとする。そして、N個のマイクロホン1211、1212、・・・、121Nにより、車130のM人の搭乗者の音声を取得したN個の音声アナログ信号S1、S2、・・・、SNが取得される。言い換えると、音声アナログ信号S1、S2、・・・、SNは、マイクロホン1211、1212、・・・、121Nと一対一に対応する。
カメラ122は、車130内の搭乗者の顔が撮影されるような画角を有する向きに設置されている。カメラ122は、可視光カメラでもよく、赤外線カメラでもよい。カメラ122として赤外線カメラが使用される場合には、付近に設置された発光ダイオード(図示せず)から、搭乗者に赤外線を照射し、その反射光を観測するタイプのアクティブ型であってもよい。
なお、全搭乗者の顔を撮像するために、複数のカメラ122が車130内に設置されていてもよい。
また、1〜Mの整数の各々は、1つの座席に対応付けられているものとする。「1」の下付き文字が付された要素、例えば、音声信号SS1は、「1」で識別される座席に対応付けられているものとする。このため、音声信号SS1は、「1」で識別される座席の搭乗者に対応付けられているともいえる。なお、符号iは、1以上、M以下の任意の整数とする。
環境情報判定部105は、搭乗者有無判定部106と、信頼性判定部107とを備える。
各信号の信頼性X1〜XM、Y1〜YMは、例えば以下のような算出方式が考えられる。
まず、発話区間検出部108は、下記の(4)式及び(5)式に示されているソフトマックス関数に従って、搭乗者i及び時刻tにおける信頼性Xi,t,Yi,tから、搭乗者i及び時刻tにおける各信号への重みWi,t A及び重みWi,t Vを算出する。Wi,t Aは、音声信号SSiの重みとしての音声重み、Wi,t Vは、画像信号Vの重みとしての画像重みである。
図4は、一人の搭乗者の発話リストUの一例を示す概略図である。
発話リストU#は、発話区間列U#1と、始端時刻列U#2と、終端時刻列U#3とを備えるテーブル情報である。
発話区間列U#1は、検出された発話区間を識別するための発話区間識別情報を格納する。
始端時刻列U#2は、検出された発話区間の開始時刻を示す。
終端時刻列U#3は、検出された発話区間の終了時刻を示す。
このため、(7)式によれば、音声信頼性が高いほど重みが大きくなる音声重みを音声発話尤度に乗算した値、画像信頼性が高いほど重みが大きくなる画像重みを画像発話尤度に乗算した値、及び、過去に算出された発話尤度を変数とする予め定められた関数から、発話尤度が算出されることになる。
なお、音声認識スコアは、音響モデルの出力確率と言語モデルの出力確率との双方を考慮した値でもよいし、音響モデルの出力確率のみの音響スコアであってもよい。
音声認識装置100のハードウェアは、メモリ150と、プロセッサ151と、音声インターフェース(以下、音声I/Fという)152と、画像インターフェース(以下、画像I/Fという)153と、車状態インターフェース(以下、車状態I/Fという)154と、ネットワークインターフェース(以下、ネットワークI/Fという)155とを備えるコンピュータで実現できる。
まず、音声信号処理部102は、マイクロホン121からの音声アナログ信号S1〜SNに対して、A/D変換を行うことで、音声デジタル信号を生成し、その音声デジタル信号に対して、音声を取得する対象者の発話音声を強調して、音声信号SS1〜SSMを生成する(S10)。例えば、車130内に運転席、助手席、後席左、後席右に4人の搭乗者が着座しており、その全ての座席が音声認識対象座席であるとすると、音声信号処理部102は、これら4つの方向からの音声をそれぞれ強調する。音声信号処理部102は、音声信号SS1〜SSMを音声発話尤度算出部103、環境情報判定部105及び音声認識部109に与える。
次に、画像発話尤度算出部104は、画像信号Vで示される画像から画像発話尤度VF1〜VFMを算出する(S12)。
Claims (8)
- 対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部と、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部と、
前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部と、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部と、
前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部と、を備える情報処理装置であって、
前記情報処理装置は、車に搭載され、
前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
を特徴とする情報処理装置。 - マイクロホンから入力された音声アナログ信号に対して、アナログ/デジタル変換を行うことにより音声デジタル信号を生成し、前記音声デジタル信号から、ノイズ成分を除去することにより前記音声信号を生成する音声信号処理部をさらに備えること
を特徴とする請求項1に記載の情報処理装置。 - 前記環境情報判定部は、前記画像信号で示される前記画像から前記搭乗者の数を検出すること
を特徴とする請求項1に記載の情報処理装置。 - 前記環境情報判定部は、前記車の座席に設置されている体重計の検出値により、前記搭乗者の数を検出すること
を特徴とする請求項1に記載の情報処理装置。 - 前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値と、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値とを乗算することで、前記発話尤度を算出すること
を特徴とする請求項1から4の何れか一項に記載の情報処理装置。 - 前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値、及び、過去に算出された前記発話尤度を変数とする予め定められた関数から、前記発話尤度を算出すること
を特徴とする請求項1から4の何れか一項に記載の情報処理装置。 - コンピュータを、
対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部、
前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部、及び、
前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部、として機能させるプログラムであって、
前記コンピュータは、車に搭載され、
前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
を特徴とするプログラム。 - 車に乗っている対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出し、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出し、
前記車の速度が早いほど、前記音声信号の信頼性を示す音声信頼性を低く判定し、及び、前記車に搭乗している搭乗者の数が多いほど、前記画像信号の信頼性を示す画像信頼性を低く判定し、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出し、
前記音声信号に対して、前記発話区間において音声認識を実行すること
を特徴とする情報処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/000722 WO2020144857A1 (ja) | 2019-01-11 | 2019-01-11 | 情報処理装置、プログラム及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6833147B2 true JP6833147B2 (ja) | 2021-02-24 |
JPWO2020144857A1 JPWO2020144857A1 (ja) | 2021-03-11 |
Family
ID=71521151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020564014A Active JP6833147B2 (ja) | 2019-01-11 | 2019-01-11 | 情報処理装置、プログラム及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6833147B2 (ja) |
WO (1) | WO2020144857A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3454190B2 (ja) * | 1999-06-09 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置および方法 |
JP2008134572A (ja) * | 2006-11-29 | 2008-06-12 | Fujitsu Ten Ltd | 音声認識装置 |
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
WO2016006088A1 (ja) * | 2014-07-10 | 2016-01-14 | 株式会社 東芝 | 電子機器及び方法及びプログラム |
JP6703936B2 (ja) * | 2016-12-26 | 2020-06-03 | 京セラ株式会社 | 電子機器、車両、制御装置、制御プログラム及び電子機器の動作方法 |
-
2019
- 2019-01-11 WO PCT/JP2019/000722 patent/WO2020144857A1/ja active Application Filing
- 2019-01-11 JP JP2020564014A patent/JP6833147B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2020144857A1 (ja) | 2021-03-11 |
WO2020144857A1 (ja) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1210711B1 (en) | Sound source classification | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
Tawari et al. | Speech based emotion classification framework for driver assistance system | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
EP2148325B1 (en) | Method for determining the presence of a wanted signal component | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
Shokouhi et al. | Overlapped-speech detection with applications to driver assessment for in-vehicle active safety systems | |
CN110402584A (zh) | 车内通话控制装置、车内通话系统以及车内通话控制方法 | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
Hamid et al. | Makhraj recognition for Al-Quran recitation using MFCC | |
Ponraj | Speech Recognition with Gender Identification and Speaker Diarization | |
US9269352B2 (en) | Speech recognition with a plurality of microphones | |
JP6847324B2 (ja) | 音声認識装置、音声認識システム、及び音声認識方法 | |
JP6833147B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN113674754A (zh) | 基于音频的处理方法和装置 | |
CN109243457B (zh) | 基于语音的控制方法、装置、设备及存储介质 | |
KR101619257B1 (ko) | 운전자 감성 제어 장치 및 그 방법 | |
Diğken et al. | Recognition of non-speech sounds using Mel-frequency cepstrum coefficients and dynamic time warping method | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
KR20150144636A (ko) | 이상음원 위치 추적 시스템 및 방법 | |
WO2022239142A1 (ja) | 音声認識装置及び音声認識方法 | |
JP2013011680A (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201111 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201111 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6833147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |