JP4752028B2 - 音声中の非発話音声の判別処理方法 - Google Patents

音声中の非発話音声の判別処理方法 Download PDF

Info

Publication number
JP4752028B2
JP4752028B2 JP2006093267A JP2006093267A JP4752028B2 JP 4752028 B2 JP4752028 B2 JP 4752028B2 JP 2006093267 A JP2006093267 A JP 2006093267A JP 2006093267 A JP2006093267 A JP 2006093267A JP 4752028 B2 JP4752028 B2 JP 4752028B2
Authority
JP
Japan
Prior art keywords
speech
voice
pattern
fractal dimension
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006093267A
Other languages
English (en)
Other versions
JP2007264567A (ja
Inventor
清 佐藤
貢 澤
直樹 水上
綾子 鈴木
格一 塩見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Railway Technical Research Institute
Electronic Navigation Research Institute
Original Assignee
Railway Technical Research Institute
Electronic Navigation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Railway Technical Research Institute, Electronic Navigation Research Institute filed Critical Railway Technical Research Institute
Priority to JP2006093267A priority Critical patent/JP4752028B2/ja
Publication of JP2007264567A publication Critical patent/JP2007264567A/ja
Application granted granted Critical
Publication of JP4752028B2 publication Critical patent/JP4752028B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、発話音声から発話者の覚醒状態(脳活性状態)を評価することを目的とする発話音声分析システムへの入力信号としての音声信号の処理方法に係り、特に、音声中の非発話音声の判別処理方法に関するものである。
従来、この分野の技術としては、
(1)雑音を除去し、発話者のみの音声データを取得する音声処理装置が本願発明者によって提案されている(下記特許文献1参照)。
(2)運転士の声で業務の集中力を判断する覚醒度評価法が本願発明者によって提案されている(下記非特許文献1参照)。
(3)被検者にストレスを与えない状態で、就寝中の被検者の呼吸音や鼾音などの呼吸器系の音から、身体反応情報を正確に収集することができるシステムが本願発明者によって提案されている(下記特許文献2参照)。
特許第3512398号公報 特開2005−66027号公報 佐藤清,「発話音声を用いた覚醒度評価法」,RRR,2005.10,pp.14−17
しかしながら、一般的に人間の発話音声をダイナミック・マイクロフォンやコンデンサー・マイクロフォン等の通常のマイクロフォンで収集しようとする場合、そのマイクロフォンを発話者の口元近くに設置することにより、環境雑音の影響を緩和することは可能であっても、発話者の呼吸音等のノイズを識別除去することは容易ではない。
特に、溜め息等の呼吸音が漏れる場合、これによるノイズ信号強度は発話音声の信号強度を上回り、自動利得調整機能等を有する集音システムを利用している場合には、時にその機能が失われ、発話音声の集音が途切れることさえ発生する。
本発明は、上記状況に鑑みて、音声中の非発話音声を確実に検出して、音声信号を処理する音声中の非発話音声の判別処理方法を提供することを目的とする。
本発明は、上記目的を達成するために、
〔1〕音声中の非発話音声の判別処理方法において、音声を収集する工程と、収集した音声信号を予め設定された処理単位に区切る工程と、予め設定された処理単位内での音声パターンのフラクタル次元数を計算する工程と、この計算された音声パターンのフラクタル次元数に基づいて、音声が発話音声か非発話音声かを判別する工程と、前記非発話音声が溜め息であると判定し、前記音声の発話者が運転士の場合、この運転士の音声中に前記溜め息が検出されることをもって、この運転士の業務への集中力が低下していると判別することを特徴とする。
〕上記〔1〕記載の音声中の非発話音声の判別処理方法において、前記フラクタル次元数が3未満のとき非発話音声と判断することを特徴とする。
本発明によれば、音声中の非発話音声を確実に検出して、音声信号を処理することができる。
本発明の音声中の非発話音声の判別処理方法は、音声を収集する工程と、収集した音声信号を予め設定された処理単位に区切る工程と、予め設定された処理単位内での音声パターンのフラクタル次元数を計算する工程と、この計算された音声パターンのフラクタル次元数に基づいて、音声が発話音声か非発話音声かを判別する工程と、前記非発話音声が溜め息であると判定し、前記音声の発話者が運転士の場合、この運転士の音声中に前記溜め息が検出されることをもって、この運転士の業務への集中力が低下していると判別する。
以下、本発明の実施の形態について詳細に説明する。
図1は本発明の実施例を示す音声中の非発話音声の判別処理システムのブロック図である。
この図において、1は音声を録音するマイクロフォン、2はその録音された音声信号の処理装置であり、この音声信号の処理装置2は、A/D変換手段3、音声パターン抽出手段4、音声パターンのフラクタル次元数演算手段5、フラクタル次元数に基づく非発話的な音声パターンの判別手段6とを備えている。なお、7は出力手段である。
なお、フラクタル次元数(fractal dimensionality)とは、等式N=bD を満たすフラクタルに結合する数Dのことを指す。ここで、bはそれによって長さの目盛りが、その対象を定義している帰納的方法の各段階における拡大のもとで変わる因子である。そして、Nは、それによって基本単位の数が、その各段階ごとに増加する因子である。
本発明は、実験的な事実として、溜め息等の呼吸音のフラクタル次元数が2以下であることが明らかになったことによりなし得たものである。
発話音声にカオス(規則のもとで発生する不規則に対する原理・現象)性が存在することは、今日、実験的な事実として認知されているが、同様に溜め息等の非発話的な音声(呼吸音)にもカオス性がある。
以下、本発明の音声中の非発話音声の判別処理方法について説明する。
図2は本発明の実施例を示す音声中の非発話音声の判別処理フローである。
(1)まず、発話者の音声を収集する。
(2)その収集した音声信号を予め設定された処理単位に切断する。
(3)その予め設定された処理単位内での音声パターンのフラクタル次元数を計算する。ここでは、コンピュータ処理でフラクタル次元数を求める。ここでは、例としてボックスカウント法を用いる。
(4)そのフラクタル次元数に基づいて、音声が発話音声か非発話音声(溜め息)かを判断する。
図3は本発明にかかる発話音声パターン(カオス音声生成モデルの生成音声のアトラクタ)をボックスカウント法で求める場合の模式図、図4は本発明にかかる非発話音声(溜め息)パターン(ターケンスプロット;アトラクタの視覚的表示)をボックスカウント法で求める場合の模式図である。
図3においては、48kHzで音声信号をサンプリングし、埋め込み次元が3以上、遅延時間を1m秒とし“あ”の音声を処理したターケンスプロットである。
図3において、この発話音声パターン11を含む空間(ここでは平面)をピクセルサイズεのピクセル12に分ける。また、図4において、非発話音声(溜め息)パターン21を含む空間(ここでは平面)をピクセルサイズεのピクセル22に分ける。
そして、それらのパターン11の一部を少しでも覆っているピクセルの数N(ε)をそれぞれ数える。
ピクセルサイズεを例えば、ε=1,1/2,1/4,1/8,1/16,…と変えたとき、N(ε)が、
N(ε)∽ε-D
と変われば、そのフラクタル次元はDである。
(4)次に、そのフラクタル次元数Dに基づいて、その音声パターンが発話音声か非発話音声(溜め息)かを判断する。
ここでは、そのフラクタル次元数が3以上であれば発話音声、そのフラクタル次元数が3未満であれば非発話音声(溜め息)であると判定する。
実験結果によれば、発話音声パターン(ターケンスプロット)は常に3〜6のフラクタル次元を有する信号であることが確認されており、例えば、上記した図3と、図5に示される発話音声パターン31は、フラクタル次元数Dは3〜6、上記した図4と、図6〜図8に示される非発話音声(溜め息)パターン(ターケンスプロット)41〜43は、フラクタル次元数は3未満である。
上記したように、実験結果によれば、発話音声は常に3〜6以上のフラクタル次元を有する信号であることが確認されており、これに対して溜め息等の非発話音声は2以下の次元を有している(環境雑音レベルが高い場合には、その擾乱により2以上のフラクタル次元が算出されることもあるが、実験的には3を超えるようなことは皆無である)ことから、収集した音声信号を予め設定する処理単位に切断し、そのフラクタル次元数を計算することにより、その処理単位に含まれる音声が、発話音声であるのか、或いは非発話音声(溜め息)であるのかを識別することが可能となる。
次に、この音声中の非発話音声の判別処理結果を運転士の発話を収集して、その音声中への非発話(溜め息)の有無によって、業務への集中力の有無の判定に用いることができる。
図9は運転士の業務への集中力の有無の判定フローを示す図である。
(1)まず、運転士の音声を収集する。
(2)その収集した音声信号を予め設定する処理単位に切断する。
(3)その予め設定された処理単位内での音声のフラクタル次元数を計算する。
(4)そのフラクタル次元数に基づいて、音声が発話音声か非発話音声(溜め息)かを判断する。
(5)音声中に非発話音声(溜め息)が存在したら運転士の業務への集中力がない。音声中に非発話音声(溜め息)が存在しなかったら運転士の業務への集中力があると判別する。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
本発明の音声中の非発話音声の判別処理方法は、被検者の業務への集中力の有無を的確に判断するツールとして利用可能である。
本発明の実施例を示す音声中の非発話音声の判別処理システムのブロック図である。 本発明の実施例を示す音声中の非発話音声の判別処理フローである。 本発明にかかる音声パターン(ターケンスプロット)をボックスカウント法で求める場合の模式図である。 本発明にかかる非発話音声パターン(ターケンスプロット)をボックスカウント法で求める場合の模式図である。 本発明にかかる発話音声パターン(ターケンスプロット)を示す図である。 本発明にかかる非発話音声パターン(ターケンスプロット)(その1)を示す図である。 本発明にかかる非発話音声パターン(ターケンスプロット)(その2)を示す図である。 本発明にかかる非発話音声パターン(ターケンスプロット)(その3)を示す図である。 本発明にかかる運転士の業務への集中力の有無の判定フローを示す図である。
1 マイクロフォン
2 音声信号の処理装置
3 A/D変換手段
4 音声パターン抽出手段
5 音声パターンのフラクタル次元数演算手段
6 フラクタル次元数に基づく非発話的な音声パターンの判別手段
7 出力手段
11,31 発話音声パターン
12,22 ピクセルサイズεのピクセル
21,41〜43 非発話音声(溜め息)パターン

Claims (2)

  1. (a)音声を収集する工程と、
    (b)収集した音声信号を予め設定された処理単位に区切る工程と、
    (c)予め設定された処理単位内での音声パターンのフラクタル次元数を計算する工程と、
    (d)該計算された音声パターンのフラクタル次元数に基づいて、音声が発話音声か非発話音声かを判別する工程と
    (e)前記非発話音声が溜め息であると判定し、前記音声の発話者が運転士の場合、該運転士の音声中に前記溜め息が検出されることをもって、該運転士の業務への集中力が低下していると判別することを特徴とする音声中の非発話音声の判別処理方法。
  2. 請求項1記載の音声中の非発話音声の判別処理方法において、前記フラクタル次元数が3未満のとき非発話音声と判断することを特徴とする音声中の非発話音声の判別処理方法。
JP2006093267A 2006-03-30 2006-03-30 音声中の非発話音声の判別処理方法 Expired - Fee Related JP4752028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006093267A JP4752028B2 (ja) 2006-03-30 2006-03-30 音声中の非発話音声の判別処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006093267A JP4752028B2 (ja) 2006-03-30 2006-03-30 音声中の非発話音声の判別処理方法

Publications (2)

Publication Number Publication Date
JP2007264567A JP2007264567A (ja) 2007-10-11
JP4752028B2 true JP4752028B2 (ja) 2011-08-17

Family

ID=38637573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006093267A Expired - Fee Related JP4752028B2 (ja) 2006-03-30 2006-03-30 音声中の非発話音声の判別処理方法

Country Status (1)

Country Link
JP (1) JP4752028B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5051524B2 (ja) * 2007-05-24 2012-10-17 カシオ計算機株式会社 編曲装置および編曲処理プログラム
JP6519102B2 (ja) * 2014-06-03 2019-05-29 株式会社システック 複数者間干渉音声雑音を回避した音声入力処理装置
CN106448659B (zh) * 2016-12-19 2019-09-27 广东工业大学 一种基于短时能量和分形维数的语音端点检测方法
CN109793519B (zh) * 2019-01-22 2021-12-24 南方科技大学 呼吸速率检测方法、装置、存储介质及终端
CN110367934B (zh) * 2019-07-25 2023-02-03 深圳大学 一种基于非语音身体声音的健康监测方法及监测系统

Also Published As

Publication number Publication date
JP2007264567A (ja) 2007-10-11

Similar Documents

Publication Publication Date Title
JP5339501B2 (ja) 音声収集方法、システム及びプログラム
JP2008299221A (ja) 発話検知装置
US9959886B2 (en) Spectral comb voice activity detection
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JP5519689B2 (ja) 音響処理装置、音響処理方法及び補聴器
US9384759B2 (en) Voice activity detection and pitch estimation
Alharbi et al. A lightly supervised approach to detect stuttering in children's speech
JP4752028B2 (ja) 音声中の非発話音声の判別処理方法
WO2006007290B1 (en) Method and apparatus for equalizing a speech signal generated within a self-contained breathing apparatus system
US9437213B2 (en) Voice signal enhancement
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
Dumpala et al. Analysis of laughter and speech-laugh signals using excitation source information
JP2004199053A (ja) 絶対音量を使用して音声信号を処理する方法
JP3649032B2 (ja) 音声認識方法
JP2007292940A (ja) 音声識別装置及び音声識別方法
JP2007267331A (ja) 発話音声収集用コンビネーション・マイクロフォンシステム
JP5271734B2 (ja) 話者方向推定装置
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP2992324B2 (ja) 音声区間検出方法
JP3588929B2 (ja) 音声認識装置
JP2007264132A (ja) 音声検出装置及びその方法
JP4913666B2 (ja) 咳検出装置及び咳検出用プログラム
JP2007171637A (ja) 音声処理装置
JP2006304125A (ja) 音声信号補正装置および音声信号補正方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110421

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4752028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees