JP5017534B2 - 飲酒状態判定装置及び飲酒状態判定方法 - Google Patents

飲酒状態判定装置及び飲酒状態判定方法 Download PDF

Info

Publication number
JP5017534B2
JP5017534B2 JP2011553634A JP2011553634A JP5017534B2 JP 5017534 B2 JP5017534 B2 JP 5017534B2 JP 2011553634 A JP2011553634 A JP 2011553634A JP 2011553634 A JP2011553634 A JP 2011553634A JP 5017534 B2 JP5017534 B2 JP 5017534B2
Authority
JP
Japan
Prior art keywords
drinking
phoneme
model
acoustic
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011553634A
Other languages
English (en)
Other versions
JPWO2012014301A1 (ja
Inventor
慎司 酒向
英三郎 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UNIVERSAL ROBOT Inc
Original Assignee
UNIVERSAL ROBOT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UNIVERSAL ROBOT Inc filed Critical UNIVERSAL ROBOT Inc
Application granted granted Critical
Publication of JP5017534B2 publication Critical patent/JP5017534B2/ja
Publication of JPWO2012014301A1 publication Critical patent/JPWO2012014301A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4845Toxicology, e.g. by detection of alcohol, drug or toxic products

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Surgery (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Educational Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Developmental Disabilities (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象者の飲酒状態を判定するための技術に関するものである。特に、本発明は、対象者が発した音声を用いて、その対象者が飲酒状態であるか非飲酒状態であるかを判別するための技術に関係している。
下記特許文献1には、特定の運転者が発したキーワードを、非飲酒状態における本人の音声データと対比することにより、当該運転者が飲酒状態であるかどうかを判定する技術が記載されている。この技術では、非飲酒状態における本人の音声データを判定基準とすることにより、その本人の飲酒状態についての判定精度の向上を図っている。
ところで、この特許文献1の技術では、運転者が発声すべき特定のキーワードが予め設定されている。これは、そのキーワードが、飲酒判定に有効であるという前提に基づいている。しかしながら、対象者によって、どのようなキーワードが判定に有効かは異なる可能性がある。したがって,特定のキーワードを用いることは、不特定多数の対象者の飲酒判定においては、適切でないと考えられる。
さらに、キーワードを用いる場合は、特定の言語(例えば日本語や英語)の使用を前提とすることになり、この点も、このシステムを利用できる対象者の範囲を制約する可能性がある。
一方、下記特許文献2では、対象者における音声情報のリアプノフ指数を算出し、これに基づいて、対象者の疲労度又は居眠り状態を判定する技術が記載されている。しかしながら、この方法を飲酒判定に利用できるかどうかは不明である。さらに、異なる時点における対象者の音声をそれぞれ利用するので、判定の前に、予め、対象者の音声を記録しておく必要がある。すると、不特定の対象者の状態を即座に判定したいという用途には利用が難しいという問題もある。
特開2010−15027号公報 特開2000−113347号公報
本発明の主な目的は、キーワードのような特定の言葉の利用を前提としないで飲酒判定が可能な技術を提供することである。
また、本発明における他の目的は、特定の言語に依存することなく飲酒判定が可能な技術を提供することである。
本発明は、以下の項目のように記載することができる。
(項目1)
入力部と、記憶部と、判定部とを備えており、
前記入力部は、対象者からの音声入力を受け付ける構成となっており、
前記記憶部は、飲酒モデルと非飲酒モデルとを格納しており、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
前記判定部は、以下の処理を行うことを特徴とする飲酒状態判定装置:
(1)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分ける処理;
(2)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
(3)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別する処理。
(項目2)
前記音響特徴は、調音形式又は音素の長さを含む、項目1に記載の飲酒状態判定装置。
(項目3)
前記飲酒者及び前記非飲酒者は、それそれ、前記対象者以外の者を含んでいる、項目1又は2に記載の飲酒状態判定装置。
(項目4)
前記判定部は、前記した(1)の処理の前に、処理前記飲酒モデル及び前記非飲酒モデルにおける各ノードを、アフィン変換により、前記対象者の特徴に近づける処理を行う、項目1〜3のいずれか1項に記載の飲酒状態判定装置。
(項目5)
前記ノードにおける音素の音響特徴は、音素におけるMFCCをモデル化したGMMによって表されている、項目1〜4のいずれか1項に記載の飲酒状態判定装置。
(項目6)
さらに学習部を備えており、前記学習部は以下の処理を行う、項目1〜5のいずれか1項に記載の飲酒状態判定装置:
(1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記飲酒モデルを生成する処理;
(2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記非飲酒モデルを生成する処理。
(項目7)
飲酒モデルと非飲酒モデルとを用いる飲酒状態判定方法であって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記方法は、以下のステップを備える:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
(項目8)
飲酒モデルと非飲酒モデルとを用いて、コンピュータにより飲酒状態判定を行うためのコンピュータプログラムであって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記コンピュータプログラムは、コンピュータに、以下のステップを実行させる:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
(項目9)
項目1に記載の飲酒状態判定装置に用いる音声入力のための入力文を評価する方法であって、この方法は、以下のステップを含む:
(1)少なくとも二つのテスト文章の入力を受け付けるステップ:
(2)前記テスト文章をそれぞれ音素列に変換するステップ:
(3)前記各テスト文章における音素列について、前記飲酒状態モデルの木構造と、前記非飲酒モデルの木構造に適用し、各音素に対応するノードの音響特徴を特定するステップ;
(4)前記テスト文章の音素における音響特徴と、各木構造のノードにおける音響特徴との尤度を、各モデルにおいて計算するステップ;
(5)前記飲酒モデルでの尤度の値と、前記非飲酒モデルにおける尤度の値との間における相違が大きい前記テスト文章を前記入力文として選択するステップ。
本発明によれば、キーワードのような特定の言葉の利用を前提としないで飲酒判定が可能となる。また、本発明によれば、特定の言語に依存することなく飲酒判定が可能となる。
本発明の一実施形態に係る飲酒状態判定装置の概略的な構成を説明するためのブロック図である。 本発明の一実施形態に係る飲酒状態判定方法の全体的な手順を説明するためのフローチャートである。 学習により飲酒モデルと非飲酒モデルとを生成する手順を説明するための説明図である。 フィルタバンク分析を説明するための説明図である。 MFCCの抽出を説明するための説明図である。 音素タイプライタによる音素列の取得を説明するための説明図である。 音素GMMを木構造におけるリーフノードに振り分けていく実施例を説明するための説明図である。 生成された木構造の飲酒モデルの一例を示す図である。 生成された木構造の非飲酒モデルの一例を示す図である。 飲酒状態判定の具体例を説明するための説明図である。 飲酒モデル及び非飲酒モデルを、アフィン変換によって、特定話者の特徴に近づける処理を説明するための説明図である。
以下、本発明の一実施形態を、添付図面を参照しながら説明する。
(本実施形態に係る飲酒状態判定装置の構成)
本実施形態の装置は、入力部1と、特徴抽出部2と、音素列取得部3と、学習部4と、記憶部5と、判定部6と、表示部7とを備えている(図1参照)。
入力部1は、対象者からの音声入力を受け付ける構成となっている。具体的には、入力部1は、音声情報を取得するためのマイクロフォンを備えている。このような入力部としては、例えば、携帯電話のマイクロフォンを用いることができる。入力部1は、音声情報を、コンピュータで利用可能なデジタル情報に変換する。変換された音声情報は、記憶部5に格納される。
特徴抽出部2は、音声情報の特徴を抽出するための機能要素である。具体的には、特徴抽出部2は、音声波形から、微小時間の音声の特徴を表すMFCC(Mel-Frequency Cepstrum Coefficient)系列を抽出する。特徴抽出部2における具体的な処理内容は後述する。
音素列取得部3は、音素タイプライタを用いて、音声から音素列を取得するものである。音素タイプライタは、例えば特開2000−347685号公報、特開2008−158510号公報あるいは特開2001−5483号公報に示されたように、音声データにおける音素を特定して音素列を抽出する技術として、従来から広く用いられている。本実施形態では、音素列取得部3として、既存の音素タイプライタの技術を利用できるので、これについての詳しい説明は省略する。
学習部4は以下の処理を行うものとなっている:
(1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、飲酒モデルを生成する処理;
(2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、非飲酒モデルを生成する処理。この学習部4における処理の詳細も後述する。
記憶部5は、学習部4で生成された飲酒モデルと非飲酒モデルとを格納している。飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有している。この木構造におけるノード(本実施形態ではリーフノード)は、飲酒者の音素における音響特徴を示すものとなっている。非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有している。この木構造におけるノードは、非飲酒者の音素における音響特徴を示すものとなっている。これらの各モデルの詳細も後述する。
記憶部5は、本実施形態の装置の動作のための各種データを、必要に応じて格納するようになっている。なお、記憶部5は、機能要素として存在すればよく、複数のハードウエアから構成されてもよく、ネットワーク上に分散して配置されていてもよい。また、一つのデータを複数のハードウエアに格納することも、多数のデータを一つのハードウエアに格納することも可能である。
判定部6は、以下の処理を行う機能要素である:
(1)対象者から入力された音声入力を、飲酒モデルと非飲酒モデルにおけるそれぞれの木構造に適用することにより、音声入力における音素の音響特徴を、ノード(本実施形態ではリーフノード)に振り分ける処理;
(2)対象者の音声入力における音素の音響特徴(例えばMFCC)と音素の音響特徴が振り分けられた飲酒モデルにおけるノード(例えばGMM)との尤度、及び、対象者の音声入力における音素の音響特徴と音素の音響特徴が振り分けられた非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
(3)算出された尤度の値を用いて、対象者の音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する処理。判定部6での処理の詳細も後述する。
表示部7は、対象者における飲酒判定の際に、対象者が読み上げるべき文章を提示するためのディスプレイである。表示部7としては、例えば、携帯電話のディスプレイを用いることができる。
(本実施形態に係る飲酒状態判定方法)
本実施形態に係る飲酒状態判定方法を、図2〜図11をさらに参照しながら説明する。
(図2のステップSA−1)
まず、飲酒者と非飲酒者の発声データをそれぞれ用いて、学習により、飲酒モデルと非飲酒モデルとを作成する。ここで、飲酒者及び非飲酒者には、飲酒判定のための対象者は、基本的には含む必要がない。もちろん、対象者のデータが混入していることは可能である。飲酒者と非飲酒者の発声データは、多いほど好ましい。つまり、本実施形態では、対象者における音声データを予め取得する必要がなく、他人の多数の音声データからモデルを生成すれば、飲酒判定ができるものである。
飲酒/非飲酒モデルの生成の具体例を、図3〜図9を参照しながら説明する。
(図3のステップSB−1)
まず、なるべく多くの人間から、飲酒状態と非飲酒状態とにおける発話データ(つまり音声データ)を取得する。この取得には、入力部1を用いることができるが、別の入力部を用いてもよい。要するに、後述の処理に使用できる音声データが取得できればよい。ここで、同じ人間から飲酒状態と非飲酒状態とをそれぞれ取得することは必須ではない。すなわち、ある人間からは飲酒状態だけ、別の人間からは非飲酒状態だけのデータを取得することが可能である。ただし、取得した発話データがどちらの状態にあるかは判明している必要がある。
(図3のステップSB−2:音声波形からのスペクトル特徴(MFCC)の抽出)
Figure 0005017534
Figure 0005017534
Figure 0005017534
MFCCのような短時間スペクトルの外形(スペクトル包絡)を近似した特徴量は、その区間でどのような音を発声しているかに相当する音韻的な特徴として考えることができる。しかし、例えば「あ」という音の包絡は常に決まった形をとるとは限らず、発声とともに時間的に変化し、文脈による違いや人による違いなど、様々な影響によって変化する。同様に他の音韻でも複雑に変化していると考えられるが、「あ」や「い」を聴覚的に区別できる以上は、双方の包絡の形状は一定の傾向を持ちつつ、広がりを持った分布に従うと考えることができる。
Figure 0005017534
Figure 0005017534
Figure 0005017534
なお、仮にモデル(GMM)がある話者Aとある話者Bによって学習されていた場合は、個々のモデル(GMM)と取得された話者のGMMと尤度をそれぞれ求め、その尤度の差によって、どちらの話者の特徴に似ていたかという話者識別を行うことができる。
GMMのモデルパラメータは、各混合要素の平均と共分散、および混合要素の重みであり、これらの尤度関数において観測されたデータ(学習データ)の最尤が最大となるように学習を行う。EMアルゴリズムと呼ばれる手法によって、一定量の音声波形から抽出したMFCC特徴を学習データとして、GMMを学習することができる。
このステップでの処理は、基本的には、特徴抽出部2により行われる。
(図3のステップSB−3:音素列の自動取得)
通常、音声認識では音響的な特徴から音素の列を定める音響モデルのほかに、言葉として正しい音素列となるような言語的制約を与える言語モデルがある。たとえば日本語の音素は40前後あるが、音素の列に何の制約もなければ一定の長さの音声区間に含まれる音素の列の候補は膨大な数になる。しかし、実際には言葉の語彙(単語)は限られており、また単語の連鎖にも一定の偏りがあることから、言語的にみて出現しうる音素の列は大きく制限されるため、探索を効率的に行うことができる。
本実施形態では、このような言語モデルの制約を用いない音素の列と継続時間だけを定める音素タイプライタを用いる。言語モデルを用いないため、発話内容は考えずに、発声された音韻特徴の列(音素列)だけを抽出することになる。音韻特徴からの識別という観点では、発話内容の書き起こしは必要ではなく、言語モデルの制約によって実際の発声とは異なった音素列を取得することも考えられ、正しい発音であるかどうか(例えば言いよどみやフィラーがあるかどうか)の考慮も不要である。また、特定の言語に依存しないため、言語依存性がなくなることによる利点がある。
図6は、「あらゆる現実を」という発声から音素タイプライタによって取得した音素列とその境界情報を示す。発声内容に沿った音素列とは異なる音素列が得られているが、音響的な現象としてはそれが発せられたモデルに近いことになる。
このステップでの処理は、音素列取得部3により行われる。
(図3のステップSB−4:各音素ごとにGMMを学習)
ついで、音素ごとにGMMを学習して、木構造におけるリーフノードに振り分けていく。このステップについては、後述の実施例でさらに詳述する。このステップでの処理は、基本的には、学習部4により行われる。
(図3のステップSB−5:発声状態(調音様式・長さ)に基づいたクラスタリング
音韻学では、特定の音韻を発声するための口腔の各部位ごとの役割や機能が調音様式として分類されている。発音される音素は言語間で異なるものの、これらの調音様式は言語ごとに共通性がある。
例えば、硬口蓋音(こうこうがいおん)とは、前舌または中舌を硬口蓋に密着あるいは接近させて気流を妨げることによって作られる子音を指し、日本語の場合は /h/ や /s/ などの音素が該当する。同様にこれらの調音部位に応じて、その特徴を有する音素がどのようなものがあるかは、音韻学的に分類されている。表1に代表的なものをまとめる。飲酒時に影響を受けやすいものとして、そのほかにも特定の音が間延びする傾向があることが実際に収録されたデータからわかっており、「音素の継続時間が10ms以上かどうか」といった発話された音素の長さに応じて分類するようなものも利用可能である。
Figure 0005017534
飲酒/非飲酒モデルとしての木構造を構築するステップの実施例を図7で説明する。これにより、例えば図8及び図9のような木構造が自動構築される。このステップも、この実施形態では、学習部4により行われる。
(図7のステップSC−1)
まず、学習データから得られるMFCC特徴列から音素タイプライタによって分割される各音素ごとに単独の音素モデル(GMM)を学習し、音素GMMの集合
Figure 0005017534
を作成する。この操作は図3のステップSB−2からSB−4に対応している。
一方、表1のように分類した音素の発音様式とそれに合致する音素名を列挙した多数の分類基準を作成しておく。ある分類基準によって、個々のモデルはその基準に適合するか、そうでないかの二値をとるものとする。これはモデル集合を二つのグループに分けることができるものなら、どのようなものであっても構わないとする。例えば、音素の長さや、提示された文章中の音素と相違したかどうかという基準も含めることができる。このような分類基準自体は、このシステムの運営者あるいは作製者が、目的に応じて作成する。
Figure 0005017534
このステップは、図3のSB−5において実行可能な分類基準の自動生成に対応する。
(図7のステップSC−3)
分割されたモデル集合に対応して、次の分類基準を選択(図7参照)し、前記ステップSC−2で説明した手順を繰り返す。このステップSC−3を順次繰り返し、一定の閾値で分割を停止する。停止の基準は、分割による尤度変化の幅に閾値を定める方法や、分割される個数によって制御することができる。このようにして飲酒/非飲酒についての木構造のモデルを生成することができる(図7のステップSC−4)。ここでのステップも、図3のSB−5に対応する。一例として,得られた飲酒モデルを図8に、非飲酒モデルを図9に示す。これらの図において四角で囲まれたリーフノードは、分類基準によって振り分けられた音素GMM(つまり音素ごとの音響特徴)に対応している。
(図2のステップSA−2)
ついで、対象者についての飲酒判定を行うための前段階として、対象者からの音声データを、入力部1により取り込む。例えば、携帯電話を用いて本実施形態を実施するときは、携帯電話の画面に、読み上げるべき文章を表示することができる。対象者は、その文章を読み上げることにより、音声データを入力部1に入力することができる。入力部1は、音声データを特徴抽出部2、音素列取得部3等の、音声データを扱うべき機能要素に送る。
(図2のステップSA−3:飲酒状態の判定)
本実施形態では、前記したように、複数の人数によって飲酒状態と非飲酒状態で発声された音声データベースを作成し、飲酒状態の音声と、非飲酒時の音声からそれぞれMFCCの抽出と音素タイプライタによって音素ラベル列と継続時間を取得した。そして、これらの学習データから、飲酒時と非飲酒時の音声の特徴を表した音素GMMを学習し、さらに調音様式の分類を利用した木構造クラスタリングによって、飲酒時と非飲酒時のそれぞれの木構造モデルを作成した。
このようにして得られた飲酒/非飲酒モデルは、飲酒状態の音声と非飲酒時の音声の特徴をそれぞれ備えたものであり、飲酒状態と非飲酒状態のどちらであるかが未知の音声データがどちらのクラスに属するかを確率的な基準で判定することができるものである。以下、図10を参照して、判定処理のステップを詳しく説明する。前記した判定処理は、本実施形態では、判定部6で行われる。
(図10のステップSD−1〜SD−3)
飲酒状態かどうか未知の入力音声が与えられた場合、先に説明した学習時と同様にして
・MFCCの抽出;
・音素タイプライタによって音素ラベル列と継続時間を取得;
・評価データの特徴抽出
を行う。ここで、音素ラベルは該当する区間のMFCC系列の尤度を計算するためのGMMを木構造から選択するための情報となる。
(図10のステップSD−4)
入力音声から得られた音素ラベルの情報に沿って、それぞれのクラスの木構造から、評価データで用いるモデル(GMM)の列を決定する。つまり、音声入力における音素の音響特徴をリーフノードに振り分ける。木構造の各ノード(リーフノード以外のノード)には、音素を分類するための分類基準が配置されており、木構造のどちらのアークに進むべきかを示している。そのため、ある音素について必ず対応する葉に到達することになり、リーフノードに対応するGMMを一意に選択することができる。このようにして、飲酒状態と非飲酒時のモデルの木構造から、それぞれ当該区間で評価するべきモデル(つまりリーフノードにおけるGMM)が、音素タイプライタで定められた音素列に沿ってすべて決定される。
(図10のステップSD−5)
評価データにおける各フレームのMFCC特徴について、前記ステップSD−2〜SD−3で定めた当該区間(つまり音素の区間)で用いるGMMを用いて、MFCCとGMMとの尤度計算を行い、各フレームでの尤度を文章全体で積算する。この尤度計算については前記において説明した。これが入力音声全体の評価値となり、各クラスにおける評価値がそれぞれ得られる。
ついで、飲酒状態モデル側から選択されたGMMで評価した場合と、非飲酒モデル側から選択されたGMMとで求めた尤度を比較し、その大小関係によってどちらのクラスかを判定することができる。尤度が大きい(確率が高い)ほうが、よりそのクラスで学習された特徴に近いことに相当する。
したがって、本実施形態では、必ずしも対象者の音声データを用いなくても、対象者が飲酒状態であるかどうかを判定することができる。
また、本実施形態では、言語に依存した処理を必要としない飲酒判定が可能となる。
飲酒状態であると判定された場合は、表示部7あるいは他の提示手段を用いて、対象者あるいは関係者に、飲酒状態であることを示すアラーム又は他の通報を行うことができる。もちろん、非飲酒状態であることを通知することも可能である。
(変形例:特定話者モデルへの適応学習)
前記で述べた飲酒状態と非飲酒状態の個々の音声データから学習されたモデル(リーフノードのGMM)は、複数人の人物から発声された音声データに基づいており、様々な話者の特徴を平滑化した中間的なモデルとなる。本実施形態における判定法は、話者(対象者)の音声が非常に特徴的な場合は、一方のクラス(例えば飲酒状態)だけに分類されてしまう問題が生じる。これは、より多数の話者のデータを収集して、様々な話者性を包含したモデルを作成することで一定の改善は望めるが、識別したい対象の話者が決まっている場合には、その人物に特化した識別モデルを構成する方法も可能である。
そこで、この変形例では、特定の人物において、飲酒時あるいは非飲酒時のどちらかで、数文章程度の音声データが得られている場合に、識別モデルをその人物に適応させる話者適応学習を導入する。
Figure 0005017534
Figure 0005017534
このような変換行列によって、各クラスの持つ平均的なMFCC特徴において、適応先の話者性に近くなるようにモデル全体のMFCC特徴の平均ベクトルをアフィン変換する操作が可能となる(図11)。
(本実施形態における調音様式や発音様式を利用した木構造分類の利点1)
様々な分類方法を用いてモデル集合を木構造的に分割する手法の利点として、下記の3点があげられる。
(a)類似したモデルを統合して、統計モデルの頑健性を確保する
(b)木構造を探索することで、学習データに存在しなかった音素にも最適なモデルを対応可能
(c)最適な分類基準が学習されたモデルに基づいて自動的に定まる
日本語で出現する音素は40種類前後あり、これらをすべて網羅する統計モデルを適度に学習させるためには、一定量の音声サンプルが必要となる。しかし、個々の音素の間でも類似した音素があり、結果的に生成された木構造は、学習に用いたデータの中でどのモデルとどのモデルは同じものとして扱ってよいかという音素間の共有構造を定めたものとして解釈できる。これは類似したモデル(つまりリーフノードでのGMM)間で学習データを共有し、モデルあたりの学習データをより多く確保することが可能となる。
さらに、その分類の過程に音素の発音様式や調音様式のように、間接的に音素の性質をあらわした情報が利用されていることになる。つまり、学習データに存在しない音素であっても、その音韻学的な知見などからその性質が明らかであれば、木構造上のどのモデルを用いるのが最も適切かを一意に定めることができる。これは、発音様式や調音様式が言語によらない性質を備えていることを考えると、特定の言語で構成したモデルであっても、他の言語の発声データについても適切なモデル選択が可能であることを示唆している。
(調音様式や発音様式を利用した木構造分類の利点2)
先に述べた点の他にも応用的な側面で期待できる利点として、飲酒状態と非飲酒状態の音声から生成される木構造は、双方の音韻的な特徴の違いを分類する有力な情報の一つとなる。つまり、双方がまったく同一の構造をとることは、両者の間には統計的な差異が無いことを意味するが、実験によって得られた木構造はそれぞれ異なる傾向になることが分かっている(図8及び図9を参照)。具体的には、モデルの粗い分類(木構造の根に近い部分)では類似した傾向はもつが、葉に近い詳細な分類では異なる分類基準が選択されている。
このような傾向の違いを、判定システムにおける評価文章(読み上げるべき文)の選定に利用することが考えられる。評価システムに用いる文章は、どのような文字列であっても対応するモデル(リーフノードのGMM)を必ず用意できるため、テキストに依存しないシステムを構成することができる。しかし、飲酒状態の判定に適した文章とそうでない文章があると考えられる。評価に適した文章であるかどうかは、学習時にそのクラスの固有の特徴がより明確に表れていたかどうかで判断することができ、次のようなステップで二つの文章のうち、どちらが識別に適した文章かどうかの指標を定めることができる。
Figure 0005017534
前記したテスト文章SとTは、異なる時点で入力されたものであってもよい。例えば、テスト文章Tは、判定時にユーザによって入力され、テスト文章Sは、システム側に事前に入力されていたものであってもよい。この場合、ユーザが入力した文章Tと、システム側の文章Sとを評価することにより、ユーザ入力文章Tが飲酒状態判定に適切であるかどうかをシステム側が評価することができる。
また、システム側の文章Sを複数用意することも可能である。この場合、ユーザ側が入力した文章Tと、各文章Sとのそれぞれの尤度の値(クラス間の比)を利用して、文章Tに対するスコアを算出することも可能となる。
なお、本発明の範囲は、前記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることはもちろんである。
また、前記した機能要素は、ネットワーク上に分散して存在してもよい。さらに、前記した機能要素が複数のハードウエアあるいはソフトウエアの組み合わせにより実装されていてもよい。さらに、複数の機能要素が単一のハードウエアあるいはソフトウエアによって実装されていてもよい。
さらに、本実施形態は、ASPとして実装することができる。例えば、特徴抽出部、音素列取得部、学習部、判定部、記憶部などの機能要素を、ASPとして、遠隔地からユーザに提供することができる。
1 入力部
2 特徴抽出部
3 音素列取得部
4 学習部
5 記憶部
6 判定部
7 表示部

Claims (9)

  1. 入力部と、記憶部と、判定部とを備えており、
    前記入力部は、対象者からの音声入力を受け付ける構成となっており、
    前記記憶部は、飲酒モデルと非飲酒モデルとを格納しており、
    前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
    前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
    前記判定部は、以下の処理を行うことを特徴とする飲酒状態判定装置:
    (1)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分ける処理;
    (2)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
    (3)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別する処理。
  2. 前記音響特徴は、調音形式又は音素の長さを含む、請求項1に記載の飲酒状態判定装置。
  3. 前記飲酒者及び前記非飲酒者は、それそれ、前記対象者以外の者を含んでいる、請求項1又は2に記載の飲酒状態判定装置。
  4. 前記判定部は、前記した(1)の処理の前に、処理前記飲酒モデル及び前記非飲酒モデルにおける各ノードを、アフィン変換により、前記対象者の特徴に近づける処理を行う、請求項1〜3のいずれか1項に記載の飲酒状態判定装置。
  5. 前記ノードにおける音素の音響特徴は、音素におけるMFCCをモデル化したGMMによって表されている、請求項1〜4のいずれか1項に記載の飲酒状態判定装置。
  6. さらに学習部を備えており、前記学習部は以下の処理を行う、請求項1〜5のいずれか1項に記載の飲酒状態判定装置:
    (1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記飲酒モデルを生成する処理;
    (2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記非飲酒モデルを生成する処理。
  7. 飲酒モデルと非飲酒モデルとを用いる飲酒状態判定方法であって、
    前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
    前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
    さらに、前記方法は、以下のステップを備える:
    (1)対象者からの音声入力を受け付けるステップ;
    (2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
    (3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
    (4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
  8. 飲酒モデルと非飲酒モデルとを用いて、コンピュータにより飲酒状態判定を行うためのコンピュータプログラムであって、
    前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
    前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
    さらに、前記コンピュータプログラムは、コンピュータに、以下のステップを実行させる:
    (1)対象者からの音声入力を受け付けるステップ;
    (2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
    (3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
    (4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
  9. 請求項1に記載の飲酒状態判定装置に用いる音声入力のための入力文を評価する方法であって、この方法は、以下のステップを含む:
    (1)少なくとも二つのテスト文章の入力を受け付けるステップ:
    (2)前記テスト文章をそれぞれ音素列に変換するステップ:
    (3)前記各テスト文章における音素列について、前記飲酒状態モデルの木構造と、前記非飲酒モデルの木構造に適用し、各音素に対応するノードの音響特徴を特定するステップ;
    (4)前記テスト文章の音素における音響特徴と、各木構造のノードにおける音響特徴との尤度を、各モデルにおいて計算するステップ;
    (5)前記飲酒モデルでの尤度の値と、前記非飲酒モデルにおける尤度の値との間における相違が大きい前記テスト文章を前記入力文として選択するステップ。
JP2011553634A 2010-07-29 2010-07-29 飲酒状態判定装置及び飲酒状態判定方法 Expired - Fee Related JP5017534B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/062776 WO2012014301A1 (ja) 2010-07-29 2010-07-29 飲酒状態判定装置及び飲酒状態判定方法

Publications (2)

Publication Number Publication Date
JP5017534B2 true JP5017534B2 (ja) 2012-09-05
JPWO2012014301A1 JPWO2012014301A1 (ja) 2013-09-09

Family

ID=45529546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011553634A Expired - Fee Related JP5017534B2 (ja) 2010-07-29 2010-07-29 飲酒状態判定装置及び飲酒状態判定方法

Country Status (2)

Country Link
JP (1) JP5017534B2 (ja)
WO (1) WO2012014301A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9907509B2 (en) 2014-03-28 2018-03-06 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method
US9916845B2 (en) 2014-03-28 2018-03-13 Foundation of Soongsil University—Industry Cooperation Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same
US9916844B2 (en) 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9943260B2 (en) 2014-03-28 2018-04-17 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
MX2021000875A (es) * 2018-08-10 2021-06-08 Beijing Didi Infinity Technology & Dev Co Ltd Sistemas y métodos para identificar solicitantes ebrios en una plataforma de servicio en línea y fuera de línea.
US20230274760A1 (en) * 2020-07-30 2023-08-31 Nec Corporation Voice processing device, voice processing method, recording medium, and voice authentication system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9899039B2 (en) 2014-01-24 2018-02-20 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9916844B2 (en) 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9907509B2 (en) 2014-03-28 2018-03-06 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method
US9916845B2 (en) 2014-03-28 2018-03-13 Foundation of Soongsil University—Industry Cooperation Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same
US9943260B2 (en) 2014-03-28 2018-04-17 Foundation of Soongsil University—Industry Cooperation Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method

Also Published As

Publication number Publication date
WO2012014301A1 (ja) 2012-02-02
JPWO2012014301A1 (ja) 2013-09-09

Similar Documents

Publication Publication Date Title
JP5017534B2 (ja) 飲酒状態判定装置及び飲酒状態判定方法
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
Wu et al. Spoofing and countermeasures for speaker verification: A survey
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
Kinoshita et al. Exploring the discriminatory potential of F0 distribution parameters in traditional forensic speaker recognition.
CA2531455A1 (en) Improving error prediction in spoken dialog systems
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
Zheng et al. Robustness-related issues in speaker recognition
TW201140559A (en) Method and system for identifying emotional voices
CN108877769B (zh) 识别方言种类的方法和装置
WO2022057283A1 (zh) 声纹注册方法、装置和计算机可读存储介质
Van Segbroeck et al. Rapid language identification
CN105283916B (zh) 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
China Bhanja et al. A pre-classification-based language identification for Northeast Indian languages using prosody and spectral features
Fatima et al. Short utterance speaker recognition a research agenda
Mary et al. Searching speech databases: features, techniques and evaluation measures
Barrington et al. Single and multi-speaker cloned voice detection: from perceptual to learned features
Hanani et al. Palestinian Arabic regional accent recognition
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Huang et al. Unsupervised discriminative training with application to dialect classification
Brown Y-ACCDIST: An automatic accent recognition system for forensic applications
Revathi et al. Twin identification from speech: linear and non-linear cepstral features and models
Shahriar et al. Identification of Spoken Language using Machine Learning Approach

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 5017534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees