JP5017534B2 - 飲酒状態判定装置及び飲酒状態判定方法 - Google Patents
飲酒状態判定装置及び飲酒状態判定方法 Download PDFInfo
- Publication number
- JP5017534B2 JP5017534B2 JP2011553634A JP2011553634A JP5017534B2 JP 5017534 B2 JP5017534 B2 JP 5017534B2 JP 2011553634 A JP2011553634 A JP 2011553634A JP 2011553634 A JP2011553634 A JP 2011553634A JP 5017534 B2 JP5017534 B2 JP 5017534B2
- Authority
- JP
- Japan
- Prior art keywords
- drinking
- phoneme
- model
- acoustic
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000035622 drinking Effects 0.000 title claims description 187
- 238000000034 method Methods 0.000 title claims description 56
- 230000008569 process Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims 1
- 238000013459 approach Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001983 hard palate Anatomy 0.000 description 2
- 201000000615 hard palate cancer Diseases 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4845—Toxicology, e.g. by detection of alcohol, drug or toxic products
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Veterinary Medicine (AREA)
- Surgery (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Child & Adolescent Psychology (AREA)
- Human Computer Interaction (AREA)
- Hospice & Palliative Care (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Psychiatry (AREA)
- Educational Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Developmental Disabilities (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力部と、記憶部と、判定部とを備えており、
前記入力部は、対象者からの音声入力を受け付ける構成となっており、
前記記憶部は、飲酒モデルと非飲酒モデルとを格納しており、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
前記判定部は、以下の処理を行うことを特徴とする飲酒状態判定装置:
(1)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分ける処理;
(2)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
(3)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別する処理。
前記音響特徴は、調音形式又は音素の長さを含む、項目1に記載の飲酒状態判定装置。
前記飲酒者及び前記非飲酒者は、それそれ、前記対象者以外の者を含んでいる、項目1又は2に記載の飲酒状態判定装置。
前記判定部は、前記した(1)の処理の前に、処理前記飲酒モデル及び前記非飲酒モデルにおける各ノードを、アフィン変換により、前記対象者の特徴に近づける処理を行う、項目1〜3のいずれか1項に記載の飲酒状態判定装置。
前記ノードにおける音素の音響特徴は、音素におけるMFCCをモデル化したGMMによって表されている、項目1〜4のいずれか1項に記載の飲酒状態判定装置。
さらに学習部を備えており、前記学習部は以下の処理を行う、項目1〜5のいずれか1項に記載の飲酒状態判定装置:
(1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記飲酒モデルを生成する処理;
(2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記非飲酒モデルを生成する処理。
飲酒モデルと非飲酒モデルとを用いる飲酒状態判定方法であって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記方法は、以下のステップを備える:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
飲酒モデルと非飲酒モデルとを用いて、コンピュータにより飲酒状態判定を行うためのコンピュータプログラムであって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記コンピュータプログラムは、コンピュータに、以下のステップを実行させる:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。
項目1に記載の飲酒状態判定装置に用いる音声入力のための入力文を評価する方法であって、この方法は、以下のステップを含む:
(1)少なくとも二つのテスト文章の入力を受け付けるステップ:
(2)前記テスト文章をそれぞれ音素列に変換するステップ:
(3)前記各テスト文章における音素列について、前記飲酒状態モデルの木構造と、前記非飲酒モデルの木構造に適用し、各音素に対応するノードの音響特徴を特定するステップ;
(4)前記テスト文章の音素における音響特徴と、各木構造のノードにおける音響特徴との尤度を、各モデルにおいて計算するステップ;
(5)前記飲酒モデルでの尤度の値と、前記非飲酒モデルにおける尤度の値との間における相違が大きい前記テスト文章を前記入力文として選択するステップ。
本実施形態の装置は、入力部1と、特徴抽出部2と、音素列取得部3と、学習部4と、記憶部5と、判定部6と、表示部7とを備えている(図1参照)。
(1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、飲酒モデルを生成する処理;
(2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、非飲酒モデルを生成する処理。この学習部4における処理の詳細も後述する。
(1)対象者から入力された音声入力を、飲酒モデルと非飲酒モデルにおけるそれぞれの木構造に適用することにより、音声入力における音素の音響特徴を、ノード(本実施形態ではリーフノード)に振り分ける処理;
(2)対象者の音声入力における音素の音響特徴(例えばMFCC)と音素の音響特徴が振り分けられた飲酒モデルにおけるノード(例えばGMM)との尤度、及び、対象者の音声入力における音素の音響特徴と音素の音響特徴が振り分けられた非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
(3)算出された尤度の値を用いて、対象者の音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する処理。判定部6での処理の詳細も後述する。
本実施形態に係る飲酒状態判定方法を、図2〜図11をさらに参照しながら説明する。
まず、飲酒者と非飲酒者の発声データをそれぞれ用いて、学習により、飲酒モデルと非飲酒モデルとを作成する。ここで、飲酒者及び非飲酒者には、飲酒判定のための対象者は、基本的には含む必要がない。もちろん、対象者のデータが混入していることは可能である。飲酒者と非飲酒者の発声データは、多いほど好ましい。つまり、本実施形態では、対象者における音声データを予め取得する必要がなく、他人の多数の音声データからモデルを生成すれば、飲酒判定ができるものである。
まず、なるべく多くの人間から、飲酒状態と非飲酒状態とにおける発話データ(つまり音声データ)を取得する。この取得には、入力部1を用いることができるが、別の入力部を用いてもよい。要するに、後述の処理に使用できる音声データが取得できればよい。ここで、同じ人間から飲酒状態と非飲酒状態とをそれぞれ取得することは必須ではない。すなわち、ある人間からは飲酒状態だけ、別の人間からは非飲酒状態だけのデータを取得することが可能である。ただし、取得した発話データがどちらの状態にあるかは判明している必要がある。
通常、音声認識では音響的な特徴から音素の列を定める音響モデルのほかに、言葉として正しい音素列となるような言語的制約を与える言語モデルがある。たとえば日本語の音素は40前後あるが、音素の列に何の制約もなければ一定の長さの音声区間に含まれる音素の列の候補は膨大な数になる。しかし、実際には言葉の語彙(単語)は限られており、また単語の連鎖にも一定の偏りがあることから、言語的にみて出現しうる音素の列は大きく制限されるため、探索を効率的に行うことができる。
ついで、音素ごとにGMMを学習して、木構造におけるリーフノードに振り分けていく。このステップについては、後述の実施例でさらに詳述する。このステップでの処理は、基本的には、学習部4により行われる。
音韻学では、特定の音韻を発声するための口腔の各部位ごとの役割や機能が調音様式として分類されている。発音される音素は言語間で異なるものの、これらの調音様式は言語ごとに共通性がある。
まず、学習データから得られるMFCC特徴列から音素タイプライタによって分割される各音素ごとに単独の音素モデル(GMM)を学習し、音素GMMの集合
を作成する。この操作は図3のステップSB−2からSB−4に対応している。
分割されたモデル集合に対応して、次の分類基準を選択(図7参照)し、前記ステップSC−2で説明した手順を繰り返す。このステップSC−3を順次繰り返し、一定の閾値で分割を停止する。停止の基準は、分割による尤度変化の幅に閾値を定める方法や、分割される個数によって制御することができる。このようにして飲酒/非飲酒についての木構造のモデルを生成することができる(図7のステップSC−4)。ここでのステップも、図3のSB−5に対応する。一例として,得られた飲酒モデルを図8に、非飲酒モデルを図9に示す。これらの図において四角で囲まれたリーフノードは、分類基準によって振り分けられた音素GMM(つまり音素ごとの音響特徴)に対応している。
ついで、対象者についての飲酒判定を行うための前段階として、対象者からの音声データを、入力部1により取り込む。例えば、携帯電話を用いて本実施形態を実施するときは、携帯電話の画面に、読み上げるべき文章を表示することができる。対象者は、その文章を読み上げることにより、音声データを入力部1に入力することができる。入力部1は、音声データを特徴抽出部2、音素列取得部3等の、音声データを扱うべき機能要素に送る。
本実施形態では、前記したように、複数の人数によって飲酒状態と非飲酒状態で発声された音声データベースを作成し、飲酒状態の音声と、非飲酒時の音声からそれぞれMFCCの抽出と音素タイプライタによって音素ラベル列と継続時間を取得した。そして、これらの学習データから、飲酒時と非飲酒時の音声の特徴を表した音素GMMを学習し、さらに調音様式の分類を利用した木構造クラスタリングによって、飲酒時と非飲酒時のそれぞれの木構造モデルを作成した。
飲酒状態かどうか未知の入力音声が与えられた場合、先に説明した学習時と同様にして
・MFCCの抽出;
・音素タイプライタによって音素ラベル列と継続時間を取得;
・評価データの特徴抽出
を行う。ここで、音素ラベルは該当する区間のMFCC系列の尤度を計算するためのGMMを木構造から選択するための情報となる。
入力音声から得られた音素ラベルの情報に沿って、それぞれのクラスの木構造から、評価データで用いるモデル(GMM)の列を決定する。つまり、音声入力における音素の音響特徴をリーフノードに振り分ける。木構造の各ノード(リーフノード以外のノード)には、音素を分類するための分類基準が配置されており、木構造のどちらのアークに進むべきかを示している。そのため、ある音素について必ず対応する葉に到達することになり、リーフノードに対応するGMMを一意に選択することができる。このようにして、飲酒状態と非飲酒時のモデルの木構造から、それぞれ当該区間で評価するべきモデル(つまりリーフノードにおけるGMM)が、音素タイプライタで定められた音素列に沿ってすべて決定される。
評価データにおける各フレームのMFCC特徴について、前記ステップSD−2〜SD−3で定めた当該区間(つまり音素の区間)で用いるGMMを用いて、MFCCとGMMとの尤度計算を行い、各フレームでの尤度を文章全体で積算する。この尤度計算については前記において説明した。これが入力音声全体の評価値となり、各クラスにおける評価値がそれぞれ得られる。
前記で述べた飲酒状態と非飲酒状態の個々の音声データから学習されたモデル(リーフノードのGMM)は、複数人の人物から発声された音声データに基づいており、様々な話者の特徴を平滑化した中間的なモデルとなる。本実施形態における判定法は、話者(対象者)の音声が非常に特徴的な場合は、一方のクラス(例えば飲酒状態)だけに分類されてしまう問題が生じる。これは、より多数の話者のデータを収集して、様々な話者性を包含したモデルを作成することで一定の改善は望めるが、識別したい対象の話者が決まっている場合には、その人物に特化した識別モデルを構成する方法も可能である。
様々な分類方法を用いてモデル集合を木構造的に分割する手法の利点として、下記の3点があげられる。
(a)類似したモデルを統合して、統計モデルの頑健性を確保する
(b)木構造を探索することで、学習データに存在しなかった音素にも最適なモデルを対応可能
(c)最適な分類基準が学習されたモデルに基づいて自動的に定まる
先に述べた点の他にも応用的な側面で期待できる利点として、飲酒状態と非飲酒状態の音声から生成される木構造は、双方の音韻的な特徴の違いを分類する有力な情報の一つとなる。つまり、双方がまったく同一の構造をとることは、両者の間には統計的な差異が無いことを意味するが、実験によって得られた木構造はそれぞれ異なる傾向になることが分かっている(図8及び図9を参照)。具体的には、モデルの粗い分類(木構造の根に近い部分)では類似した傾向はもつが、葉に近い詳細な分類では異なる分類基準が選択されている。
2 特徴抽出部
3 音素列取得部
4 学習部
5 記憶部
6 判定部
7 表示部
Claims (9)
- 入力部と、記憶部と、判定部とを備えており、
前記入力部は、対象者からの音声入力を受け付ける構成となっており、
前記記憶部は、飲酒モデルと非飲酒モデルとを格納しており、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
前記判定部は、以下の処理を行うことを特徴とする飲酒状態判定装置:
(1)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分ける処理;
(2)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出する処理;
(3)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別する処理。 - 前記音響特徴は、調音形式又は音素の長さを含む、請求項1に記載の飲酒状態判定装置。
- 前記飲酒者及び前記非飲酒者は、それそれ、前記対象者以外の者を含んでいる、請求項1又は2に記載の飲酒状態判定装置。
- 前記判定部は、前記した(1)の処理の前に、処理前記飲酒モデル及び前記非飲酒モデルにおける各ノードを、アフィン変換により、前記対象者の特徴に近づける処理を行う、請求項1〜3のいずれか1項に記載の飲酒状態判定装置。
- 前記ノードにおける音素の音響特徴は、音素におけるMFCCをモデル化したGMMによって表されている、請求項1〜4のいずれか1項に記載の飲酒状態判定装置。
- さらに学習部を備えており、前記学習部は以下の処理を行う、請求項1〜5のいずれか1項に記載の飲酒状態判定装置:
(1)音声の音響特徴による分類基準を用いて、飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記飲酒モデルを生成する処理;
(2)音声の音響特徴による分類基準を用いて、非飲酒者の音声における音響特徴を音素ごとにクラスタリングすることにより、前記非飲酒モデルを生成する処理。 - 飲酒モデルと非飲酒モデルとを用いる飲酒状態判定方法であって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記方法は、以下のステップを備える:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。 - 飲酒モデルと非飲酒モデルとを用いて、コンピュータにより飲酒状態判定を行うためのコンピュータプログラムであって、
前記飲酒モデルは、飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記飲酒者の音素における音響特徴を示すものとなっており、
前記非飲酒モデルは、非飲酒者における音声の音響特徴による分類基準を有する木構造を有しており、かつ、前記木構造におけるノードは、前記非飲酒者の音素における音響特徴を示すものとなっており、
さらに、前記コンピュータプログラムは、コンピュータに、以下のステップを実行させる:
(1)対象者からの音声入力を受け付けるステップ;
(2)前記対象者から入力された前記音声入力を、前記飲酒モデルと前記非飲酒モデルにおけるそれぞれの木構造に適用することにより、前記音声入力における音素の音響特徴を、前記ノードに振り分けるステップ;
(3)前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記飲酒モデルにおけるノードとの尤度、及び、前記対象者の音声入力における音素の音響特徴と前記音素の音響特徴が振り分けられた前記非飲酒モデルにおけるノードとの尤度の値をそれぞれ算出するステップ;
(4)前記算出された尤度の値を用いて、前記対象者の音声の音響特徴が、前記飲酒モデル及び前記非飲酒モデルのうちのどちらに近いかを判別するステップ。 - 請求項1に記載の飲酒状態判定装置に用いる音声入力のための入力文を評価する方法であって、この方法は、以下のステップを含む:
(1)少なくとも二つのテスト文章の入力を受け付けるステップ:
(2)前記テスト文章をそれぞれ音素列に変換するステップ:
(3)前記各テスト文章における音素列について、前記飲酒状態モデルの木構造と、前記非飲酒モデルの木構造に適用し、各音素に対応するノードの音響特徴を特定するステップ;
(4)前記テスト文章の音素における音響特徴と、各木構造のノードにおける音響特徴との尤度を、各モデルにおいて計算するステップ;
(5)前記飲酒モデルでの尤度の値と、前記非飲酒モデルにおける尤度の値との間における相違が大きい前記テスト文章を前記入力文として選択するステップ。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/062776 WO2012014301A1 (ja) | 2010-07-29 | 2010-07-29 | 飲酒状態判定装置及び飲酒状態判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5017534B2 true JP5017534B2 (ja) | 2012-09-05 |
JPWO2012014301A1 JPWO2012014301A1 (ja) | 2013-09-09 |
Family
ID=45529546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011553634A Expired - Fee Related JP5017534B2 (ja) | 2010-07-29 | 2010-07-29 | 飲酒状態判定装置及び飲酒状態判定方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5017534B2 (ja) |
WO (1) | WO2012014301A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015111772A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
US9907509B2 (en) | 2014-03-28 | 2018-03-06 | Foundation of Soongsil University—Industry Cooperation | Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method |
US9916845B2 (en) | 2014-03-28 | 2018-03-13 | Foundation of Soongsil University—Industry Cooperation | Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same |
US9916844B2 (en) | 2014-01-28 | 2018-03-13 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9934793B2 (en) | 2014-01-24 | 2018-04-03 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9943260B2 (en) | 2014-03-28 | 2018-04-17 | Foundation of Soongsil University—Industry Cooperation | Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
MX2021000875A (es) * | 2018-08-10 | 2021-06-08 | Beijing Didi Infinity Technology & Dev Co Ltd | Sistemas y métodos para identificar solicitantes ebrios en una plataforma de servicio en línea y fuera de línea. |
US20230274760A1 (en) * | 2020-07-30 | 2023-08-31 | Nec Corporation | Voice processing device, voice processing method, recording medium, and voice authentication system |
-
2010
- 2010-07-29 WO PCT/JP2010/062776 patent/WO2012014301A1/ja active Application Filing
- 2010-07-29 JP JP2011553634A patent/JP5017534B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015111772A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
US9899039B2 (en) | 2014-01-24 | 2018-02-20 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9934793B2 (en) | 2014-01-24 | 2018-04-03 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9916844B2 (en) | 2014-01-28 | 2018-03-13 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
US9907509B2 (en) | 2014-03-28 | 2018-03-06 | Foundation of Soongsil University—Industry Cooperation | Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method |
US9916845B2 (en) | 2014-03-28 | 2018-03-13 | Foundation of Soongsil University—Industry Cooperation | Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same |
US9943260B2 (en) | 2014-03-28 | 2018-04-17 | Foundation of Soongsil University—Industry Cooperation | Method for judgment of drinking using differential energy in time domain, recording medium and device for performing the method |
Also Published As
Publication number | Publication date |
---|---|
WO2012014301A1 (ja) | 2012-02-02 |
JPWO2012014301A1 (ja) | 2013-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5017534B2 (ja) | 飲酒状態判定装置及び飲酒状態判定方法 | |
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
Wu et al. | Spoofing and countermeasures for speaker verification: A survey | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
Kinoshita et al. | Exploring the discriminatory potential of F0 distribution parameters in traditional forensic speaker recognition. | |
CA2531455A1 (en) | Improving error prediction in spoken dialog systems | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
Zheng et al. | Robustness-related issues in speaker recognition | |
TW201140559A (en) | Method and system for identifying emotional voices | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
WO2022057283A1 (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
Van Segbroeck et al. | Rapid language identification | |
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
China Bhanja et al. | A pre-classification-based language identification for Northeast Indian languages using prosody and spectral features | |
Fatima et al. | Short utterance speaker recognition a research agenda | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Barrington et al. | Single and multi-speaker cloned voice detection: from perceptual to learned features | |
Hanani et al. | Palestinian Arabic regional accent recognition | |
US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
Huang et al. | Unsupervised discriminative training with application to dialect classification | |
Brown | Y-ACCDIST: An automatic accent recognition system for forensic applications | |
Revathi et al. | Twin identification from speech: linear and non-linear cepstral features and models | |
Shahriar et al. | Identification of Spoken Language using Machine Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5017534 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |