JP2004240394A - Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer - Google Patents

Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer Download PDF

Info

Publication number
JP2004240394A
JP2004240394A JP2003182824A JP2003182824A JP2004240394A JP 2004240394 A JP2004240394 A JP 2004240394A JP 2003182824 A JP2003182824 A JP 2003182824A JP 2003182824 A JP2003182824 A JP 2003182824A JP 2004240394 A JP2004240394 A JP 2004240394A
Authority
JP
Japan
Prior art keywords
speaker voice
voice
analysis
user
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003182824A
Other languages
Japanese (ja)
Inventor
Hiroshi Tanimoto
広志 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SENSE IT SMART CORP
Original Assignee
SENSE IT SMART CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SENSE IT SMART CORP filed Critical SENSE IT SMART CORP
Priority to JP2003182824A priority Critical patent/JP2004240394A/en
Publication of JP2004240394A publication Critical patent/JP2004240394A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To enable a user to easily check own health state in any place desired. <P>SOLUTION: By recording speaker voices inputted from users' cellular phones 1a, 1b in a database 7 through a CTI server 5 and a DB server 6, determining a feature level presenting a degree of user's fatigue by chaos-analyzing the recorded speaker voices by an analysis server 8, and presenting a result of the analysis to the cellular phones 1a, 1b through a WEB server 4, it is thereby made possible to provide "a degree of fatigue" as a clear numeric value that has been presented only in an ambiguous expression so far, only by recording users' voices by using the cellular phones in any place. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラムに関し、特に、パターン認識を得意とするニューラルネットワークを使用して、日々不規則的に変化するユーザの音声のゆらぎを解析し、健康や精神の状態を数値として算出する方式に関するものである。
【0002】
【従来の技術】
近年は健康志向ブームである。折から様々な健康関連商品が市販され、多くの人が以前にも増して自分の健康に気を遣うようになっている。ところで、半健康状態の原因の多くは、現代社会に蔓延するストレスによると云われている。大人に限らず、青少年にもストレスが溜まっており、それに起因する病気も多い。
【0003】
このような中、自分の健康状態を自身でチェックする努力が成されている。そのための計測装置として、体重計、体脂肪率計、血圧計、脈拍計などが提供されている。
【0004】
【発明が解決しようとする課題】
しかしながら、体重計や体脂肪率計などは比較的簡単に使用できるものの、これが置かれている家庭内で使用できるのみで、外出先などでいつでも自由に計測することができないという問題があった。また、この計測値だけでそのときの健康状態を把握するのは実質的に不可能であるという問題もあった。
【0005】
また、血圧計や脈拍計にいたっては、いつでもどこでも自由に計測することができないばかりでなく、計測するためには収納場所から装置を取り出してバンドを腕に巻き、スイッチを入れてから暫くの時間待たなければならず、取り扱いが非常に面倒であるという問題もあった。
【0006】
本発明は、このような問題を解決するために成されたものであり、自分の健康状態をいつでも好きな場所で簡単にチェックできるようにすることを目的としている。
【0007】
【課題を解決するための手段】
本発明の話者音声解析システムは、サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする。
【0008】
本発明の他の態様では、上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする。
【0009】
本発明の他の態様では、上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする。
【0010】
本発明の他の態様では、上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする。
【0011】
また、本発明のサーバ装置は、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とする。
【0012】
また、本発明による話者音声の解析を利用した健康診断方法は、クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする。
【0013】
また、本発明の話者音声解析プログラムは、クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、としてコンピュータを機能させるためのものである。
【0014】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による話者音声解析システムの全体構成例を示すブロック図である。
【0015】
図1において、1a,1bはユーザが使用する携帯電話であり、通話機能やインターネット接続機能を備えている。2aは携帯電話パケット網、2bはインターネット、2cは公衆回線網である。3はファイアウォール機能を備えたルータ、4はWEBサーバ、5はCTI(Computer Telephony Integration)サーバ、6はDBサーバ、7はデータベース(DB)、8は解析サーバである。
【0016】
WEBサーバ4は、ユーザに対するインタフェースとしてWWWブラウザ画面を携帯電話1a,1bに提供し、当該ブラウザ画面を通じて携帯電話1a,1bから必要な情報を取得したり、話者音声の解析結果を出力したりする。WWWブラウザ画面を通じて取得する情報の中には、ユーザの個人情報(氏名、メールアドレス、携帯電話番号、性別等の基本情報の他、生年月日、血液型、出身地、体調、性格、パスワード等の追加情報を含む)、種々のメニュー操作情報がある。
【0017】
CTIサーバ5は、携帯電話1a,1bのダイヤル操作に合わせて、あらかじめ録音してある音声を自動的に再生し、当該音声による自動応答を行って携帯電話1a,1bから必要な情報を取得する。ここで取得する情報は、ユーザの話者音声である。この話者音声は、どのような言葉を発したものであっても良いが、例えば2〜10秒程度の音声を取得するものとする。好ましくは、予備実験をして、音声のゆらぎ(カオス性)を抽出しやすい言葉を特定し、その言葉を発するようにする。
【0018】
上述のWEBサーバ4によって携帯電話1a,1bに提供されるブラウザ画面上には、ユーザがCTIサーバ5に対して簡単に電話をかけることができるように、“<a href=“tel:電話番号”>”というタグがHTMLにて記述されている。ユーザがブラウザ画面上で“TEL”というリンクを選択すると、携帯電話1a,1bが自動的にCTIサーバ5に電話をかけるようになっている。CTIサーバ5はこの自動コール機能によりかけられてきた電話の自動着信を行う。その後、音声による自動応答を行うことによってユーザの声を録音し、DBサーバ6を通じてデータベース7に登録する。
【0019】
DBサーバ6は、WEBサーバ4、CTIサーバ5および解析サーバ8の各サーバ間で共有される情報の管理を行う。例えば、WEBサーバ4およびCTIサーバ5を通じて携帯電話1a,1bから取得したデータ(個人情報データ、話者音声データ等)や、解析サーバ8により行われた話者音声の解析結果をデータベース7に保存する。また、携帯電話1a,1bからの要求に応じて、上述の解析結果をデータベース7から取り出してWEBサーバ4に提供する。
【0020】
解析サーバ8は、CTIサーバ5からの解析要求を監視し、要求検出時に所定の解析処理を実行する。すなわち、解析サーバ8は、CTIサーバ5から解析要求のあった話者音声をデータベース7より読み込み、これをカオス解析する。そして、その解析結果をDBサーバ6に供給してデータベース7に保存する。このカオス解析の詳細については後述する。
【0021】
上記ルータ3、WEBサーバ4、CTIサーバ5、DBサーバ6、データベース7および解析サーバ8により本実施形態のサーバ装置10が構成される。このサーバ装置10を構成するそれぞれのサーバは、実際にはコンピュータのCPUあるいはMPU、RAM、ROMなどを備えて構成され、RAMやROMに記憶されたプログラムが動作することによって実現できる。
【0022】
したがって、コンピュータが本実施形態の機能を果たすように動作させるプログラムを例えばCD−ROMのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光ディスク、光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、上記プログラムをインターネット2b等のネットワークを介してコンピュータにダウンロードすることによっても実現できる。
【0023】
また、本実施形態によるサーバ装置10の機能をネットワーク環境で実現するべく、全部あるいは一部のプログラムが他のコンピュータで実行されるようになっていても良い。
【0024】
また、コンピュータが供給されたプログラムを実行することにより本実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して本実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて本実施形態の機能が実現される場合も、かかるプログラムは本実施形態に含まれる。
【0025】
次に、上記のように構成した本実施形態による話者音声解析システムの動作について説明する。図2は、当該解析システムの全体的な動作を示すシーケンスフローチャートである。図2に示すように、最初にユーザは、携帯電話1a,1bからWEBサーバ4にアクセスし、これによって提供されるブラウザ画面上でメニュー操作をして、お疲れ診断サイトに入る(ステップS1)。
【0026】
図3は、携帯電話1a,1bに表示されるメニュー画面の例を示す図である。図3(a)に示すトップメニューにおいて、“最新情報”または“受診受付”の項目を選択し、更にメニュー操作を続けていくと、“診断”という項目(図示せず)が現れる。この項目を選択することにより、図3(b)のような画面が表示され、自己チェックを開始する準備ができる。
【0027】
次に、図3(b)の画面上でユーザが“電話をする”の項目を選択すると(ステップS2)、これに応じて携帯電話1a,1bがCTIサーバ5に対して自動的に電話をかける(ステップS3)。CTIサーバ5は、WEBサーバ4の自動コール機能によりかけられてきた電話を自動で着信すると、携帯電話1a,1bに対して音声による自動応答を行うことにより、ユーザに音声の録音を促す(ステップS4)。
【0028】
ユーザは、CTIサーバ5により行われる音声ガイダンスに従って自分の声を入力した後、“#”のボタンを押下する。これによりCTIサーバ5は、ユーザの話者音声を取得し、これをデータベース7に保存する(ステップS5)。そして、携帯電話1a,1bに録音終了メッセージを出力して携帯電話1a,1bとの回線を切断する(ステップS6)。
【0029】
図4は、上記ステップS4〜S6の処理内容を詳細に示すフローチャートである。図4において、CTIサーバ5は、携帯電話1a,1bからの着信があったかどうかを監視しており(ステップS11)、着信があると、まずは冒頭メッセージ(“あなたの声を登録してチェックを行います。ガイダンスに従って操作して下さい。”など)を出力する(ステップS12)。
【0030】
次にCTIサーバ5は、“発信音の後に音声を登録し、#を押して下さい。”などのメッセージを流すことにより、ユーザに音声の録音を要求する(ステップS13)。これに応じてユーザは、自分の声を入力した後、“#”のボタンを押下することによって音声を録音する(ステップS14)。次に、CTIサーバ5は、録音された音声を再生し(ステップS15)、その内容で良いかどうかをユーザに確かめる(ステップS16)。
【0031】
例えば、内容が良ければ“#”、内容を変更する場合は“9”のプッシュボタンを押すようにメッセージを流す。そして、“9”のプッシュボタンが押されたときにはステップS13に戻り、音声の録音をやり直す。また、“#”のプッシュボタンが押されたときは、“音声を登録しました。”などの終了メッセージを出力した後(ステップS17)、回線を切断する(ステップS18)。
【0032】
図2に戻り、以上のようにして話者音声の録音が完了すると、次にCTIサーバ5は、録音した話者音声の解析を解析サーバ8に対して要求する(ステップS7)。この解析要求を受信した解析サーバ8は、後で詳述するカオス解析処理を行って、その解析結果をデータベース7に保存する(ステップS8)。その後、ユーザは、WEBサーバ4にアクセスして携帯電話1a,1bのメニュー画面から“診断結果表示”の項目を選択すると、WEBサーバ4は要求された解析結果をデータベース7から取り出して表示する(ステップS9)。
【0033】
図5および図6は、解析サーバ8の動作を示すフローチャートである。このうち図5は解析サーバ8のメイン動作を示すフローチャート、図6はカオス解析処理の詳細動作を示すフローチャートである。図5において、最初に電源が投入されると、解析サーバ8は、システム情報設定などの所定の初期化処理を行う(ステップS21)。
【0034】
次に、解析サーバ8は、本処理終了チェックを行い(ステップS22)、終了要求があったかどうかを判断する(ステップS23)。終了要求がない場合はカオス解析処理を行う(ステップS24)。その後一定時間スリープ状態になった後(ステップS25)、ステップS22に戻る。一方、本処理終了要求があった場合は、所定の後処理を行って(ステップS26)、本処理を終了する。
【0035】
上記ステップS24のカオス解析処理は、図6のフローチャートに従って行われる。図6において、解析サーバ8は、解析要求チェックを行い(ステップS31)、CTIサーバ5からの解析要求があったかどうかを判断する(ステップS32)。解析要求がない場合はそのままカオス解析処理を抜ける。一方、解析要求があった場合は、データベース7に録音されている話者音声のデータから解析データを抽出する(ステップS33)。
【0036】
この解析データの抽出は、以下のようにして行う。すなわち、まず、データベース7に録音されている音声の時系列データから、あらかじめ指定されたサンプル点数分のデータを、無音部除去処理のために時系列の中央部から抽出する。例えば、音声時系列データの絶対値の最大値を求め、ある1点から20点連続でデータ値が先に求めた最大値の5分の1(20%)未満の場合は、それらの点を省略する。また、1点でも最大値の5分の1(20%)以上のデータがあった場合は、その20点の中間点を出力データとする。全音声時系列データの中央部から、この出力データをあらかじめ指定されたサンプル点数分抽出する。
【0037】
時系列の解析データを抽出した後、解析サーバ8は、その時系列データをカオス計算し、話者音声の特徴量を求める(ステップS34)。このカオス計算では、最初にリアプノフ指数(L)、エントロピー(E)、F−constant(F)の3つのパラメータを計算し、計算した各パラメータをニューラルネットワークプログラムに入力することにより、話者音声の時系列データを数値化する。
【0038】
リアプノフ指数とは、xn+1=f(x)で表される力学系において、接近した2点から出発した2つの軌跡に関する時間n→∞での乖離度を意味し、次の(式1)で定義される。ここで、Nは再構成ベクトルの総数である。
【0039】
【数1】

Figure 2004240394
【0040】
また、エントロピーとは、系の不規則性の定量的な目安あるいは系の状態を指定するのに必要な情報量を意味し、次の(式2)で定義される。ここでは、ある測定の結果が必ず単位区間上にあるような仮想的な統計系を考え、この区間をN個の小区間に分割する。そして、i番目の小区間が可能な結果のうちのある特定の範囲を含むならば、それに確立Pを割り当てることができる。分かりやすく表現すると、エントロピーが小さいほど整理されて、利用価値が高い情報量であり、エントロピーが大きいほど乱れていて、役に立たない情報量と言える。
【0041】
【数2】
Figure 2004240394
【0042】
また、フラクタル次元とは、通常の次元の概念を非整数の領域まで拡張したもので、ヒグチフラクタル次元、ハウスドルフ(Hausdorff)次元、相関次元等が提案されている。このうちヒグチフラクタル次元は、時系列波形を1次元の幾何構造とみなしたときの形状的な複雑さの程度を意味し、構造が複雑、すなわち、変動が大きいほど大きな値をとる。
【0043】
このヒグチフラクタル次元の計算アルゴリズムでは、等時間間隔でサンプリングされた時系列データX(1),X(2),・・・,X(N)を入力データとする。まず、この入力された時系列データから、次の(式3)で示すような新しい時系列データX を作る。ここで、mは初期時間、kは時間間隔であり、[ ]はガウス記号を表す((N−m)/kを超えない整数値)。
【0044】
【数3】
Figure 2004240394
【0045】
このアルゴリズムによれば、結局、k組の時系列データを作ることになる。例えば、k=3、N=100の場合は、
:X(1),X(4),X(7),・・・,X(97),X(100)
:X(2),X(5),X(8),・・・,X(98)
:X(3),X(6),X(9),・・・,X(99)
の3組の時系列データを生成する。
【0046】
次に、時系列データX の曲線の長さL(k)を、次の(式4)のように定義する。ここで、(N−1)/{[(N−m)/k]・k}の項は、時系列の曲線の長さを標準化するための係数である。
【0047】
【数4】
Figure 2004240394
【0048】
k組の時系列データX について求めた曲線の長さL(k)の平均を<L(k)>とし、これを時間間隔kの曲線の長さと定義する。もし、<L(k)>∝k−Dの関係が成り立てば、Dがフラクタル次元となる。すなわち、横軸をlog10k、縦軸をlog10<L(k)>として点をプロットして直線部分の傾きを求め、これに−1をかけた値がヒグチフラクタル次元となる。
【0049】
F−constantは、ヒグチフラクタル次元の計算結果について、横軸log10kが10以下と10以上とで分離して傾きを求めてD1,D2とし、F−constant=(D2+D1)/(D2−D1)の式によって求める。すなわち、D1はミクロな時間スケールにおけるフラクタル次元、D2はマクロな時間スケールにおけるフラクタル次元となる。このようにF−constantは、小さなスケールと大きなスケールのフラクタル次元の関係を表す。
【0050】
従来、人は一定の状態を維持していることが健康であると考えられてきた。しかし、最近の研究では、一定の状態を保つのではなく、適度な「ゆらぎ」があった方がより健康的であり、外的要因に対して適応力があることが分かっている(ホメオダイナミクス)。そこで、本実施形態では、携帯電話1a,1bで録音した声からその人の「ゆらぎ」特有のデータ(リアプノフ指数、エントロピー、F−constant)を抽出し、これをニューラルネットワークにより解析してその人の疲労度を数値によって表現する。
【0051】
図7は、本実施形態によるニューラルネットワーク演算の例を示す図である。図7に示すように、本実施形態のニューラルネットワークは、入力層1つ、中間層2つおよび出力層1つからなる4層構造を有している。入力層に音声のカオス性特徴量である状態ベクトル(L,E,F)を入力し、中間層の各層間を結ぶ結線の重み係数を変更していくことで、出力層から適当な数値を出力する。
【0052】
そして、出力された複数の数値A−1〜A−3のうち値が最も大きなものを、ユーザの疲労度を表す数値Aとして決定する。この疲労度を表す数値Aは0〜1の間で正規化されたものであり、これに基づいてユーザの疲労度が、例えば図8に示すように0〜100の何れかの値で表される。なお、図7では説明の簡便上、第1中間層は4個、第2中間層は3個、出力層は3個のノードのみを示しているが、各層においてより多くのノード(例えば、第1中間層、第2中間層、出力層の何れも100個)を含むように階層構造を構成しても良い。
【0053】
図7の例で、ニューラルネットワーク内の演算にはシグモイド関数を使用する。なお、ここで用いる層間結線の係数の初期データとしては、例えばシステムの運用前に50〜100人程度の被験者に対して事前テストを行い、その結果に応じて算出した適当な値を運用前にシステムに登録する。以下に、この事前テストの詳細について説明する。
【0054】
事前テストでは、まず、被験者に対してフリッカー試験を行うとともに、疲労度についての自覚症しらべ(被験者が自身で疲労の具合をアンケート形式で答える調査)を行う。フリッカー試験とは、被験者に不連続の点滅光を直視させて、点滅の周波数を徐々に変化させる。そして、被験者がその点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときの点滅の周波数を測定する試験である。
【0055】
例えば、点滅の周波数を徐々に上げていった場合、これを見ている被験者は、そのうち点滅が感じられなくなっていく。点滅が感じられなくなったときの点滅の周波数をフリッカー値として得る。逆に、点滅の周波数を徐々に下げていき、これを見ている被験者が光のちらつきを感じ始めたときの点滅の周波数をフリッカー値として得ても良い。
【0056】
フリッカー値は、精神疲労や中枢神経系の覚醒水準の指標として用いられる。値が小さくなるほど疲れているという評価ができる。得られるフリッカー値をより客観性のあるものとするために、フリッカー試験を複数回行って、フリッカー値の平均をとるのが好ましい。ちなみに、個人差はあるが、疲労があまりない通常時のフリッカー値の平均は38Hzくらいだと言われている。
【0057】
また、自覚症しらべは、被験者自身がそのときに感じる自覚的疲労度を調査するためのアンケート調査であり、日本産業衛生学会により作成されている。アンケート内容は、次の5つの項目群に分けられる。
I群 眠気感:ねむい、あくびが出る、やる気が乏しい、全身がだるい、等
II群 不安感:不安な感じ、憂鬱な気分、落ち着かない、いらいらする、等
III群 不快感:頭が痛い、頭が重い、気分が悪い、頭がぼんやりする、等
IV群 だるさ感:腕がだるい、腰が痛い、足がだるい、肩がこる、等
V群 ぼやけ感:目がしょぼつく、目が疲れる、目が乾く、物がぼやける、等
【0058】
被験者は、これら5つの項目群ごとに設けられた複数の質問に対して、感じる程度に応じて1〜5のレベルで回答する。そして、5つの項目群ごとにスコアの平均値を求め、項目群別に疲労状況を評価する。スコアが大きくなるほど疲れているという評価ができる。
【0059】
以上に説明したフリッカー値および自覚症しらべのスコアは何れも、疲労度を評価する指標として信頼性のあるものである。本実施形態では、これらの指標を用いて更に客観的な疲労度値を得るために、次の(式5)に基づいて、被験者の疲労度を表した数値(0〜100の何れかの値をとる)を算出する。
疲労度=−フリッカー平均値+0.5×I群平均スコア+0.5×II群平均スコア+4×III群平均スコア+0.5×IV群平均スコア+0.5×V群平均スコア+25 ・・・(式5)
なお、この(式5)は単なる例示であり、本発明はこの演算内容に限定されるものではない。
【0060】
次に、被験者の音声データを録音する。この録音した音声データについて状態ベクトル(L,E,F)を算出し、それを図7に示したニューラルネットワークの入力層に入力する。そして、上述の(式5)により算出した疲労度を表す数値にできるだけ近い値が出力層から出力されるように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい疲労度を出力することができるようになる。
【0061】
バックプロパゲーション法(逆誤差伝播法)によるニューラルネットワークの学習は、出力データ(被験者の音声データからニューラルネットワークを通じて求めた疲労度値)と、教師データとの誤差を最小にするように、各結線の係数を調整する。設定誤差の詳細については後述する。
【0062】
すなわち、バックプロパゲーション法では、ある被験者について(式5)により算出した疲労度値と、同じ被験者について録音した音声データに基づく状態ベクトル(L,E,F)を入力層に入力したときに出力層から出力される疲労度値との誤差が少なくなるように、各結合係数W1〜W3を出力層から入力層に向かって変化させていく。
【0063】
ニューラルネットワークへの入力データをX(x,x,・・・,x)、結合係数をW(w,w,・・・,w)で表すとすると、これらの結合総和がニューロン状態Sとなり、次の(式6)で表される。
S=x・w+x・w+・・・+x・w ・・・(式6)
このニューロン状態Sは、更に活性化関数f(s)によって処理される。f(s)は次の(式7)で表すシグモイド関数で定義され、これにより入力・出力を0から1への連続値で扱うことが可能となる。
f(s)=1/(1+e−S) ・・・(式7)
【0064】
ニューラルネットワークの出力層に出力データY=f(s)が与えられたら、結合係数Wを変更する際の変化分σを求める。変化分σは、次の(式8)のように表されるシグモイド関数の変化量Δf(s)に対して、ニューロンの出力データと教師データとの誤差Eを掛け合わせることにより、(式9)のように求まる。この変化分σを用いて結合係数Wを調整していくことが学習となる。
【0065】
【数5】
Figure 2004240394
【0066】
上述したシグモイド関数の変化量Δf(s)と誤差Eとを掛け合わせることによって、誤差Eは、0から1までの小数で表される。このとき、誤差Eが大きいと変化分σが大きい値をとり、誤差Eが小さいと変化分σが小さい値をとる。出力層につながるニューロンの結合係数W3を変更するのであれば、当該結合係数W3の変更は次の(式10)のようになる。
W3ij(t+1)=W3ij(t)+a×σ ・・・(式10)
ここで、aは1未満の結合定数であり、通常は0.8に設定する。
【0067】
出力層に所属する結合係数W3を更新した後は、中間層に属する結合係数W2を変更する。ここでは、上述の(式10)より新たな変化分σ’が生まれる。この変化分σ’は、次の(式11)のように、出力層からの結合係数W3と変化分σとの結合総和に対して、シグモイド関数の変化量Δf(s)を掛け合わせたものを用いる。
【0068】
【数6】
Figure 2004240394
【0069】
このようにして得た変化分σ’を用いて、出力層に属する結合係数W3の更新と同様にして、中間層の結合係数W2を次の(式12)により変更する。
W2ij(t+1)=W2ij(t)+a×σ’ ・・・(式12)
このような計算を、入力層に属する結合係数W1を更新するまで繰り返し行っていく。
【0070】
この際、ニューラルネットワークで学習が行われた度合いを表す評価要素が必要となる。その評価要素を評価関数あるいはコスト関数と表現するが、このコスト関数にはRMS誤差(平均二乗誤差)を用いており、次の(式13)のようにニューロンの出力データYと教師データTとにより表される。このコスト関数を最小とするように、ニューラルネットワークの学習が進められていく。
【0071】
【数7】
Figure 2004240394
【0072】
なお、以上のようなニューラルネットワークの学習を通じてシステムに初期設定した係数W1〜W3の値は、その初期設定の後(システムの運用中)も任意に変更することが可能である。例えば、これらの係数W1〜W3をデータベースに登録して、システムの運用中でもニューラルネットワークの学習により変更可能とする。そのために、システムの運用中に音声の解析を実施したユーザに対しても、その都度フリッカー試験や自覚症しらべのアンケート調査を行い、その結果を用いて係数W1〜W3を更新するようにする。
【0073】
この場合において、フリッカー試験や自覚症しらべをユーザがわざわざ試験室に出向いて行わなくても済むようにするために、これらの試験も携帯電話1a,1b上で行えるようにするのが好ましい。具体的には、特定のウェブサイトから携帯電話にプログラムをダウンロードし、当該プログラムに従って携帯電話の画面上に点滅光を表示する。そして、これを見たユーザが点滅光のちらつきを感じ始めたとき、あるいは感じなくなったときに所定のボタンを押すことにより、フリッカー値を得るようにすることが可能である。
【0074】
また、自覚症しらべに関しては、CGI(Common Gateway Interface)を利用してアンケート調査を行うことが可能である。このようにして携帯電話1a,1b上で求めたフリッカー値および自覚症しらべのスコアは、図1のサーバ装置10に送信して、DBサーバ6を通じてデータベース7に登録する。そして、当該データベース7に登録されたフリッカー値および自覚症しらべのスコアから上述の(式5)に従って教師データを算出し、ニューラルネットワークの学習を行う。
【0075】
なお、事前テストの際にも、フリッカー試験や自覚症しらべを携帯電話1a,1bから行うようにしても良い。このようにすれば、事前テスト自体も簡便に行うことができるというメリットを有する。
【0076】
ここで、ニューラルネットワークと、状態ベクトル(L,E,F)および疲労度値Aとの関係について概説する。本質的に各座標軸が1つの力学変数と対応づけられているグラフのことを状態空間という。状態空間における1点は、ある時刻におけるシステムの状態を表す。カオス的システムは状態空間において複雑な軌道をとるが、その軌道は状態空間の特定領域だけを通り、他の領域を通ることはない。その軌道によって、カオスアトラクタが描かれる。
【0077】
このカオスアトラクタは、カオス性を備えた時系列データを多次元状態空間に埋め込むことにより再構成ができる。埋め込みにはターケンスの方法より、埋め込み遅延時間τを用いて1個の状態変数からn個の状態変数を復元すればよい。埋め込みができれば、再構成されたカオスアトラクタは元のアトラクタを変形したものとなり、リアプノフ指数L、エントロピーE、ヒグチフラクタル次元F等が位相的に保存される。1変量の時系列データからカオスアトラクタを再構成するためには、遅延時間座標系への変換による埋め込みを行えばよい。
【0078】
カオスは、微少な外乱によって軌道不安定性が生じても、状態空間において定常的振る舞いを表すアトラクタの幾何学的構造は変化しないという安定性を有する(「決定論的カオス理論に基づく時系列解析システム」計装8月号Vol.40、No.8(1997))。したがって、本実施形態のニューラルネットワークでは、上述したように状態ベクトル(L,E,F)を入力層に入力して、安定した疲労度値Aを出力層から出力することができる。
【0079】
図6に戻って説明する。上記図7に示したような手法によってカオス計算を行い、話者音声の特徴量を求めた後は、データベース7に録音されている当該話者音声のファイルを削除する(ステップS35)。そして、当該カオス計算による解析結果をDBサーバ6に供給し、データベース7に登録して(ステップS36)、一連のカオス解析処理を終了する。
【0080】
上述したように、ユーザは、携帯電話1a,1bからWEBサーバ4にアクセスすることにより、解析結果をいつでも見ることができる。図9は、携帯電話1a,1bに表示される診断結果の画面例を示す図である。図9(a)に示すように、解析結果表示のトップ画面では、新着の診断結果と過去の診断結果とを一覧で表示する。
【0081】
このトップ画面で新着の診断結果を選択すると、図9(b)の詳細画面に遷移し、その人の疲労度の詳細を確認できる。また、過去の診断結果の一覧では、疲労度を表す数値が表示されており、疲労度の推移を見ることができる。その中の何れかを選択することにより、過去の診断結果を見ることもできる。
【0082】
以上詳しく説明したように、本実施形態においては、ユーザの携帯電話1a,1bより入力した話者音声をCTIサーバ5およびDBサーバ6を通じてデータベース7に録音し、当該録音した話者音声を解析サーバ8にてカオス解析してユーザの疲労度を表す特徴量を求める。そして、ユーザからの要求に応じて、解析結果をWEBサーバ4を通じて携帯電話1a,1bに提示するようにしている。
【0083】
これにより、ユーザは携帯電話1a,1bを利用して声を録音するだけで、自分の健康状態をいつでも好きな場所から簡単にチェックすることができる。しかも、これまでは曖昧な表現でしか表せなかった「疲労度」を、明確な数値として得ることができる。また、本システムを継続的に利用することで、疲労度の変化を追いながら生活習慣を正したり、残業を減らしたりするなどの動機付けも得ることができる。
【0084】
また、本実施形態によれば、フリッカー値および自覚症しらべのスコアを用いて教師データを算出し、これによりニューラルネットワークの学習を行っている。これにより、フリッカー試験および自覚症しらべの結果が反映されたより客観性のある疲労度値を、携帯電話1a,1bを利用して声を録音するだけで簡単に取得することができる。
【0085】
なお、上記実施形態では、ユーザが使用する端末として携帯電話1a,1bを用いているが、音声入力機能とネットワーク接続機能とを備えた携帯用の端末であれば、携帯電話1a,1b以外の端末(例えばノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)等)もユーザ端末として用いることが可能である。
【0086】
また、上記実施形態では、カオス解析にニューラルネットワークを利用しているが、状態ベクトル(L,E,F)と疲労度値Aとの相関を演算する手法はこれに限定されるものではない。例えば、統計学的な手法によって相関を演算し、これによって疲労度値Aを求めるようにしても良い。
【0087】
また、上記実施形態では、ニューラルネットワークの学習に使う教師データを求める際に、フリッカー試験および自覚症しらべを行う例について説明したが、これに限定されるものではない。すなわち、これらの試験に代えて、あるいは、これらの試験に加えて、尿のpH値やタンパク質等を測定する試験や、血圧や脈拍を測定する試験、脳波や心電図を測定する試験、血中・尿中の代謝物質を測定する試験などの全部または一部を行い、その結果に基づいて所定の演算式により教師データを算出するようにしても良い。このようにすれば、これら複数の試験結果がミックスされた、より客観性のある疲労度値を、携帯電話1a,1bを利用して音声入力するだけで簡単に取得することができる。
【0088】
また、上記実施形態では、ユーザの健康状態の一例として疲労度を求める場合について説明したが、本発明はこれに限定されるものではない。例えば、解析サーバ8の音声解析エンジンを改良することで、二日酔い度診断、血液ドロドロ度診断、本気(浮気)度診断、相性診断、うそ発見診断など生体の「ゆらぎ」に関係した解析を行うことも可能である。すなわち、疲労度以外の健康状態や、精神状態などを解析することも可能である。
【0089】
また、人の音声から痴呆の疑いがあるか否かを診断することも可能である。上述した疲労度のフリッカー試験や自覚症しらべ等と同様、痴呆の診断に関しても、痴呆度を評価する指標として客観的で信頼性のあるものが従来から提供されている。改訂長谷川式簡易知能評価スケール(HDS−R)、MMS(Mini−Mental State)、かなひろいテストなどのスクリーニングテストが代表的なものである(これらは何れも公知であるので、ここでは詳細な説明は割愛する)。
【0090】
例えば、被験者にHDS−Rのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。また、MMSのテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。同様に、かなひろいテストを行ってもらい、痴呆の疑いが有るとの結果が得られた場合には1点、痴呆の疑いが無いとの結果が得られた場合には0点を与える。そして、これら3つのテスト結果の合計が0〜1点の場合は痴呆の疑い無し、2〜3点の場合は痴呆の疑い有りとする。そして、この結果をニューラルネットワークの教師データとして用いる。
【0091】
次に、被験者の音声データを録音する。この録音した音声データから状態ベクトル(L,E,F)を抽出し、それをニューラルネットワークの入力層に入力する。ここでのニューラルネットワークは、例えば、3個の入力層(L,E,Fの3つのカオスパラメータ)、100個×2個の中間層、2個の出力層(「痴呆の疑い無し」「痴呆の疑い有り」)で構成する。
【0092】
そして、入力層に3つのカオスパラメータ(L,E,F)を入力したら、出力層において「痴呆の疑い無し」「痴呆の疑い有り」のどちらかのセルが正しく発火するように、バックプロパゲーションの学習則によりニューラルネットワークを学習させる。この場合も、概ね50〜100人の被験者に対して学習を行うことにより、未知のユーザの状態ベクトルを入力しても、当該ユーザについてほぼ正しい痴呆度を出力することができるようになる。
【0093】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0094】
【発明の効果】
以上説明したように本発明によれば、ユーザは携帯用のクライアント装置を利用して声を録音するだけで、自分の健康状態や精神状態等をいつでも好きな場所で簡単にチェックすることができるようになる。
【図面の簡単な説明】
【図1】本実施形態による話者音声解析システムの全体構成を示すブロック図である。
【図2】本実施形態による話者音声解析システムの全体的な動作を示すシーケンスフローチャートである。
【図3】本実施形態の携帯電話に表示されるメニュー画面の例を示す図である。
【図4】本実施形態のCTIサーバにより行われる録音動作を示すフローチャートである。
【図5】本実施形態による解析サーバのメイン動作を示すフローチャートである。
【図6】本実施形態の解析サーバにより行われるカオス解析処理の詳細動作を示すフローチャートである。
【図7】本実施形態の解析サーバにより行われるニューラルネットワーク演算の例を示す図である。
【図8】カオス解析結果の疲労度レベルに関する例を示す図である。
【図9】カオス解析結果の画面表示例を示す図である。
【符号の説明】
1a,1b 携帯電話
2a 携帯電話パケット網
2b インターネット
2c 公衆回線網
3 ルータ
4 WEBサーバ
5 CTIサーバ
6 DBサーバ
7 データベース
8 解析サーバ
10 サーバ装置[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speaker voice analysis system and a server device used for the same, a health diagnosis method using speaker voice analysis, and a speaker voice analysis program. The present invention relates to a method of analyzing a fluctuation of a user's voice that changes irregularly, and calculating a state of health or mental state as a numerical value.
[0002]
[Prior art]
In recent years, it has been a health-oriented boom. Occasionally, various health-related products have been marketed, and many people have been paying more attention to their health than before. By the way, it is said that many of the causes of a semi-healthy state are due to stress prevailing in modern society. Not only adults but also young people are under stress, and many diseases are caused by it.
[0003]
Under such circumstances, efforts have been made to check one's own health condition. As a measuring device therefor, a weight scale, a body fat percentage meter, a sphygmomanometer, a pulse meter and the like are provided.
[0004]
[Problems to be solved by the invention]
However, although a weight scale, a body fat percentage meter, and the like can be used relatively easily, there is a problem that they can only be used in a home where the weight scale is placed and cannot be freely measured at any time while going out. In addition, there is also a problem that it is practically impossible to grasp the health condition at that time using only the measured values.
[0005]
In addition, blood pressure monitors and pulse meters cannot be freely measured anytime, anywhere.In addition, to measure, remove the device from the storage place, wrap the band around your arm, turn on the switch and wait for a while. There was also a problem that the user had to wait for time and handling was very troublesome.
[0006]
The present invention has been made to solve such a problem, and an object of the present invention is to make it possible to easily check one's own health condition at any place.
[0007]
[Means for Solving the Problems]
A speaker voice analysis system of the present invention is a system in which a server device and a client device are configured to be connectable via a network, and the server device converts a user's speaker voice input from the client device. A speaker voice obtaining unit that obtains from the client device via the network; and the speaker voice obtained by the speaker voice obtaining unit is analyzed to obtain an index value representing a health state, a mental state, and the like of the user. A speaker voice analyzing unit; and an analysis result providing unit configured to provide an analysis result by the speaker voice analyzing unit to the client device. The client device includes a voice input unit configured to input a speaker voice of the user. Speaker voice providing means for providing the speaker voice input by the voice input means to the server device; The results provide means comprising the analysis result acquisition and output means for outputting to acquire the analysis result provided from the server device.
[0008]
In another aspect of the present invention, the speaker voice analysis unit calculates a feature amount that calculates a state vector that is a chaotic feature amount of the voice based on the speaker voice acquired by the speaker voice acquisition unit. Means, a state vector obtained by the feature amount calculating means, and a neural network operation using the state vector and a plurality of coefficients to perform an index value representing the user's health state, mental state, etc. And a neural network calculating means for determining
[0009]
In another aspect of the present invention, target value calculation means for calculating a target value related to an index value representing the user's health state, mental state, etc., and the neural network when the state vector is given to the input of the neural network Learning means for optimizing a plurality of coefficients in the neural network by minimizing an error between an output value of the network and a target value obtained by the target value calculating means. .
[0010]
In another aspect of the present invention, the target value calculating means performs a predetermined calculation using a data value obtained as a result of a flicker test and a survey in which a subject answers the degree of fatigue in a questionnaire format by himself / herself. It is characterized in that a target value of the degree is calculated.
[0011]
Further, the server device of the present invention includes: a speaker voice acquiring unit that acquires a user's speaker voice input from a client device from the client device via a network; and the speaker acquired by the speaker voice acquiring unit. A speaker voice analyzing unit that analyzes a voice and obtains an index value representing a health state, a mental state, and the like of the user; and an analysis result providing unit that provides an analysis result by the speaker voice analyzing unit to the client device. It is characterized by having.
[0012]
Also, a health diagnosis method using speaker voice analysis according to the present invention includes a speaker voice transmitting step of inputting a user's speaker voice at a client device and transmitting the voice to a server device via a network. A speaker voice receiving step in which the server device receives the speaker voice transmitted in the voice transmitting step; and analyzing the speaker voice received in the speaker voice receiving step, and a health state and a mental state of the user. A speaker voice analysis step for obtaining an index value representing the like, an analysis result providing step for providing the result analyzed in the speaker voice analysis step to the client device, and an analysis provided in the analysis result providing step And an analysis result output step of obtaining and outputting the result by the client device.
[0013]
The speaker voice analysis program according to the present invention may further include a speaker voice obtaining unit that obtains the user's speaker voice input from the client device via the network from the client device, wherein the speaker voice obtaining unit obtains the speaker voice. A speaker voice analyzing means for analyzing a speaker voice to obtain an index value representing a health state, a mental state, etc. of the user, and providing an analysis result by the speaker voice analyzing means to the client device It is for making a computer function as a means.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing an example of the overall configuration of the speaker voice analysis system according to the present embodiment.
[0015]
In FIG. 1, reference numerals 1a and 1b denote mobile phones used by a user and have a call function and an Internet connection function. 2a is a mobile phone packet network, 2b is the Internet, and 2c is a public line network. Reference numeral 3 denotes a router having a firewall function, 4 denotes a WEB server, 5 denotes a CTI (Computer Telephony Integration) server, 6 denotes a DB server, 7 denotes a database (DB), and 8 denotes an analysis server.
[0016]
The WEB server 4 provides a WWW browser screen as an interface for the user to the mobile phones 1a and 1b, obtains necessary information from the mobile phones 1a and 1b through the browser screen, and outputs an analysis result of a speaker voice. I do. The information obtained through the WWW browser screen includes user's personal information (name, e-mail address, mobile phone number, gender and other basic information, date of birth, blood type, hometown, physical condition, personality, password, etc.) ), And various menu operation information.
[0017]
The CTI server 5 automatically reproduces a voice that has been recorded in advance in accordance with the dialing operation of the mobile phones 1a and 1b, performs an automatic response using the voice, and acquires necessary information from the mobile phones 1a and 1b. . The information acquired here is the speaker's voice of the user. The speaker's voice may be any language, but it is assumed that a voice of, for example, about 2 to 10 seconds is acquired. Preferably, a preliminary experiment is performed to specify a word from which the fluctuation (chaosity) of voice is easily extracted, and to utter the word.
[0018]
On the browser screen provided to the mobile phones 1a and 1b by the WEB server 4 described above, "<a href =" tel: telephone number so that the user can easily make a call to the CTI server 5. A tag “>” is described in HTML. When the user selects the link “TEL” on the browser screen, the mobile phones 1 a and 1 b automatically call the CTI server 5. The CTI server 5 automatically receives an incoming call by this automatic call function. Thereafter, the voice of the user is recorded by performing an automatic response by voice, and is registered in the database 7 through the DB server 6.
[0019]
The DB server 6 manages information shared among the web server 4, the CTI server 5, and the analysis server 8. For example, the data (personal information data, speaker voice data, etc.) obtained from the mobile phones 1a and 1b through the web server 4 and the CTI server 5, and the analysis result of the speaker voice performed by the analysis server 8 are stored in the database 7. I do. In addition, in response to a request from the mobile phones 1a and 1b, the analysis result is extracted from the database 7 and provided to the WEB server 4.
[0020]
The analysis server 8 monitors an analysis request from the CTI server 5, and executes a predetermined analysis process when the request is detected. That is, the analysis server 8 reads, from the database 7, the speaker voice requested to be analyzed from the CTI server 5, and performs chaos analysis on this. Then, the analysis result is supplied to the DB server 6 and stored in the database 7. The details of the chaos analysis will be described later.
[0021]
The router 3, the web server 4, the CTI server 5, the DB server 6, the database 7, and the analysis server 8 constitute a server device 10 of the present embodiment. Each server constituting the server apparatus 10 is actually provided with a CPU or an MPU, a RAM, a ROM, and the like of a computer, and can be realized by operating a program stored in the RAM or the ROM.
[0022]
Therefore, the present invention can be realized by recording a program that causes a computer to perform the functions of the present embodiment on a recording medium such as a CD-ROM, and reading the program into the computer. As a recording medium for recording the program, a flexible disk, a hard disk, a magnetic tape, an optical disk, a magneto-optical disk, a DVD, a nonvolatile memory card, and the like can be used in addition to the CD-ROM. Further, the present invention can also be realized by downloading the program to a computer via a network such as the Internet 2b.
[0023]
Further, in order to realize the functions of the server device 10 according to the present embodiment in a network environment, all or some of the programs may be executed by another computer.
[0024]
The functions of the present embodiment are not only realized by the computer executing the supplied program, but also the program is executed in cooperation with an OS (Operating System) or other application software running on the computer. In the case where the functions of the present embodiment are realized, or in the case where all or a part of the processing of the supplied program is performed by a function expansion board or a function expansion unit of a computer, the functions of the present embodiment are realized. The program is included in this embodiment.
[0025]
Next, the operation of the speaker voice analysis system according to the present embodiment configured as described above will be described. FIG. 2 is a sequence flowchart showing the overall operation of the analysis system. As shown in FIG. 2, first, the user accesses the WEB server 4 from the mobile phones 1a and 1b, performs a menu operation on a browser screen provided by the user, and enters a fatigue diagnosis site (step S1). .
[0026]
FIG. 3 is a diagram showing an example of a menu screen displayed on the mobile phones 1a and 1b. In the top menu shown in FIG. 3 (a), when the item "latest information" or "reception check" is selected and the menu operation is further continued, an item "diagnosis" (not shown) appears. By selecting this item, a screen as shown in FIG. 3B is displayed, and the user is ready to start a self-check.
[0027]
Next, when the user selects the item "call" on the screen of FIG. 3B (step S2), the mobile phones 1a and 1b automatically call the CTI server 5 in response to the selection. Apply (step S3). When the CTI server 5 automatically receives a call made by the automatic call function of the WEB server 4, the CTI server 5 automatically replies to the mobile phones 1a and 1b by voice so as to prompt the user to record a voice (step). S4).
[0028]
The user inputs his / her voice in accordance with the voice guidance provided by the CTI server 5, and then presses the “#” button. Thereby, the CTI server 5 acquires the speaker's voice of the user and stores it in the database 7 (step S5). Then, a recording end message is output to the mobile phones 1a and 1b, and the line with the mobile phones 1a and 1b is disconnected (step S6).
[0029]
FIG. 4 is a flowchart showing the details of the processing in steps S4 to S6. In FIG. 4, the CTI server 5 monitors whether there is an incoming call from the mobile phones 1a and 1b (step S11), and when there is an incoming call, first, an opening message (“Your voice is registered and checked. Please operate according to the guidance. ") Is output (step S12).
[0030]
Next, the CTI server 5 requests the user to record the voice by sending a message such as "Register the voice after the dial tone and press #." (Step S13). In response to this, the user inputs his / her own voice and then presses the “#” button to record the voice (step S14). Next, the CTI server 5 reproduces the recorded voice (step S15), and confirms with the user whether or not the content is acceptable (step S16).
[0031]
For example, a message is issued so as to press the push button "#" if the content is good and "9" to change the content. When the "9" push button is pressed, the process returns to step S13, and the voice recording is performed again. When the "#" push button is pressed, an end message such as "voice has been registered" is output (step S17), and the line is disconnected (step S18).
[0032]
Returning to FIG. 2, when the recording of the speaker's voice is completed as described above, the CTI server 5 requests the analysis server 8 to analyze the recorded speaker's voice (step S7). The analysis server 8 that has received the analysis request performs a chaos analysis process described later in detail, and stores the analysis result in the database 7 (step S8). Thereafter, when the user accesses the WEB server 4 and selects the item “diagnosis result display” from the menu screens of the mobile phones 1a and 1b, the WEB server 4 takes out the requested analysis result from the database 7 and displays it ( Step S9).
[0033]
5 and 6 are flowcharts showing the operation of the analysis server 8. 5 is a flowchart showing a main operation of the analysis server 8, and FIG. 6 is a flowchart showing a detailed operation of the chaos analysis processing. In FIG. 5, when the power is first turned on, the analysis server 8 performs predetermined initialization processing such as system information setting (step S21).
[0034]
Next, the analysis server 8 performs an end check of this processing (step S22), and determines whether or not there is an end request (step S23). If there is no end request, a chaos analysis process is performed (step S24). After that, after a sleep state for a predetermined time (step S25), the process returns to step S22. On the other hand, if there is a request for ending this processing, predetermined post-processing is performed (step S26), and this processing ends.
[0035]
The chaos analysis processing in step S24 is performed according to the flowchart in FIG. In FIG. 6, the analysis server 8 performs an analysis request check (step S31), and determines whether there is an analysis request from the CTI server 5 (step S32). If there is no analysis request, the process exits the chaos analysis process. On the other hand, when there is an analysis request, the analysis data is extracted from the speaker voice data recorded in the database 7 (step S33).
[0036]
The extraction of the analysis data is performed as follows. That is, first, from the time-series data of the sound recorded in the database 7, data for a predetermined number of sample points is extracted from the central part of the time-series for a silent part removing process. For example, the maximum value of the absolute value of the audio time-series data is obtained, and if the data value is less than one-fifth (20%) of the previously obtained maximum value for 20 consecutive points from one point, those points are determined. Omitted. In addition, when there is data of one-fifth (20%) or more of the maximum value even at one point, an intermediate point of the 20 points is set as output data. This output data is extracted from the central part of all audio time-series data by the number of sample points specified in advance.
[0037]
After extracting the time-series analysis data, the analysis server 8 performs chaos calculation on the time-series data to obtain a feature amount of the speaker's voice (step S34). In this chaos calculation, first, three parameters of Lyapunov exponent (L), entropy (E), and F-constant (F) are calculated, and the calculated parameters are input to a neural network program, thereby obtaining a speaker voice. Digitize time series data.
[0038]
The Lyapunov exponent is xn + 1= F (xn) Means the degree of divergence of two trajectories starting from two close points at time n → ∞, and is defined by the following (Equation 1). Here, N is the total number of reconstructed vectors.
[0039]
(Equation 1)
Figure 2004240394
[0040]
The entropy means a quantitative measure of the irregularity of the system or the amount of information necessary to specify the state of the system, and is defined by the following (Equation 2). Here, a virtual statistical system in which a certain measurement result is always on a unit section is considered, and this section is divided into N small sections. And if the i-th subsection contains a certain range of possible results, establish it with PiCan be assigned. In simple terms, it can be said that the smaller the entropy, the more organized the amount of information that is useful, and the larger the entropy, the more disorganized and useless the amount of information.
[0041]
(Equation 2)
Figure 2004240394
[0042]
The fractal dimension is an extension of the concept of a normal dimension to a non-integer region. Higuchi fractal dimension, Hausdorff dimension, correlation dimension, and the like have been proposed. Among them, the Higuchi fractal dimension means the degree of geometrical complexity when the time-series waveform is regarded as a one-dimensional geometric structure, and takes a larger value as the structure becomes more complicated, that is, as the fluctuation becomes larger.
[0043]
In the algorithm for calculating the Higuchi fractal dimension, time series data X (1), X (2),..., X (N) sampled at equal time intervals are used as input data. First, from the input time-series data, new time-series data X as shown in the following (Equation 3) is obtained.m kmake. Here, m is an initial time, k is a time interval, and [] represents a Gaussian symbol (an integer not exceeding (N−m) / k).
[0044]
(Equation 3)
Figure 2004240394
[0045]
According to this algorithm, k sets of time-series data are eventually created. For example, if k = 3 and N = 100,
X1 3: X (1), X (4), X (7), ..., X (97), X (100)
X2 3: X (2), X (5), X (8),..., X (98)
X3 3: X (3), X (6), X (9), ..., X (99)
Are generated.
[0046]
Next, the time series data Xm kLength L of the curvem(K) is defined as the following (Equation 4). Here, the term (N−1) / {[(N−m) / k] · k} is a coefficient for standardizing the length of a time-series curve.
[0047]
(Equation 4)
Figure 2004240394
[0048]
k sets of time series data Xm kOf the curve L obtained formLet the average of (k) be <L (k)>, which is defined as the length of the curve at time interval k. If <L (k)> ∝k-DHolds, D is a fractal dimension. That is, the horizontal axis is log10k, vertical axis is log10Points are plotted as <L (k)> to determine the slope of the straight line portion, and a value obtained by multiplying the slope by −1 is the Higuchi fractal dimension.
[0049]
F-constant shows the calculation result of Higuchi fractal dimension on the horizontal axis log.10The inclination is calculated by separating k into 10 or less and 10 or more, and D1 and D2 are obtained. That is, D1 is a fractal dimension on a micro time scale, and D2 is a fractal dimension on a macro time scale. As described above, F-constant represents a relationship between a fractal dimension of a small scale and a fractal dimension of a large scale.
[0050]
Conventionally, it has been considered that maintaining a certain state of a person is healthy. However, recent studies have shown that rather than maintaining a steady state, moderate "fluctuations" are healthier and more adaptable to external factors (homeodynamics ). Thus, in the present embodiment, data (Lyapunov exponent, entropy, F-constant) specific to the person is extracted from the voice recorded by the mobile phones 1a and 1b, and the extracted data is analyzed by a neural network. Is expressed by a numerical value.
[0051]
FIG. 7 is a diagram illustrating an example of a neural network operation according to the present embodiment. As shown in FIG. 7, the neural network according to the present embodiment has a four-layer structure including one input layer, two intermediate layers, and one output layer. By inputting the state vector (L, E, F), which is a chaotic feature of speech, to the input layer, and changing the weighting factor of the connection connecting the intermediate layers, an appropriate numerical value can be obtained from the output layer. Output.
[0052]
Then, a value having the largest value among the plurality of output numerical values A-1 to A-3 is determined as a numerical value A representing the user's degree of fatigue. The numerical value A representing the fatigue level is normalized between 0 and 1. Based on this, the user's fatigue level is represented by any one of 0 to 100 as shown in FIG. 8, for example. You. Although FIG. 7 shows only four nodes for the first intermediate layer, three nodes for the second intermediate layer, and three nodes for the output layer for the sake of simplicity of description, more nodes (for example, The hierarchical structure may be configured to include one intermediate layer, the second intermediate layer, and the output layer (100 each).
[0053]
In the example of FIG. 7, a sigmoid function is used for the operation in the neural network. As the initial data of the interlayer connection coefficient used here, for example, a preliminary test is performed on about 50 to 100 subjects before operation of the system, and an appropriate value calculated according to the result is obtained before operation. Register with the system. The details of the pre-test will be described below.
[0054]
In the preliminary test, first, a flicker test is performed on the test subject, and a subjective assessment of the degree of fatigue is performed (a survey in which the test subject answers the degree of fatigue in a questionnaire form). In the flicker test, a subject is made to look directly at discontinuous blinking light, and the blinking frequency is gradually changed. Then, the test is to measure the blinking frequency when the subject starts to feel the flickering of the blinking light or when the subject no longer feels the flickering.
[0055]
For example, when the frequency of the blinking is gradually increased, the subject watching this gradually becomes unable to feel the blinking. The flicker frequency at which flickering is no longer felt is obtained as a flicker value. Conversely, the blinking frequency may be gradually lowered, and the blinking frequency at which the subject looking at it begins to feel the flicker of light may be obtained as the flicker value.
[0056]
The flicker value is used as an index of mental fatigue and arousal level of the central nervous system. The smaller the value, the more tired you can evaluate. In order to make the obtained flicker value more objective, it is preferable to perform a flicker test a plurality of times and take the average of the flicker values. By the way, it is said that the average of the flicker value at the normal time when there is not much fatigue is about 38 Hz although there are individual differences.
[0057]
In addition, the subjective condition survey is a questionnaire survey for investigating the degree of subjective fatigue felt by the subject at that time, and is created by the Japan Society for Occupational Health. The contents of the questionnaire are divided into the following five item groups.
Group I Sleepiness: sleepy, yawning, poorly motivated, loose whole body, etc.
Group II Anxiety: Anxiety, depressed mood, restlessness, irritability, etc.
Group III Discomfort: headache, heavy head, sickness, blurred head, etc.
IV group feeling of sloppy: loose arms, lower back pain, loose legs, stiff shoulders, etc.
Group V Bluriness: Eyes are blurred, eyes are tired, eyes are dry, things are blurred, etc.
[0058]
The subject answers a plurality of questions provided for each of these five item groups at a level of 1 to 5 depending on the degree of feeling. Then, an average value of scores is obtained for each of the five item groups, and the fatigue status is evaluated for each item group. The higher the score, the more tired you can evaluate.
[0059]
Both the flicker value and the scores for subjective symptoms described above are reliable as indexes for evaluating the degree of fatigue. In the present embodiment, in order to obtain a more objective fatigue level value using these indices, a numerical value (any one of 0 to 100) representing the fatigue level of the subject based on the following (Equation 5) Is calculated).
Fatigue level = −Flicker average value + 0.5 × Group I average score + 0.5 × Group II average score + 4 × Group III average score + 0.5 × Group IV average score + 0.5 × Group V average score + 25 Equation 5)
Note that this (Equation 5) is merely an example, and the present invention is not limited to this calculation content.
[0060]
Next, the voice data of the subject is recorded. The state vector (L, E, F) is calculated for the recorded voice data, and the calculated state vector is input to the input layer of the neural network shown in FIG. Then, the neural network is trained by the back propagation learning rule so that a value as close as possible to the numerical value representing the degree of fatigue calculated by the above (Equation 5) is output from the output layer. By learning about 50 to 100 subjects, even if the state vector of an unknown user is input, an almost correct degree of fatigue can be output for the user.
[0061]
Learning of the neural network by the back propagation method (back propagation method) involves connecting each connection so as to minimize the error between the output data (fatigue degree value obtained from the voice data of the subject through the neural network) and the teacher data. Adjust the coefficient of. Details of the setting error will be described later.
[0062]
That is, in the back propagation method, when a fatigue degree value calculated by (Equation 5) for a certain subject and a state vector (L, E, F) based on voice data recorded for the same subject are output to the input layer, Each of the coupling coefficients W1 to W3 is changed from the output layer toward the input layer so as to reduce an error with the fatigue value output from the layer.
[0063]
The input data to the neural network is X (x1, X2, ..., xj), And the coupling coefficient is W (w1, W2, ..., wj), The sum of these connections becomes the neuron state S, and is represented by the following (Equation 6).
S = x1・ W1+ X2・ W2+ ... + xj・ Wj  ... (Equation 6)
This neuron state S is further processed by the activation function f (s). f (s) is defined by a sigmoid function represented by the following (Equation 7), which makes it possible to handle inputs and outputs as continuous values from 0 to 1.
f (s) = 1 / (1 + e-S) (Equation 7)
[0064]
When output data Y = f (s) is given to the output layer of the neural network, a change σ when the coupling coefficient W is changed is obtained. The change σ is calculated by multiplying the change Δf (s) of the sigmoid function expressed by the following (Equation 8) by the error E between the output data of the neuron and the teacher data (Equation 9). ). Adjustment of the coupling coefficient W using the change σ is learning.
[0065]
(Equation 5)
Figure 2004240394
[0066]
The error E is represented by a decimal number from 0 to 1 by multiplying the error E by the variation Δf (s) of the sigmoid function described above. At this time, when the error E is large, the variation σ takes a large value, and when the error E is small, the variation σ takes a small value. If the coupling coefficient W3 of the neuron connected to the output layer is to be changed, the modification of the coupling coefficient W3 is as in the following (Equation 10).
W3ij(T + 1) = W3ij(T) + a × σj  ... (Equation 10)
Here, a is a coupling constant less than 1, and is usually set to 0.8.
[0067]
After updating the coupling coefficient W3 belonging to the output layer, the coupling coefficient W2 belonging to the intermediate layer is changed. Here, a new variation σ ′ is generated from the above (Equation 10). The change σ ′ is obtained by multiplying the total sum of the change coefficient σ and the coupling coefficient W3 from the output layer by the change Δf (s) of the sigmoid function as shown in the following (Equation 11). Is used.
[0068]
(Equation 6)
Figure 2004240394
[0069]
Using the change amount σ ′ thus obtained, the coupling coefficient W2 of the intermediate layer is changed by the following (Equation 12) in the same manner as the updating of the coupling coefficient W3 belonging to the output layer.
W2ij(T + 1) = W2ij(T) + a × σj'(Equation 12)
Such calculation is repeated until the coupling coefficient W1 belonging to the input layer is updated.
[0070]
At this time, an evaluation element indicating the degree of learning performed by the neural network is required. The evaluation element is expressed as an evaluation function or a cost function. An RMS error (mean square error) is used as the cost function, and as shown in the following (Equation 13), the output data Y of the neuron and the teacher data T Is represented by Learning of the neural network proceeds so as to minimize this cost function.
[0071]
(Equation 7)
Figure 2004240394
[0072]
The values of the coefficients W1 to W3 initially set in the system through the learning of the neural network as described above can be arbitrarily changed after the initial setting (during operation of the system). For example, these coefficients W1 to W3 are registered in a database, and can be changed by learning of a neural network even during operation of the system. For this purpose, a flicker test and a questionnaire survey on subjective symptoms are also performed each time a user who has performed voice analysis during operation of the system, and the coefficients W1 to W3 are updated using the results.
[0073]
In this case, it is preferable that these tests can be performed on the mobile phones 1a and 1b so that the user does not need to go to the test room to perform the flicker test or the subjective test. Specifically, a program is downloaded from a specific website to a mobile phone, and blinking light is displayed on the screen of the mobile phone according to the program. Then, when the user who sees this starts to feel the flickering of the blinking light, or when he / she no longer feels it, it is possible to obtain the flicker value by pressing a predetermined button.
[0074]
In addition, regarding the study of subjective symptoms, it is possible to conduct a questionnaire survey using a CGI (Common Gateway Interface). The flicker values and the scores for the subjective symptoms obtained on the mobile phones 1a and 1b in this manner are transmitted to the server device 10 in FIG. 1 and registered in the database 7 through the DB server 6. Then, the teacher data is calculated from the flicker value registered in the database 7 and the score of the subjective test according to the above-mentioned (Equation 5), and learning of the neural network is performed.
[0075]
Note that, also at the time of the pre-test, the flicker test and the subjective examination may be performed from the mobile phones 1a and 1b. This has the advantage that the preliminary test itself can be easily performed.
[0076]
Here, the relationship between the neural network, the state vector (L, E, F) and the fatigue value A will be outlined. A graph in which each coordinate axis is essentially associated with one dynamic variable is called a state space. One point in the state space represents the state of the system at a certain time. Chaotic systems take complex trajectories in state space, but the trajectories only pass through certain regions of the state space and do not pass through other regions. The orbit describes a chaotic attractor.
[0077]
This chaos attractor can be reconfigured by embedding time-series data having chaos in a multidimensional state space. For embedding, n state variables may be restored from one state variable by using the embedding delay time τ according to the Turns method. If the embedding can be performed, the reconstructed chaotic attractor is a modification of the original attractor, and the Lyapunov exponent L, entropy E, Higuchi fractal dimension F, etc. are topologically preserved. In order to reconstruct the chaos attractor from the univariate time-series data, embedding may be performed by conversion to a delay time coordinate system.
[0078]
Chaos has the stability that the geometrical structure of attractors that exhibits steady-state behavior in state space does not change even if orbital instability occurs due to minute disturbances (see “Time-series analysis system based on deterministic chaos theory”). "Instrumentation August Issue, Vol. 40, No. 8 (1997)). Therefore, in the neural network of the present embodiment, as described above, the state vector (L, E, F) can be input to the input layer, and the stable fatigue level A can be output from the output layer.
[0079]
Returning to FIG. After the chaos calculation is performed by the method as shown in FIG. 7 and the characteristic amount of the speaker voice is obtained, the file of the speaker voice recorded in the database 7 is deleted (step S35). Then, the analysis result by the chaos calculation is supplied to the DB server 6 and registered in the database 7 (step S36), and a series of chaos analysis processing ends.
[0080]
As described above, the user can always see the analysis result by accessing the WEB server 4 from the mobile phones 1a and 1b. FIG. 9 is a diagram showing an example of a screen of a diagnosis result displayed on the mobile phones 1a and 1b. As shown in FIG. 9A, on the top screen of the analysis result display, a list of newly arrived diagnosis results and past diagnosis results is displayed.
[0081]
When a newly arrived diagnosis result is selected on the top screen, the screen is changed to a detail screen shown in FIG. 9B, and details of the fatigue level of the person can be confirmed. Further, in the list of past diagnosis results, numerical values indicating the degree of fatigue are displayed, and the transition of the degree of fatigue can be seen. By selecting any of them, the past diagnosis results can be viewed.
[0082]
As described above in detail, in the present embodiment, the speaker voice input from the user's mobile phones 1a and 1b is recorded in the database 7 through the CTI server 5 and the DB server 6, and the recorded speaker voice is analyzed by the analysis server. In step 8, a chaos analysis is performed to obtain a feature quantity representing the user's degree of fatigue. Then, in response to a request from the user, the analysis result is presented to the mobile phones 1a and 1b through the web server 4.
[0083]
Thus, the user can easily check his / her own health condition from any place at any time simply by recording the voice using the mobile phones 1a and 1b. In addition, the "fatigue degree", which could be expressed only in an ambiguous expression, can be obtained as a clear numerical value. In addition, by continuously using this system, it is possible to obtain motivation to correct lifestyles and reduce overtime while following changes in the degree of fatigue.
[0084]
Further, according to the present embodiment, the teacher data is calculated using the flicker value and the score of the subjective test, and the learning of the neural network is performed based on the calculated teacher data. Thereby, a more objective fatigue value reflecting the results of the flicker test and the subjective examination can be easily obtained by simply recording the voice using the mobile phones 1a and 1b.
[0085]
In the above embodiment, the mobile phones 1a and 1b are used as terminals used by the user. However, any mobile terminal having a voice input function and a network connection function, other than the mobile phones 1a and 1b, may be used. A terminal (for example, a notebook personal computer, a PDA (Personal Digital Assistants), etc.) can also be used as the user terminal.
[0086]
In the above embodiment, the neural network is used for the chaos analysis. However, the method of calculating the correlation between the state vector (L, E, F) and the fatigue value A is not limited to this. For example, the correlation may be calculated by a statistical method, and the fatigue value A may be obtained by this.
[0087]
Further, in the above-described embodiment, the example in which the flicker test and the subjective observation are performed when the teacher data used for learning the neural network is obtained has been described. However, the present invention is not limited to this. In other words, instead of or in addition to these tests, tests to measure urine pH and protein, tests to measure blood pressure and pulse, tests to measure brain waves and electrocardiograms, All or part of a test for measuring metabolites in urine or the like may be performed, and teacher data may be calculated based on the result using a predetermined arithmetic expression. In this way, a more objective fatigue level value obtained by mixing the plurality of test results can be easily obtained simply by inputting voice using the mobile phones 1a and 1b.
[0088]
Further, in the above-described embodiment, the case where the fatigue degree is obtained as an example of the user's health state has been described, but the present invention is not limited to this. For example, by improving the voice analysis engine of the analysis server 8, it is possible to perform analysis relating to “fluctuation” of a living body, such as a hangover diagnosis, a bloody muddy diagnosis, a serious (cheating) diagnosis, a compatibility diagnosis, and a lie detection diagnosis. Is also possible. That is, it is also possible to analyze a health state other than the degree of fatigue, a mental state, and the like.
[0089]
It is also possible to diagnose whether there is a suspicion of dementia from a human voice. Similar to the above-described flicker test for fatigue degree and subjective examination, for the diagnosis of dementia, an objective and reliable index for evaluating the degree of dementia has been conventionally provided. Screening tests such as the revised Hasegawa-type simplified intelligence evaluation scale (HDS-R), MMS (Mini-Mental State), and Kanahiro test are typical (all of which are known and will be described in detail here. Is omitted).
[0090]
For example, when a subject is tested for HDS-R, a score of 1 is obtained when a result of suspected dementia is obtained, and a score of 0 is obtained when a result is determined that there is no suspected dementia. give. Also, a MMS test is performed, and 1 point is given when the result that there is a suspicion of dementia is obtained, and 0 point is given when the result that there is no suspicion of the dementia is obtained. Similarly, a Kanahiro test is performed, and 1 point is given when the result that there is a suspicion of dementia is obtained, and 0 point is given when the result that there is no suspicion of the dementia is obtained. When the total of these three test results is 0 to 1, it is determined that there is no suspicion of dementia. Then, the result is used as teacher data of the neural network.
[0091]
Next, the voice data of the subject is recorded. The state vector (L, E, F) is extracted from the recorded voice data, and is input to the input layer of the neural network. The neural network here includes, for example, three input layers (three chaotic parameters of L, E, and F), 100 × 2 intermediate layers, and two output layers (“no suspicion of dementia”, “dementia”). Suspected) ").
[0092]
Then, when the three chaos parameters (L, E, F) are input to the input layer, back propagation is performed so that either of the cells “without suspicion of dementia” and “with suspicion of dementia” is correctly fired in the output layer. The neural network is trained according to the learning rule. Also in this case, by learning about 50 to 100 subjects, even if the state vector of an unknown user is input, an almost correct degree of dementia can be output for the user.
[0093]
In addition, each of the above-described embodiments is merely an example of the embodiment for carrying out the present invention, and the technical scope of the present invention should not be interpreted in a limited manner. That is, the present invention can be embodied in various forms without departing from the spirit or main features thereof.
[0094]
【The invention's effect】
As described above, according to the present invention, a user can easily check his / her own health condition, mental condition, and the like at any place at any time simply by recording a voice using a portable client device. Become like
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an overall configuration of a speaker voice analysis system according to an embodiment.
FIG. 2 is a sequence flowchart showing an overall operation of the speaker voice analysis system according to the embodiment;
FIG. 3 is a diagram showing an example of a menu screen displayed on the mobile phone of the embodiment.
FIG. 4 is a flowchart showing a recording operation performed by the CTI server of the embodiment.
FIG. 5 is a flowchart showing a main operation of the analysis server according to the embodiment.
FIG. 6 is a flowchart illustrating a detailed operation of chaos analysis processing performed by the analysis server of the present embodiment.
FIG. 7 is a diagram showing an example of a neural network operation performed by the analysis server of the embodiment.
FIG. 8 is a diagram illustrating an example of a fatigue level as a result of chaos analysis.
FIG. 9 is a diagram showing a screen display example of a chaos analysis result.
[Explanation of symbols]
1a, 1b Mobile phone
2a Mobile phone packet network
2b Internet
2c Public line network
3 router
4 WEB server
5 CTI server
6 DB server
7 Database
8 Analysis server
10 Server device

Claims (7)

サーバ装置とクライアント装置とがネットワークを介して接続可能に構成されたシステムであって、
上記サーバ装置は、上記クライアント装置より入力されたユーザの話者音声を当該クライアント装置から上記ネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備え、
上記クライアント装置は、上記ユーザの話者音声を入力する音声入力手段と、
上記音声入力手段により入力された上記話者音声を上記サーバ装置に向けて提供する話者音声提供手段と、
上記解析結果提供手段により上記サーバ装置から提供された上記解析結果を取得して出力する解析結果取得および出力手段とを備えたことを特徴とする話者音声解析システム。
A system in which a server device and a client device are configured to be connectable via a network,
The server device, a speaker voice obtaining means for obtaining the user's speaker voice input from the client device from the client device via the network,
A speaker voice analyzing unit that analyzes the speaker voice acquired by the speaker voice acquiring unit and obtains an index value representing a health state, a mental state, and the like of the user;
Analysis result providing means for providing an analysis result by the speaker voice analysis means to the client device,
The client device, a voice input means for inputting the speaker voice of the user,
Speaker voice providing means for providing the speaker voice input by the voice input means to the server device,
A speaker voice analysis system, comprising: an analysis result acquisition and output unit that acquires and outputs the analysis result provided from the server device by the analysis result providing unit.
上記話者音声解析手段は、上記話者音声取得手段により取得した上記話者音声をもとに、音声のカオス性特徴量である状態ベクトルを算出する特徴量算出手段と、
上記特徴量算出手段により求められた状態ベクトルを入力し、当該状態ベクトルと複数の係数とを用いたニューラルネットワーク演算を行うことにより、上記ユーザの健康状態や精神状態等を表す指標値を求めるニューラルネットワーク演算手段とを備えて構成されることを特徴とする請求項1に記載の話者音声解析システム。
The speaker voice analysis unit is a feature amount calculation unit that calculates a state vector that is a chaotic feature amount of the voice based on the speaker voice acquired by the speaker voice acquisition unit,
By inputting the state vector obtained by the feature amount calculating means and performing a neural network operation using the state vector and a plurality of coefficients, a neural value for obtaining an index value representing the user's health state, mental state, and the like is obtained. The speaker voice analysis system according to claim 1, further comprising a network operation unit.
上記ユーザの健康状態や精神状態等を表す指標値に関する目標値を算出する目標値算出手段と、
上記状態ベクトルが上記ニューラルネットワークの入力に与えられたときの上記ニューラルネットワークの出力値と、上記目標値算出手段により求められた目標値との誤差を最小化することによって、上記ニューラルネットワーク内の複数の係数を最適化させる学習手段とを備えたことを特徴とする請求項2に記載の話者音声解析システム。
Target value calculation means for calculating a target value related to an index value representing the user's health state, mental state, etc.,
By minimizing an error between an output value of the neural network when the state vector is given to an input of the neural network and a target value obtained by the target value calculating means, a plurality of signals in the neural network are obtained. 3. The speaker voice analysis system according to claim 2, further comprising learning means for optimizing the coefficient of the speaker.
上記目標値算出手段は、フリッカー試験および被験者が自身で疲労の具合をアンケート形式で答える調査の結果得られるデータ値を利用して所定の演算を行うことにより、疲労度の目標値を算出することを特徴とする請求項3に記載の話者音声解析システム。The target value calculating means calculates a target value of the degree of fatigue by performing a predetermined calculation using a data value obtained as a result of a flicker test and a survey in which a subject answers the degree of fatigue in a questionnaire format by himself / herself. The speaker voice analysis system according to claim 3, wherein: クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段と、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段と、
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段とを備えたことを特徴とするサーバ装置。
Speaker voice obtaining means for obtaining the user's speaker voice input from the client device via the network from the client device;
A speaker voice analyzing unit that analyzes the speaker voice acquired by the speaker voice acquiring unit and obtains an index value representing a health state, a mental state, and the like of the user;
A server device comprising: an analysis result providing unit configured to provide an analysis result by the speaker voice analyzing unit to the client device.
クライアント装置にてユーザの話者音声を入力してネットワークを介してサーバ装置に送信する話者音声送信ステップと、
上記話者音声送信ステップで送信された上記話者音声を上記サーバ装置が受信する話者音声受信ステップと、
上記話者音声受信ステップで受信した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析ステップと、
上記話者音声解析ステップで解析された結果を上記クライアント装置に向けて提供する解析結果提供ステップと、
上記解析結果提供ステップで提供された解析結果を上記クライアント装置が取得して出力する解析結果出力ステップとを有することを特徴とする話者音声の解析を利用した健康診断方法。
A speaker voice transmitting step of inputting a user's speaker voice at a client device and transmitting the voice to a server device via a network;
A speaker voice receiving step in which the server device receives the speaker voice transmitted in the speaker voice transmitting step;
Analyzing the speaker voice received in the speaker voice receiving step, a speaker voice analysis step of obtaining an index value representing the health state and mental state of the user,
An analysis result providing step of providing the result analyzed in the speaker voice analysis step to the client device;
An analysis result output step in which the client device acquires and outputs the analysis result provided in the analysis result providing step. The health diagnosis method using speaker voice analysis.
クライアント装置より入力されたユーザの話者音声を当該クライアント装置からネットワークを介して取得する話者音声取得手段、
上記話者音声取得手段により取得した上記話者音声を解析し、上記ユーザの健康状態や精神状態等を表す指標値を求める話者音声解析手段、および
上記話者音声解析手段による解析結果を上記クライアント装置に向けて提供する解析結果提供手段、
としてコンピュータを機能させるための話者音声解析プログラム。
Speaker voice obtaining means for obtaining the user's speaker voice input from the client device via the network from the client device;
Analyzing the speaker voice obtained by the speaker voice obtaining means, the speaker voice analyzing means for obtaining an index value representing the health state, mental state, etc. of the user, and the analysis result by the speaker voice analyzing means, Analysis result providing means provided to the client device,
A speaker voice analysis program to make a computer function as a computer.
JP2003182824A 2002-12-12 2003-06-26 Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer Pending JP2004240394A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003182824A JP2004240394A (en) 2002-12-12 2003-06-26 Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002361526 2002-12-12
JP2003182824A JP2004240394A (en) 2002-12-12 2003-06-26 Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer

Publications (1)

Publication Number Publication Date
JP2004240394A true JP2004240394A (en) 2004-08-26

Family

ID=32964522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003182824A Pending JP2004240394A (en) 2002-12-12 2003-06-26 Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer

Country Status (1)

Country Link
JP (1) JP2004240394A (en)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199807A (en) * 2006-01-24 2007-08-09 Fuji Xerox Co Ltd Learning system and device, control method for computer, and program
WO2008096634A1 (en) * 2007-02-06 2008-08-14 Nec Corporation Health management system, health managing method, and health management program
WO2015146824A1 (en) * 2014-03-25 2015-10-01 シャープ株式会社 Interactive household-electrical-appliance system, server device, interactive household electrical appliance, method whereby household-electrical-appliance system performs interaction, and non-volatile computer-readable data recording medium having, stored thereon, program for executing said method on computer
JP2017532082A (en) * 2014-08-22 2017-11-02 エスアールアイ インターナショナルSRI International A system for speech-based assessment of patient mental status
JP6263308B1 (en) * 2017-11-09 2018-01-17 パナソニックヘルスケアホールディングス株式会社 Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program
JP2018025932A (en) * 2016-08-09 2018-02-15 ファナック株式会社 Work management system including sensor and mechanical learning part
JP6312014B1 (en) * 2017-08-28 2018-04-18 パナソニックIpマネジメント株式会社 Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program
JP2019133305A (en) * 2018-01-30 2019-08-08 東芝情報システム株式会社 Chaos gage correction device and program for chaos gage correction
JP2019535429A (en) * 2016-11-16 2019-12-12 インフィニットマインド, エルシーInfinite Mind, Lc Brain processing speed measuring device and method
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
JP2020184128A (en) * 2019-05-05 2020-11-12 Assest株式会社 Fatigue level determination program
JP2021500209A (en) * 2017-10-24 2021-01-07 ケンブリッジ コグニション リミテッド Systems and methods for determining physiological conditions
WO2021106825A1 (en) * 2019-11-25 2021-06-03 学校法人 慶應義塾 Disease prediction device, prediction model generation device, and disease prediction program
JP2021183173A (en) * 2017-07-25 2021-12-02 エレクタ、インク.Elekta, Inc. Radiotherapy planning with deep convolutional neural network
WO2021245728A1 (en) * 2020-06-01 2021-12-09 サスメド株式会社 Disease estimation system, teacher data acquisition device, and program for acquiring teacher data
WO2023095581A1 (en) * 2021-11-25 2023-06-01 株式会社CaTe Program, information processing device, and information processing method
US11826161B2 (en) 2017-11-02 2023-11-28 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium
US11896847B2 (en) 2020-02-07 2024-02-13 Elekta, Inc. Adversarial prediction of radiotherapy treatment plans
US11918372B2 (en) 2017-11-02 2024-03-05 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation system, method, and storage medium for dementia by analyzing voice of evaluatee for recognition, remembering or jugment capabilities

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199807A (en) * 2006-01-24 2007-08-09 Fuji Xerox Co Ltd Learning system and device, control method for computer, and program
WO2008096634A1 (en) * 2007-02-06 2008-08-14 Nec Corporation Health management system, health managing method, and health management program
WO2015146824A1 (en) * 2014-03-25 2015-10-01 シャープ株式会社 Interactive household-electrical-appliance system, server device, interactive household electrical appliance, method whereby household-electrical-appliance system performs interaction, and non-volatile computer-readable data recording medium having, stored thereon, program for executing said method on computer
JP2015184563A (en) * 2014-03-25 2015-10-22 シャープ株式会社 Interactive household electrical system, server device, interactive household electrical appliance, method for household electrical system to interact, and program for realizing the same by computer
US10224060B2 (en) 2014-03-25 2019-03-05 Sharp Kabushiki Kaisha Interactive home-appliance system, server device, interactive home appliance, method for allowing home-appliance system to interact, and nonvolatile computer-readable data recording medium encoded with program for allowing computer to implement the method
US10478111B2 (en) 2014-08-22 2019-11-19 Sri International Systems for speech-based assessment of a patient's state-of-mind
JP2017532082A (en) * 2014-08-22 2017-11-02 エスアールアイ インターナショナルSRI International A system for speech-based assessment of patient mental status
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
JP2018025932A (en) * 2016-08-09 2018-02-15 ファナック株式会社 Work management system including sensor and mechanical learning part
JP7136775B2 (en) 2016-11-16 2022-09-13 インフィニットマインド,エルシー Brain processing speed measurement device and method
JP2019535429A (en) * 2016-11-16 2019-12-12 インフィニットマインド, エルシーInfinite Mind, Lc Brain processing speed measuring device and method
JP2021183173A (en) * 2017-07-25 2021-12-02 エレクタ、インク.Elekta, Inc. Radiotherapy planning with deep convolutional neural network
WO2019044255A1 (en) * 2017-08-28 2019-03-07 パナソニックIpマネジメント株式会社 Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and program
US11766209B2 (en) 2017-08-28 2023-09-26 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation device, cognitive function evaluation system, and cognitive function evaluation method
JP6312014B1 (en) * 2017-08-28 2018-04-18 パナソニックIpマネジメント株式会社 Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program
JP2019040143A (en) * 2017-08-28 2019-03-14 パナソニックIpマネジメント株式会社 Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program
JP2021500209A (en) * 2017-10-24 2021-01-07 ケンブリッジ コグニション リミテッド Systems and methods for determining physiological conditions
US11918372B2 (en) 2017-11-02 2024-03-05 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation system, method, and storage medium for dementia by analyzing voice of evaluatee for recognition, remembering or jugment capabilities
US11826161B2 (en) 2017-11-02 2023-11-28 Panasonic Intellectual Property Management Co., Ltd. Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium
JP2019084249A (en) * 2017-11-09 2019-06-06 Phcホールディングス株式会社 Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program
JP6263308B1 (en) * 2017-11-09 2018-01-17 パナソニックヘルスケアホールディングス株式会社 Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program
JP2019133305A (en) * 2018-01-30 2019-08-08 東芝情報システム株式会社 Chaos gage correction device and program for chaos gage correction
JP2020184128A (en) * 2019-05-05 2020-11-12 Assest株式会社 Fatigue level determination program
WO2021106825A1 (en) * 2019-11-25 2021-06-03 学校法人 慶應義塾 Disease prediction device, prediction model generation device, and disease prediction program
US11896847B2 (en) 2020-02-07 2024-02-13 Elekta, Inc. Adversarial prediction of radiotherapy treatment plans
WO2021245728A1 (en) * 2020-06-01 2021-12-09 サスメド株式会社 Disease estimation system, teacher data acquisition device, and program for acquiring teacher data
JP7303595B1 (en) * 2021-11-25 2023-07-05 株式会社CaTe Program, information processing device, and information processing method
WO2023095581A1 (en) * 2021-11-25 2023-06-01 株式会社CaTe Program, information processing device, and information processing method

Similar Documents

Publication Publication Date Title
JP2004240394A (en) Speaker voice analysis system and server device used therefor, medical examination method using speaker voice analysis, and speaker voice analyzer
US10130292B2 (en) Method for analyzing stress based on multi-measured bio-signals
JP6263308B1 (en) Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program
US7315821B2 (en) System and method for health care information processing based on acoustic features
US10376197B2 (en) Diagnosing system for consciousness level measurement and method thereof
US20080045805A1 (en) Method and System of Indicating a Condition of an Individual
KR20180099403A (en) An On Line Psychology Counseling System And On Line Psychology Counseling Method Using The Same
US20130172693A1 (en) Diagnosing system for consciousness level measurement and method thereof
CN109637627A (en) Psychological consultation management system
CN115862868A (en) Psychological assessment system, psychological assessment platform, electronic device and storage medium
JP2021058573A (en) Cognitive function prediction device, cognitive function prediction method, program and system
KR100596099B1 (en) Psychosomatic diagnosis system
JP3764663B2 (en) Psychosomatic diagnosis system
KR20090027027A (en) Method for analyzing mental illness using biometric signal under cognitive stimuli
KR102458977B1 (en) Mental health diagnosis system
US20220005494A1 (en) Speech analysis devices and methods for identifying migraine attacks
US10820851B2 (en) Diagnosing system for consciousness level measurement and method thereof
WO2022176808A1 (en) Information processing system, information processing device, information processing method, and information processing program
JP3973434B2 (en) Information processing method, information processing system, information processing apparatus, computer program, and recording medium
KR102386604B1 (en) Tinnitus consultation support system
JP2002015071A (en) Health care system
KR100654135B1 (en) Mobile terminal for displaying emotion of old human by avata and the mobile service method using the same
Uraguchi et al. Evaluation of smart devices in the IoT segment using medical healthcare technology MIMOSYS
KR102458978B1 (en) Mental health analysis systems and methods
CN111613326A (en) Data processing method based on portable multifunctional detector

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100216