JP6909733B2

JP6909733B2 - 音声分析装置および音声分析方法

Info

Publication number: JP6909733B2
Application number: JP2018011410A
Authority: JP
Inventors: 隆金丸; 伸宏福田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2021-07-28
Anticipated expiration: 2038-01-26
Also published as: JP2019128531A

Description

本発明は、音声分析装置、及び音声分析方法に関するものである。

特許文献１では、「鶏舎において、病気に羅患した個体を早期に発見することができる監視システムを提供する。」ことを課題とし、「ニワトリの疾患の中では、呼吸器系に障害を起こす場合が多い。そこで、少なくとも３個以上のマイク１０と、マイク１０のそれぞれの出力から予め決められた周波数成分を分離するフィルタ２４と、フィルタ２４の出力とマイク１０の位置から、前記周波数成分を発生した地点を算出する制御装置３０と、前記算出された位置を指し示す指示装置４０を有し、呼吸器系の障害で生じる特有の音を検知し、その音が発生した位置を特定する鶏舎監視システムである。」技術を開示している。

特許文献２では、「本発明の音声解析装置は、音声取得部、周波数変換部、自己相関部、ピッチ検出部を備える。周波数変換部は、音声取得部で取り込んだ音声信号を周波数スペクトルに変換する。自己相関部は、周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。ピッチ検出部は、自己相関波形のローカルな山と山または谷と谷の間隔からピッチ周波数を求める。」技術を開示している。

特開２０１７−００００６２号公報国際公開番号ＷＯ２００６／１３２１５９号公報

人の咽喉部の異常の検出については従来、医者が患者と直接対話する中でその聴覚的印象から主観的に判断することが主流であり、定量的指標から推定する方法の実現が一課題として挙げられる。

音声の特徴から発話主体の病状や特性を推定することを目的とした技術的解決策の提案として、例えば、特許文献１には、少なくとも３個以上のマイクロホン（マイク）と、マイクのそれぞれの出力から予め決められた周波数成分を分離するフィルタと、フィルタの出力とマイクの位置から、周波数成分を発生した地点を算出する制御装置と、算出された位置を指し示す指示装置を有し、呼吸器系の障害で生じる特有の音を検知し、その音が発生した位置を特定する鶏舎監視システムの技術が開示されている。

また、特許文献２には、音声取得部、周波数変換部、自己相関部、ピッチ検出部を備え、周波数変換部が音声取得部で取り込んだ音声信号を周波数スペクトルに変換し、自己相関部が周波数スペクトルを周波数軸上でずらしながら自己相関波形を求め、ピッチ検出部が自己相関波形のローカルな山と山または谷と谷の間隔からピッチ周波数を求める音声解析装置の技術が開示されている。

以上の先行技術文献によれば、発話音声から音声特徴を定量的に把握できる可能性があるが、特許文献１では鶏の鳴き声を対象としており、単調な周波数分析結果のみから推定する方法を複雑な音素の変化を含む人の発話に適応することは困難と考えられる。また、特許文献２では、ピッチの推定を精度良く行う技術が示されているが、目的は感情を推定することであり嗄声やドライマウスといった口腔内の異常を推定するパラメータとしてピッチのみでは不十分と考えられる。

したがって、人の咽喉部の状態たとえば異常を容易に検出するためには、人の発話音声を対象として口腔内の乾き具合を精度良く推定する方法が必要である。本発明はこのような事情に鑑みてなされたものであり、精度良くドライマウス等を推定可能とする音声分析技術の提供を目的とする。

本発明の好ましい一側面は、発話音声を受信する音声受信部と、音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、音声分析処理部の算出した音声特徴量と第二の音声特徴量との差異を判定する特徴量比較部と、特徴量比較部の判定結果を出力する出力部と、を有し、音声分析処理部は、発話音声中の特定の母音を解析対象とし、音声特徴量として基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析装置である。

本発明の好ましい他の一側面は、発話音声を受信する音声受信ステップと、受信した発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、評価対象音声特徴量とリファレンス音声特徴量との差異を判定する特徴量比較ステップと、特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、音声分析ステップでは、発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析方法である。

本発明の技術により、口腔内の状態、たとえば、乾燥状態（ドライマウス）の早期検出を実現する。このほかの課題、構成および効果等は、以下の実施形態の説明により明らかにされる。

本発明の第一実施形態の音声分析装置１の外観およびシステム構成の一例を示す模式図。第一実施形態の音声分析装置１の構成の一例を示す機能ブロック図。第一実施形態におけるドライマウス検出処理の一例を示すフローチャート。第一実施形態における音声分析処理の一例を示すフローチャート。第一実施形態における周波数分析結果（波形）の一例を示す模式図。第一実施形態における音声分析結果の一例を示す表図。第一実施形態における乾燥度推定処理の一例を示すフローチャート。第一実施形態における特徴量比較処理の一例を示すフローチャート。第一実施形態におけるドライマウス検出結果の表示画面の一例を示す模式図。第一実施形態における特徴量比較処理方法を変更する処理の一例を示すフローチャート。本発明の第二実施形態の音声分析装置３の外観およびシステム構成の一例を示す模式図。第二実施形態の音声表示装置３の構成の一例を示す機能ブロック図。第二実施形態におけるドライマウス検出処理の一例を示すフローチャート。第二実施形態におけるドライマウス検出結果の表示画面の一例を示す模式図。

以下、本発明の実施形態について図面を用いて説明する。以下では、全図を通じて同一の構成に対しては同一の符号を付与して重複する説明を省略することがある。

本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

本明細書等における「第一」、「第二」、「第三」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

以下で説明する実施例では、発話音声の周波数的特徴を主要な変数として、精度良くドライマウスを推定可能とする音声分析技術を説明する。このために、例えば、発話音声を受信する音声受信部と、音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、音声分析処理部の算出した音声特徴量と第二の音声特徴量との差異を判定する特徴量比較部と、特徴量比較部の判定結果に応じて音声表示する音声表示部と、を有し、音声分析処理は、発話音声中の特定の母音を解析対象として基本周波数と共振周波数を求める処理を行う音声分析装置および分析方法が説明される。

熱中症による病院への救急搬送件数は夏場の外気温が年々上昇する傾向に相関して増加傾向にある。搬送の条件として多いのが、高齢者が自宅で倒れる場合である。高齢になると喉の渇きに鈍感になるという研究結果もあり、この救急搬送を防止するための一つの対策方法として、日常生活の中で熱中症が体に及ぼす変化をいち早くとらえ、本人に気が付かせることが有意義である。

また、例えば腎臓疾患に対する特定の治療薬においては強い利尿作用を持つものがあり、常用する場合にこまめな水分摂取を怠ると脱水症状を生じるばかりでなく、血液濃度が上昇することで別の病気を併発する危険性を高めてしまう恐れがある。そのため、早期に喉の渇きを検出して本人に水分補給を促すことで、薬の副作用の影響を低減ないし解消することが有意義である。

このほか、ストレスと喉の渇きには因果関係が有り、ストレス要因を取り除くという根本解決が困難な状況においては、喉の渇きの解消は併発の恐れがある症状の悪化を予防する対策の一つとして挙げられる。

以下では上記の社会課題解決に向け、人の発話音声からドライマウスの傾向を検出する音声分析装置および音声分析方法について記載する。

図１には音声分析装置の外観の一例を示す。これは例えば動物をモチーフとした人形の外観を有する音声分析装置１を、日常生活中の使用者の見守りや異常行動検知等に用いながら、使用者の発した音声データを取得・分析することで先の目的を達するものである。この音声分析装置１は使用者との簡易的な会話を行うために必要なマイクロホンやスピーカを含む電子回路部品などを内蔵しており、無線ネットワークの接続により通信装置２とのデータ送受信や制御を可能とする。音声分析装置１の外観上はマイクロホン（マイク）１０とスピーカ１１のみ表出しており、その他音声分析や音声表示に必要となる電子回路等は内蔵した例を記載している。なお、外観形状は動物に制限する必要はなく、使用者の身近に置けるものでよく、またマイク等以外の電子回路部品が表出していても良い。

通信装置２はいわゆるスマートフォンやタブレット型パーソナルコンピュータに相当し、表示画面２０には使用者に通知するメッセージを表示する。また、音声分析装置１の操作用のアプリケーションソフトウェアを搭載することで、例えば使用者の操作に応じて、音声分析装置１に操作コマンドを送信したり、動作状態を把握したりすることを可能とする。操作ボタン２１は、通信装置２の例えばホーム画面を呼び出すなどの操作を行う。なお通信装置２の操作方法はこの操作ボタン２１の使用に限らず、表示画面２０の表面に触覚を感知するセンサが搭載され、画面の接触操作で行う方法を有してもよい。

図２には音声分析装置１に内蔵されている、音声分析機能に関わる機能構成を示すブロック図を示す。当該構成は基本的に、入力装置、出力装置、処理装置、記憶装置を備えるコンピュータで構成することにした。

音声受信部１０１は、マイク１０からのアナログ音声入力をデジタル化して処理部１０２で扱えるようにする。処理部１０２は、音声分析装置１のデジタル処理全般を行う機能部である。音声受信部１０１、処理部１０２は、プログラムに基づく各種処理を行う処理装置である電子部品、例えばマイクロコンピュータチップやＣＰＵ（Central Processing Unit）、で構成することができる。処理部１０２は、音声データの分析処理や、データ保存部１０３やメモリ１０４へのデータの読み書き、その他各機能部とのデータ送受信などを行う。例えば通信部１０６を介して通信装置２からの制御データを受信する、もしくは音声データを音声出力部１０５へ送信するなどを行う。

データ保存部１０３、メモリ１０４は記憶装置である。データ保存部１０３は不揮発性メモリを有し、処理部１０２の指示に応じて不揮発性メモリ上へのデータの読み書きを制御する。例えば起動時に読み込まれ音声受信部１０１や処理部１０２が使用するプログラムや、使用者個人に紐づく音声特徴量データ（平常時データ２００１）や、後に説明する判定処理に必要な閾値データである長さ閾値２００２，強度閾値２００３，判定閾値２００４などが記録される。メモリ１０４は揮発性メモリであり、処理部１０２での処理に必要な、前記の一連のデータ（プログラム、特徴量データ、閾値データ）を展開したり、一時的に蓄積が必要なデータを書き込み・読み出したりする用途で使用される。

出力装置（出力部）である音声出力部１０５は例えばあらかじめデータ保存部１０３やメモリ１０４に記録された音声データや、処理部１０２が音声合成処理を行った音声データを受信し、スピーカ１１への音声出力処理を行う。入力及び出力装置である通信部１０６は近接通信を行うアンテナを有し、通信装置２とのデータ送受信を制御する。

上記の説明では、処理や制御等の機能は、データ保存部１０３に格納されたプログラムがマイクロコンピュータのＣＰＵによって実行されることで、定められた処理を他のハードウェアと協働して実現されることにした。

ただし、これらの機能はいずれもハードウェア回路として機能を有するのでも、プログラムとして実装され処理させるのでも良い。たとえば本実施例中、ソフトウェアで構成した機能と同等の機能は、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェアでも実現できる。

また、以上の構成は、上記説明のように音声分析装置１に内蔵した単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワーク等で接続された他のコンピュータで構成されてもよい。たとえば、音声受信部１０１で取得した音声信号を、通信部１０６からネットワークを介して遠隔にあるサーバに送信し、サーバ内に設けた処理部１０２やメモリ１０４等で処理することも可能である。あるいは同様の処理を、通信装置２で行なってもよい。

図３には音声分析装置１に使用者の音声入力があった場合の処理シーケンスを示す。使用者の音声入力とは、例えば一つの文章構造を持った使用者の発話動作や呼びかけの語句等であり、音声分析装置１が音声を検知した後、一定長の無音区間の検出をもってして入力が完了したと認識し、一回の入力が完了する毎に本処理シーケンスを繰り返して処理を行う。

ステップ(以降Ｓと表記)３０１の音声取得処理では、マイク１０を通して音声受信部１０１にて使用者の音声データを取得する。時間的離散化(サンプリング)処理や量子化処理(アナログからデジタルデータへの変換)や必要に応じて一般的な手法を用いたノイズ除去処理等を行い、使用者の発話音声のデジタル信号を得て処理部１０２へ転送し、Ｓ３０２へ進む。サンプリング処理や量子化処理の精度は一般的に流通している音声フォーマットに従えば良いが、処理を細かく行うほど精密な処理が可能となる一方で必要なメモリ量が多くなるため、装置構成に適した設定を行うので良い。

音声取得処理Ｓ３０１のタイミングとしては、例えば別途設けた音声センサにより、音声の入力を検知したタイミングで処理を開始するようにすることができる。あるいは、音声分析装置１のスピーカ１１や通信装置２から、任意あるいは定期的なタイミングで、発話を促すメッセージを発することにより処理を開始するようにしてもよい。

Ｓ３０２の母音部分抽出処理では、処理部１０２が入力された音声デジタル信号の音素解析を行いＳ３０３へ進む。音素への分解は、言語によっても音素セットが異なり、例えば日本語であれば、一般的に母音となる5音(発音記号表記では/a/、/i/、/u/、/e/、/o/)を音声波形から検出する。英語の場合には諸説あるものの一例としては15音(発音記号表記を表１に示す)を対象とするなどがある。

15音のうちで舌面高低位置と舌面最高部の前後位置が同じ音韻(例えば表２参照)については同一視して検出対象とするなどして簡略化を図るなどしても良い。

音素の検出方法には、例えば予め各母音の一般的な波形をプログラムの一部としてデータ保存部１０３に記録しておき、入力波形との類似度で判定することで母音を検出するといった方法がある。近年では入力された音声データの文章を音素に分解するソフトウェアやＡＰＩ(Application Programming Interface)なども存在し、これらを機能に組み込むことでも容易に実現可能である。

Ｓ３０３の解析対象有無判定処理では、処理部１０２は、音素分解した結果に、母音が含まれていれば解析すべき対象のデータ有りと判断してＳ３０４に進み、そうでない場合は解析すべき対象のデータ無しと判断し処理を終了する。例えば、取得した発話内容が、日本語で「おはようございます」だった場合、この文章には母音として「お(/o/)」と「い(/i/)」が含まれており、解析対象有りと判断する。発話の全部を用いずに、母音部分を抽出することにより、プライバシーに配慮が可能となると同時に、発話の特徴を解析しやすくなり、発話者の状態を容易に判定することができるようになる。

Ｓ３０４の音声分析処理では、検出された各母音の全てに対して母音データの先頭を解析開始点に設定して図４に示す処理を行いＳ３０５へ進む。

図４は、図３のＳ３０４の音声分析処理の詳細を示す。図４の音声分析処理は、Ｓ３０２で抽出された母音部分のデータのそれぞれについて行なわれる。音声分析処理は、処理部１０２に含まれる、音声分析処理部が行なうものとする。

Ｓ４０１のデータ長判定処理では、処理部１０２が選択された母音データに対して、解析開始点からのデータの長さ（フレーム長）が解析を行うのに十分な長さを有するかどうかを判定する。判定のための長さ閾値２００２は例えば10ミリ秒のような時間長の表現や882バイトのようなデータ長の表現を用いて良く、プログラムの一部として予めデータ保存部１０３に記録され、起動時にメモリ１０４に展開して使用する。十分な長さを有する場合にはＳ４０２へ進み、十分な長さに不足する場合にはＳ４０７へ進む。

Ｓ４０２の音の強さ解析処理では、Ｓ４０１で例えば10ミリ秒のように予め定められたフレーム長のデータに対して、処理部１０２は波形の振幅の平均値を音声強度（インテンシティもしくはボリュームともいう）として算出し、メモリ１０４に記録してＳ４０３へ進む。

Ｓ４０３の周波数解析処理では、処理部１０２が予め定められたフレーム長のデータに対しフーリエ変換を行い周波数スペクトルを算出し、Ｓ４０４へ進む。なお、フーリエ変換を行う際にはデータの端点の不連続性に配慮して窓関数を用いることがあるが、一般的な窓関数としてハミング窓やハニング窓を用いることで良い。

図５には周波数解析結果の一例を示した。横軸に周波数（ｋHz)、縦軸に強度(パワー）（任意単位)を取ってグラフ化すると、音声波形は一般的に櫛形状の波形(図中の実線)となる。

図４に戻り、Ｓ４０４の基本周波数（ピッチ）推定処理では、処理部１０２が基本周波数を算出し、メモリ１０４に記録してＳ４０５へ進む。基本周波数の算出方法としては、例えば、Ｓ４０３で得られる櫛形状の波形の最も低周波のピーク値を選択する方法や、所定の周波数帯域における櫛形状波形のピークとピークの間隔を求め、その平均値として求める方法等がある。図５の例示では最低周波数のピークと２番目に低い周波数のピークとの差分をF0として示している。

Ｓ４０５の共振周波数推定処理では、処理部１０２がＳ４０３で得られた周波数特性の波形に対して例えばケプストラム法や線形予測分析法（Linear Prediction Coding）といった手法を適用してスペクトル包絡を算出し、包絡線のうちで最も低周波のピーク値と二番目に低周波のピーク値を、第一共振周波数と第二共振周波数としてメモリ１０４に記録してＳ４０６へ進む。図５中では破線でスペクトル包絡線を示し、第一共振周波数となる点にF1、第二共振周波数となる点にF2と示す。F1、F2のようなピーク値はフォルマントと呼ばれ、発話者によって特定の値をとるが、一般に発話中も時間にともなって変化する。また、発話者のドライマウス等の状態によっても変化し、この変化は基本周波数や共振周波数の平均値や分散値の変化を計算することにより検知することができる。

Ｓ４０６の解析場所移動処理では、処理部１０２が例えば10ミリ秒など予め定めた時間間隔（フレーム更新周期）分だけＳ４０２〜Ｓ４０５に示す解析の開始位置を変更してＳ４０１へ進む。すなわち、母音として抽出した音声信号の範囲に対して、所定のフレーム更新周期ずつ解析位置をずらして繰り返し解析処理を行う。

Ｓ４０７の結果保存処理では、処理部１０２はＳ４０３〜Ｓ４０５を繰り返し実施した結果（時間、音量の大きさ、基本周波数、共振周波数の全ての組み合わせ）から特徴量を算出し、メモリ１０４に記録して処理を終了する。具体的な例では、音量の大きさが一定以上（例えば60dB以上)の時間における基本周波数、第一共振周波数、第二共振周波数の平均値および分散値を求め、これを解析対象の母音の音響特徴量として記録する。

図６は、音声分析結果である特徴量を示すデータの一例である。図６では各母音について、基本周波数、第一共振周波数、第二共振周波数それぞれの平均と分散を記録している。なお、データ保存部１０３には、これに対応した、例えば同様の表形式のリファレンスとなる特徴量が平常時データ２００１としてあらかじめ記録されている。これは、例えば使用者の平常時の発話から採取した特徴量である。

なお、音量の大きさが低い場合、声量が小さく基本周波数が検出できなくなる懸念があり、音量の大きさを一定以上とすることで、明瞭な音響特徴を得ることを可能とする効果がある。この場合、音量の強度閾値２００３を用いて、十分な強度の音声信号のみを解析に利用する。ただし明瞭な特徴を得るための音量の強度閾値２００３の設定については個人差もあるため、例えば初期設定ではあらかじめ低く設定しておき、検出の成否率に応じて少しずつ高く設定値を変更するといった、強度閾値２００３を可変とする方法としても良い。

図７は、図３のＳ３０５の乾燥度推定処理の詳細を示す。Ｓ３０５の乾燥度推定処理では、Ｓ３０４で得られた全母音に対する特徴量データに対して図７に示す処理を行い、図３の処理を終了する。

図７において、Ｓ５０１の平常データ取得処理では、処理部１０２はデータ保存部１０３よりあらかじめ取得し保存される、使用者の平常時の状態における各母音の特徴量データである平常時データ２００１を取得してＳ５０２へ進む。

Ｓ５０２の特徴量比較処理では、処理部１０２は今回取得した各母音データの特徴量データとＳ５０１で取得した平常時の特徴量データの比較を実施する。

図８に、図７の特徴量比較処理手順Ｓ５０２の一例を示す。特徴量比較処理は、処理部１０２に含まれる、特徴量比較部が行なうものとする。Ｓ６０１の母音種別判定処理では、処理部１０２は、対象の母音があらかじめプログラムなどで定められた所定の母音情報である場合は解析対象と判断しＳ６０２へ進み、その他の母音の場合は比較処理を実施しない。例えば、取得した母音データが「い(/i/)」と「え(/e/)」であれば解析対象とし、それ以外であれば解析対象としない。対象の母音については、データ保存部１０３に対応したリファレンスとなる特徴量が記録されており、Ｓ５０１で当該データが取得されている。

Ｓ６０２の基本周波数比較処理では、処理部１０２が基本周波数の平均値を比較し、所定の値以上の差分がある場合は有意差ありと判断してＳ６０３へ進み、差分が所定の値より小さい場合には有意差なし（無効）と判断してＳ６０５へ進む。この判断のために、データ保存部１０３に格納された判定閾値２００４を用いる。判定に用いる判定閾値２００４の値については、例えば30Hzといった一定の周波数での表現や、あるいは、20%といった割合での表現がある。

Ｓ６０３の共振周波数比較処理では、処理部１０２が第一共振周波数の分散値を比較し、所定の値以上の差分がある場合は有意差ありと判断してＳ６０４へ進み、差分が所定の値より小さい場合には有意差なし（無効）と判断してＳ６０５へ進む。この判断のために、データ保存部１０３に格納された判定閾値２００４を用いる。判定に用いる判定閾値２００４の値については、例えば50といった値での表現や、あるいは、対象の母音データのそれまでの分散の確率分布をあらかじめ算出しておき、分布の80%に収まる範囲といった割合による表現がある。

Ｓ６０２、Ｓ６０３における処理は、算出された基本周波数の平均値や共振周波数の分散値を、定常状態におけるそれと比較する処理となる。基本周波数の平均値や共振周波数の分散値のデータは、Ｓ４０４、Ｓ４０５、Ｓ４０６にて解析場所を少しずつずらしながら取得した複数のデータから、Ｓ４０７で、これら複数のデータの平均値および分散値を算出し、その結果を特徴量として記録しておき、Ｓ６０２、Ｓ６０３で使用する。

以上では、平常時の音声データの基本周波数の平均値をリファレンスとして、音声分析処理部が求めた基本周波数の平均値とリファレンスの差分が、所定の閾値より大きいかどうかを判定した。また、平常時の音声データの共振周波数の分散値をリファレンスとして、音声分析処理部が求めた共振周波数の分散値とリファレンスの差分が、所定の閾値より大きいかどうかを判定した。この例では、両方の結果がともにYESのときに、ドライマウスと判定している。このような判定方法によれば、ドライマウスかどうかの判定を効率的に行なうことができる。

本実施例では、判定閾値２００４は、基本周波数の平均値と共振周波数の分散値のそれぞれに対して設定されている。上記の例では、基本周波数の平均値と共振周波数の分散値をパラメータとして判定を行なっているが、他のパラメータを追加することを妨げるものではない。

Ｓ６０４の差異有効判定処理では、処理部１０２は比較した母音について最終的に有意差あり（有効）と判断してＳ６０５へ進む。

Ｓ６０５の結果保存処理では、処理部１０２は有意差の有効・無効の結果をメモリ１０４へ記録して処理を終了する。

以上の図８の処理を各母音について繰り返し、メモリ１０４に記録されている直近の所定の個数の特徴量比較処理結果のうち、一定の割合以上で差異有効と判断されている場合は、ドライマウスの症状を検知したと判断してＳ５０３へ進む。例えばメモリ１０４上に常に最新の10個の特徴量比較処理結果を保存しておき、このうちの8割以上で有効と判断した場合に検知の判断を行う。

Ｓ５０３のメッセージ表示処理では、処理部１０２は通信部１０６を介して通信装置２に対して使用者にドライマウスの可能性を示唆するメッセージを送信する処理を行いＳ５０４へ進む。

図９に、通信装置２の表示画面２０におけるメッセージ表示画面の例を示す。これについては、後に再度説明する。

Ｓ５０４の音声出力処理では、処理部１０２はデータ保存部１０３に予め記録されている、もしくはメモリ１０４上に予め展開された音声データより、この場合に再生する音声データ情報を読み出し、音声出力部１０５へ転送して処理を終了する。音声出力部１０５は受信した音声データ情報を再生し、スピーカ１１に出力して使用者にメッセージを通知する。

以上の実施内容によれば、口腔内の乾燥を早期に発見して使用者に気が付かせる効果が得られ、使用者が自ら水分補給をするなどの行動を促し乾燥状態から回復する、あるいは悪化を防ぐ効果が得られる。また、以上の実施内容によれば、母音のみを抽出して解析を行うため、発話内容全体を把握する必要性が無く、プライバシーに配慮した処理を実現する効果が得られる。基本周波数の比較について平均値を用いることは、乾燥による声門や声帯部の剛性の変化による基本周波数の変化を良く反映する効果がある。また、共振周波数の比較については分散値を用いるが、口腔内の共鳴現象の変化については平均値のみでの判断が難しく、分散値を使用することで変化を良く検出できる効果が得られる。

なお、図８に示した特徴量比較処理について、母音種別判定処理において比較対象とする母音の選択が例えば「あ(/a/)」と「い(/i/)」と「え(/e/)」のように異なってもよく、あるいは発話の語頭や語尾は変化が大きいため、処理対象から除外するようにしてもよい。

また、基本周波数比較処理において基本周波数の分散値を比較して、平均値と両方の差分がそれぞれ個別の一定値以上であることを評価してもよく、あるいは、基本周波数の変動が著しく大きい(分散が大きい)場合は使用者の作為的な音色の変化である可能性があるため、比較対象から外すように処理してもよい。

また、本実施例および図６では母音毎に基本周波数の情報を記録するようにしているが、基本周波数は声門および声道といった音により大きく変化しない部位の特徴量であるため、全母音に対して一つの値を記録するようにしても良い。また、共振周波数比較処理Ｓ６０３において、第二共振周波数の分散値の比較も行い、第一共振周波数の分散値と第二共振周波数の分散値の両方の差分が、それぞれ個別の一定の値以上であることを評価してもよい。あるいは、第一、第二共振周波数と同様に第三共振周波数以上を算出して、その特徴量の差分比較結果を組み合わせてもよい。

このような例のように特徴量比較処理については様々なアルゴリズムによってドライマウス検出の精度を向上させる効果が期待でき、個人の特性によって、最も良く検出が実現できる手法を選別するのでもよい。

図７にて述べた平常時の音声特徴量である平常時データ２００１の取得については、様々な方法が考えられる。例えば、使用者が音声分析装置１を入手直後に行う初期設定の一環として、音声取得部やマイクの機能テストが必要である場合がある。この機能テストの際に、一つないし複数の解析対象となる母音を含む定型文章を音声分析装置１に対して発話させ、図３から図４に記載した特徴量抽出処理を行うことで、その分析結果を平常状態における音声特徴量（平常時データ２００１）としてデータ保存部１０３に記録することができる。あるいは、音声分析装置１起動後に、全ての、ないし、所定回数の母音毎の特徴量抽出処理結果に対して平均値を算出することで、平常時の音声特徴量とすることもできる。

長期的に音声分析装置を使用することを想定した場合、フォルマントは性差や個人の成長の過程においても緩やかに変化することが知られている。そのため、平常時の特徴量データを可変とする必要性が考えられる。その方法としては例えば、上記特徴量比較処理にて一定回数連続して差異無しと判定した際の母音の特徴量データについては、その平均値を新たな平常時の特徴量データとして、処理部１０２はデータ保存部１０３に記録された平常時データ２００１を上書きする。このような処理を組み込むことで、緩やかに変化する個人の特性に対応したドライマウスの検出手法が実現できる効果が得られる。

図９はＳ５０３に記載したメッセージ表示処理の結果、通信装置２の画面上に通知されるメッセージ表示方法の一例である。通信装置２の表示画面２０上には、メッセージを表示するメッセージ本文表示欄８０１、メッセージが適切であったかどうかを評価してもらうメッセージ評価部８０２が表示される。使用者が適切ボタン、あるいは不適正ボタンを押下した評価結果は通信装置２から音声分析装置１へ通知する。なお、図９に示した表示処理は一例であり、使用者に状況を説明するために、音声、振動、光、音など他の情報伝達手段を用い、あるいは併用することも可能である。

図１０には、判定結果を受信した音声分析装置１における特徴量比較処理方法Ｓ５０２を変更する手順を示す。

Ｓ９０１の評価情報取得処理では、処理部１０２がメモリ１０４より特徴量比較に用いた判定閾値２００４、たとえば基本周波数比較処理の判定閾値や共振周波数比較処理の判定閾値を読み出してＳ９０２へ進む。

Ｓ９０２の特徴量修正処理では、処理部１０２が判定閾値２００４を例えば一定の割合で増加もしくは減少させた値で更新し、メモリ１０４ないしデータ保存部１０３が有する値を更新して処理を終了する。例えば、音声分析装置１の判定がドライマウスであるのに、使用者の評価が「不適切」である場合には、閾値を増加させるなどする。またこの時、それまでの解析結果と今後の解析結果とは判断基準が異なることから、メモリ１０４上に保存されている過去の母音の特徴量比較結果について破棄するなどしても良い。

上記実施例では簡便な説明のため使用者が1名の想定で処理を記載したが、例えば使用者が複数人いる場合においても、音声分析処理の最初ないし途中にいずれの使用者の発話であるかの判定処理を含め、発話者毎に比較処理に用いる音声特徴量データ（平常時データ２００１）や閾値データ（判定閾値２００４）をデータ保存部１０３に記録しておくことで全使用者に対して同様の分析処理を実現可能であり、また、表示メッセージ上に対象となった使用者名を明記することで、ドライマウスを早期検出し使用者に気付かせる効果を実現可能である。複数人の発話が同時に重複して入力された場合においても、音声分析処理の最初に発話内容を分離する処理を実施することで上記処理を実現可能である。なお、一般的な発話内容の分離処理方法としてＤＮＮ (Deep Neural Network)を応用した手法などがある。

また、本実施例で説明した音声分析装置１は、さらに使用者を見守る機能の一環としてカメラを備えるなどの機能を有するのでも良い。カメラ画像を用いることで、誰がどのくらいの距離から発話しているかが判別できるため、より確実な音量の推定を可能にしたり、複数の使用者がいる場合に誰についての解析を行うかの判別を容易にしたりするなどの効果が得られる。

以上で説明した図３、図４、図５、図８の処理シーケンス内の各処理は、適宜処理順序を入れ替えることも可能である。例えば、図４の基本周波数推定Ｓ４０４と共振周波数推定Ｓ４０５の順序は入れ替えても良い。

図１１には第二の実施形態として、家庭内に設置して家電を音声によって制御したり、使用者からの問い合わせについてネットワーク上の情報を収集して回答したりする音声分析装置３（例えば、人工知能搭載スピーカ、ホームコントロール端末と言われる）の外観の一例を示す。

音声分析装置３は以下の構成を持つ。３０は電源ボタンであり、音声分析装置３の起動・動作終了を操作する。３１は操作ボタン(上)であり、スピーカ機能使用時の音声出力の音量を大きく変化させる、あるいは本体表示画面３５に操作メニュー等を表示時、選択カーソルを上方向に動かす。３２は操作ボタン(下)であり、スピーカ機能使用時の音声出力の音量を小さく変化させる、あるいは本体表示画面３５に操作メニュー等を表示時、選択カーソルを下方向に動かす。３３は選択／決定ボタンであり、操作時のホーム画面を呼び出す、あるいは本体表示画面３５に操作メニュー等を表示時、カーソルが指し示すメニュー項目を選択する操作を行う。

３４は複数のマイク(マイクロホンアレイ)であり、いずれの方向からでも使用者の発話を検出することが可能である。３５は本体表示画面であり、操作メニューや音声分析装置３から使用者に伝えたいメッセージを文章で表示する。３６はインジケータランプであり、音声分析装置３の稼働状態や未読メッセージの有無などの状態を色によって使用者に通知する。例えば電源OFF時は無発光、起動後は青色点灯、発話を受け付けている最中は緑色点灯などと切り替える。なおインジケータランプの形状はこの図の例に限らず、例えばスピーカの淵に沿って全周囲に配置する等、360度いずれの方向からでも発色が認識できる形状としても良い。３７はスピーカであり、使用者との会話やメッセージを音声として出力する。複数個のスピーカを組み合わせて360度いずれの方向にも明瞭に音声が届くような形状として良い。

通信装置２は第一の実施形態の説明と同様であり、音声分析装置３とデータの送受信を行い、使用者にメッセージを通知する
図１２には音声分析装置３の機能構成を示す。音声受信部１０１はマイク３４で受信したデータをデジタルデータに変換して処理部１０２へ送信する。マイクを複数の構成(マイクロホンアレイ)にした場合、一般に公開されている音源位置検出の技術や、雑音を抑圧する技術等を導入することで、音声分析装置３から離れた場所からの発話についても確実に発話内容を取得することが可能である。

処理部１０２は、第一の実施形態に加え、操作受信部１０７、温度センサ１０８、湿度センサ１０９から情報を取得する機能や表示部１１０に使用者に通知するメッセージのデータを送信する機能を有する。温度センサ１０８、湿度センサ１０９からデータ受信した場合、メモリ１０４に最新の値として記録する。また操作受信部１０７より使用者の機器操作情報を受信した場合には、押下されたボタンの種別に応じて、適宜処理を行う。例えば、電源のＯＮ／ＯＦＦを行ったり、表示部１１０に表示内容を更新するよう指示したりする。

データ保存部１０３およびメモリ１０４は第一の実施形態と同様である。音声出力部１０５はスピーカ３７を通じ、使用者に対する音声出力を行う。通信部１０６は第一の実施形態と同じく、近接通信を行うアンテナを有し、通信装置２とのデータ送受信を制御する。操作受信部１０７は、図１１に示したボタン群（電源ボタン３０、操作ボタン３１、操作ボタン３２、選択／決定ボタン３３）が押下された場合にそれを処理部１０２へ通知する。

温度センサ１０８、湿度センサ１０９は外環境の温度および湿度を検知して処理部１０２へ定期的に送信する機能を有する。検出ならびに送信の間隔は例えば1秒毎などと設定する。表示部１１０は本体表示画面３５に処理部１０２より受信した文字列データを表示するように制御し、処理部１０２より受信した装置の状態情報に応じてインジケータランプ３６の点灯や発色を制御する。

図１３には音声分析装置３に使用者の音声入力があった場合の処理シーケンスを示す。使用者の音声入力の定義については、第一実施形態と同様である。

Ｓ１２０１のセンサデータ取得処理では、処理部１０２は定期的に更新された温度センサ１０８と湿度センサ１０９の温度・湿度計測結果をメモリ１０４より取得してＳ１２０２へ進む。

Ｓ１２０２の実施判定処理では、処理部１０２は温度・湿度計測結果からドライマウス検出処理が必要かどうかを判断する。判断方法としては、温度と湿度のいずれかが所定の値を超えている場合（例えば温度が摂氏27.0度以上、湿度が70%以上）に必要と判断し、それ以外では不要とする。あるいは温度と湿度の相関より暑さ指数値（Wet-Bulb Globe Temperature）を推定し、結果が一定値(例えば摂氏25度)以上である場合に必要、一定値未満である場合は不要とするなどで良い。ドライマウス検出処理が必要と判断した場合はＳ１２０３の分析処理へ進み、処理不要と判断した場合は処理を終了する。

Ｓ１２０３の乾燥度推定処理では、第一実施形態の図３〜図７を用いて説明したドライマウス検出処理を実施して処理を終了する。ただし、Ｓ５０３におけるメッセージ表示処理においては、処理部１０２は上記処理内容に併せて本体表示画面３５に使用者に対するメッセージ表示処理を、またインジケータランプ３６をメッセージがあることを知らせる点灯方式(例えば赤色の点滅等)に変更する処理を行う。

図１４には表示画面例を示す。本体表示画面３５には、メッセージ表示部１３０１が表示され、使用者に熱中症になる危険性と水分補給を促すメッセージを記載する。またボタン操作説明表示部１３０２が表示され、使用者に適切なボタン操作を促す。

以上の実施例により、家庭環境において熱中症が生じやすい環境になったことを検知してドライマウス検出処理を行うことで使用者の熱中症にかかるリスクを早期に回避する効果が得られる。また、端末の表示部にメッセージを表示することにより、通信装置２が無くても音声分析装置３単体で使用者に乾燥状態に気が付かせる効果が得られ、使用者が自ら水分補給をするなどの行動を促し乾燥状態の悪化を防ぐ効果が得られる。

なお、上記の構成例では温度センサ１０８と湿度センサ１０９を別の構成要素として記載しているが温湿度センサとして一つに統合して処理するのでも良い。また、温度や湿度の情報を別の手法で取得してもよく、例えば、音声分析装置３とネットワークを介してデータ通信可能な温度と湿度を計測可能な機器がある場合、処理部１０２が通信部１０６を介して当該機器へ問い合わせることで温度と湿度の情報を入手する、あるいは常時当該機器から温度と湿度の情報を定期的に受信して入手するなどして、上記の制御に用いることでも同様の実施内容が実現でき、同様の効果を得られる。また、Ｓ１２０２の実施判定処理で、温度と湿度の情報の両方を用いるほか、一方のみを用いてもよい。あるいは、他のセンサデータを追加して用いてもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した非一時的記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが非一時的記憶媒体に格納されたプログラムコードを読み出す。この場合、非一時的記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した非一時的記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

以上の実施例に拠れば、使用者の発話音声を取得しデジタルデータに変換した音声データに対して、音素解析により母音部分を抽出し、抽出された母音部分について所定の時間長のデータ毎の周波数解析を行い、音響特徴量（音量、基本周波数、共振周波数）を求める。求めた音響特徴量は予め記録されている平常時の音響特徴量と比較する。比較の結果の時系列が継続的に差分の大きな状態である場合、口腔内の乾燥状態（ドライマウス）であると推定しメッセージを通知することで、早期発見する効果が得られ、使用者が自ら水分補給をするなどの行動を促し乾燥状態から回復させる効果が得られる。

１：音声分析装置、２：通信装置、１０：マイクロホン、１１：スピーカ、２０：表示画面、３０：電源ボタン、３１：操作ボタン（上）、３２：操作ボタン（下）、３３：選択／決定ボタン、３４：マイクロホン、３５：本体表示画面、３６：インジケータランプ、３７：スピーカ、１０１：音声受信部、１０２：処理部、１０３：データ保存部、１０４：メモリ、１０５：音声出力部、１０６：通信部、１０７：操作受信部、１０８：温度センサ、１０９：湿度センサ、１１０：表示部、８０１：メッセージ本文表示欄、８０２：メッセージ評価部、１３０１：メッセージ表示部、１３０２：ボタン操作説明表示部

Claims

発話音声を受信する音声受信部と、
前記音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、
第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、
前記音声分析処理部の算出した音声特徴量と前記第二の音声特徴量との差異を判定する特徴量比較部と、
前記特徴量比較部の判定結果を出力する出力部と、を有し、
前記音声分析処理部は、前記発話音声中の特定の母音を解析対象とし、前記音声特徴量として基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析装置において、
前記データ保存部は、前記第二の音声特徴量として、前記第二の音声データの基本周波数の平均値を平均値リファレンスとして保存し、
前記特徴量比較部は、音声分析処理部が求めた基本周波数の平均値と前記平均値リファレンスの差分が、所定の閾値より大きいことを第一の判定結果とし、
前記データ保存部は、前記第二の音声特徴量として、前記第二の音声データの共振周波数の分散値を分散値リファレンスとして保存し、
前記特徴量比較部は、音声分析処理部が求めた共振周波数の分散値と前記分散値リファレンスの差分が、所定の閾値より大きいことを第二の判定結果とし、
前記第一の判定結果と前記第二の判定結果がともに満たされた場合に、最終的な判定結果とすること、を特徴とする音声分析装置。
請求項１に記載の音声分析装置において、
前記音声分析処理部は、前記発話音声中の特定の母音における時間的に異なる複数の解析場所において、基本周波数と共振周波数を求める処理を行ない、
前記複数の解析場所における基本周波数の平均値と、共振周波数の分散を、前記音声特徴量として求めること、を特徴とする音声分析装置。
請求項１または２に記載の音声分析装置において、
前記音声分析処理部は、所定以上の長さを有する前記音声データを解析対象とすること、を特徴とする音声分析装置。
請求項１ないし３のうちいずれかに記載の音声分析装置において、
前記音声分析処理部は、所定以上の強度を有する前記音声データを解析対象とすること、を特徴とする音声分析装置。
請求項１ないし４のうちいずれかに記載の音声分析装置において、
利用者からの入力を受け付ける入力部を有し、
前記入力部は、前記出力部が出力した前記特徴量比較部の判定結果に対応する前記利用者からの入力を受付け、
前記入力に応じて前記特徴量比較部で用いる閾値の値を変更すること、を特徴とする音声分析装置。
請求項１ないし５のうちいずれかに記載の音声分析装置において、さらに、
温度を検出する温度検出部と、
湿度を検出する湿度検出部と、を有し、
前記温度検出部と前記湿度検出部の検出結果が所定の閾値より大きい場合に、前記音声分析処理部および前記特徴量比較部の処理を開始することを特徴とする音声分析装置。
発話音声を受信する音声受信部と、
前記音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、
第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、
前記音声分析処理部の算出した音声特徴量と前記第二の音声特徴量との差異を判定する特徴量比較部と、
前記特徴量比較部の判定結果を出力する出力部と、を有し、
前記音声分析処理部は、前記発話音声中の特定の母音を解析対象とし、前記音声特徴量として基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析装置において、
前記音声分析処理部は、前記発話音声中の特定の母音における時間的に異なる複数の解析場所において、基本周波数と共振周波数を求める処理を行ない、
前記複数の解析場所における基本周波数の平均値と、共振周波数の分散を、前記音声特徴量として求めること、を特徴とする音声分析装置。
発話音声を受信する音声受信部と、
前記音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、
第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、
前記音声分析処理部の算出した音声特徴量と前記第二の音声特徴量との差異を判定する特徴量比較部と、
前記特徴量比較部の判定結果を出力する出力部と、を有し、
前記音声分析処理部は、前記発話音声中の特定の母音を解析対象とし、前記音声特徴量として基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析装置において、
利用者からの入力を受け付ける入力部を有し、
前記入力部は、前記出力部が出力した前記特徴量比較部の判定結果に対応する前記利用者からの入力を受付け、
前記入力に応じて前記特徴量比較部で用いる閾値の値を変更すること、を特徴とする音声分析装置。
発話音声を受信する音声受信部と、
前記音声受信部が受信した音声データを分析して音声特徴量を算出する音声分析処理部と、
第二の音声データの分析結果からなる第二の音声特徴量を保存するデータ保存部と、
前記音声分析処理部の算出した音声特徴量と前記第二の音声特徴量との差異を判定する特徴量比較部と、
前記特徴量比較部の判定結果を出力する出力部と、を有し、
前記音声分析処理部は、前記発話音声中の特定の母音を解析対象とし、前記音声特徴量として基本周波数と共振周波数を求める処理を行うこと、を特徴とする音声分析装置において、さらに、
温度を検出する温度検出部と、
湿度を検出する湿度検出部と、を有し、
前記温度検出部と前記湿度検出部の検出結果が所定の閾値より大きい場合に、前記音声分析処理部および前記特徴量比較部の処理を開始することを特徴とする音声分析装置。
発話音声を受信する音声受信ステップと、
受信した前記発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、
リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、
前記評価対象音声特徴量と前記リファレンス音声特徴量との差異を判定する特徴量比較ステップと、
前記特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う音声分析方法であって、
前記リファレンス音声特徴量は、前記リファレンスとなる音声データの、基本周波数の平均値と、共振周波数の分散値を含み、
前記特徴量比較ステップでは、前記平均値に対応する平均値閾値と、前記分散値に対応する分散値閾値を用い、
前記特徴量比較ステップでは、前記音声分析ステップで求められた基本周波数の平均値と、前記リファレンス音声特徴量に含まれる基本周波数の平均値の差を、前記平均値閾値と比較し、
前記特徴量比較ステップでは、前記音声分析ステップで求められた共振周波数の分散値と、前記リファレンス音声特徴量に含まれる共振周波数の分散値の差を、前記分散値閾値と比較し、
前記基本周波数の平均値の差が前記平均値閾値を超え、かつ、前記共振周波数の分散値の差が前記分散値閾値を超えている場合、前記結果出力ステップを実行すること、を特徴とする音声分析方法。
発話音声を受信する音声受信ステップと、
受信した前記発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、
リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、
前記評価対象音声特徴量と前記リファレンス音声特徴量との差異を判定する特徴量比較ステップと、
前記特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う音声分析方法であって、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う際に、
前記発話音声中の前記特定の母音が含まれている母音部分を抽出する母音部抽出ステップと、
前記母音部分が所定の長さを有しているかどうかを判定するデータ長判定ステップと、
前記母音部分が所定の音の強さを有しているかどうかを判定する音の強さ解析ステップとを実行することを特徴とする音声分析方法。
発話音声を受信する音声受信ステップと、
受信した前記発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、
リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、
前記評価対象音声特徴量と前記リファレンス音声特徴量との差異を判定する特徴量比較ステップと、
前記特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う音声分析方法であって、
前記音声分析ステップでは、前記発話音声の音声データを分析して、評価対象音声特徴量を算出する際に、前記発話音声中の特定の母音における時間的に異なる複数の解析場所において、基本周波数と共振周波数を求める処理を行ない、
前記複数の解析場所における基本周波数の平均値と、共振周波数の分散を、前記評価対象音声特徴量として求めること、を特徴とする音声分析方法。
発話音声を受信する音声受信ステップと、
受信した前記発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、
リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、
前記評価対象音声特徴量と前記リファレンス音声特徴量との差異を判定する特徴量比較ステップと、
前記特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う音声分析方法であって、
前記結果出力ステップで出力した前記判定結果に対応する利用者からの入力を受付け、
前記入力に応じて前記特徴量比較ステップで用いる閾値の値を変更すること、を特徴とする音声分析方法。
発話音声を受信する音声受信ステップと、
受信した前記発話音声の音声データを分析して、評価対象音声特徴量を算出する音声分析ステップと、
リファレンスとなる音声データの分析結果からなる、リファレンス音声特徴量を取得するリファレンス取得ステップと、
前記評価対象音声特徴量と前記リファレンス音声特徴量との差異を判定する特徴量比較ステップと、
前記特徴量比較ステップの判定結果を出力する結果出力ステップと、を含み、
前記音声分析ステップでは、前記発話音声中の特定の母音を解析対象の音声データとして、基本周波数と共振周波数を求める処理を行う音声分析方法であって、
さらに、
温度を検出する温度検出ステップ、および、湿度を検出する湿度検出ステップの少なくともひとつ、を有し、
前記温度検出ステップ、および、前記湿度検出ステップの少なくともひとつの検出結果が所定の閾値より大きい場合に、前記音声分析ステップを行なうこと、を特徴とする音声分析方法。