JP6234937B2

JP6234937B2 - 健康監視システムにおける話者検証

Info

Publication number: JP6234937B2
Application number: JP2014550425A
Authority: JP
Inventors: フゥリヤーン・ウェン; タウフィク・ハサン; ジョ・フェン
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2011-12-29
Filing date: 2012-12-26
Publication date: 2017-11-22
Anticipated expiration: 2032-12-26
Also published as: US20140365219A1; KR101986867B1; US9424845B2; CN104160441B; EP2810277A1; US8818810B2; JP2015510606A; CN104160441A; KR20140137343A; US20130173268A1; WO2013101818A1; EP2810277B1

Description

［0001］本発明は、概して自動音声認識の分野に関連し、特に話者を検証する音声認識システム及び方法に関する。

［0002］遠隔治療及び自宅療養の分野は、近年大きい成長を遂げている。遠隔治療システムにおいては、患者は医者又は他のヘルスケア提供者の存在から地理的に離れる。例えば、患者は、ヘルスケア施設の場所にいる代わりに、自宅にいることができる。遠隔治療装置は、ヘルスケア提供者が患者の健康状態を監視できるようにし、患者がヘルスケア施設に訪れる必要なしにいくつかの医学的問題を潜在的に診断し且つ治療することができるようにする。遠隔治療装置の使用は、ヘルスケアのコストを低減し、さらなる患者の監視を通じてヘルスケアの質を改善する可能性を有する。

［0003］様々な既知の遠隔治療システムは、患者が医療データを医者又はヘルスケア提供者に送信することができる装置を、患者に提供する。いくつかの装置は、心拍数、血圧、及び呼吸数等の生体信号を記録し、記録した生体信号のデータを後の検査のためにデータベースに送信するように構成される。他の遠隔治療システムは、指示された時間に薬を飲むように、又は理学療法の一部としての運動を行うように、患者にリマインダを提供する。

［0004］遠隔治療システムは多くの潜在的な利益を有する一方で、そのようなシステムはヘルスケア専門家の補助なしに遠隔治療装置をよく使用する患者に対する困難も有し得る。直感的なユーザインターフェースを提供することは、遠隔治療装置の有効性を増加させ、同様に患者が勤勉に遠隔治療装置を使用する可能性も増加させる。一部の環境では、遠隔治療装置は、適切な処置を患者ごとに提供するために異なる患者を区別する必要もある。例えば、高齢者居住地区における患者の多いグループが遠隔治療システムを使用し得、又は一家族のメンバーが異なる処置のために各々遠隔治療装置を使用し得る。遠隔治療装置の一部の形態は、持ち運びでき且つ患者間で不意に交換され得る携帯用装置である。したがって、患者と装置との間の相互作用を容易にし且つ遠隔治療装置が各患者に適切な処置を提供することを保証するための遠隔治療装置の改善が有益である。

［0005］一実施形態によれば、人の身元を検証するための方法が開発される。方法は、人により話される発声に対応する音声データを音声入力装置を用いて発生させることと、音声データ処理装置で音声データ内の第１発声データを特定することと、所定のトリガ発声に対応する特定された第１発声データに応じて人に登録名を話すことを促すための出力をユーザインターフェース装置で発生させることと、所定のトリガ発声に対応する特定された第１発声データに応じて特定された第１発声データをメモリに記憶することと、音声入力装置で話された登録名に対応する音声データを発生させることと、音声データ処理装置で話された登録名に対応する音声データにおける第２発声データを特定することと、特定された第２発声データをメモリに記憶することと、人が、登録名に関連して登録データベースに登録されたユーザの声の所定のモデルに対応するメモリに記憶された第１及び第２発声データに応じて登録名に関連して登録データベースに登録されたユーザであることを、話者検証モジュールで検証することと、人が登録データベースに登録されたユーザであることを検証する話者検証モジュールに応じて、人にサービスを提供するための出力をユーザインターフェース装置で発生することと、を含む。

［0006］他の実施形態によれば、話者検証を備えた遠隔治療装置が開発される。遠隔治療装置は、人に話された発声から音声データを発生するように構成された音声入力装置と、音声入力装置に動作可能に接続され且つ音声入力装置により発生された音声データから発声データを発生させるように構成された音声データ処理装置と、音声データ処理装置により発生された複数の発声データを記憶するように構成されたメモリと、少なくとも一人のユーザに対応する登録名及び声モデルに少なくとも一人のユーザを関連させるように構成された登録データベースと、メモリと登録データベースとに動作可能に接続された話者検証モジュールと、ユーザインターフェース装置と、音声入力装置、音声データ処理装置、メモリ、登録データベース、話者検証モジュール、及びユーザインターフェース装置に動作可能に接続されたコントローラと、を含む。コントローラは、人により話された発声を含む音を受け且つ人に話すことを促すことなく発声に対応する音声データを発生させるための音声入力装置を起動させ、人により話された発声に対応する音声データにおける第１発声データを音声データ処理装置で特定し、特定された第１発声データをメモリに記憶し、所定のトリガ発声に対応する第１発声データに応じて人に登録名を話させるように促すための出力をユーザインターフェース装置で発生させ、話された登録名に対応する音声データを音声入力装置で発生させ、話された登録名に対応する音声データにおける第２発声データを音声データ処理装置で特定し、特定された第２発声をメモリに記憶し、登録名を話す人が登録名に関連して登録データベースに登録されたユーザの声の所定のモデルに対応するメモリに記憶された第１及び第２発声データに応じて登録名に関連して登録データベースに登録されたユーザであることを、話者検証モジュールで検証し、登録名を話した人がユーザであることを検証する話者検証モジュールに応じて人にサービスを提供するための出力をユーザインターフェース装置で発生するように構成される。

［0007］図１は、患者により使用される携帯用遠隔治療装置の概略図である。［0008］図２は、人が遠隔治療装置の登録されたユーザであることを検証するためのプロセスのブロック図である。図２は、人が遠隔治療装置の登録されたユーザであることを検証するためのプロセスのブロック図である。［0009］図３は、遠隔治療装置で使用される登録データベースの例である。［0010］図４は、遠隔治療装置で使用されるヘルスティップデータベースの例である。

［0011］ここに開示されるシステム及び方法の詳細の全体的な理解のために、この書類を通じて図面が参照される。図面においては、同じ参照符号は同じ要素を指定する。ここで使用されるように、用語「発声」は単語やフレーズを含む人間に話される全てのものをいう。用語「発声データ」は、一以上の発声に対応するデータをいう。発声データは、発声の直接の録音に対応することができ、又はデジタル信号処理装置、音声モデラ、及び言語モデルのようなフロントエンドプロセッサを典型的に含む音声認識装置から発生された処理データとすることができる。

［0012］ここで使用されるように、用語「検証する」及び「検証」は、遠隔治療装置が遠隔治療装置の登録されたユーザとされる人が実際にユーザであることを証明するプロセスをいう。話者検証プロセスにおいては、遠隔治療装置は、人からの一以上の発声を処理することにより人が意図されるユーザであるか否かを検証する。例えば、遠隔治療装置が登録されたユーザ「ＪｏｈｎＳｍｉｔｈ」を認識するように構成された場合、人はまず登録されたユーザのＪｏｈｎＳｍｉｔｈであることを示す入力を遠隔治療装置に入力し、登録されたユーザのＪｏｈｎＳｍｉｔｈからの所定の声モデルを使用して、人が登録されたユーザのＪｏｈｎＳｍｉｔｈであるか否かを検証するために遠隔治療装置が使用する一以上の発声を提供する。

［0013］ここで使用されるように、用語「ヘルスティップ」は、患者の健康及び福利についてのアドバイス又は情報に関する単語又はフレーズをいう。例えば、フレーズ「私は今日１マイル歩くべきである」は、患者が実行すべき運動に関するヘルスティップである。一部のヘルスティップは、栄養に関するヘルスティップ「私は新鮮な野菜を食べるべきである」のような、ほとんどすべての患者に対して一般的である。他のヘルスティップは、特定の患者に向けられ得る。例えば、処方薬を有する患者に向けられるヘルスティップは、「私は適切な時間で処方薬を飲むべきである」である。示される例において、ヘルスティップの言葉は、患者の視点から一人称で構成される。以下で説明されるように、患者は、遠隔治療装置を使用するための検証プロセスの一部として一以上のヘルスティップを大声ではっきり言う。一部のヘルスティップは、ヘルスティップの患者に対する適用性を強化するために一人称の視点において提供されるが、他のヘルスティップは様々な形態のフレーズ及び単語を含む。

［0014］図１は、遠隔治療装置１００を示す。遠隔治療装置１００は、音声入力装置１０４と、一以上のユーザインターフェース装置１０８と、音声データ処理装置１１２と、話者検証モジュール１１６と、ネットワーク入力／出力（Ｉ／Ｏ）装置１２０と、コントローラ１２４と、メモリ１２８と、を含む。メモリ１２８は、記録された発声データバッファ１３２のためのデータと、記憶されたプログラム命令１３６と、登録データベース１４０と、ヘルスティップデータベース１４４とを記憶する。一動作モードにおいて、メモリ１２８は所定のトリガ発声データ１３４も記憶する。メモリ１２８は、ランダムアクセスメモリ（ＲＡＭ）等の一以上の装置と、デジタルデータを記憶するための磁気メディア及びソリッドステートデータ記憶装置等の不揮発性データ記憶装置を含む。図１の例では、遠隔治療装置１００は、人１０２による携帯使用のためのサイズ及び形状で形成されたハウジング１５０内に含まれる。遠隔治療装置１００は、人１０２が遠隔治療装置１００の登録されたユーザであることを検証するための人１０２からの発声を受け入れ、且つ遠隔治療装置を動作させるための人１０２からの発声を受け入れるように構成される。

［0015］遠隔治療装置１００は、ハウジング１５０内に配置された一以上のユーザインターフェース装置１０８を含む。ユーザインターフェース装置は、ユーザに出力情報を提供し、ユーザからの入力情報、命令、及び発声を受ける。出力装置の一般的な例は、液晶ディスプレイ（ＬＣＤｓ）及び他の視覚ディスプレイスクリーン等の視覚ディスプレイスクリーン、音及び合成音声を発するスピーカ、触覚フィードバック装置等を含む。入力装置の一般的な例は、音声入力装置１０４としても使用されるマイクロホン、キーパッド、ディスプレイスクリーンに統合されたタッチスクリーンインターフェース、ボタン及びスイッチを含む触覚制御装置を含む。特に、ユーザインターフェース装置１０８は、遠隔治療装置が人１０２に音声入力装置１０４により検出される発声を供給するように促すことを可能にする。

［0016］遠隔治療装置１００は、ネットワークＩ／Ｏ装置１２０を含む。ネットワークＩ／Ｏ装置の一般的な例は、無線ローカルエリアネットワーク（ＷＬＡＮ）や無線ワイドエリアネットワーク（ＷＷＡＮ）ネットワーク装置等の無線データ通信モジュールを含む。他のＩ／Ｏ装置は、データネットワークにアクセスを供給する別のコンピュータに遠隔治療装置１００を接続するための、イーサネット（登録商標）装置等の有線ネットワーク装置、又はＵＳＢ装置等のシリアル装置を含む。ネットワークＩ／Ｏ装置は、遠隔治療装置１００がインターネット等のデータネットワークを介してオンラインデータベース及びヘルスケア提供者と通信することを可能にする。

［0017］音声入力装置１０４は、典型的には、遠隔治療装置１００の周囲の環境における音の検出を可能にする場所においてハウジング１５０内に配置される一以上のマイクロホンを含む。音声入力装置１０４は、人１０２により話される発声を検出し、発声から音声データを発生させるように機能する。一部の実施形態では、音声データは一以上のマイクロホンにより発生されたアナログ電気信号を含む。他の実施形態では、音声入力装置１０４は、受けた発声に対応するアナログ信号を記録された音を表すパルス符号変調（ＰＣＭ）信号又は他のデジタル信号等のデジタル信号に変換するアナログ−デジタルコンバータを含む。音声入力装置１０４の一部の実施形態は、信号フィルタ、エコーキャンセル回路、及び音声データの質を改善する他の信号処理装置を含む。

［0018］音声データ処理装置１１２は、音声入力装置１０４から音声データを受け、音声データから発声データを発生させる。音声データ処理装置１１２は、音声データから話された単語及びフレーズを抽出するように音声データを処理する音声モデラ及び言語モデルを含む。音声データ処理装置１１２は、メモリ１２８と動作可能に接続される。一動作モードでは、音声データ処理装置１１２は、発生された発声データを、一以上のトリガフレーズに対応するメモリ１２８内の所定の発声データ１３４と比較する。発生された発声データが所定のトリガフレーズの発声データに対応する場合は、コントローラ１２４は話者検証モジュールを含む遠隔治療装置１００の他の要素を起動する。他の動作モードでは、音声データ処理装置１１２は、発生された発声データを、ヘルスティップデータベース１４４内の一以上のヘルスティップに対応する発声データと比較する。音声データ処理装置１１２が、様々なタイプの所定の発声データに対応する発声データを発生させたとき、音声データ処理装置１１２は、音声データをメモリ１２８内の発声データバッファ１３２に記憶する。音声データバッファ１３２は、人１０２が遠隔治療装置１００の登録されたユーザであることを検証するために使用される複数のセットの発声データを蓄積する。

［0019］話者検証モジュール１１６は、メモリ１２８及びコントローラ１２４と動作可能に接続される。話者検証モジュール１１６は、発声データバッファ１３２から発声データを読み出し、遠隔治療装置１００を使用して登録されたとされる人の名前に関連して登録データベース１４０に記憶されるスピーチモデルに発声データが対応することを検証する。発声データバッファ１３２は、トリガフレーズ、登録されたユーザ名、及び一以上の話されるヘルスティップに対応する発声データを含む、音声データ処理装置１１２により発生される蓄積された発声データを記憶する。一実施形態では、話者検証モジュール１１６は、発声データバッファ１３２内の発声データが登録されたユーザの声モデルに対応する可能性に対応する信頼スコアを発生する。話者検証モジュール１１６は、登録されたユーザ以外の人に属する一以上の声の様々な声特性に対応する詐称声モデルに対応する信頼スコアも発生させる。詐称声モデルは、ガウス混合モデル（ＧＭＭ）又はモジュール１１６で使用される話者検証方法に応じた他の技術を使用して、異なる人々の大量のデータが予め教え込まれる。遠隔治療装置１００は、発声された詐称声モデルを、話者検証プロセスの間登録データベース１４０に使用のために記憶する。

［0020］ユーザの声モデルのための信頼スコアが詐称者のための信頼スコアよりも少なくとも所定の閾値だけ高い場合は、話者検証モジュール１１６は発声データが登録されたユーザの声モデルに対応することを検証する。詐称者の声モデルのための信頼スコアが登録されたユーザのための信頼スコアよりも少なくとも所定の閾値だけ高い場合は、話者検証モジュール１１６は発声データが登録されたユーザの声モデルに対応しないことを検証する。いくつかの場合、不十分な発声データは、発声データがユーザの声モデルに対応するか否かを明確に示す信頼スコアを発生させることができる。遠隔治療装置１００は、発声データバッファ１３２に追加される追加の発声データを発生させるために、人１０２に一以上のヘルスティップを話すことを促し、データバッファ１３２内の追加発声データは、話者検証モジュール１１６が登録されたユーザの声モデルを有する人１０２を検証するために十分な発声データを有する可能性を増加させる。

［0021］登録データベース１４０は、遠隔治療装置１００を使用する権限を与えられた一以上のユーザに対応する登録データを含む。図３は、登録データベース３００に記憶されるデータの例を示す。登録データベース３００は、登録名識別子３０４と、登録名に対応する発声データ３０８と、登録ユーザに対応する声モデルの発声データ３１２に対応する列を含む。登録名識別子３０４は、遠隔治療装置１００の各ユーザを特定する文字列または数字の識別子である。図３の例においては、「詐称者」名は、登録ユーザのものでない一以上の声モデルに対応する発声データを記憶する登録データベースにおける特別なエントリーである。

［0022］テーブル３００では、各ユーザの登録名のための発声データ３０８及び各ユーザの声モデルのための発声データ３１２の両方が、加入プロセスの間ユーザにより話された発声から得られる発声データを含む。加入プロセスでは、ユーザは、登録名及び一連の訓練フレーズを含む一連の単語及びフレーズから構成される発声を話す。登録されたユーザの声モデルは、登録名及び訓練フレーズで構成される発声から発生される発声データを使用して発生される。加入プロセスは、典型的には、患者が遠隔治療装置を受け取る前に一度実行される。遠隔治療装置１００は、加入プロセスを直接実行することができるか、又は別の加入システムが登録を実行して、遠隔治療装置１００がユーザ情報と発生された声モデルを受け取る。例えば、遠隔治療装置１００は、ネットワークＩ／Ｏ装置１２０を介してインターネット１６０を通じてアクセスされたオンライン登録データベース１７０から一以上の加入されたユーザの登録データをダウンロードしてもよい。

［0023］登録名のための発声データ３０８は、遠隔治療装置１００を使用するために登録されたユーザの登録名に対応する発声データを記憶する。登録名は、単純にユーザの名前、例えば「ＪｏｈｎＳｍｉｔｈ」であり得、或いは特別なログイン名又は数字の患者番号であり得る。登録名は、説明の目的のための文章として図３に記載されるが、典型的には、登録データベース３００内にバイナリ発声データとして記憶される。声モデル３１２のための発声データは、登録されたユーザにより提供された複数の発声に対応する発声データを含む。いくつかの実施形態では、声モデルを発生させるために使用される発声データは、加入プロセスの間に一度提供される。他の実施形態では、遠隔治療装置１００がある特定の登録ユーザが話していることを検証した後に、発声データ３１２は新たに発生された発声データで更新される。更新される発声データは、遠隔治療装置１００で処置されている間に発生するユーザの声の徐々な変化を占める。声モデルのための発声データは、典型的には、登録データベース１４０内のバイナリデータフォーマットに記憶される。

［0024］ヘルスティップデータベース１４４は、複数のヘルスティップに関連するデータを含む。図４は、ヘルスティップデータベースに記憶されるデータの例を示す。テーブル４００は、ヘルスティップ識別子４０４、人にヘルスティップを話すことを促すために使用されるデータ４０８、及び話されるヘルスティップに対応する発声データ４１２に対応する列を含む。テーブル４００の各行は、単一のヘルスティップに対応するデータを表し、テーブル４００は典型的には複数のヘルスティップを含む。ヘルスティップ識別子は、特有のヘルスティップを特定するための文字列または数値である。いくつかの実施形態では、遠隔治療装置１００は、ヘルスティップ識別子４０４及び図３のテーブル３００からの登録名識別子３０４を使用して、選択されたヘルスティップを特定の患者に関連させる。

［0025］ヘルスティップのためのプロンプトデータ４０８は、対応するヘルスティップをユーザに話させるためのメッセージをユーザに発生させることを遠隔治療装置１００ができるようにするフォーマット済みデータを含む。図４に示されるプロンプトデータは文章の形態であるが、プロンプトデータは、遠隔治療装置がスピーカを介して出力する音声データを含む様々なフォーマット、及びユーザインターフェース装置１０８のスクリーンに表示される視覚的なプロンプトの形態で記憶され得る。一部のプロンプトは、ユーザが遠隔治療装置１００に対して繰り返すためのフレーズを提供する。他のヘルスティッププロンプトは、ユーザに単純な質問をし、ユーザはその質問に答えを発する。質問及び回答の構成では、遠隔治療装置１００は表示スクリーンに答えを表示して、話者がその質問に対する答えを思い出すように手助けする。

［0026］発声データ４１２は、特定のヘルスティップに対応する。発声データは、説明の目的のために図４において文章で示されるが、発声データは、典型的にはバイナリデータフォーマットでヘルスティップデータベース１４４に記憶される。一部の実施形態では、各ヘルスティップのための発声データ４１２は、遠隔治療装置の使用に先立つ加入プロセスの間に各ヘルスティップを話す登録されたユーザの録音された発声に直接対応する。他の実施形態では、発声データは、登録されたユーザの声に直接対応しないが、代わりに一以上の声に対して包括的である。音声データ処理装置１１２は、促進されたヘルスティップ又は異なるフレーズを人１０２が話したか否かを特定するために、発声の音声データから発生された発声データを、所定の発声データ４１２と比較するように構成される。

［0027］一部の実施形態では、遠隔治療装置１００は、ネットワークＩ／Ｏ装置１２０を介してインターネット１６０を通じて別のヘルスティップデータベース１７４から読みだされたヘルスティップデータベース１４４に記憶されたデータを読み出す。ヘルスケア提供者は、多くの患者に適用可能な全般的なヘルスティップ及び特定の登録されたユーザに関連する特別なヘルスティップを含む様々なヘルスティップをヘルスティップデータベース１７４に入力する。遠隔治療装置１００は、ユーザが幅広い様々なヘルスティップを受け取るために、定期的にヘルスティップデータベース１４４のヘルスティップを更新する。

［0028］図１を再び参照すると、コントローラ１２４は、遠隔治療装置１００の動作を調整する、より具体的には、遠隔治療装置と相互作用する人が登録されたユーザであることを検証するために遠隔治療装置を制御する。遠隔治療装置のいくつかの実施形態は、プロセッサ、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は他のデジタルコンピューティングデバイス等の単一のマイクロ電子装置を含み、コントローラ１２４、音声データ処理装置１１２、話者検証モジュール１１６、及びネットワークＩ／Ｏ１２０の一部または全部の機能性を実行する。コントローラ１２４は、メモリ１２８の記憶プログラム指示領域１３６に保持されるソフトウェア指示を実行する。いくつかの実施形態では、音声データ処理装置１１２及び話者検証モジュール１１６を含む遠隔治療装置１００における様々な要素がコントローラ１１６により実行されるソフトウェアプログラムとして実装される。音声データ処理装置１１２及び話者検証モジュール１１６の機能を実行するための記憶された指示は、メモリ１２８の記憶プログラム領域１３６に記憶される。他の実施形態では、音声データ処理装置１１２及び話者検証モジュール１１６の一つ又は両方が、デジタル信号処理装置（ＤＳＰｓ）等の特別な処理装置を含む。さらに他の実施形態は、ハードウェア及びソフトウェア要素の組み合わせを使用して、音声データ処理装置１１２及び話者検証モジュール１１６の機能を実行する。遠隔治療装置における様々なマイクロ電子コンポーネントは、「システムオンチップ」（ＳｏＣ）構成における単一の物理装置に組み合わされ得る。

［0029］図２は、遠隔治療装置の登録されたユーザとされる人の身元が登録されたユーザと一致することを話者検証システムを通じて検証するためのプロセス２００を示す。プロセス２００は、説明の目的のために遠隔治療装置１００と連動して説明される。以下で説明するように、機能を実行する又は一部の動作を実行するように説明されるプロセスは、機能を実行する又は動作を実行するように一以上の電子部品を動作するためのメモリに格納されたコントローラ実行プログラム指示をいう。プロセス２００は、音声入力装置を通じて受け入れた音から音声データを発生する音声入力装置で始まる（ブロック２０４）。遠隔治療装置１００においては、音声入力装置１０４は、周囲からの音を受け入れる一以上のマイクロホンを含み、音声入力装置は、その受け入れた音から音声データを発生させる。音声信号が発声を含む場合、プロセス２００は、音声信号から発声データを発生させ（ブロック２１２）、発声データを所定のトリガフレーズと比較する（ブロック２１６）。トリガフレーズは、典型的には、遠隔治療装置１００の不意の起動を防止するために、通常の会話では使用されない単語又は複数の単語である。遠隔治療装置は、人にトリガフレーズを話させるためのプロンプト又はリクエストは発生させない。

［0030］遠隔治療装置１００は、人１０２がトリガフレーズを話す監視動作モードユニットにおいて継続的にブロック２０４−２１６のプロセスを実行する。監視モードでは、遠隔治療装置における様々な要素が、遠隔治療装置１００の電力消費を低減する低電力動作モードに非活性化され又は置かれる。バッテリーを介して動作する遠隔治療装置の実施形態において、低電力モードは、遠隔治療装置のバッテリー寿命を長続きさせる。音声データ処理装置１１２がトリガ発声データ１３４に対応する音声信号から発声データを発生させるとき、遠隔治療装置１００はプロセス２００を続ける。

［0031］プロセス２００において、トリガフレーズに対応する発声データは、話者の身元を検証するための後の使用のためにメモリに記憶される（ブロック２２０）。遠隔治療装置１００においては、発声データは、発声データバッファ１３２に記憶される。トリガフレーズを受けた後、プロセス２００は、話者に登録されたユーザの登録名を話させるためのプロンプトを発生させる（ブロック２２４）。遠隔治療装置１００は、スピーカを使用して可聴式のプロンプトを発生させることができ、又は人１０２にユーザ名を話させるための要求を視覚的に表示することができる。

［0032］遠隔治療装置は、話された登録名に対応する音声データを発生させ（ブロック２３２）、登録名の音声データに対応する発声データを発生させる（ブロック２３６）。遠隔治療装置１００では、人１０２が、登録データベース１４０内の一ユーザに対応する登録名を提供しない場合（ブロック２３８）、遠隔治療装置１００は、話者に登録されたユーザの名前を繰り返すように促すか、トリガフレーズを監視するためにブロック２０４のプロセスに戻る。登録されたユーザの名前に対応する発声データを受け取った後（ブロック２３８）、プロセス２００は、登録されたユーザの名前に対応する発声データをメモリ内に記憶する（ブロック２４０）。遠隔治療装置１００では、登録名に対応する発声データは、トリガフレーズからの発声データに加えて、発声データバッファ１３２に記憶される。

［0033］プロセス２００は、登録名に対応するユーザの所定の声モデルを使用して、メモリに記憶された発声データの検証のための一以上の信頼スコアを発生させ続ける（ブロック２４４）。遠隔治療装置１００の話者検証モジュール１１６は、発声データバッファ１３２から記録された発声データを抽出し、登録データベース１４０から登録されたユーザの声モデルに対応する発声データを抽出する。いくつかの実施形態では、登録データベース１４０は一ユーザ以上のためのスピーチモデルを記憶し、プロセス２００は、遠隔治療装置１００の使用の登録がされた異なるユーザを区別するために、話される登録名に対応するユーザ名を選択する。話者検証モジュール１１６は、登録データベース１４０の詐称者からも発声データを抽出する。

［0034］いくつかの場合、トリガフレーズ及び登録名のための発声データは、人１０２が登録名を有するユーザかどうかを明確に示す信頼スコアを話者検証モジュール１１６が発生させるのに十分である（ブロック２４８）。プロセス２００は、蓄積されたデータ量を活用して、ブロック２４４のプロセスにおいて特定される信頼スコアの信頼性を測定する。登録されたユーザの声モデルのための信頼スコアが詐称モデルのための信頼スコアより所定の閾値だけ大きいことを話者検証モジュール１１６が検証した場合は（ブロック２５６）、遠隔治療装置１００は人１０２が登録名を有するユーザであることを検証し（ブロック２６０）、遠隔治療装置１００はユーザにサービスを提供する（ブロック２６４）。

［0035］話者検証モジュール１１６が詐称者に対応する発声データを示す信頼スコアを特定した場合（ブロック２５６）、話者検証モジュール１１６は、人１０２が登録されたユーザでないことを特定し（ブロック２９２）、遠隔治療装置１００は、詐称者に対して遠隔治療サービスを与えない（ブロック２９６）。いくつかの構成では、遠隔治療装置１００は、検証の試みの失敗した回数を維持し、カウントが所定の閾値を超えた場合に、遠隔治療装置は遠隔治療装置でユーザを検証するための追加の試みをブロックする。例えば、遠隔治療装置で人を検証するための３回連続の試みにより、人が詐称者として特定されることになった場合、遠隔治療装置は、ヘルスケア専門家が装置をリセットするまで、ユーザを締め出す。

［0036］いくつかの場合、話者検証モジュール１１６は、人１０２が登録されたユーザであるか否かを検証するために不十分な信頼スコアを発生させる（ブロック２４８）。例えば、登録ユーザの声モデル及び詐称者声モデルのために発生された信頼スコアが所定値を下回った場合、又は両方の信頼スコアが互いの所定範囲内である場合、話者検証モジュール１１６は、検証を実行するために追加の発声データを要求してもよい。他の例では、不十分な量の発声データから発生された高い又は低い信頼スコアは、信頼性が低い。プロセス２００は、話者を検証するための十分な程度の信頼性を有する信頼スコアを発生させるために追加の発声データを集める。

［0037］追加の発声データを発生させるために、プロセス２００は、人１０２にヘルスティップを話すように促す（ブロック２７２）。遠隔治療装置は、ヘルスティップデータベース１４４からヘルスティップを選択し、人１０２に音声又は視覚的なプロンプトを発生させる。音声入力装置１０４は、話されたヘルスティップに対応する音声データを発生させ（ブロック２７６）、音声データ処理装置１１２は、音声データから発声データを発生させる（ブロック２８０）。音声データ処理装置１１２は、発生された発声データと、ヘルスティップデータベース１１４に記憶された選択されたヘルスティップのための所定の発声データとを比較する。

［0038］発生された発声データがヘルスティップに対応しない場合は（ブロック２８２）、遠隔治療装置１００は人にヘルスティップを話させるためのプロンプトを繰り返す（ブロック２７２）。遠隔治療装置１００は、プロセス２００の間、発生された発声データが促されたヘルスティップに対応しない回数のカウントを維持する。このカウントが所定の最大数を超過した場合（ブロック２８３）、装置１００は、ユーザインターフェースで代替の検証を促す（ブロック２９８）。例えば、ユーザが３回連続でヘルスティップに対する正しい応答ができなかった場合、装置１００は代替の検証を要求する。発生された発声データがヘルスティップに対応するときは（ブロック２８２）、発生された発声データは、発声データバッファ１３２に記憶される（ブロック２８４）。プロセス２００は、ヘルスティップからの発声データを含む蓄積された発声データの全てを使用して、話者検証を実行するためにブロック２４４へ戻る。

［0039］いくつかの場合、プロセス２００は、人１０２が登録されたユーザであるかどうかを検証するために十分な発声データが集められる前に、複数のヘルスティップを促す。遠隔治療装置１００は、幅広い種類の発声データを話者検証モジュール１１６に提供するための各反復の間、異なるヘルスティップを促す。プロセス２００は、ユーザ検証プロセスの間受け入れられるヘルスティップの数に制限を与える（ブロック２６８）。例えば、プロセス２００が、５つのヘルスティップに対応する発声データを受け取っているが、人１０２が登録されたユーザかどうかを検証するために十分な発声データがいまだ不足している場合、話者検証プロセス２００は終了し、遠隔治療装置１００は代替の検証プロセスを使用する（ブロック２９８）。代替の検証プロセスにおいては、遠隔治療装置はユーザインターフェース１０８における表示スクリーンにログインプロンプトを発生させ、人１０２はユーザ名とパスワードをキーパッドを介して入力する。

［0040］遠隔治療装置１００及び検証プロセス２００は、シンプルで効果的な検証手続きを患者に提供する。遠隔治療装置１００は、人が登録されたユーザであることを検証するために、初期トリガフレーズを含む、人から受け取った正当な発声データの全てを使用するので、遠隔治療装置１００は、最小限の数のスピーチサンプルで効果的なユーザの検証を可能にする。さらに、ヘルスティップスピーチサンプルは、初期検証プロセスの間であっても各患者に供給される医学的な利点を増加させるための検証プロセスの間に、ヘルスアドバイスを患者に供給する。

［0041］本発明が図面及び上記の記載に詳細に説明され示されているが、本発明は例示的なものであり、その性質に制限されるものではないと考えるべきである。例えば、ここで説明されるスピーチの例は英語であるが、遠隔治療装置１００は、スピーチを認識して幅広い範囲の言語から発声データを発生させるように構成され得る。好ましい実施形態のみが提示されており、本発明の思想の範囲内の全ての変更、修正及びさらなる追加が保護されるべきである。
以下に本明細書が開示する形態のいくつかを記載しておく。
［形態１］
人の身元を検証する方法であって、
人により話される発声に対応する音声データを、音声入力装置を用いて、発生させることと、
音声データ処理装置で前記音声データ内の第１発声データを特定することと、
所定のトリガ発声に対応する前記特定された第１発声データに応じて前記人に登録名を話すことを促すための出力をユーザインターフェース装置で発生させることと、
前記所定のトリガ発声に対応する前記特定された第１発声データに応じて前記特定された第１発声データをメモリに記憶することと、
前記音声入力装置で前記話された登録名に対応する音声データを発生させることと、
前記音声データ処理装置で前記話された登録名に対応する前記音声データにおける第２発声データを特定することと、
前記特定された第２発声データを前記メモリに記憶することと、
前記登録名に関連して登録データベースに登録されたユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１及び第２発声データに応じて、前記人が前記登録名に関連する前記登録データベースに登録されたユーザであることを、話者検証モジュールで検証することと、
前記人が前記登録データベースに登録された前記ユーザであることを検証する前記話者検証モジュールに応じて、前記人にサービスを提供するための出力を前記ユーザインターフェース装置で発生させることと、を含む、方法。
［形態２］
形態１に記載された方法において、
前記メモリ内の前記第１発声データ及び第２発声データが前記ユーザの前記声の前記所定のモデルを有する前記人を検証するのに不十分であることを特定する前記話者検証モジュールに応じて、前記人に所定のフレーズを話すことを促すための出力を前記ユーザインターフェース装置で発生させることと、
前記話される所定のフレーズに対応する音声データを前記音声入力装置で発生させることと、
前記話される所定のフレーズに対応する前記音声データ内の第３発声データを前記音声データ処理装置で特定することと、
前記メモリ内に前記第３発声データを記憶することと、
前記登録データベースに登録された前記ユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記人が前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証することと、を有する、方法。
［形態３］
形態２に記載された方法において、
前記所定のフレーズの所定の発声データに対応する前記第３発声データに応じて前記メモリ内に前記第３発声データを記憶することを有する、方法。
［形態４］
形態２に記載された方法において、
前記所定のフレーズの所定の発声データに対応しない前記第３発声データに応じて、前記人に前記所定のフレーズを二回話すことを促すための出力を、前記ユーザインターフェース装置で発生させることを有する、方法。
［形態５］
形態２に記載された方法において、
前記ユーザインターフェース装置は、前記所定のフレーズとしてヘルスティップを前記人に話させるためのプロンプトを発生させる、方法。
［形態６］
形態５に記載された方法において、
前記ユーザインターフェース装置は、前記登録データベース内の前記登録名に関連するヘルスティップを前記人に話させるためのプロンプトを発生させる、方法。
［形態７］
形態２に記載された方法において、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応しない前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記登録名を話す前記人が前記登録名に関連して前記登録データベースに登録された前記ユーザでないことを、前記話者検証モジュールで検証することと、
前記登録名を話す前記人が前記登録データベースに登録された前記ユーザでないことを検証する前記話者検証モジュールに応じて前記人にサービスを与えないための出力を前記ユーザインターフェース装置で発生させることと、を有する、方法。
［形態８］
形態２に記載された方法において、
前記メモリ内の前記第１、第２、及び第３発声データが前記ユーザの前記声の前記所定のモデルを有する前記人を検証するのに不十分であることを特定する前記話者検証モジュールに応じて前記人に少なくとも一つの追加の所定フレーズを話させることを促すための出力を前記ユーザインターフェース装置で発生させ続けることと、
前記人により話される前記少なくとも一つの追加の所定フレーズに対応する音声データを前記音声入力装置で発生させることと、
前記少なくとも一つの追加の所定フレーズに対応する前記音声データ内の少なくとも一つの追加の発声データを前記音声データ処理装置で特定することと、
前記メモリに前記少なくとも一つの追加の発声データを記憶することと、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応する前記メモリに記憶された前記第１、第２、第３、及び少なくとも一つの追加の発声データに応じて、前記人が前記登録名に関連して前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証することと、を有する方法。
［形態９］
形態８に記載された方法において、
所定の閾値を超過する複数の追加の発声データが前記メモリに記憶された後、前記人が前記ユーザであることを前記話者検証モジュールが検証するために不十分な発声データを有する前記メモリに応じて、前記人が前記登録データベース内の前記登録名に関連する前記ユーザであることを前記話者検証モジュールが検証できないことを特定することを有する方法。
［形態１０］
形態９に記載された方法において、
前記人が前記登録データベース内の前記登録名に関連する前記ユーザであることを検証することができない前記話者検証モジュールに応じて、前記音声入力装置とは異なるユーザ入力装置で前記人の検証のための情報を入力するように前記ユーザインターフェース装置で前記人に促すことを有する方法。
［形態１１］
話者検証を備える遠隔治療装置であって、
人に話された発声から音声データを発生するように構成された音声入力装置と、
前記音声入力装置に動作可能に接続され且つ前記音声入力装置により発生された音声データから発声データを発生させるように構成された音声データ処理装置と、
前記音声データ処理装置により発生された複数の発声データを記憶するように構成されたメモリと、
少なくとも一人のユーザを前記少なくとも一人のユーザに対応する登録名及び声モデルに関連させるように構成された登録データベースと、
前記メモリと前記登録データベースとに動作可能に接続された話者検証モジュールと、
ユーザインターフェース装置と、
前記音声入力装置、音声データ処理装置、メモリ、登録データベース、話者検証モジュール、及びユーザインターフェース装置に動作可能に接続されたコントローラであって、
前記コントローラは、
人により話された発声を含む音を受け且つ前記人に話すことを促すことなく前記発声に対応する音声データを発生させるための前記音声入力装置を起動させ、
前記人により話された前記発声に対応する音声データにおける第１発声データを前記音声データ処理装置で特定し、
前記特定された第１発声データを前記メモリに記憶し、
所定のトリガ発声に対応する前記第１発声データに応じて人に登録名を話すことを促すための出力を前記ユーザインターフェース装置で発生させ、
前記話された登録名に対応する音声データを前記音声入力装置で発生させ、
前記話された登録名に対応する前記音声データにおける第２発声データを前記音声データ処理装置で特定し、
前記特定された第２音声を前記メモリに記憶し、
前記登録名に関連して登録データベースに登録された前記ユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１及び第２発声データに応じて、前記登録名を話す前記人が前記登録名に関連して前記登録データベースに登録されたユーザであることを、前記話者検証モジュールで検証し、
前記登録名を話した前記人が前記ユーザであることを検証する前記話者検証モジュールに応じて前記人にサービスを提供するための出力を前記ユーザインターフェース装置で発生させるように構成される、遠隔治療装置。
［形態１２］
形態１１に記載された遠隔治療装置において、
前記コントローラは、
前記メモリ内の前記第１及び第２発声データが前記ユーザの前記声の前記所定のモデルを有する前記人を検証するのに不十分であることを特定する前記話者検証モジュールに応じて、前記人に所定のフレーズを話すことを促すための出力を前記ユーザインターフェース装置で発生させ、
前記話される所定のフレーズに対応する音声データを前記音声入力装置で発生させ、
前記話される所定のフレーズに対応する前記音声データ内の第３発声データを前記音声データ処理装置で特定し、
前記メモリ内に前記第３発声データを記憶し、
前記登録データベースに登録された前記ユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記登録名を話す前記人が前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証するように構成される、遠隔治療装置。
［形態１３］
形態１２に記載された遠隔治療装置において、
前記音声データ処理装置は、
前記所定のフレーズの所定の発声データに対応する前記第３発声データに応じて前記メモリ内に前記第３発声データを記憶するように構成される、遠隔治療装置。
［形態１４］
形態１２に記載された遠隔治療装置において、
前記コントローラは、
前記所定のフレーズの所定の発声データに対応しない前記第３発声データに応じて、前記人に前記所定のフレーズを二回話すことを促すための前記出力を、前記ユーザインターフェース装置で発生させるように構成される、遠隔治療装置。
［形態１５］
形態１２に記載された遠隔治療装置において、
前記ユーザインターフェース装置は、前記所定のフレーズとして、ヘルスティップを前記人に話させるためのプロンプトを発生させるように構成される、遠隔治療装置。
［形態１６］
形態１５に記載された遠隔治療装置において、
前記ユーザインターフェース装置は、前記登録データベース内の前記登録名に関連するヘルスティップを前記人に話させるためのプロンプトを発生させるように構成される、遠隔治療装置。
［形態１７］
形態１２に記載された遠隔治療装置において、
前記コントローラは、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応しない前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記登録名を話す前記人が前記登録名に関連する前記登録データベースに登録された前記ユーザでないことを、前記話者検証モジュールで検証し、
前記登録名を話す前記人が前記登録データベースに登録された前記ユーザでないことを検証する前記話者検証モジュールに応じて、前記人にサービスを与えないための出力を前記ユーザインターフェース装置で発生させるように構成される、遠隔治療装置。
［形態１８］
形態１２に記載された遠隔治療装置において、
前記コントローラは、
前記メモリ内の前記第１、第２、及び第３発声データが、前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応することを検証するのに前記メモリ内の前記第１、第２、及び第３発声データが不十分であることを特定する前記話者検証モジュールに応じて、前記人に少なくとも一つの追加の所定フレーズを話させることを促すための出力を前記ユーザインターフェース装置で発生させ続け、
前記人により話される前記少なくとも一つの追加の所定フレーズに対応する音声データを前記音声入力装置で発生させ、
前記少なくとも一つの追加の所定フレーズに対応する前記音声データ内の少なくとも一つの追加の発声データを前記音声データ処理装置で特定し、
前記メモリに前記少なくとも一つの追加の発声データを記憶し、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応する前記メモリに記憶された前記第１、第２、第３、及び少なくとも一つの追加の発声データに応じて、前記人が前記登録名に関連して前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証するように構成される、遠隔治療装置。

Claims

人の身元を検証する方法であって、
人により話される発声に対応する音声データを、音声入力装置を用いて、発生させることと、
音声データ処理装置で前記音声データ内の第１発声データを特定することと、
所定のトリガ発声に対応する前記特定された第１発声データに応じて前記人に登録名を話すことを促すための出力をユーザインターフェース装置で発生させることと、
前記所定のトリガ発声に対応する前記特定された第１発声データに応じて前記特定された第１発声データをメモリに記憶することと、
前記音声入力装置で前記話された登録名に対応する音声データを発生させることと、
前記音声データ処理装置で前記話された登録名に対応する前記音声データにおける第２発声データを特定することと、
前記特定された第２発声データを前記メモリに記憶することと、
前記登録名に関連して登録データベースに登録されたユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１及び第２発声データに応じて、前記人が前記登録名に関連する前記登録データベースに登録されたユーザであることを、話者検証モジュールで検証することと、
前記人が前記登録データベースに登録された前記ユーザであることを検証する前記話者検証モジュールに応じて、前記人にサービスを提供するための出力を前記ユーザインターフェース装置で発生させることと、を含む、方法。
請求項１に記載された方法において、
前記メモリ内の前記第１発声データ及び第２発声データが前記ユーザの前記声の前記所定のモデルを有する前記人を検証するのに不十分であることを特定する前記話者検証モジュールに応じて、前記人に所定のフレーズを話すことを促すための出力を前記ユーザインターフェース装置で発生させることと、
前記話される所定のフレーズに対応する音声データを前記音声入力装置で発生させることと、
前記話される所定のフレーズに対応する前記音声データ内の第３発声データを前記音声データ処理装置で特定することと、
前記メモリ内に前記第３発声データを記憶することと、
前記登録データベースに登録された前記ユーザの声の所定のモデルに対応する前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記人が前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証することと、を有する、方法。
請求項２に記載された方法において、
前記所定のフレーズの所定の発声データに対応する前記第３発声データに応じて前記メモリ内に前記第３発声データを記憶することを有する、方法。
請求項２に記載された方法において、
前記所定のフレーズの所定の発声データに対応しない前記第３発声データに応じて、前記人に前記所定のフレーズを二回話すことを促すための出力を、前記ユーザインターフェース装置で発生させることを有する、方法。
請求項２に記載された方法において、
前記ユーザインターフェース装置は、前記所定のフレーズとしてヘルスティップを前記人に話させるためのプロンプトを発生させる、方法。
請求項５に記載された方法において、
前記ユーザインターフェース装置は、前記登録データベース内の前記登録名に関連するヘルスティップを前記人に話させるためのプロンプトを発生させる、方法。
請求項２に記載された方法において、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応しない前記メモリに記憶された前記第１、第２、及び第３発声データに応じて、前記登録名を話す前記人が前記登録名に関連して前記登録データベースに登録された前記ユーザでないことを、前記話者検証モジュールで検証することと、
前記登録名を話す前記人が前記登録データベースに登録された前記ユーザでないことを検証する前記話者検証モジュールに応じて前記人にサービスを与えないための出力を前記ユーザインターフェース装置で発生させることと、を有する、方法。
請求項２に記載された方法において、
前記メモリ内の前記第１、第２、及び第３発声データが前記ユーザの前記声の前記所定のモデルを有する前記人を検証するのに不十分であることを特定する前記話者検証モジュールに応じて前記人に少なくとも一つの追加の所定フレーズを話させることを促すための出力を前記ユーザインターフェース装置で発生させ続けることと、
前記人により話される前記少なくとも一つの追加の所定フレーズに対応する音声データを前記音声入力装置で発生させることと、
前記少なくとも一つの追加の所定フレーズに対応する前記音声データ内の少なくとも一つの追加の発声データを前記音声データ処理装置で特定することと、
前記メモリに前記少なくとも一つの追加の発声データを記憶することと、
前記登録データベースに登録された前記ユーザの前記声の前記所定のモデルに対応する前記メモリに記憶された前記第１、第２、第３、及び少なくとも一つの追加の発声データに応じて、前記人が前記登録名に関連して前記登録データベースに登録された前記ユーザであることを、前記話者検証モジュールで検証することと、を有する方法。
請求項８に記載された方法において、
所定の閾値を超過する複数の追加の発声データが前記メモリに記憶された後、前記人が前記ユーザであることを前記話者検証モジュールが検証するために不十分な発声データを有する前記メモリに応じて、前記人が前記登録データベース内の前記登録名に関連する前記ユーザであることを前記話者検証モジュールが検証できないことを特定することを有する方法。
請求項９に記載された方法において、
前記人が前記登録データベース内の前記登録名に関連する前記ユーザであることを検証することができない前記話者検証モジュールに応じて、前記音声入力装置とは異なるユーザ入力装置で前記人の検証のための情報を入力するように前記ユーザインターフェース装置で前記人に促すことを有する方法。