JP2021033051A

JP2021033051A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2021033051A
Application number: JP2019153039A
Authority: JP
Inventors: 寧丁; Ning Ding; 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-03-01
Anticipated expiration: 2039-08-23
Also published as: US11823669B2; JP7191792B2; CN112420020B; US20210056961A1; CN112420020A

Abstract

【課題】音声からキーワードを精度良く検出することができる情報処理装置、情報処理方法およびプログラムを提供することである。【解決手段】実施形態に係る情報処理装置は、第１および第２の取得部と、第１および第２の計算部と、判定部とを備える。第１の取得部は、複数のフレームを含む音声データを取得する。第２の取得部は、音声データから抽出される特徴量を入力するとキーワード成分と背景雑音成分とを含むクラスに対する尤度を表す情報を出力するように学習されたモデルを取得する。第１および第２の計算部は、それぞれ、音声データのフレームごとに、取得したモデルに特徴量を入力することによって得られた出力に基づき、キーワードスコアおよび背景雑音スコアを計算する。判定部は、キーワードスコアと、背景雑音スコアと、所定の閾値とに基づいて、音声データがキーワードを含むか否かを判定する。【選択図】図３

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

近年、音声による操作に適応したスマートスピーカーが急速に普及している。スマートスピーカーは、例えば、「ウェイクワード」とも呼ばれる特定のキーワードを音声から検出することによって起動する。ユーザは、キーワードを発声するだけで、スマートスピーカーを起動させ、様々な操作を続けることができる。したがって、音声からキーワードを精度良く検出する技術が必要である。

M. Wu, S. Panchapagesan, M. Sun, J. Gu, R. Thomas, S.N.P. Vitaladevuni, B. Hoffmeister, and A. Mandal, "Monophone-based background modeling for two-stage on-device wake word detection," Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5494-5498.

本発明が解決しようとする課題は、音声からキーワードを精度良く検出することができる情報処理装置、情報処理方法およびプログラムを提供することである。

実施形態によれば、情報処理装置は、第１の取得部と、第２の取得部と、第１の計算部と、第２の計算部と、判定部とを備える。第１の取得部は、複数のフレームを含む音声データを取得する。第２の取得部は、上記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と上記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得する。第１の計算部は、上記音声データの上記フレームごとに、上記特徴量を抽出し、上記モデルに入力することによって、上記モデルから出力される情報に基づいて、上記キーワードの成分の出現確率の高さを表すキーワードスコアを計算する。第２の計算部は、上記音声データの上記フレームごとに、上記特徴量を抽出し、上記モデルに入力することによって、上記モデルから出力される情報に基づいて、上記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算する。判定部は、上記キーワードスコアと、上記背景雑音スコアと、あらかじめ設定された閾値とに基づいて、上記音声データが上記キーワードを含むか否かを判定する。

図１は、第１の実施形態に係る情報処理装置を備えるシステムの全体構成の例を示す図である。図２は、第１の実施形態に係る情報処理装置のシステム構成の例を示すブロック図である。図３は、第１の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。図４は、第１の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。図５は、第１の実施形態に係る情報処理装置によって用いられるモデルを説明するための図である。図６は、第１の実施形態に係る情報処理装置によるスコア計算を説明するための図である。図７は、第２の実施形態に係る情報処理装置による処理手順と処理内容の第１の例を示すフローチャートである。図８は、第２の実施形態に係る情報処理装置による処理手順と処理内容の第２の例を示すフローチャートである。図９は、第３の実施形態に係る情報処理装置による処理手順と処理内容の第１の例を示すフローチャートである。図１０は、第３の実施形態に係る情報処理装置による処理手順と処理内容の第２の例を示すフローチャートである。図１１は、第３の実施形態に係る情報処理装置による処理手順と処理内容の第３の例を示すフローチャートである。

以下、図面を参照してこの発明に係わる実施形態を説明する。

［第１の実施形態］
（１）音声キーワード検出システム
図１は、第１の実施形態に係る情報処理装置を備える音声キーワード検出システムの全体構成の一例を示す図である。

このシステムは、ネットワークＮＷを介して互いに通信可能な、サーバＳＶとクライアントＣＬとを備える。

ネットワークＮＷは、例えば、インターネットに代表されるＩＰ（Internet Protocol）網と、このＩＰ網に対しアクセスするための複数のアクセス網とから構成される。アクセス網としては、例えば、無線ＬＡＮ（Local Area Network）、携帯電話網、有線電話網、ＦＴＴＨ（Fiber To The Home）、ＣＡＴＶ（Cable Television）網が用いられる。

サーバＳＶは、例えば、サーバコンピュータとして実現される。クライアントＣＬは、例えば、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、携帯電話機、ＰＤＡなどの携帯情報端末、または各種電子機器に内蔵される組込みシステムとして実現される。サーバＳＶとクライアントＣＬのうちの少なくとも一方は、音声からキーワードを検出する音声キーワード検出機能を有する。なお、簡単のために図１では１つのサーバＳＶおよび１つのクライアントＣＬのみを示しているが、それぞれ任意の数が接続されてよい。

図１に示したシステムでは、クライアントＣＬが、音声を音声信号（音声データ）に変換するマイクロホン等を備える。そして、クライアントＣＬは、音声を受け取ると、マイクロホン等を用いて音声データを生成し、ネットワークＮＷを介してサーバＳＶに送信する。サーバＳＶは、音声データからキーワードを検出する機能を備える。サーバＳＶは、クライアントＣＬから音声データを受信すると、音声データからキーワードを抽出して、抽出したキーワードをクライアントＣＬに送信する。検出されたキーワードを受信したクライアントＣＬは、そのキーワードに応じた特定の動作を開始することができる。なお、クライアントＣＬは、音声データではなく、音声データから抽出される特徴量をサーバＳＶに送信してもよい。サーバＳＶは、受信した音声特徴量からキーワードを検出し、そのキーワードをクライアント１に送信することができる。

クライアントＣＬが、音声キーワード検出機能を有するようにしてもよい。その場合、クライアントＣＬは、生成した音声データからキーワードを検出することができる。

このように、上記システムでは、クライアントＣＬまたはサーバＳＶの少なくとも一方が、音声キーワード検出機能を有しており、音声データからキーワードを検出することができる。

以下では、説明を簡単にするために、音声キーワード検出機能を有するクライアントＣＬが、実施形態に係る情報処理装置であるものとして説明し、「音声キーワード検出装置」と称する。

（２）音声キーワード検出装置
（２−１）構成
図２は、第１の実施形態に係る情報処理装置としての音声キーワード検出装置１のシステム構成の一例を示すブロック図である。
音声キーワード検出装置１は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ２０Ａを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ２０Ｂ、データメモリ３０、入出力インタフェース（入出力Ｉ／Ｆ）１１および通信インタフェース（通信Ｉ／Ｆ）１２を、バス４０を介して接続したものとなっている。

入出力インタフェース１１には、音声キーワード検出装置１に付設される、マイクロホン２、入力デバイス３および出力デバイス４が接続される。入出力インタフェース１１は、マイクロホン２によって集音された音声を取り込む。入出力インタフェース１１はまた、キーボード、タッチパネル、タッチパッド、マウス等の入力デバイス３を通じてオペレータが入力した操作データを取り込む。入出力インタフェース１１はまた、出力データを液晶または有機ＥＬ（Electro Luminescence）等を用いた表示デバイスや音声を出力するスピーカを含む出力デバイス４へ出力して表示させる処理を行う。なお、マイクロホン２、入力デバイス３および出力デバイス４は音声キーワード検出装置１に内蔵されたデバイスを使用してもよく、またネットワークを介して通信可能な他の情報端末のマイクロホン、入力デバイスおよび出力デバイスを使用してもよい。

通信インタフェース１２は、例えば１つ以上の有線または無線の通信インタフェースユニットを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線ＬＡＮが使用され、また無線インタフェースとしては、例えば無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）などの小電力無線データ通信規格を採用したインタフェースが使用される。

プログラムメモリ２０Ｂは、記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとを組み合わせて使用したもので、一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

データメモリ３０は、記憶媒体として、例えば、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて使用したもので、情報処理を行う過程で取得および作成された各種データを記憶するために用いられる。

音声キーワード検出機能を有する装置は、例えば、音声データを取得したときに、入力音声の特徴量に対してキーワードスコアを計算し、スコアが閾値以上であればキーワードと判定することが可能である。しかし、その場合、特徴量が背景雑音に由来する可能性を判断していないため、背景雑音であってもスコアが閾値以上であればキーワードとして検出してしまうおそれがある。

本実施形態では、キーワードのスコアだけでなく、背景雑音のスコアも計算し、計算されたキーワードのスコアおよび背景雑音のスコアを用いてキーワードであるか否かの判定を行う。これにより、キーワードの誤検出を抑制することができる。

図３は、第１の実施形態に係る音声キーワード検出装置１の機能構成を示すブロック図である。
データメモリ３０の記憶領域には、モデル記憶部３１と、閾値記憶部３２とが設けられている。

モデル記憶部３１は、キーワードの成分と背景雑音の成分とを含むモデルを記憶する。この実施形態では、モデル記憶部３１に記憶されるモデルは、音声データから抽出される特徴量を入力すると、特定のキーワードの成分とキーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルである。当該モデルの形式は、ＧＭＭ（Gaussian Mixture Model、混合ガウスモデル）でもよいし、ＤＮＮ（Deep Neural Network、深層ニューラルネットワーク）でもよい。なお、あらかじめ設定されたキーワードが複数存在する場合、それぞれに対応する複数のモデルを記憶してもよい。

ここでは、背景雑音とは、環境から出ている雑音の総称を言い、音声と非音声の両方を含む。例えば、環境が会議室である場合、背景雑音は、稼働中のエアコンから出ている雑音や隣の会議室から漏れる音声を含む。あるいは、環境が自動車の車内である場合、背景雑音は、自動車のエンジン音やカーオーディオからの音楽を含む。

ここでは、キーワードの成分とは、キーワードを発話した音声に含まれる任意の構成単位を指す。以下では一例として、キーワードの成分が音素であるものとして説明する。またここでは、背景雑音の成分とは、あらかじめ設定された背景雑音に含まれる任意の構成単位を指す。以下では一例として、背景雑音の成分を疑似的に「背景雑音の音素」と称する。

閾値記憶部３２は、音声キーワード検出処理で使用される、あらかじめ設定された種々の閾値を記憶する。

制御部２０は、上記ハードウェアプロセッサ２０Ａと、上記プログラムメモリ２０Ｂとから構成され、処理機能部として、音声取得部２１と、スコア計算部２２と、キーワード検出部２３とを備える。これらの処理機能部は、いずれもプログラムメモリ２０Ｂに格納されたプログラムを、上記ハードウェアプロセッサ２０Ａに実行させることにより実現される。制御部２０は、また、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。また上記プログラムは、ネットワーク経由で提供されるものであってもよい。

音声取得部２１は、第１の取得部として、複数のフレームを含む音声データを取得する処理を行う。音声取得部２１は、例えば、マイクロホン２を介して集音された音声波形を受け付け、音声波形をデジタル化し、フレームごとの音声特徴量を抽出し、スコア計算部２２に出力する。ここで、音声特徴量は、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）でもよいし、メルフィルタバンクでもよい。あるいは、ピッチ特徴量、またはそれらのΔ成分もしくはΔΔ成分、またはこれら特徴量の組み合わせを用いてもよい。

スコア計算部２２は、音声取得部２１から受け取った音声特徴量をキーワードスコア計算部２２１および背景雑音スコア計算部２２２に渡す。スコア計算部２２はまた、第２の取得部として、モデル記憶部３１に記憶された学習済みのモデルを読み出し、スコア計算のために、読み出したモデルをキーワードスコア計算部２２１および背景雑音スコア計算部２２２に渡す。

キーワードスコア計算部２２１は、第１の計算部として、音声データの各フレームと、モデルのキーワードの成分とをマッチングすることによって、キーワードスコアを計算する。この実施形態では、キーワードスコア計算部２２１は、音声データのフレームごとに、音声データから特徴量を抽出し、該特徴量をモデルに入力することによって得られる出力に基づいて、キーワードスコアを計算する。キーワードスコアは、当該音声データにおける、あらかじめ設定されたキーワードの成分の出現確率の高さを表す情報である。

背景雑音スコア計算部２２２は、第２の計算部として、音声データの各フレームと、モデルの背景雑音成分とをマッチングすることによって、背景雑音スコアを計算する。この実施形態では、背景雑音スコア計算部２２２は、音声データのフレームごとに、音声データから特徴量を抽出し、該特徴量をモデルに入力することによって得られる出力に基づいて、背景雑音スコアを計算する。背景雑音スコアは、当該音声データにおける、あらかじめ設定された背景雑音の成分の出現確率の高さを表す情報である。

キーワード検出部２３は、キーワードスコア計算部２２１によって計算されたキーワードスコアと、背景雑音スコア計算部２２２によって計算された背景雑音スコアと、閾値記憶部３２に格納されたあらかじめ設定された閾値とに基づき、判定部として、音声データがキーワードを含むか否かを判定する。キーワード検出部２３による判定動作の詳細は後述する。キーワード検出部２３はまた、判定結果を出力することができる。例えば、キーワード検出部２３は、音声データがキーワードを含むと判定された場合、当該キーワードを出力してもよい。

（２−２）動作
次に、以上のように構成された音声キーワード検出装置１による情報処理動作を説明する。図４はその処理手順と処理内容を示すフローチャートである。

一実施形態では、音声キーワード検出装置１は、マイクロホン２により集音された音声データが入出力インタフェース１１を介して取り込まれると、この処理を開始する。

（２−２−１）音声データの取得と音声特徴量の出力
まずステップＳ１０１において、音声キーワード検出装置１は、音声取得部２１の制御の下、音声データを取得して、音声特徴量を抽出し、出力する。

音声取得部２１は、例えば、音声波形のアナログ波を１６ｋＨｚでサンプリングし、デジタル波の１サンプルの振幅値を１６ビットで表す。音声取得部２１は、このデジタル波を一定の時間ごとに切り出す。ここでは一例として、デジタル波を２５６点サンプルずつ、１２８点サンプルずらしながら切り出すものとする。例えば、音声取得部２１は、この２５６点サンプルを１フレームとし、１フレームからＭＦＣＣ特徴量１２次元を算出する。そして、３フレーム分のＭＦＣＣ特徴量を連結した３６次元を特徴量として出力する。なお、連結するフレーム数は３フレームに限定されず、１以上であれば任意のフレーム数であってよい。また、切り出すサンプル数やフレーム周期も上記した値に限定されない。

これにより、音声取得部２１は、複数のフレームを含む音声データを取得するとともに、音声特徴量を抽出し、スコア計算部２２に出力する。スコア計算部２２は、受け取った音声特徴量をキーワードスコア計算部２２１および背景雑音スコア計算部２２２に渡す。

（２−２−２）キーワードスコアおよび背景雑音スコアの計算
次いで、ステップＳ１０２において、音声キーワード検出装置１は、キーワードスコア計算部２２１の制御の下、モデル記憶部３１から読み出されたモデルと、上記フレームごとの音声特徴量とをもとに、キーワードスコアｓｃｏｒｅ_KW を計算する。

キーワードスコアは、例えば、音声データのある始端フレームから終端フレームまでの最大累積音響スコアとして計算することができる（例えば、特開２０１８−１５５９５７号公報参照）。以下で、そのようなスコア計算の一例として、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型の隠れマルコフモデル（Hidden Markov Model，ＨＭＭ）とビタビアルコリズムを用いて計算する方法を例示する。なお、上述のようにモデルはＧＭＭでもＤＮＮでもよいが、ここでは、モデルがフィードフォワード型のＤＮＮであり、キーワードが「あかい」であるものとして説明する。

図５は、そのようなモデルの一例としてのＤＮＮ５０のイメージを示す。ＤＮＮ５０は、例えば、複数の話者による複数のキーワードの発話を集音した音声データと、それぞれの正解ラベルとしてのテキストデータとの対、および背景雑音を集音して得られる背景雑音データとその正解ラベルとの対とを含む学習データを使用し、バックプロパゲーションを用いてあらかじめ学習される。ＤＮＮ５０は、入力層５１と、中間層５２と、出力層５３とを有する。ＤＮＮ５０の入力層５１は、３６個のノードを備え（図では省略して示す）、音声取得部２１によって出力された３６次元特徴量がそれぞれのノードに入力される。ここでは、ＤＮＮ５０の中間層５２は、２５６のノードを持つ層を３つ重ねたものとする（図では省略して示す）。ＤＮＮ５０の出力層５３の各ノード５３１〜５３４は、それぞれ、キーワード「あかい」の音素「ａ」「ｋａ」「ｉ」と隠れマルコフモデル（ＨＭＭ）の対応付け、および背景雑音の音素「ＢＮ」（Backgroud Noise，ＢＮ）とＨＭＭの対応付けである。なお、簡易化のため、図５では、ＨＭＭは全部１状態としている。また、ＨＭＭのパラメータとして、音素間の遷移確率はどの遷移間の確率も同確率とし、出力確率はフレームごとの音素の出現確率（音響スコア）で表す。

キーワードスコア計算部２２１は、音声データと、上記のようなモデルのキーワードの成分をマッチングすることによって、キーワードスコアｓｃｏｒｅ_KW を計算する。この実施形態では、まず、キーワードスコア計算部２２１は、音声データのフレームごとの特徴量と上記モデルを用いて、キーワードの各音素の出現確率の対数尤度を音響スコアとして計算する。そして、ビタビアルゴリズムを用いて最大の累積音響スコアをもつパスを特定する。キーワードスコア計算部２２１は、ある始端フレームｔ_s から終端フレームｔ_e までの最大累積音響スコアを、キーワードスコアｓｃｏｒｅ_KW として計算する。

キーワードスコア計算部２２１は、ｔ_e を時間方向にインクリメントしながらスコア計算を行うが、このとき何フレームずつかスコア計算をスキップし、計算量を削減するようにしてもよい。最大累積音響スコアは、例えば、対数尤度の時系列の和であるが、この和を特定の範囲（例えば、１から１００までの範囲、または０から１００までの範囲）に正規化した値として用いてもよい。

一方、ステップＳ１０３において、音声キーワード検出装置１は、背景雑音スコア計算部２２２の制御の下、キーワードスコアを計算したのと同じ音声データの特徴量を用いて、モデルの背景雑音成分に対して背景雑音スコアを計算する。具体的には、キーワードスコアの計算と同様に、まず、音声データのフレームごとの特徴量とモデルを用いて、背景雑音の音素の出現確率の対数尤度をノイズスコアとして計算する。そして、始端フレームｔ_s から終端フレームｔ_e までの累積ノイズスコアを背景雑音スコアｓｃｏｒｅ_BN として計算する。

ステップＳ１０２とステップＳ１０３とは、並行して実施されてもよいし、順次に実施されてもよい。また、音声キーワード検出装置１は、キーワードスコアと背景雑音スコアを同時に計算してもよい。

図６は、上記のような最大累積音響スコアの計算を説明するための図である。図６は、キーワード「あかい」についてのキーワード空間を表す。縦軸は、各キーワードの状態に対するスコアを表し、横軸は、フレーム（時間）を表す。ｔ_s は、音声データ上のキーワードの始端フレームｔ_s の始端の時間であり、以下、始端情報とも言う。ｔ_e は、音声データ上の当該キーワードの終端フレームｔ_e の終端の時間であり、以下、終端情報とも言う。ｓｃｏｒｅ_KW として示された太線は、キーワード空間における最大のパスを示している。背景雑音のスコアｓｃｏｒｅ_BN も、各フレームについて計算されているが、キーワード空間にはプロットされないため下方に示されている。

（２−２−３）キーワードの検出
次いで、ステップＳ１０４において、音声キーワード検出装置１は、キーワード検出部２３の制御の下、閾値記憶部３２からあらかじめ設定された閾値を読み出し、この読み出した閾値と、キーワードスコア計算部２２１により計算されたキーワードスコアと、背景雑音スコア計算部２２２により計算された背景雑音スコアとに基づいて、音声データがキーワードを含むか否かを判定する。

この実施形態では、キーワードスコアｓｃｏｒｅ_KW があらかじめ設定されたキーワードスコア閾値θ_KW よりも大きく、かつ、背景雑音スコアｓｃｏｒｅ_BN があらかじめ設定された背景雑音スコア閾値θ_BN よりも小さい場合（ＹＥＳ）、ステップＳ１０５に移行する。キーワードスコア閾値θ_KW を高く設定すれば、キーワードは検出されにくくなり、キーワードスコア閾値θ_KW を低く設定すれば、キーワードは検出されやすくなる。背景雑音スコア閾値θ_BN についても同様である。なお、最大累積音響スコアが特定の範囲に正規化された値である場合、閾値もこの特定の範囲のいずれかの値に設定されるようにしてもよい。

ステップＳ１０５において、音声キーワード検出装置１は、キーワード検出部２３の制御の下、上記条件を満たした始端フレームｔ_s から終端フレームｔ_e までの音声データをキーワードとして判定（検出）する。なお、始端フレームｔ_s と終端フレームｔ_e は累積スコアを計算する際に逐次記憶されており、音声キーワード検出装置１は、図６に示したようなキーワード空間において累積スコアが閾値を超えた場合にそれがどのフレームからどのフレームまでの区間に対応するかを容易に特定することができる。（キーワードが検出されたフレーム区間を特定する方法の詳細については、特開２０１８−１５５９５７号公報参照）。

一方、ステップＳ１０４の条件に合致しない場合（ＮＯ）、ステップＳ１０６に移行する。ステップＳ１０６では、音声キーワード検出装置１は、始端フレームｔ_s から終端フレームｔ_e までの音声データがキーワードではないものと判定する。したがって、仮にキーワードスコアｓｃｏｒｅ_KW が閾値θ_KW 以上であっても、背景雑音スコアｓｃｏｒｅ_BN が大きい場合には、背景雑音である可能性が高いため、キーワードと判定しないことになる。

続いて、キーワード検出部２３は、入出力Ｉ／Ｆ１１または通信Ｉ／Ｆ１２を通じて、上記判定の結果を検出結果として出力することができる。例えば、キーワード検出部２３は、キーワードと判定された場合には、当該キーワードを検出結果として出力することができる。キーワードと判定されなかった場合、キーワード検出部２３は、処理を終了するか、またはｔ_e を時間方向にインクリメントして後続する音声データに対して処理を繰り返してもよい。処理を終了する場合、キーワード検出部２３は、キーワードが検出されなかったことを示すメッセージを作成して出力するようにしてもよい。

（３）効果
以上説明したように、第１の実施形態によれば、音声キーワード検出装置１は、音声特徴量に基づいて、フレームごとに、キーワードスコアのみならず、背景雑音スコアも計算する。そして、キーワードスコアｓｃｏｒｅ_KW があらかじめ設定されたキーワードスコア閾値θ_KW よりも大きく、かつ、背景雑音スコアｓｃｏｒｅ_BN があらかじめ設定された背景雑音スコア閾値θ_BN よりも小さい場合に、当該フレームに係る音声データをキーワードとして検出する。

これにより、キーワードスコアのみでキーワードを検出する場合に比べて、誤検出が抑制された、より精度の高いキーワード検出を実現することができる。

［第２の実施形態］
（１）構成および動作
第２の実施形態に係る情報処理装置としての音声キーワード検出装置１は、背景雑音が強い場合にもキーワードを精度良く検出しようとするものである。

第２の実施形態に係る音声キーワード検出装置１は、図１〜図３を参照して説明した第１の実施形態と同様のシステム構成および機能構成を採用することができる。第２の実施形態に係る音声キーワード検出装置１は、第１の実施形態と同様に、音声取得部２１、キーワードスコア計算部２２１と背景雑音スコア計算部２２２を含むスコア計算部２２、キーワード検出部２３、モデル記憶部３１、および閾値記憶部３２を備える。

（実施例１）
第２の実施形態に係る音声キーワード検出装置１は、実施例１では、キーワードスコアと背景雑音スコアの差分を使用する。すなわち、キーワード検出部２３は、キーワードスコアと背景雑音スコアの差分があらかじめ設定されたスコア差分閾値よりも大きい場合、音声データがキーワードを含むと判定する。具体的には、ｓｃｏｒｅ_KW −ｓｃｏｒｅ_BN ＞ θ_D の場合に、当該フレームに係る音声データをキーワードと判定する。

図７は、第２の実施形態の実施例１に係る音声キーワード検出装置１の処理内容と処理手順を示す。図７において、図４に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

まずステップＳ１０１において、音声取得部２１は、音声データを取得して音声特徴量を出力する。

そしてステップＳ１０２において、キーワードスコア計算部２２１は、フレームごとの音声特徴量とモデルのキーワード成分とをもとに、キーワードスコアｓｃｏｒｅ_KW を計算する。またステップＳ１０３において、背景雑音スコア計算部２２２は、フレームごとの音声特徴量とモデルの背景雑音成分をもとに、背景雑音スコアｓｃｏｒｅ_BN を計算する。

次にステップＳ１１４において、図４のステップＳ１０４とは異なり、キーワード検出部２３は、計算されたキーワードスコアｓｃｏｒｅ_KW と背景雑音スコアｓｃｏｒｅ_BN との差分を算出し、閾値記憶部３２から読み出したスコア差分閾値θ_D と比較する。算出された差分がスコア差分閾値θ_D よりも大きければ（ＹＥＳ）、キーワードと判定し（Ｓ１０５）、スコア差分閾値θ_D 以下であれば（ＮＯ）、キーワードではないと判定する（Ｓ１０６）。

（実施例２）
第２の実施形態に係る音声キーワード検出装置１は、実施例２では、キーワードスコアと背景雑音スコアの比率を用いる。すなわち、キーワード検出部２３が、キーワードスコアと背景雑音スコアの比率があらかじめ設定されたスコア比率閾値よりも大きい場合、音声データがキーワードを含むものとして判定する。具体的には、ｓｃｏｒｅ_KW ／ｓｃｏｒｅ_BN ＞ θ_R の場合に、当該フレームに係る音声データをキーワードと判定する。

図８は、第２の実施形態の実施例２に係るキーワード検出装置１の処理内容と処理手順を示す。図８においても、図４に示した第１の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

まずステップＳ１０１において、音声取得部２１は、音声データを取得して音声特徴量を出力する。ステップＳ１０２において、キーワードスコア計算部２２１は、フレームごとの音声特徴量とモデルのキーワード成分とをもとに、キーワードスコアｓｃｏｒｅ_KW を計算する。またステップＳ１０３において、背景雑音スコア計算部２２２は、フレームごとの音声特徴量とモデルの背景雑音成分をもとに、背景雑音スコアｓｃｏｒｅ_BN を計算する。

次にステップＳ１２４において、図４のステップＳ１０４とは異なり、キーワード検出部２３は、計算されたキーワードスコアｓｃｏｒｅ_KW と背景雑音スコアｓｃｏｒｅ_BN との比率を算出し、閾値記憶部３２から読み出されたスコア比率閾値θ_R と比較する。算出された比率がスコア比率閾値θ_R よりも大きければ（ＹＥＳ）、キーワードと判定し（Ｓ１０５）、スコア比率閾値θ_R 以下であれば（ＮＯ）、キーワードではないと判定する（Ｓ１０６）。

第２の実施形態の実施例１および実施例２のいずれにおいても、キーワード検出部２３は、第１の実施形態と同様に、検出結果を出力することができる。例えば、キーワード検出部２３は、音声データがキーワードを含むと判定された場合、検出結果として当該キーワードを出力することができる。

（２）効果
第２の実施形態に係る音声キーワード検出装置１は、キーワードスコアと背景雑音スコアを計算し、それらの差分または比率をあらかじめ設定された閾値と比較して、比較結果に応じて音声データがキーワードを含むか否かを判定する。

背景雑音が強い場合には、背景雑音スコアが大きく計算されるため、実際には音声データがキーワードを含む場合であってもキーワードを検出できない場合が考えられる。しかし、第２の実施形態によれば、背景雑音が強く、背景雑音スコアが大きい場合であっても、キーワードスコアが背景雑音スコアよりも十分大きければ、キーワードを検出することができる。したがって、やはりキーワードスコアのみの評価を行う場合に比べて、背景雑音がキーワードとして誤検出されるのを抑制し、キーワードの検出精度を向上させることができる。

［第３の実施形態］
（１）構成および動作
第３の実施形態に係る情報処理装置としての音声キーワード検出装置１は、計算量を低減しつつ、キーワードを精度良く検出しようとするものである。

第３の実施形態に係る音声キーワード検出装置１は、図１〜図３を参照して説明した第１の実施形態と同様のシステム構成および機能構成を採用することができる。第３の実施形態に係る音声キーワード検出装置１は、第１の実施形態と同様に、音声取得部２１、キーワードスコア計算部２２１と背景雑音スコア計算部２２２を含むスコア計算部２２、キーワード検出部２３、モデル記憶部３１、および閾値記憶部３２を備える。ただし、図３に示した矢印の向きとは異なる処理を含み得る。

（実施例１）
第３の実施形態に係る音声キーワード検出装置１は、実施例１では、はじめにキーワードスコアに基づいてキーワード候補の検出を行い、キーワード候補が検出された場合に、当該キーワード候補のフレームに対して背景雑音スコアを計算し、背景雑音スコアを用いてキーワードであるか否かの判定を行う。

すなわち、第１および第２の実施形態とは異なり、キーワード検出部２３が、キーワードスコア計算部２２１により計算されたキーワードスコアとキーワードスコア閾値とを比較して、キーワードの可能性があるキーワード候補であるか否かを判定する。そして、背景雑音スコア計算部２２２は、キーワード候補が検出された場合に、当該キーワード候補の始端情報と終端情報とを用いて背景雑音スコアを計算する。

より具体的には、キーワード検出部２３は、キーワードスコアｓｃｏｒｅ_KW がキーワードスコア閾値θ_KW よりも大きい場合に、音声データがキーワード候補を含むものと判定する。そして、背景雑音スコア計算部２２２は、当該キーワード候補の始端フレームｔ_s と終端フレームｔ_e を用いて、背景雑音スコアｓｃｏｒｅ_BN を計算する。

続いて、キーワード検出部２３は、背景雑音スコアｓｃｏｒｅ_BN と背景雑音スコア閾値θ_BN との大小を比較して、キーワードであるか否かを判定する。具体的には、キーワード検出部２３は、背景雑音スコアｓｃｏｒｅ_BN があらかじめ設定された背景雑音スコア閾値θ_BN よりも小さい場合に、キーワード候補の始端フレームｔ_s と終端フレームｔ_e の間の音声データをキーワードとして判定（検出）する。

図９は、第３の実施形態の実施例１に係る音声キーワード検出装置１の処理内容と処理手順を示す。なお、図４を参照して説明した第１の実施形態に係る処理と同じ処理については、詳細な説明は省略する。
まずステップＳ２０１において、音声キーワード検出装置１は、音声取得部２１の制御の下、第１の実施形態と同様に、音声データを取得し音声特徴量を出力する。

次いでステップＳ２０２において、音声キーワード検出装置１は、キーワードスコア計算部２２１の制御の下、第１の実施形態と同様に、キーワードスコアｓｃｏｒｅ_KW を計算する。

ステップＳ２０３において、音声キーワード検出装置１は、キーワード検出部２３の制御の下、閾値記憶部３２からキーワードスコア閾値θ_KW を読み出し、キーワードスコア計算部２２１により計算されたキーワードスコアｓｃｏｒｅ_KW がキーワードスコア閾値θ_KW よりも大きいか否かを判定する。キーワードスコア閾値以下の場合（ＮＯ）、ステップＳ２０７に移行し、キーワードではないものと判定する。一方、キーワードスコア閾値よりも大きい場合（ＹＥＳ）、キーワード候補として判定して、ステップＳ２０４に移行する。

続いてステップＳ２０４において、音声キーワード検出装置１は、背景雑音スコア計算部２２２の制御の下、当該キーワード候補の始端フレームｔ_s と終端フレームｔ_e の情報を用いて、キーワード候補に対応する区間の背景雑音スコアｓｃｏｒｅ_BN を計算し、キーワード検出部２３に渡す。

ステップＳ２０５において、音声キーワード検出装置１は、キーワード検出部２３の制御の下、閾値記憶部３２から背景雑音スコア閾値θ_BN を読み出し、計算された背景雑音スコアｓｃｏｒｅ_BN が背景雑音スコア閾値θ_BN よりも小さいか否かを判定する。背景雑音スコア閾値よりも小さい場合（ＹＥＳ）、ステップＳ２０６に移行し、キーワードと判定する。一方、背景雑音スコア閾値以上の場合（ＮＯ）、ステップＳ２０７に移行し、キーワードではないと判定する。

（実施例２）
第３の実施形態に係る音声キーワード検出装置１は、実施例２では、キーワード候補が検出された場合に、背景雑音スコアを計算し、キーワードスコアと背景雑音スコアの差分を用いてキーワードであるか否かの判定を行う。
すなわち、上記実施例１と同様に、キーワード検出部２３が、キーワードスコア計算部２２１により計算されたキーワードスコアとキーワードスコア閾値とを比較して、キーワードの可能性があるキーワード候補であるか否かを判定する。そして、背景雑音スコア計算部２２２は、キーワード候補が検出された場合に、当該キーワード候補の始端情報と終端情報とを用いて背景雑音スコアを計算する。

そして、キーワード検出部２３は、キーワードスコアと背景雑音スコアの差分を算出し、当該差分とあらかじめ設定されたスコア差分閾値との大小を比較して、キーワードであるか否かを判定する。具体的には、実施形態２の実施例１で説明したのと同様に、ｓｃｏｒｅ_KW −ｓｃｏｒｅ_BN ＞ θ_D の場合に、キーワード候補の始端フレームｔ_s と終端フレームｔ_e の間の音声データをキーワードとして判定（検出）する。

図１０は、第３の実施形態の実施例２に係るキーワード検出装置１の処理内容と処理手順を示す。図１０において、図９に示した第３の実施形態の実施例１に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

まずステップＳ２０１において、音声取得部２１は、音声データを取得して音声特徴量を出力する。ステップＳ２０２において、キーワードスコア計算部２２１は、フレームごとの音声特徴量とモデルのキーワード成分とをもとに、キーワードスコアｓｃｏｒｅ_KW を計算する。

ステップＳ２０３において、キーワード検出部２３は、閾値記憶部３２からキーワードスコア閾値θ_KW を読み出し、キーワードスコア計算部２２１により計算されたキーワードスコアｓｃｏｒｅ_KW がキーワードスコア閾値θ_KW よりも大きいか否かを判定する。キーワードスコア閾値以下の場合（ＮＯ）、ステップＳ２０７に移行し、キーワードではないものと判定する。一方、キーワードスコア閾値よりも大きい場合（ＹＥＳ）、キーワード候補として判定して、ステップＳ２０４に移行する。

ステップＳ２０４において、背景雑音スコア計算部２２２は、当該キーワード候補に対応する区間の背景雑音スコアｓｃｏｒｅ_BN を計算する。

次にステップＳ２１５において、図９のステップＳ２０５とは異なり、キーワード検出部２３は、計算されたキーワードスコアｓｃｏｒｅ_KW と背景雑音スコアｓｃｏｒｅ_BN との差分を算出し、閾値記憶部３２から読み出されたスコア差分閾値θ_D と比較する。算出された差分がスコア差分閾値θ_D よりも大きければ（ＹＥＳ）、キーワードと判定し（Ｓ２０６）、スコア差分閾値θ_D 以下であれば（ＮＯ）、キーワードではないと判定する（Ｓ２０７）。

（実施例３）
第３の実施形態に係る音声キーワード検出装置１は、実施例３では、キーワード候補が検出された場合に、背景雑音スコアを計算し、キーワードスコアと背景雑音スコアの比率を用いてキーワードであるか否かの判定を行う。
すなわち、上記実施例１、２と同様に、キーワード検出部２３が、キーワードスコア計算部２２１により計算されたキーワードスコアとキーワードスコア閾値とを比較して、キーワードの可能性があるキーワード候補であるか否かを判定する。そして、背景雑音スコア計算部２２２は、キーワード候補が検出された場合に、当該キーワード候補の始端情報と終端情報とを用いて背景雑音スコアを計算する。

そして、キーワード検出部２３は、キーワードスコアと背景雑音スコアの比率を算出し、当該比率とあらかじめ設定されたスコア比率閾値との大小を比較して、キーワードであるか否かを判定する。具体的には、実施形態２の実施例２で説明したのと同様に、ｓｃｏｒｅ_KW ／ｓｃｏｒｅ_BN ＞ θ_R の場合に、キーワード候補の始端フレームｔ_s と終端フレームｔ_e の間の音声データをキーワードとして判定（検出）する。

図１１は、第３の実施形態の実施例３に係るキーワード検出装置１の処理内容と処理手順を示す。図１１においても、図９に示した第３の実施形態の実施例１に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。

まずステップＳ２０１において、音声取得部２１は、音声データを取得して音声特徴量を出力する。ステップＳ２０２において、キーワードスコア計算部２２１は、フレームごとの音声特徴量とモデルのキーワード成分とをもとに、キーワードスコアｓｃｏｒｅ_KW を計算する。ステップＳ２０３において、キーワード検出部２３は、閾値記憶部３２からキーワードスコア閾値θ_KW を読み出し、キーワードスコア計算部２２１により計算されたキーワードスコアｓｃｏｒｅ_KW がキーワードスコア閾値θ_KW よりも大きいか否かを判定する。キーワードスコア閾値以下の場合（ＮＯ）、ステップＳ２０７に移行し、キーワードではないものと判定する。一方、キーワードスコア閾値よりも大きい場合（ＹＥＳ）、キーワード候補として判定して、ステップＳ２０４に移行する。ステップＳ２０４において、背景雑音スコア計算部２２２は、当該キーワード候補に対応する区間の背景雑音スコアｓｃｏｒｅ_BN を計算する。

ステップＳ２２５において、図９のステップＳ２０５とは異なり、キーワード検出部２３は、計算されたキーワードスコアｓｃｏｒｅ_KW と背景雑音スコアｓｃｏｒｅ_BN との比率を算出し、閾値記憶部３２から読み出されたスコア比率閾値θ_R と比較する。算出された比率がスコア比率閾値θ_R よりも大きければ（ＹＥＳ）、キーワードと判定し（Ｓ２０６）、スコア比率閾値θ_R 以下であれば（ＮＯ）、キーワードではないと判定する（Ｓ２０７）。

第３の実施形態の実施例１〜３のいずれにおいても、キーワード検出部２３は、第１、第２の実施形態と同様に、検出結果を出力することができる。例えば、キーワード検出部２３は、音声データがキーワードを含むと判定された場合、検出結果として当該キーワードを出力することができる。

（２）効果
第３の実施形態に係る音声キーワード検出装置１は、まずキーワードスコアとキーワードスコア閾値とに基づいて、キーワード候補であるか否かを判定する。そして、キーワード候補であると判定された場合に、当該キーワード候補のフレームについて、背景雑音スコアを計算する。そして、音声キーワード検出装置１は、少なくとも背景雑音スコアとあらかじめ設定された閾値とに基づいて、キーワード候補のフレームがキーワードであるか否かをさらに判定する。

このように、実施形態３によれば、すべての音声データについて背景雑音スコアを計算するわけでなく、キーワードの可能性が高いと判定された場合に背景雑音スコアを計算するので、背景雑音がキーワードとして誤検出されるのを抑制しつつ、計算量を削減することができる。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。例えば、上記実施形態では、背景雑音を１つの成分（音素）として扱ったが、背景雑音が複数の種類を含むものとしてモデルを作成し学習させることもできる。例えば、走行中の自動車内では、乗員の会話や動きに起因する雑音に加えて、エンジン音をはじめとする定常的な雑音が発生し得る。あるいは、会議室内では、ドアの開閉や隣室の会話などの雑音に加えて、運転中のエアコンから生じるファンやモータの定常的な雑音が発生し得る。したがって、背景雑音を、このような定常的な雑音と、それ以外の非定常的な雑音とに分けて扱い、それぞれについて背景雑音スコアを計算するようにしてもよい。またその際、定常的な雑音については閾値を厳しく設定するなど、複数種類の背景雑音に対しそれぞれ異なる閾値を設定してもよい。これにより、定常的な雑音（例えば、自動車や飛行機のエンジン音、冷蔵庫やエアコンなどのモータ音など）と、隣室の会話や人の活動音などを区別することができ、いっそうの精度向上が期待できる。

最大累積音響スコアを求めるためのモデルは、音素単位でのモデルに限定されない。例えば、音韻、モーラ、発音表記、または表記文字の単位でモデル化してもよい。また、累積スコアの算出方法は、ＨＭＭとビタビアルゴリズムを用いたものに限定されるものではなく、リカレント構造をもったニューラルネットワーク、例えば、ＬＳＴＭ（Long short-term memory）とＣＴＣ（Connectionist Temporal Classification）を組み合わせたもので算出する方法や、ＡｔｔｅｎｔｉｏｎＭｏｄｅｌを用いて算出する方法も適用できる。また、フレーム単位の音響スコア計算に対しては、フィードフォワード型のニューラルネットワークに限定されることはなく、リカレント構造のニューラルネットワーク（例えばＬＳＴＭ）を適用してもよい。

また、上記実施形態に関して説明した音声キーワード検出装置１が備える各機能部を、複数の装置（サーバ、エッジサーバ、他のクライアント端末など）に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。

上記各実施形態の処理の少なくとも一部は、例えば汎用のコンピュータに搭載されたプロセッサを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体（記憶媒体）に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

その他、音声データの取得やモデルの生成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…情報処理装置，音声キーワード検出装置、２…マイクロホン、３…入力デバイス、４…出力デバイス、１１…入出力インタフェース（入出力Ｉ／Ｆ）、１２…通信インタフェース（通信Ｉ／Ｆ）、２０…制御部、２０Ａ…ハードウェアプロセッサ、２０Ｂ…プログラムメモリ、２１…音声取得部、２２…スコア計算部、２３…キーワード検出部、３０…データメモリ、３１…モデル記憶部、３２…閾値記憶部、４０…バス、２２１…キーワードスコア計算部、２２２…背景雑音スコア計算部、５１…入力層、５２…中間層、５３…出力層、５３１，５３２，５３３，５３４…ノード。

Claims

複数のフレームを含む音声データを取得する第１の取得部と、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得する第２の取得部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算する第１の計算部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算する第２の計算部と、
前記キーワードスコアと、前記背景雑音スコアと、あらかじめ設定された閾値とに基づいて、前記音声データが前記キーワードを含むか否かを判定する判定部と、
を備える情報処理装置。
複数のフレームを含む音声データを取得する第１の取得部と、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得する第２の取得部と、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算する第１の計算部と、
前記キーワードスコアと、あらかじめ設定された第１の閾値とに基づいて、前記音声データが前記キーワードの候補を含むか否かを判定し、前記音声データが前記キーワードの候補を含むと判定された場合に、前記キーワードの候補に対応する前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される前記情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算する第２の計算部と、
前記背景雑音スコアと、あらかじめ設定された第２の閾値とに少なくとも基づいて、前記音声データが前記キーワードを含むか否かを判定する判定部と、
を備える情報処理装置。
前記モデルから出力される前記尤度を表す情報は、前記キーワードの成分としての音素と第１の隠れマルコフモデルとの対応付けと、前記背景雑音の成分としての音素と第２の隠れマルコフモデルとの対応付けとをさらに含む、請求項１または請求項２に記載の情報処理装置。
前記第１の計算部は、前記キーワードスコアとして、前記フレームごとに、前記キーワードの成分としての音素と隠れマルコフモデルとの対応付けの出現確率を計算し、さらにビタビアルゴリズムを用いて前記出現確率の累積値を計算する、請求項１または請求項２に記載の情報処理装置。
前記第２の計算部は、前記背景雑音スコアとして、前記フレームごとに、前記背景雑音の成分としての音素と隠れマルコフモデルとの対応付けの出現確率を計算し、さらにビタビアルゴリズムを用いて前記出現確率の累積値を計算する、請求項１または請求項２に記載の情報処理装置。
前記判定部は、前記キーワードスコアがあらかじめ設定された第１の閾値よりも大きく、かつ前記背景雑音スコアがあらかじめ設定された第２の閾値よりも小さい場合に、前記音声データが前記キーワードを含むと判定する、請求項１に記載の情報処理装置。
前記判定部は、前記キーワードスコアと前記背景雑音スコアの差分があらかじめ設定された第３の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、請求項１に記載の情報処理装置。
前記判定部は、前記キーワードスコアと前記背景雑音スコアの比率があらかじめ設定された第４の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、請求項１に記載の情報処理装置。
前記第２の計算部は、前記キーワードスコアが前記第１の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記背景雑音スコアが前記第２の閾値よりも小さい場合に、前記音声データが前記キーワードを含むと判定する、
請求項２に記載の情報処理装置。
前記第２の計算部は、前記キーワードスコアが前記第１の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記キーワードスコアと前記背景雑音スコアの差分があらかじめ設定された第３の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、
請求項２に記載の情報処理装置。
前記第２の計算部は、前記キーワードスコアが前記第１の閾値よりも大きい場合に、前記音声データが前記キーワードの候補を含むと判定し、前記キーワードの候補の始端情報と終端情報とを用いて前記キーワードの候補に対応するフレームについて前記背景雑音スコアを計算し、
前記判定部は、前記キーワードスコアと前記背景雑音スコアの比率があらかじめ設定された第４の閾値よりも大きい場合に、前記音声データがキーワードを含むと判定する、
請求項２に記載の情報処理装置。
前記クラスは、前記背景雑音の成分を複数含み、
前記第２の計算部は、前記フレームごとに、前記背景雑音の複数の成分の各々に関して前記背景雑音スコアを計算する、請求項１または請求項２に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
複数のフレームを含む音声データを取得することと、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算することと、
前記キーワードスコアと、前記背景雑音スコアと、あらかじめ設定された閾値とに基づいて、前記音声データが前記キーワードを含むか否かを判定することと、
を備える情報処理方法。
情報処理装置が実行する情報処理方法であって、
複数のフレームを含む音声データを取得することと、
前記音声データから抽出される特徴量を入力すると、特定のキーワードの成分と前記キーワード以外の背景雑音の成分とを含む複数のクラスの各々に対する尤度を表す情報を出力するように学習されたモデルを取得することと、
前記音声データの前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される情報に基づいて、前記キーワードの成分の出現確率の高さを表すキーワードスコアを計算することと、
前記キーワードスコアと、あらかじめ設定された第１の閾値とに基づいて、前記音声データが前記キーワードの候補を含むか否かを判定し、前記音声データが前記キーワードの候補を含むと判定された場合に、前記キーワードの候補に対応する前記フレームごとに、前記特徴量を抽出し、前記モデルに入力することによって、前記モデルから出力される前記情報に基づいて、前記背景雑音の成分の出現確率の高さを表す背景雑音スコアを計算することと、
前記背景雑音スコアと、あらかじめ設定された第２の閾値とに少なくとも基づいて、前記音声データが前記キーワードを含むか否かを判定することと、
を備える情報処理方法。
請求項１乃至請求項１２の何れかに記載の装置の各部による処理をプロセッサに実行させるプログラム。