JP7098587B2 - 情報処理装置、キーワード検出装置、情報処理方法およびプログラム - Google Patents

情報処理装置、キーワード検出装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7098587B2
JP7098587B2 JP2019157158A JP2019157158A JP7098587B2 JP 7098587 B2 JP7098587 B2 JP 7098587B2 JP 2019157158 A JP2019157158 A JP 2019157158A JP 2019157158 A JP2019157158 A JP 2019157158A JP 7098587 B2 JP7098587 B2 JP 7098587B2
Authority
JP
Japan
Prior art keywords
keyword
data
learning
model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019157158A
Other languages
English (en)
Other versions
JP2021033228A (ja
Inventor
寧 丁
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2019157158A priority Critical patent/JP7098587B2/ja
Priority to US16/804,388 priority patent/US11961510B2/en
Priority to CN202010127371.1A priority patent/CN112447176B9/xx
Publication of JP2021033228A publication Critical patent/JP2021033228A/ja
Application granted granted Critical
Publication of JP7098587B2 publication Critical patent/JP7098587B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、情報処理装置、キーワード検出装置、情報処理方法およびプログラムに関する。
近年、音声による操作に適応したスマートスピーカーが急速に普及している。スマートスピーカーは、例えば、「ウェイクワード」とも呼ばれる特定のキーワードを音声から検出することによって起動する。ユーザは、キーワードを発声するだけで、スマートスピーカーを起動させ、様々な操作を続けることができる。したがって、音声からキーワードを検出するキーワードモデルが必要とされる。
G. Chen, C. Parada, and G. Heigold, "Small-footprint keyword spotting using deep neural networks," in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014, pp. 4087-4091.
本発明が解決しようとする課題は、限られたデータから効率的にキーワードモデルを学習させることのできる技術を提供することである。
実施形態によれば、情報処理装置は、データ取得部と、学習部と、抽出部と、適応処理部とを備える。データ取得部は、音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第1の学習データを取得する。学習部は、上記第1の学習データを用いて、上記音声特徴量の入力に対して上記正解音素ラベルを出力するように音響モデルを学習させる。抽出部は、あらかじめ設定されたキーワード、上記キーワードに含まれるサブワード、上記キーワードに含まれる音節、および上記キーワードに含まれる音素のうちの少なくとも1つの音声特徴量を含む第2の学習データを、上記第1の学習データから抽出する。適応処理部は、上記第2の学習データを少なくとも用いて、学習済みの上記音響モデルを上記キーワードの検出に係るキーワードモデルに適応させる。
図1は、第1の実施形態に係る情報処理装置のシステム構成の例を示すブロック図である。 図2は、第1の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。 図3は、第1の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。 図4は、第2の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。 図5は、第2の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。 図6は、第3の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。 図7は、第4の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。 図8は、第5の実施形態に係る情報処理装置による処理手順と処理内容の例を示すフローチャートである。 図9は、第6の実施形態に係る情報処理装置の機能構成の例を示すブロック図である。 図10は、第7の実施形態に係るキーワード検出装置の機能構成の例を示すブロック図である。 図11は、第7の実施形態に係るキーワード検出装置による処理手順と処理内容の一例を示す。 図12は、実施形態によって適応されたキーワード検出モデルを用いた実験の結果を示すグラフである。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
(1)キーワードモデル学習装置
(1-1)構成
図1は、第1の実施形態に係る情報処理装置としてのキーワードモデル学習装置1の一例を示すブロック図である。キーワードモデル学習装置1は、例えば、サーバコンピュータまたはパーソナルコンピュータであり、キーワードを検出するために使用されるキーワードモデルの学習に使用される。
キーワードモデル学習装置1は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ20Aを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ20B、データメモリ30、およびインタフェース(I/F)ユニット10を、バス40を介して接続したものとなっている。
I/Fユニット10は、外部機器から学習データを受け取り、制御ユニット20に出力する機能を有する。またI/Fユニット10は、制御ユニット20から出力された学習済みモデルに関する情報を外部機器に出力する機能を有する。I/Fユニット10は、通信インタフェースを含み得る。通信インタフェースは、例えば1つ以上の有線または無線の通信インタフェースを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線LANが使用され、また無線インタフェースとしては、例えば無線LANやBluetooth(登録商標)などの小電力無線データ通信規格を採用したインタフェースが使用される。
I/Fユニット10には、また、マイクロホン2、入力デバイス3および出力デバイス4が接続され得る。例えば、I/Fユニット10は、マイクロホン2によって集音された音声を音声信号として取り込み、制御ユニット20に渡す機能を有する。I/Fユニット10はまた、キーボード、タッチパネル、タッチパッド、マウス等の入力デバイス3を通じて入力されたデータを取り込み、制御ユニット20に渡す機能を有する。I/Fユニット10はまた、制御ユニット20から出力された出力データを、液晶または有機EL(Electro Luminescence)等を用いた表示デバイスや音声を出力するスピーカを含む出力デバイス4へ出力する機能を有する。なお、マイクロホン2、入力デバイス3および出力デバイス4はキーワードモデル学習装置1に内蔵されたデバイスを使用してもよく、またネットワークを介して通信可能な他の情報端末のマイクロホン、入力デバイスおよび出力デバイスを使用してもよい。
プログラムメモリ20Bは、記憶媒体として、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。
データメモリ30は、記憶媒体として、例えば、HDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとを組み合わせて使用したもので、情報処理を行う過程で取得および作成された各種データを記憶するために用いられる。
キーワード検出を行うためのキーワードモデルの学習には、一般に大量の話者によるキーワード発話データが必要であり、その収録のための収録コストを要していた。例えば、特定のキーワードについてキーワードモデルを学習させるために、4万発話が必要との報告もある。
本実施形態は、限られたデータから効率的にキーワードモデルの学習を行うことができる技術を提供する。
図2は、第1の実施形態に係るキーワードモデル学習装置1の機能構成を示すブロック図である。
データメモリ30の記憶領域には、学習データ記憶部31と、キーワードモデル記憶部32とが設けられている。
学習データ記憶部31は、制御ユニット20によって取得された学習データを記憶するために使用される。学習データは、音声特徴量とその正解音素ラベルの組合せを含む。
キーワードモデル記憶部32は、学習済みのキーワードモデルを記憶するために使用される。学習済みのキーワードモデルとは、ここでは、特定のキーワードを検出するように学習されたモデルを言う。
制御ユニット20は、上記ハードウェアプロセッサ20Aと、上記プログラムメモリ20Bとを備え、処理機能部として、学習データ取得部21と、モデル学習部22と、データ抽出部23と、キーワードモデル適応部24と、出力制御部25とを備える。これらの処理機能部は、いずれもプログラムメモリ20Bに格納されたプログラムを、上記ハードウェアプロセッサ20Aに実行させることにより実現される。制御ユニット20は、また、ASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。また上記プログラムは、ネットワーク経由で提供されるものであってもよい。
学習データ取得部21は、第1のデータ取得部として、音声特徴量とその正解音素ラベルの組合せを含む学習データ(第1の学習データ)を取得し、学習データ記憶部31に記憶させる。
モデル学習部22は、学習部として、学習データ記憶部31から読み出した学習データを用いて、音声特徴量の入力に対して正解音素ラベルを出力するように音響モデルを学習させる処理を行う。音声特徴量は、MFCC(Mel Frequency Cepstral Coefficient)でもよいし、メルフィルタバンクでもよい。あるいは、ピッチ特徴量、またはそれらのΔ成分もしくはΔΔ成分、またはこれら特徴量の組み合わせを用いてもよい。以下では、音声特徴量としてMFCC特徴量を用いるものとして説明する。
データ抽出部23は、抽出部として、学習データ記憶部31から読み出した学習データから、あらかじめ設定されたキーワード、当該キーワードに含まれるサブワード、当該キーワードに含まれる音節、または当該キーワードに含まれる音素を含むデータを抽出する処理を行う。
キーワードモデル適応部24は、適応処理部として、データ抽出部23によって抽出されたデータ(第2の学習データ)を少なくとも用いて、学習済みの音響モデルをキーワードの検出に係るキーワードモデルに適応させる処理を行う。キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。キーワードモデル適応部24はまた、キーワードモデル記憶部32に記憶されたキーワードモデルを読み出し、当該キーワードモデルを再学習させ、更新することもできる。
出力制御部25は、制御ユニット20による処理の結果を、I/Fユニット10を介して外部機器に出力する処理を行う。例えば、出力制御部25は、外部機器からの要求に応答して、キーワードモデル記憶部32に記憶されたキーワードモデルに関する情報を読み出し、出力データを生成して、I/Fユニット10を介して出力デバイス4または他の外部機器に出力する。
(2-2)動作
次に、以上のように構成されたキーワードモデル学習装置1による情報処理動作を説明する。図3はその処理手順と処理内容を示すフローチャートである。
ステップS101において、キーワードモデル学習装置1は、学習データ取得部21の制御の下、学習データを取得する。学習データは、音声特徴量とその正解音素ラベルの組合せを含む。音声特徴量は、例えば以下のように抽出される。
はじめに、発話音声がマイクロホン等を用いて集音され、音声波形として出力される。この音声波形のアナログ波が、例えば16kHzでサンプリングされ、デジタル波の1サンプルの振幅値が16ビットで表される。そしてこのデジタル波が256点サンプルずつ、128点サンプルずらしながら切り出される。この256点サンプルを1フレームとし、1フレームからMFCC特徴量12次元が算出される。そして、3フレーム分のMFCC特徴量を連結した36次元が音声特徴量として使用される。
正解ラベルは、音声特徴量に対応する発音の情報である。ここでは、36次元の音声特徴量に対応する音素の隠れマルコフモデル(Hidden Markov Model,HMM)をラベルとして使用する。
次いでステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、学習データ記憶部31から上記学習データを読み出し、この学習データを用いて音響モデル(汎用モデル)の学習を行う。この音響モデルは、一般の発声を認識できる音響モデルである。以下、キーワードを検出するためのキーワードモデルと区別するために、モデル学習部22によって学習される音響モデルを汎用モデルと呼ぶ。モデルの形式はDNN(Deep Neural Network、深層ニューラルネットワーク)でも良いし、CNN(Convolution Neural Network)でも、RNN(Recurrent Neural Network)でも、LSTM(Long Short-Term Memory)でもよい。ここでは、モデルの形式としてDNNを使用する。
一方、ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、学習データ記憶部31から上記学習データを読み出し、この学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS104に移行する。含まないと判定された場合(NO)、ステップS105に移行する。ここで、「キーワード」は、キーワード検出の対象であり、任意に設定されてよい。「キーワードの要素」は、キーワードに含まれる、当該キーワードの一部のサブワード、当該キーワードの一部の音節、または当該キーワードの一部の音素を含む。
ステップS104において、キーワードモデル学習装置1は、データ抽出部23の制御の下、学習データ記憶部31から読み出した学習データから、キーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータを抽出する。例えば、キーワードが「でんきつけて」である場合、サブワードは「でんき」「つけて」であり、音節は「で」「ん」「き」「つ」「け」「て」であり、音素は「d」「e」「N」「kk」「i」「ts」「u」「kk」「e」「t」「e」である。
より詳細には、データ抽出部23は、キーワードとして抽出する場合、学習データから「でんきつけて」を含むデータを抽出する。サブワードとして抽出する場合、学習データからサブワードの一部「でんき」または「つけて」を含むデータを抽出する。音節として抽出する場合、学習データから音節の一部「で」、または「ん」、または「き」、または「つ」、または「け」、または「て」を含むデータを抽出する。音素単位として抽出する場合、学習データから音素の一部、「d」、または「e」、または「N」、または「kk」、または「i」、または「ts」、または「u」、または「kk」、または「t」を含むデータを抽出する。重複しているサブワード、音節、または音素は、省略されてよい。この例では、音素「e」と「kk」は複数回重複しているため、重複している部分を省略し、重複のデータ抽出は行わない。
次にステップS105において、キーワードモデル学習装置1は、データ抽出部23の制御の下、すべての学習データについてキーワードまたはその要素の有無を確認したか否かを判定する。すべてのデータを確認したと判定された場合(YES)、ステップS106に移行する。すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。
ステップS106において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、学習済みの汎用モデルに対し、抽出されたデータを少なくとも含むデータを用いて、キーワードモデルに適応させる処理を行う。
キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。その後、適時に、または例えば外部デバイスからの要求に応じて、出力制御部25は、キーワードモデル記憶部32に記憶された適応済みのキーワードモデルに関する情報を読み出し、必要な出力データを生成して、出力することができる。
(3)効果
以上説明したように、第1の実施形態では、キーワードモデル学習装置1は、音声特徴量とその正解音素ラベルの組合せを含む学習データを取得し、学習データを用いて、音声特徴量の入力に対して正解音素ラベルを出力するように汎用モデルを学習させる。また一方、学習データから、あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、または前記キーワードに含まれる音素を含むデータを抽出し、抽出したデータを少なくとも用いて、上記学習済みの汎用モデルを上記キーワードの検出に係るキーワードモデルに適応させる。
ここで、学習済みの汎用モデルを使用せず、適応ではなく、学習データから抽出したデータを用いて初期状態からキーワードモデルを学習させることも可能である。しかし、抽出したデータの量によっては、キーワードモデルを初期状態から正しく学習できない可能性がある。
第1の実施形態によれば、キーワードモデル適応部24は、学習済みの汎用モデルに対し、学習データから抽出したデータを用いてキーワードモデルに適応させる。すなわち、学習済みの汎用モデルをベースにして、特定のキーワードに適したキーワードモデルを再学習させる。これにより、限られたデータからでもキーワードモデルの作成が保証される。また、学習データにはキーワード以外の音声も多く含まれるが、抽出したデータは、キーワードまたはキーワードの一部を含むデータのみであるため、より効率的に適切なキーワードモデルに適応させることができる。
[第2の実施形態]
(1)構成および動作
第2の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、キーワードの発話音声を含むキーワード発話データをさらに使用してキーワードモデルの適応を実施する。
第2の実施形態に係るキーワードモデル学習装置1は、図1に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成を備えることができる。
図4は、第2の実施形態に係るキーワードモデル学習装置1の機能構成を示すブロック図である。図4において、図2に示した第1の実施形態に係るキーワードモデル学習装置1と同じ構成には同じ符号を付し、詳細な説明は省略する。
図4に示したように、第2の実施形態に係るキーワードモデル学習装置1は、第1の実施形態と同様に、制御ユニット20内に、学習データ取得部21と、モデル学習部22と、データ抽出部23と、キーワードモデル適応部24と、出力制御部25とを備え、さらにキーワード発話データ取得部26を備える。また、データメモリ30の記憶領域には、学習データ記憶部31と、キーワードモデル記憶部32に加え、さらにキーワード発話データ記憶部33が設けられている。
キーワード発話データ取得部26は、第2のデータ取得部として、利用可能なキーワード発話データを任意のタイミングで取得する。キーワード発話データ取得部26は、マイクロホン2を通じて入力されたキーワード発話音声を取得し、これに基づいてキーワード発話データを生成してもよい。あるいはキーワード発話データ取得部26は、あらかじめ用意されたキーワード発話データを外部機器から取得してもよい。
キーワード発話データ記憶部33は、キーワード発話データ取得部26によって取得されたキーワード発話データを記憶するために使用される。
キーワードモデル適応部24は、モデル学習部22から第1の実施形態と同様に学習された汎用モデルを受け取り、データ抽出部23から第1の実施形態と同様に抽出されたデータを受け取り、そしてキーワード発話データ記憶部33に格納されたキーワード発話データを読み出して、抽出されたデータとキーワード発話データとを用いて学習済みの汎用モデルをキーワードモデルに適応させる。
図5は、第2の実施形態に係るキーワードモデル学習装置1の処理内容と処理手順を示す。図5において、図3に示した第1の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。
第1の実施形態と同様に、まずステップS101において、キーワードモデル学習装置1は、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、上記学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS104に移行し、含まないと判定された場合(NO)、ステップS105に移行する。ステップS104において、データ抽出部23は、学習データからキーワードまたはその要素を含むデータを抽出する。ステップS105において、キーワードモデル学習装置1は、データ抽出部23の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合(YES)、ステップS116に移行し、すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。
続いて、ステップS116において、キーワードモデル学習装置1は、キーワード発話データ取得部26の制御の下、キーワード発話データを取得し、キーワード発話データ記憶部33に記憶させる。なお、このステップは任意のタイミングで行われてよい。
ステップS117において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、キーワード発話データ記憶部33からキーワード発話データを読み出し、学習済みの汎用モデルに対し、抽出されたデータとキーワード発話データとを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。出力制御部25は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。
(2)効果
以上のように、第2の実施形態では、キーワードモデル学習装置1は、さらに、特定のキーワードを発話させたキーワード発話データを取得してキーワードモデルの適応を実施する。
第1の実施形態では、キーワード発話データがない場合のキーワードモデルの学習方法を説明した。第2の実施形態では、キーワードモデル適応部24は、学習済み汎用モデルに基づき、学習データから抽出したデータと、取得したキーワード発話データとを用いて、キーワードモデルに適応させる。抽出したデータを使用せず、キーワード発話データのみを用いてキーワードモデルに適応させることも可能であるが、大量話者のキーワード発話データが必要になる。
第2の実施形態によれば、学習データから抽出したデータとキーワード発話データの話者が異なるため、学習データから抽出したデータとキーワード発話データとを用いてキーワードモデルに適応させることで、少ないキーワード発話データでも適切にキーワードモデルの学習を行うことができる。
[第3の実施形態]
(1)構成および動作
第3の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、学習データから、キーワードの文字数、その一部のサブワードの文字数、その一部の音節の数、またはその一部の音素の数が含まれる比率が所定の値以上であるデータを抽出する。
第3の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
図6は、第3の実施形態に係るキーワードモデル学習装置1の処理内容と処理手順を示す。図6において、図3に示した第1の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。
第1の実施形態と同様に、まずステップS101において、キーワードモデル学習装置1は、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、上記学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS124に移行し、含まないと判定された場合(NO)、ステップS126に移行する。
続いて、ステップS124において、キーワードモデル学習装置1は、データ抽出部23の制御の下、キーワードまたはその要素を含むと判定されたデータが、キーワードまたはその要素を所定の比率以上含むか否かをさらに判定する。含むと判定された場合(YES)、ステップS125に移行し、含まないと判定された場合(NO)、ステップS126に移行する。ステップS125において、データ抽出部23は、当該データを抽出する。
より詳細には、データ抽出部23は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率が、所定の比率閾値以上であるか否かを判定する。そして、所定の比率閾値以上と判定された場合に、当該データを学習データから抽出する。
例えば、キーワードを用いて抽出する場合に、キーワードが「でんきつけて」であり、比率閾値が0.5と設定されたとする。この場合、キーワードの文字数は6である。学習データのうち、判定対象のデータの発話が「でんきつけてねる」であるとすると、その発話の文字数は8である。キーワードの文字数と対象データの文字数との比率は、6/8=0.75であり、比率閾値以上になる。したがって、データ抽出部23は、学習データから「でんきつけてねる」の発話のデータを抽出する。一方、判定対象のデータの発話が「なんでくらいへやにいるの はやくでんきつけて」である場合、その文字数は21である。キーワードの文字数と対象データの文字数との比率は、6/21=0.29であり、比率閾値以下である。したがって、データ抽出部23は、学習データから「なんでくらいへやにいるの はやくでんきつけて」の発話のデータを抽出しない。
サブワード、または音節、または音素を用いて抽出する場合も、キーワードを用いて抽出する場合と同様である。
続いてステップS126において、キーワードモデル学習装置1は、データ抽出部23の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合(YES)、ステップS127に移行し、すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。
ステップS127において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。出力制御部25は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。
(2)効果
以上のように、第3の実施形態では、キーワードモデル学習装置1は、キーワードまたはキーワードの一部が所定の比率以上含まれるデータを抽出して、キーワードモデルの適応に用いる。これにより、キーワードまたはその要素以外のデータが抽出される比率を低く抑えることができる。
仮に学習データから抽出されるデータがキーワードまたはキーワードの一部以外の発話を多く含む場合、適応されたキーワードモデルによるキーワードの検出性能が低下するおそれがある。
しかし、第3の実施形態によれば、キーワードまたはキーワードの一部を一定の比率または一定の割合以上含むデータのみを抽出するため、キーワードモデルによるキーワードと非キーワードを区別する性能が向上し、キーワードの検出性能も向上させることができる。
[第4の実施形態]
(1)構成および動作
第4の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定する。
第4の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
図7は、第4の実施形態に係るキーワードモデル学習装置1の処理内容と処理手順を示す。図7において、図3に示した第1の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。
第1の実施形態と同様に、まずステップS101において、キーワードモデル学習装置1は、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS134に移行し、含まないと判定された場合(NO)、ステップS136に移行する。
続いて、ステップS134において、キーワードモデル学習装置1は、データ抽出部23の制御の下、特定のキーワードまたはその要素を含むと判定されたデータの数が、データ数の上限値以下であるか否かをさらに判定する。上限値以下と判定された場合(YES)、ステップS135に移行し、含まないと判定された場合(NO)、ステップS136に移行する。ステップS135において、データ抽出部23は、当該データを抽出する。
より詳細には、データ抽出部23は、特定のキーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータ数が所定のデータ数閾値以下の場合、学習データからデータを抽出する。例えば、キーワードが「でんきつけて」と「こんにちは」の2つあり、データ数閾値が100であるとする。この場合、データ抽出部23は、「でんきつけて」を含むデータと「こんにちは」を含むデータをそれぞれ100個抽出する。
ステップS136において、キーワードモデル学習装置1は、データ抽出部23の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合(YES)、ステップS137に移行し、すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。
ステップS137において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。出力制御部25は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。
(2)効果
以上のように、第4の実施形態では、キーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定する。これにより、学習データから抽出されるデータ数にばらつきが生じるのを低減することができる。
仮に、抽出されるデータ数にキーワードによってばらつきがある場合、そのようなデータを用いて適応させたキーワードモデルは、一部のキーワードについて検出性能が低下するおそれがある。例えば、上記の例で、学習データ中に「でんきつけて」を含むデータ数が100個あり、「こんにちは」を含むデータ数が900個あるとする。これらの「でんきつけて」を含むデータと「こんにちは」を含むデータをすべて抽出して、キーワードモデル適応部24でキーワードモデルに適応すると、「こんにちは」を含むデータ数が「でんきつけて」を含むデータ数の9倍であるため、「こんにちは」の検出性能が良好でも「でんきつけて」の検出性能は低下する。
第4の実施形態によれば、「でんきつけて」を含むデータと「こんにちは」を含むデータをそれぞれ100個抽出されるので、2つのキーワードを含むデータ数をバランスよく抽出することができ、一部のキーワードの検出性能の低下を抑制することができる。
[第5の実施形態]
(1)構成および動作
第5の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、上記第3の実施形態で説明した比率閾値と、上記第4の実施形態で説明したデータ数閾値との両方を用いてデータを抽出する。
第5の実施形態に係るキーワードモデル学習装置1は、図1および図2に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成および機能構成を備えることができる。
図8は、第5の実施形態に係るキーワードモデル学習装置1の処理内容と処理手順を示す。図8において、図3に示した第1の実施形態に係る処理と同じ処理には同じ符号を付し、詳細な説明は省略する。
第1の実施形態と同様に、まずステップS101において、キーワードモデル学習装置1は、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、学習データがあらかじめ設定されたキーワードまたはその要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS144に移行し、含まないと判定された場合(NO)、ステップS147に移行する。
続いて、ステップS144において、キーワードモデル学習装置1は、データ抽出部23の制御の下、キーワードまたはその要素を含むと判定されたデータの数が所定の上限値以下であるか否かをさらに判定する。上限値以下と判定された場合(YES)、ステップS145に移行し、上限値を超えると判定された場合(NO)、ステップS146に移行する。
ステップS145では、データ抽出部23は、ステップS103においてキーワードまたはその要素を含むと判定されたデータを抽出する。
一方、ステップS146では、データ抽出部23は、ステップS103においてキーワードまたはその要素を含むと判定されたデータについて、第3の実施形態で説明したのと同様にキーワードまたはその要素の数の比率を計算し、データ数の上限値まで、キーワードまたはその要素の数の比率が高い順にデータを抽出する。このとき、データ抽出部23はさらに、第3の実施形態で説明した比率閾値を用いてデータを抽出してもよい。
より詳細には、データ抽出部23は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率を計算し、その比率が高い順に、データ数閾値までデータを抽出する。あるいは、データ抽出部23は、キーワードの文字数、またはその一部のサブワードの文字数、またはその一部の音節の数、またはその一部の音素の数と、判定対象であるデータの文字数、または音節の数、または音素の数との比率を計算し、その比率が所定の比率閾値以上であるデータのみ、比率が高い順に、データ数閾値までデータを抽出することができる。
例えば、キーワードを用いて抽出する場合に、比率閾値を0.5、データ数閾値を100と設定したとする。キーワードが「でんきつけて」である場合、キーワードの文字数と対象データの文字数との比率が0.5以上であり、かつ、「でんきつけて」の発話を含むデータの数が100以下の場合、データ抽出部23は、学習データからそれらのデータを抽出する。キーワードの文字数と対象データの文字数との比率が0.5以上であるデータの数が100以上である場合、データ抽出部23は、上記比率が高い順に100個までのデータを抽出する。
サブワード、または音節、または音素を用いて抽出する場合も、キーワードを用いて抽出する場合と同様である。
ステップS147において、キーワードモデル学習装置1は、データ抽出部23の制御の下、すべての学習データを確認したか否かを判定する。すべてのデータを確認したと判定された場合(YES)、ステップS148に移行し、すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。
ステップS148において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。その後、キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。出力制御部25は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。
(2)効果
以上のように、第5の実施形態では、キーワードモデル学習装置1は、学習データから抽出されるデータ数に上限値を設定し、上限値を超える場合にはデータに含まれるキーワードまたはその要素の数の比率が大きい順にデータを抽出する。またその際、比率が所定の値を超えるデータだけが抽出されるようにすることもできる。
このように第5の実施形態によれば、キーワードごとに抽出されるデータの数のばらつきを抑えつつ、キーワードまたはその要素が含まれる比率が高いデータを抽出するので、一部のキーワードの検出性能の低下を抑制しながら、キーワードモデルを効率的に適応させることができる。
[第6の実施形態]
(1)構成および動作
第6の実施形態に係る情報処理装置としてのキーワードモデル学習装置1は、ユーザからキーワードの設定を受け付けるキーワード設定部27をさらに備える。
第6の実施形態に係るキーワードモデル学習装置1は、図1に示した第1の実施形態に係るキーワードモデル学習装置1と同様のシステム構成を備えることができる。
図9は、第6の実施形態に係るキーワードモデル学習装置1の機能構成を示すブロック図である。図9において、図2に示した第1の実施形態に係るキーワードモデル学習装置1と同じ構成には同じ符号を付し、詳細な説明は省略する。
図9に示したように、第6の実施形態に係るキーワードモデル学習装置1は、学習データ取得部21と、モデル学習部22と、データ抽出部23と、キーワードモデル適応部24と、出力制御部25と、学習データ記憶部31と、キーワードモデル記憶部32とを備え、さらに、キーワード設定部27を備える。
キーワード設定部27は、I/Fユニット10を介して、ユーザが設定したキーワードを受け取り、データ抽出部23に渡す処理を行う。
第6の実施形態に係るキーワードモデル学習装置1は、図3に示した第1の実施形態と同じ処理フローを用いることができる。
第6の実施形態に係るキーワードモデル学習装置1は、まずステップS101において、学習データ取得部21の制御の下、学習データを取得する。ステップS102において、キーワードモデル学習装置1は、モデル学習部22の制御の下、上記学習データを用いて汎用モデルの学習を行う。
ユーザが設定したキーワードをキーワード設定部27が受け取り、データ抽出部23に渡す処理は、任意のタイミングで行われてよい。ステップS101よりも前であってもよいし、ステップS103の直前であってもよい。
ステップS103において、キーワードモデル学習装置1は、データ抽出部23の制御の下、キーワード設定部27から受け取ったユーザ指定のキーワードをもとに、上記学習データがそのキーワードまたはそのキーワードの要素を含むか否かを判定する。含むと判定された場合(YES)、ステップS104に移行し、含まないと判定された場合(NO)、ステップS105に移行する。ステップS104において、データ抽出部23は当該データを抽出する。ステップS105において、データ抽出部23は、すべての学習データを確認したか否かを判定し、すべてのデータを確認したと判定された場合(YES)、ステップS106に移行し、すべてのデータを確認していないと判定された場合(NO)、ステップS103に戻り、引き続き学習データがキーワードまたはその要素を含むか否かを判定する。ステップS106において、キーワードモデル学習装置1は、キーワードモデル適応部24の制御の下、学習済みの汎用モデルに対し、抽出されたデータを用いて、キーワードモデルに適応させる処理を行う。
より詳細には、例えばユーザがキーボードなどの入力デバイス3を介して「でんきつけて」をキーワードとして入力すると、キーワード設定部27はこの入力を受け取り、「でんきつけて」をキーワードとして設定し、データ抽出部23に渡す。データ抽出部23は、このキーワード、またはその一部のサブワード、またはその一部の音節、またはその一部の音素を含むデータを学習データから抽出する。モデル適応部24は、学習済みの汎用モデルに基づき、抽出したデータを少なくとも含むデータを用いてキーワードモデルに適応させる。適応されたキーワードモデルは「でんきつけて」のキーワードモデルになる。その後、キーワードモデル適応部24は、適応させたキーワードモデルをキーワードモデル記憶部32に記憶させる。出力制御部25は、適時にまたは要求に応じて、適応済みのキーワードモデルに関する情報を読み出し、出力することができる。
(2)効果
以上のように、第6の実施形態では、キーワードモデル学習装置1は、ユーザが任意に設定したキーワードに基づいて学習データからデータを抽出し、学習済みの汎用モデルを、ユーザが設定したキーワードを検出するキーワードモデルに適応させる。
このように第6の実施形態によれば、ユーザが設定したキーワードについて、新たに発話データを収録する必要なしに、キーワードモデルに適応させることができる。
[第7の実施形態]
(1)構成および動作
第7の実施形態は、上記実施形態にしたがって適応されたキーワードモデルを用いてキーワード検出を行うキーワード検出装置に関する。
図10は、第7の実施形態に係るキーワード検出装置100のシステム構成および機能構成を示す図である。
キーワード検出装置100は、ハードウェアとして、I/Fユニット110と、制御ユニット120と、データメモリ130とを備える。
I/Fユニット110は、通信インタフェースを含み得る。通信インタフェースは、例えば1つ以上の有線または無線の通信インタフェースを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線LANが使用され、また無線インタフェースとしては、例えば無線LANやBluetooth(登録商標)などの小電力無線データ通信規格を採用したインタフェースが使用される。
I/Fユニット110には、マイクロホン101と、入力デバイス102と、出力デバイス103とが接続され得る。例えば、I/Fユニット110は、マイクロホン101によって集音された音声を音声信号として取り込み、制御ユニット120に渡す機能を有する。I/Fユニット110はまた、キーボード、タッチパネル、タッチパッド、マウス等の入力デバイス102を通じて入力されたデータを取り込み、制御ユニット120に渡す機能を有する。I/Fユニット110はまた、制御ユニット120から出力された出力データを、液晶または有機EL(Electro Luminescence)等を用いた表示デバイスや音声を出力するスピーカを含む出力デバイス4へ出力する機能も有する。なお、マイクロホン101、入力デバイス102および出力デバイス103はキーワード検出装置100に内蔵されたデバイスを使用してもよく、またネットワークを介して通信可能な他の情報端末のマイクロホン、入力デバイスおよび出力デバイスを使用してもよい。
制御ユニット120は、CPU等のハードウェアプロセッサと、プログラムメモリとを備える。プログラムメモリは、HDDやSSD等の不揮発性メモリと、ROM等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。
データメモリ130は、HDDやSSD等の不揮発性メモリと、RAM等の揮発性メモリとを組み合わせて使用したもので、情報処理を行う過程で取得および作成された各種データを記憶するために用いられる。
データメモリ130の記憶領域には、キーワードモデル記憶部131が設けられている。キーワードモデル記憶部131は、上記実施形態に係るキーワードモデル学習装置1によって適応されたキーワードモデルを記憶するために使用される。キーワード検出装置100とキーワードモデル学習装置1は、一体の装置であってもよいし、別個の装置であってもよい。同様に、キーワード検出装置100が備えるキーワードモデル記憶部131は、キーワードモデル学習装置1が備えるキーワードモデル記憶部32と同じものであっても別個のものであってもよい。
制御ユニット120は、上記のようにハードウェアプロセッサとプログラムメモリとを備え、処理機能部として、音声取得部121と、キーワード検出部122とを備える。これらの処理機能部は、いずれもプログラムメモリに格納されたプログラムを、上記ハードウェアプロセッサに実行させることにより実現される。制御ユニット120は、また、ASICやFPGAなどの集積回路を含む他の多様な形式で実現されてもよい。また上記プログラムは、ネットワーク経由で提供されるものであってもよい。
音声取得部121は、マイクロホン101により集音された音声信号を、I/Fユニット110を介して取得する。音声取得部121はさらに、取得した音声データから音声特徴量を抽出し、キーワード検出部122に渡す処理を行う。
キーワード検出部122は、キーワードモデル記憶部131からキーワードモデルを読み出し、音声取得部121から受け取った音声特徴量を用いて、キーワードの検出を行う。キーワード検出部122はまた、I/Fユニット110を介して検出結果を出力することができる。
図11は、第7の実施形態に係るキーワード検出装置100による情報処理の処理手順と処理内容を示すフローチャートである。
キーワード検出装置100は、マイクロホン101からの信号に基づきユーザの発話の有無を監視しており、発話が検出されたことをトリガとして以下の処理を開始する。
まずステップS201において、キーワード検出装置100は、音声取得部121の制御の下、複数のフレームを含む音声データを取得する。音声取得部121は、マイクロホン101によって集音された発話の音声波形(音声データ)を、I/Fユニット110を介して取り込む。
次いでステップS202において、キーワード検出装置100は、音声取得部121の制御の下、音声特徴量を抽出する。音声取得部121は、例えば、マイクロホン101から受け取った音声波形のアナログ波を16kHzでサンプリングし、デジタル波を一定の時間ごとに切り出し、第1の実施形態で説明したのと同様に音声特徴量(MFCC特徴量36次元)を抽出して出力する。
ステップS203において、キーワード検出装置100は、キーワード検出部122の制御の下、キーワードモデル記憶部131からキーワードモデルを読み出す。例えば、「でんきつけて」がキーワードである場合、読み出されるキーワードモデルは、上記第1の実施形態、または第2の実施形態、または第3の実施形態、または第4の実施形態、または第5の実施形態、または第6の実施形態にしたがって適応された、「でんきつけて」に関するキーワードモデルである。
ステップS204において、キーワード検出装置100は、キーワード検出部122の制御の下、読み出したキーワードモデルに上記特徴量を入力することによって、キーワードを検出する。キーワードの検出には様々な手法を用いてよいが、例えば、入力音声の特徴量とキーワードモデルを比較し、キーワードスコアを計算する手法が可能である。キーワードスコアが所定の閾値以上であれば、キーワード「でんきつけて」として検出する(例えば、特開2018-155957号公報参照)。
ステップS205において、キーワード検出装置100は、キーワード検出部122の制御の下、検出結果を出力デバイス103に出力する。キーワードが検出された場合に限り、「でんきつけて」を示す情報を出力してもよい。キーワードが検出されない場合に、その旨の表示を出力するようにしてもよい。
(2)効果
以上のように、第7の実施形態では、上記第1の実施形態、第2の実施形態、第3の実施形態、第4の実施形態、第5の実施形態、または第6の実施形態にしたがって、キーワードモデルの適応を実施する。そして、適応させたキーワードモデルを用いて、キーワード検出を行う。
このように第7の実施形態によれば、大量話者のキーワード発話を使用せずに適応させたキーワードモデルを用いて、精度良くキーワード検出を行うことができる。
[実験結果]
図12は、以上のような実施形態を用いて適応させたキーワードモデルを用いた実験結果の一例を示す。なお、上記のように、キーワードの検出にはキーワードスコアを使用した。すなわち、音声からキーワードスコアを計算し、あらかじめ設定された閾値と比較して、キーワードスコアが閾値以上になる場合にはキーワードとして判定し、それ以外の場合にはキーワードではないと判定する。
図12において、縦軸は、認識精度(Accuracy)(%)を表し、値が高いほど認識精度が高いことを表す。ここでは認識精度とは、キーワード(例えば「でんきつけて」)の発話100回に対して、何回正しく検出できたかを表す。
横軸は、24時間あたりの誤検出数(False Acceptance per 24 hours)を表す。ここでは誤検出数とは、キーワードではない発話を誤ってキーワードとして検出した回数を示す。横軸の誤検出数「0」や「1」は、上記キーワードスコアの閾値が厳しく設定されているために誤検出が少ないことを表す。この場合、音声が実際にはキーワードであっても検出されないこともある(拒否されやすい)。横軸の誤検出数「10」は、閾値がゆるく設定されているため、キーワードが認識されやすいが、非キーワードもスコアが閾値以上になって誤って受け入れてしまうおそれがあることを表す。
「baseline」は汎用モデルを用いた例を示す。汎用モデルでは、誤検出数が0回と1回の場合に認識精度がかなり低い値となった。
「adapt_spk60」は、データ抽出を行わず、適応話者が60名のキーワード発話データ(例えば、60名が「でんきつけて」と発話したデータ)を用いて適応させた例である。汎用モデルに比べて精度が若干向上した。
「adapt_spk130」は、データ抽出を行わず、適応話者が130名のキーワード発話データを用いて適応させた例である。60名の発話データを使用した場合に比べて精度が若干向上した。
「adapt_extract+spk60」は、上記実施形態にしたがってデータ抽出を行い、さらに話者60名のキーワード発話データと併せて適応を実施した例を示す。誤検出数0~10のいずれについても、非常に高い認識精度を達成することができた。特に、130名の発話データを使用した場合よりも高い精度が得られたことがわかる。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。
例えば、上記実施形態に関して説明したキーワードモデル学習装置1が備える各機能部を、複数の装置(サーバ、エッジサーバ、他のクライアント端末など)に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。
例えば、図3,5,6,7,8に関して説明した処理フローにおいて、汎用モデルの学習処理と、学習データからの抽出処理は必ずしも順次に行われる必要はない。学習処理と抽出処理は並行して行われてもよい。
あるいは、モデル学習部22は、汎用モデルの学習を行った後、学習済みの汎用モデルを記憶領域内に設けられた汎用モデル記憶部(図示せず)にいったん記憶させてもよい。同様に、データ抽出部23は、データの抽出を行った後、抽出されたデータを記憶領域内に設けられた抽出データ記憶部(図示せず)にいったん記憶させてもよい。これにより、キーワードモデル学習装置1は、任意のタイミングで、キーワードモデル適応部24の制御の下、各記憶部から学習済みの汎用モデルと抽出されたデータとを読み出し、キーワードモデルに適応させる処理を行うことができる。
上記各実施形態の処理の少なくとも一部は、例えば汎用のコンピュータに搭載されたプロセッサを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体(記憶媒体)に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
その他、音声データの取得やモデルの生成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…情報処理装置,キーワードモデル学習装置、2…マイクロホン、3…入力デバイス、4…出力デバイス、10…I/Fユニット、20…制御ユニット、20A…ハードウェアプロセッサ、20B…プログラムメモリ、21…学習データ取得部、22…モデル学習部、23…データ抽出部、24…キーワードモデル適応部、25…出力制御部、26…キーワード発話データ取得部、27…キーワード設定部、30…データメモリ、31…学習データ記憶部、32…キーワードモデル記憶部、33…キーワード発話データ記憶部、100…キーワード検出装置、101…マイクロホン、102…入力デバイス、103…出力デバイス、110…I/Fユニット、120…制御ユニット、121…音声取得部、122…キーワード検出部、130…データメモリ、131…キーワードモデル記憶部。

Claims (10)

  1. 音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第1の学習データを取得する、第1のデータ取得部と、
    前記第1の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させる学習部と、
    あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも1つの音声特徴量を含む第2の学習データを、前記第1の学習データから抽出する抽出部と、
    前記第2の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させる適応処理部と、
    を備える情報処理装置。
  2. 前記キーワードの発話音声を含むキーワード発話データを取得する、第2のデータ取得部をさらに備え、
    前記適応処理部は、前記第2の学習データと前記キーワード発話データとを用いて、前記音響モデルを前記キーワードモデルに適応させる、
    請求項1に記載の情報処理装置。
  3. 前記抽出部は、前記第2の学習データとして、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上であるデータを抽出する、
    請求項1に記載の情報処理装置。
  4. 前記抽出部は、所定のデータ数を上限として前記第2の学習データを抽出する、
    請求項1に記載の情報処理装置。
  5. 前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が高い順に、前記第2の学習データとして抽出する、
    請求項1に記載の情報処理装置。
  6. 前記抽出部は、所定のデータ数を上限として、前記キーワードの文字数、前記サブワードの文字数、前記音節の数、または前記音素の数がデータに含まれる比率が所定の値以上のデータを、前記比率が高い順に、前記第2の学習データとして抽出する、
    請求項1に記載の情報処理装置。
  7. ユーザから前記キーワードの設定を受け付けるキーワード設定部をさらに備える、請求項1に記載の情報処理装置。
  8. 請求項1乃至7のいずれかに記載の情報処理装置によって適応されたキーワードモデルを用いてキーワード検出を行う、キーワード検出装置。
  9. 情報処理装置が実行する情報処理方法であって、
    音声特徴量と当該音声特徴量の正解音素ラベルの組合せを含む第1の学習データを取得することと、
    前記第1の学習データを用いて、前記音声特徴量の入力に対して前記正解音素ラベルを出力するように音響モデルを学習させることと、
    あらかじめ設定されたキーワード、前記キーワードに含まれるサブワード、前記キーワードに含まれる音節、および前記キーワードに含まれる音素のうちの少なくとも1つの音声特徴量を含む第2の学習データを、前記第1の学習データから抽出することと、
    前記第2の学習データを用いて、学習済みの前記音響モデルを前記キーワードの検出に係るキーワードモデルに適応させることと、
    を備える情報処理方法。
  10. 請求項1乃至7のいずれかに記載の情報処理装置の各部による処理をプロセッサに実行させる命令を備えるプログラム。
JP2019157158A 2019-08-29 2019-08-29 情報処理装置、キーワード検出装置、情報処理方法およびプログラム Active JP7098587B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019157158A JP7098587B2 (ja) 2019-08-29 2019-08-29 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
US16/804,388 US11961510B2 (en) 2019-08-29 2020-02-28 Information processing apparatus, keyword detecting apparatus, and information processing method
CN202010127371.1A CN112447176B9 (en) 2019-08-29 2020-02-28 Information processing apparatus, keyword detection apparatus, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019157158A JP7098587B2 (ja) 2019-08-29 2019-08-29 情報処理装置、キーワード検出装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021033228A JP2021033228A (ja) 2021-03-01
JP7098587B2 true JP7098587B2 (ja) 2022-07-11

Family

ID=74677391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019157158A Active JP7098587B2 (ja) 2019-08-29 2019-08-29 情報処理装置、キーワード検出装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11961510B2 (ja)
JP (1) JP7098587B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230044079A1 (en) * 2020-01-04 2023-02-09 Arjun Karthik Bala System and method for generating, triggering, and playing audio cues in real time using a personal audio device
CN114199231A (zh) * 2021-12-16 2022-03-18 北京积水潭医院 一种医院导航定位指导处理方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129527A (ja) 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
WO2019001428A1 (zh) 2017-06-29 2019-01-03 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100159298A1 (en) * 2008-12-22 2010-06-24 3M Innovative Properties Company Fuel cell membrane electrode assembly with multilayer cathode
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9600231B1 (en) * 2015-03-13 2017-03-21 Amazon Technologies, Inc. Model shrinking for embedded keyword spotting
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US10832129B2 (en) * 2016-10-07 2020-11-10 International Business Machines Corporation Transfer of an acoustic knowledge to a neural network
JP6585112B2 (ja) 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129527A (ja) 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
WO2019001428A1 (zh) 2017-06-29 2019-01-03 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备

Also Published As

Publication number Publication date
CN112447176B (zh) 2024-09-24
JP2021033228A (ja) 2021-03-01
US11961510B2 (en) 2024-04-16
US20210065684A1 (en) 2021-03-04
CN112447176A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN106463113B (zh) 在语音辨识中预测发音
US20240221737A1 (en) Recognizing speech in the presence of additional audio
US20220189458A1 (en) Speech based user recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US9466289B2 (en) Keyword detection with international phonetic alphabet by foreground model and background model
US10176809B1 (en) Customized compression and decompression of audio data
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN114026636A (zh) 用于语音识别的场境偏置
JP7255032B2 (ja) 音声認識
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Wang et al. Cloud-based automatic speech recognition systems for southeast asian languages
Hatala Speech recognition for Indonesian language and its application to home automation
EP3718107B1 (en) Speech signal processing and evaluation
CN112447176B9 (en) Information processing apparatus, keyword detection apparatus, and information processing method
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
Pisarn et al. An HMM-based method for Thai spelling speech recognition
Abad et al. Transcription of multi-variety portuguese media contents
Chen et al. Speech recognition of under-resourced languages using mismatched transcriptions
Kaur et al. HMM-based phonetic engine for continuous speech of a regional language
Sethy et al. A split lexicon approach for improved recognition of spoken names
Fanty et al. Neural networks for alphabet recognition
Salimbajevs Modelling latvian language for automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220629

R151 Written notification of patent or utility model registration

Ref document number: 7098587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151