JP6711343B2

JP6711343B2 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP6711343B2
Application number: JP2017233310A
Authority: JP
Inventors: 寛基富田
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-06-17
Anticipated expiration: 2037-12-05
Also published as: EP3496092B1; CN109887495B; CN109887495A; EP3496092A1; JP2019101285A; US20190172445A1

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。

音声認識のシステムにおいて、音声単語辞書に登録されていない未知語は認識することができないため、何度同じ内容を入力しても、その未知語が上記辞書に登録されない限り、システム側では同じ内容であることを認識できない。

こうした状況に対する認識率を向上させるべく、連続した単語認識と音素あるいは音節のサブワードの併用で未知語部分を検出して上記辞書に登録するようにした技術が提案されている。（例えば、特許文献１）

特開２００４−１７０７６５号公報

上記特許文献に記載された技術は、１度の入力音声に際して実施される処理であり、繰返して入力されるような未知語の音声には対処しておらず、そのような場合の認識率を向上させるものでもない。

本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能な音声処理装置、音声処理方法及びプログラムを提供することにある。

本発明の第１の態様の音声処理装置は、既知語を記憶した第１の記憶部と、上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、上記第１の記憶部への記憶制御を実行する記憶制御手段と、を備え、上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する。
本発明の第２の態様の音声処理装置は、既知語を記憶した第１の記憶部と、第２の記憶部と、上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、上記第１の記憶部及び上記第２の記憶部への記憶制御を実行する記憶制御手段と、を備え、上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第２の記憶部に記憶し、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する。

本発明によれば、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能となる。

本発明の一実施形態に係る音声処理回路の機能構成を示すブロック図。同実施形態に係る音声認識の処理内容を示すフローチャート。同実施形態に係る未知語の認識結果の取り纏めを段階的に示す図。

以下、本発明をペットロボットに搭載される音声処理回路に適用した場合の一実施形態について、図面を参照して説明する。
図１は、本実施形態に係る音声処理回路１０の機能構成を抽出して示すブロック図である。同図において、マイクロホン１１で得たアナログの音声信号を、音声入力部１２が増幅、Ａ／Ｄ変換等の処理を施してデジタルデータ化し、得た音声データを音声認識部１３へ出力する。

音声認識部１３は、例えばＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：動的計画法）マッチングにより音素及び音節を抽出し、音声単語辞書部１４を参照して、音声認識を実行する。認識結果としての音素または音節に相当する文字データが、この音声認識処理を使用しているアプリケーションプログラムでの入力音声に対応するデータとして適宜出力される。

上記音声単語辞書部１４は、既知語の音声の音素または音節とそれに対応した文字データを記憶する既知語記憶部１４Ａと、未知語の音声の音素または音節とそれに対応した文字データを記憶する未知語記憶部１４Ｂとを有する。

なお、上記音声認識部１３は、例えばペットロボットにおけるＯＳ（オペレーティングシステム）に搭載された音声認識機能を回路ブロックとして表現したものであり、実際には当該ロボットのＣＰＵが当該ＯＳを実行することで実現されるが、上記ＣＰＵとは独立した専用のＬＳＩによるハードウェア回路として設けても良い。

次に上記実施形態の動作について説明する。
図２は、主として音声認識部１３が実行する、音声入力に対する認識処理の内容を示すフローチャートである。処理当初に音声認識部１３は、マイクロホン１１、音声入力部１２を介して音声データの入力があるか否かを繰返し判断することで（ステップＳ１０１）、音声データが入力されるのを待機する。

なお、この音声データの入力に際しては、本音声処理回路１０を搭載するペットロボットが備えるカメラ部（図示せず）で得る画像データからの人物抽出処理や、上記マイクロホン１１を複数のアレイ構造とするなどして、話者の方向を推定し、当該ペットロボットに対して話しかけられた音声であることを判断するものとしても良い。

そして、音声入力部１２から音声データが入力されたと判断した時点で（ステップＳ１０１のＹｅｓ）、音声認識部１３は入力された音声データに対する認識処理を実行する（ステップＳ１０２）。

音声認識部１３は、音声単語辞書部１４の既知語記憶部１４Ａを参照した認識処理の結果、認識により得た結果中に未知語が含まれているか否かを判断する（ステップＳ１０３）。

この未知語の検出に関しては、既存手法である、連続単語認識と音素あるいは音節のサブワード認識により、該当する部分の尤度がサブワード認識の方が高い場合を未知語として認識する。

認識結果中に未知語が含まれておらず、すべて既知語として認識できると判断した場合（ステップＳ１０３のＮｏ）、音声認識部１３はそれら既知語による認識結果の文字データに対応した、規定の処理を実行した上で（ステップＳ１０４）、次の音声入力に備えて、上記ステップＳ１０１からの処理に戻る。

また上記ステップＳ１０３において、認識結果中に少なくとも１つの未知語が含まれていたと判断した場合（ステップＳ１０３のＹｅｓ）、音声認識部１３は未知語部分の音素あるいは音節の文字データを抽出して音声単語辞書部１４の未知語記憶部１４Ｂに格納する（ステップＳ１０５）。

ここで音声認識部１３は、格納する未知語に対して、その時点で未知語記憶部１４Ｂに既に格納されている他の未知語のクラスタとの特徴量の距離をそれぞれ算出し、特徴量が所定の距離以内となるクラスタがあるか否かにより、既にあるクラスタに分類することが可能であるか否かを判断する（ステップＳ１０６）。

また、既にあるクラスタに分類することの可否については、他に、サブワードの認識結果同士の距離、あるいは各フレームの各音素尤度の最尤音素列のスコア列同士の距離が、予め設定した閾値以下となるか否かにより判断しても良い。

特徴量が所定の距離以内となるクラスタがあり、既にあるクラスタに分類することが可能であると判断した場合（ステップＳ１０６のＹｅｓ）、音声認識部１３は最も特徴量の距離が近いクラスタ内に、未知語の音素または音節の文字データを格納する（ステップＳ１０７）。

また上記ステップＳ１０６において、特徴量が所定の距離以内となるクラスタが存在せず、既にあるクラスタに分類することができないと判断した場合（ステップＳ１０６のＮｏ）、音声認識部１３は新しいクラスタを未知語記憶部１４Ｂ内に生成した上で、その生成したクラスタ内に未知語の音素または音節の文字データを格納する（ステップＳ１０８）。

その後に音声認識部１３は、音声単語辞書部１４の未知語記憶部１４Ｂ内に、複数の未知語を格納したクラスタが存在するかどうかを判断する（ステップＳ１０９）。

未知語記憶部１４Ｂ内に複数の未知語を格納したクラスタが存在しない場合（ステップＳ１０９のＮｏ）、音声認識部１３は次の音声入力に備えて、上記ステップＳ１０１からの処理に戻る。

また上記ステップＳ１０９において、未知語記憶部１４Ｂ内に複数の未知語を格納したクラスタが存在する場合（ステップＳ１０９のＹｅｓ）、音声認識部１３は未知語記憶部１４Ｂの中で該当するクラスタ内の未知語の音声の文字データに対し、読みの単位で音声認識を実行する（ステップＳ１１０）。

音声認識部１３は、当該クラスタの未知語音声の読みとして、既知語記憶部１４Ａに記憶する（ステップＳ１１１）。

既知語記憶部１４Ａへの未知語の登録を行なった後、音声認識部１３は未知語記憶部１４Ｂから、既知語記憶部１４Ａへの登録を行なった未知語の音声に関するデータを削除する（ステップＳ１１２）。その後、音声認識部１３は次の音声入力に備えて、上記ステップＳ１０１からの処理に戻る。

既知語記憶部１４Ａに未知語を登録して以降、（元）未知語の音声が入力された場合、音声認識部１３は通常の音声認識による処理と同様に、既知語記憶部１４Ａへの登録によって記憶されている上記既知語の読みの尤度を計算して他の単語との比較することで、既知語として登録済の（元）未知語が音声処理回路１０に対して発話されたことが検知できる。

このように、音声認識の結果、未知語として認識された内容を随時クラスタ化して蓄積記憶し、その記憶内容を取り纏めることで、他に比して著しく特徴量の距離が近いと判断できる未知語は既知語として登録することにより、その後に入力される似通った元未知語の音声認識での認識率を向上できる。

なお、上記実施形態において、未知語記憶部１４Ｂ内に未知語が全く記憶されていない状態において、最初の未知語を格納する場合は、クラスタを生成せずに格納し、次に抽出した未知語の特徴量が、最初に格納した未知語の特徴量と類似な場合、既知語として既知語記憶部１４Ａへ登録し、類似でない場合、それぞれのクラスタを生成してもよい。

また、上記ステップＳ１０９において、音声認識部１３は、音声単語辞書部１４の未知語記憶部１４Ｂ内に、複数の未知語を格納したクラスタが存在するかどうかを判断したが、音声認識部１３は、音声単語辞書部１４の未知語記憶部１４Ｂ内に、予め設定した閾値Ｎ以上の数の未知語を格納したクラスタが存在するかを判断し、未知語記憶部１４Ｂ内に予め設定した閾値Ｎ以上の数の未知語を格納したクラスタが存在する場合、上記ステップＳ１１０において、音声認識部１３は未知語記憶部１４Ｂの中で該当するクラスタ内の未知語の音声の文字データに対し、読みの単位で音声認識を実行してもよい。

図３（Ａ）は、編集距離が「１」となる音節「コタロウ」を含む認識結果８個を示すもので、同編集距離以内を同一クラスタとする場合に、すべて同じクラスタとして取扱われるものとなる。

図３（Ｂ）は、上記図３（Ａ）の認識結果８個を同じ読み毎に取り纏めた結果である。最も出現頻度が高い「コタロウ」が４個、２番目の「コトロウ」が２個となっている。

上記ステップＳ１１１において、出現頻度が１位の読みのみを登録する場合（Ｍ＝１）には、「コタロウ」のみを既知語記憶部１４Ａに登録する。また、出現頻度が２位までの読みを登録する場合（Ｍ＝２）には、「コタロウ」「コトロウ」の双方を既知語記憶部１４Ａに登録する。

図３（Ｃ）は、元未知語としての「コタロウ」「コトロウ」が共に既知語記憶部１４Ａに「登録済未知語Ａ」として記憶されている状態を例示する図である。

なお、音声認識部１３が既知語記憶部１４Ａを参照し、音声認識の結果として出力する文字データとしては、未知語記憶部１４Ｂに入力して蓄積記憶した際の認識結果「コタロウ」「コトロウ」を区別して文字データ化して出力するものとしても良い。

一方で音声処理回路１０のシステムの設定によっては、未知語記憶部１４Ｂの同一のクラスタに記憶した内容に関しては、その最上位の文字データ、例えば「コタロウ」を代表の文字データとして取扱うものとし、既知語記憶部１４Ａに記憶される登録済未知語として最も距離の近い単語が「コトロウ」であっても、音声認識部１３から後段の回路に、認識結果が「コタロウ」であるとして出力するものとしても良い。

また、上記ステップＳ１０９において、音声認識部１３は、予め設定された時刻、例えばこのペットロボットが確実に未使用状態となるであろう真夜中の時刻において、音声単語辞書部１４の未知語記憶部１４Ｂ内に、複数の未知語を格納したクラスタが存在するかを判断し、未知語記憶部１４Ｂ内に複数の未知語を格納したクラスタが存在する場合、予め設定された時刻において、上記ステップＳ１１０〜ステップＳ１１２の処理を行なってもよい。

以上詳述した如く本実施形態によれば、似通った未知語の音声が繰返して入力される場合の認識率を向上させることが可能となる。

また、上記実施形態では、ある程度特徴量の距離が近いと判断して同一のクラスタに蓄積して記憶する未知語の総数と、予め設定した時刻の少なくとも一方に該当するタイミングで、入力頻度の高い一部の未知語を抽出して既知語として登録し直すよう処理を実行するものとしたが、このように定量的あるいは定時的に処理を実行することで、音声処理回路１０の使用状況に応じて既知語記憶部１４Ａの内容が更新記憶されるため、この音声処理回路１０を搭載した装置を使用するユーザに最適化した音声認識環境を構築できる。

また、上記実施形態では、ある程度特徴量の距離が近いと判断して蓄積して記憶するクラスタ内での出現頻度の順位に応じて、既知語として登録する未知語を選択するものとしたが、これに加えて、既知語として選択する未知語の出現頻度の絶対値も設定できるようにしても良い。

このように、未知語から選択して既知語として登録する際の選択条件を任意に設定可能とすることで、ユーザが自身の使用環境に合わせて最適化した音声認識環境を構築できる。

なお、上記実施形態では説明しなかったが、音声単語辞書部１４において、複数の話者毎の音声パターンデータを予め記憶可能とし、音声認識部１３が実行する音声認識処理時には話者毎の音声パターンデータを用いて話者認識も合わせて行ない、未知語のクラスタを話者毎に分けて記憶するものとすれば、未知語を蓄積して記憶させた結果の中から既知語として登録する際の認識率をより向上させることができる。

その他、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［請求項１］
既知語の音声情報を記憶した第１の記憶部と、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第２の記憶部に蓄積記憶する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第２の記憶部に記憶されている場合、該当する音声情報を既知語として上記第１の記憶部に記憶する、音声処理装置。
［請求項２］
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報を順次類似度に応じて分類して第２の記憶部に蓄積記憶し、上記第２の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第１の記憶部に記憶する、請求項１記載の音声処理装置。
［請求項３］
上記記憶制御手段は、上記第２の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報を所定の条件に応じて、該当する音声情報を既知語として上記第２の記憶部に記憶する、請求項１記載の音声処理装置。
［請求項４］
上記記憶制御手段は、上記第２の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の総数に応じて、該当する音声情報を既知語として上記第１の記憶部に記憶する、請求項３記載の音声処理装置。
［請求項５］
上記記憶制御手段は、上記第２の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の数の絶対値、及び上位数の少なくとも一方に応じて、該当する音声情報を既知語として上記第１の記憶部に記憶する、請求項３記載の音声処理装置。
［請求項６］
上記記憶制御手段は、予め設定した時刻において、上記第２の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第１の記憶部に記憶する、請求項３記載の音声処理装置。
［請求項７］
上記音声認識手段は、入力する音声情報から話者を認識し、
上記記憶制御手段は、上記音声認識手段で認識した話者に応じて未知語の音声情報を蓄積記憶する、
請求項１乃至６いずれか記載の音声処理装置。
［請求項８］
既知語の音声情報を記憶した第１の記憶部を備えた音声処理装置の音声処理方法であって、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識工程と、
上記音声認識工程で抽出した未知語の音声情報を順次第２の記憶部に蓄積記憶する記憶工程を有し、
上記記憶工程は、上記音声認識工程で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第２の記憶部に記憶されている場合、該当する音声情報を既知語として上記第１の記憶部に記憶する、音声処理方法。
［請求項９］
既知語の音声情報を記憶した第１の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第２の記憶部に蓄積記憶する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第２の記憶部に記憶されている場合、該当する音声情報を既知語として上記第１の記憶部に記憶する、プログラム。

１０…音声処理回路
１１…マイクロホン
１２…音声入力部
１３…音声認識部
１４…音声単語辞書部
１４Ａ…既知語記憶部
１４Ｂ…未知語記憶部

Claims

既知語を記憶した第１の記憶部と、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第１の記憶部への記憶制御を実行する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、音声処理装置。
既知語を記憶した第１の記憶部と、
第２の記憶部と、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第１の記憶部及び上記第２の記憶部への記憶制御を実行する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第２の記憶部に記憶し、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、音声処理装置。
上記記憶制御手段は、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の総数が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、請求項２記載の音声処理装置。
上記記憶制御手段は、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の絶対値、及び上位数の少なくとも一方が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、請求項２記載の音声処理装置。
上記記憶制御手段は、予め設定した時刻において、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、請求項２記載の音声処理装置。
上記音声認識手段は、入力する音声情報から話者を認識し、
上記記憶制御手段は、上記音声認識手段で認識した話者に応じて、抽出した未知語を類似度に応じて分類して順次上記第２の記憶部に記憶する、
請求項２乃至５いずれか一項記載の音声処理装置。
既知語を記憶した第１の記憶部を備えた音声処理装置の音声処理方法であって、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
上記第１の記憶部への記憶制御を実行する記憶制御工程を有し、
上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、音声処理方法。
既知語を記憶した第１の記憶部と第２の記憶部とを備えた音声処理装置の音声処理方法であって、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
上記第１の記憶部及び上記第２の記憶部への記憶制御を実行する記憶制御工程と、を有し、
上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類して順次上記第２の記憶部に記憶し、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、音声処理方法。
既知語を記憶した第１の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第１の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、プログラム。
既知語を記憶した第１の記憶部と第２の記憶部とを備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第１の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第１の記憶部及び上記第２の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第２の記憶部に記憶し、上記第２の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第１の記憶部に記憶する、プログラム。