JP2019144524A - ワード検出システム、ワード検出方法及びワード検出プログラム - Google Patents
ワード検出システム、ワード検出方法及びワード検出プログラム Download PDFInfo
- Publication number
- JP2019144524A JP2019144524A JP2018170090A JP2018170090A JP2019144524A JP 2019144524 A JP2019144524 A JP 2019144524A JP 2018170090 A JP2018170090 A JP 2018170090A JP 2018170090 A JP2018170090 A JP 2018170090A JP 2019144524 A JP2019144524 A JP 2019144524A
- Authority
- JP
- Japan
- Prior art keywords
- score
- word
- keyword
- detected
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、実施形態に係る音声キーワード検出装置を備える音声キーワード検出システムの構成の例を示す。この音声キーワード検出システムは、クライアント装置(以下、クライアント)1とサーバ装置(以下、サーバ)2とを備える。サーバ2は、例えば、サーバコンピュータとして実現され得る。クライアント1は、タブレットコンピュータ、スマートフォン、携帯電話機、PDAといった携帯情報端末、パーソナルコンピュータ、または各種電子機器に内蔵される組み込みシステムとして実現され得る。クライアント1とサーバ2とは、ネットワーク3を介してデータをやり取りすることができる。また、クライアント1とサーバ2の少なくとも一方は、音声からキーワードを検出する音声キーワード検出機能を有している。
以下では、説明を分かりやすくするために、音声キーワード検出機能を有するクライアント1を、本実施形態の音声キーワード検出装置10として例示する。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラが内蔵されている。また、システムコントローラ102には、音声キーワード検出装置10のディスプレイモニタとして使用されるLCD104を制御する表示コントローラも内蔵されている。この表示コントローラによって生成される表示信号はLCD104に送られる。LCD104は、表示信号に基づいて画面イメージを表示する。
キーボード109およびポインティングデバイス110は、ユーザによる入力のためのデバイスである。ポインティングデバイス110は、マウス、タッチパッド、タッチパネルのような、LCD104の画面上の点および点の動きを検出するためのデバイスである。
上記構成による音声キーワード検出装置10は、音声波形からターゲットとなるキーワードの音声部分を検索し、検索された音声部分からターゲットのキーワードを検出する。この音声キーワード検出装置10を搭載する機器は、検出されたキーワードに応じて動作を行うアプリケーションを搭載している。このように、キーワードを受け付けて動作する機器に搭載される音声キーワード検出装置10には、常時音声を受け付け、そのキーワードの正確な検出が要求され、低電力・低計算量で動作するものが望まれる。また、ユーザがストレスを感じることなく快適に機器を動作させるためには、キーワードを受け付けてから即座に機器の動作を開始させる必要があり、低遅延の音声キーワード検出が望まれる。
音声取得部31は、複数のフレームを含む音声データを取得する。音声取得部31は、例えば、音声波形を受け付け、デジタル化し、フレーム毎の音声特徴量を音声データとして出力する。
キーワード第2スコア検出部34は、キーワード第1検出部33で検出されたキーワードの始端、終端情報および、スコアバッファ37に保存してあるフレームスコアを用いて、キーワード第2スコアを算出する。
上記音声キーワード検出プログラム202の処理の流れを説明する。
音声取得部31によって複数のフレームを含む音声データが取得されたとき、キーワード第1スコア算出部32は、例えば、キーワードに関連付けられた音素、音韻、発音表記、モーラ、または表記文字と、音声データの各フレームとをマッチングしてフレームスコアを算出した後、それを用いてキーワードに対する第1スコアを算出し、フレームスコアをスコアバッファ37に保存する。
そして、キーワード第2検出部35は、他のキーワードの第2スコア、またはキーワードに対する第2閾値スコアと比較し、高いスコアのキーワードを検出結果として出力する。
以下では、検出対象のキーワードが“コミュニケーション”、“コミュニケーター”、“ハロー”の三つである場合の具体的な例について説明する。これらキーワードに対して、キーワードモデルを用いて、フレーム毎に切り出された音声特徴量を示すベクトル列に対して累積スコアを算出する方法は多く存在するが、ここではleft-to-right型の隠れマルコフモデル(Hidden Markov Model:HMM)と特許文献1記載の方法で例示する。
音響スコアを算出するためのニューラルネットワークの出力層は、キーワードw1,w2,w3をそれぞれ表す音素“k a my u n i k e i sy o n”、“k a my u n i k e i t a a”、“h e l o u”から重複するものを除き、無音区間に対する音素“sil”を加え、13個の出力ユニットから構成される。入力層は、算出した音声特徴量に相当する36個の入力ユニットから構成される。中間層は、256ユニットを持つ層を3つ重ねたものとする。ニューラルネットワークは、無音声区間を含む“コミュニケーション”、“コミュニケーター”、“ハロー”の3単語の読み上げ音声を使って、バックプロパゲーションを用いて学習する。
thn<Sn
を満たすnが一つ見つかった場合、そのnの値をmに代入する。n=1のとき、すなわち“コミュニケーション”がここでは検出されたとする。そのキーワードの始端時間をtmsとすると、始終端区間(tms,te)のキーワードwmが検出されることとなる。第1閾値スコアthnは、キーワードが含まれる開発音声データセットを使って、適合率および再現率の調和平均であるF値が最大となる値を全キーワードに対して一つ設定する。この場合、第1閾値スコアthnの値を高くすれば、キーワードは検出されにくくなり、第1閾値スコアthnの値を低くすれば、キーワードは検出されやすくなる。
一方、第1閾値スコアを超えたキーワードがあった場合、すなわち、キーワードが1次検出された場合、キーワード第2スコア算出部34では該当キーワードの検出始終端区間(tms,te)とスコアバッファ37のフレームスコアを用いて、検出されたキーワードwmに対するキーワード第2スコア(以下、第2スコア)Dmを算出する(ステップS14)。第2スコアDmは検出始終端区間(tms,te)をキーワードwmの端点とし、キーワードwmの音素HMMとスコアバッファ37の対応する区間のフレームスコアを使うことによって、ビタビアルゴリズムで最大累積スコアを算出した後、その最大累積スコアを検出区間の長さ(te−tms)で割ることにより正規化する。また、このときに、キーワードwmの検出始終端区間(tms,te)に対して、キーワードw2、w3の音素HMMとスコアバッファ37のフレームスコアを用いて第2スコアD2、D3を算出する。第2スコアに対しては第2閾値スコアth2n(n=1,2,3)が予め定められる。検出区間(te−tms)がそれぞれのキーワードの音素数より少ないときにはビタビアルゴリズムは適応できないため、キーワードwmに対して予め定められた第2スコアの第2閾値スコアth2mより小さい値を代入する。第2閾値スコアth2mも第1閾値スコアthmと同じように調整することができる。ビタビアルゴリズムは端点が決まっている場合に高速に計算することができるため、計算量、遅延時間をほぼ増加させずに検出区間(tms,te)に対するキーワードの識別スコア(第2スコア)を計算することができる。
th22<D2
であれば、キーワードw2が検出される。
次いで、図5を参照して、キーワードモデル格納部36に格納されるデータの例について説明する。このデータは、音声キーワード検出プログラム202内の各部によって読み出され、また更新され得るものである。
あるキーワードに対応するレコードにおいて、「ID」は、そのキーワードに付与された識別情報を示す。「音素」は、そのキーワードに対応する音素を示す。「閾値スコア」は、そのキーワードとして検出されるためのスコアの閾値を示す。
(第1の実施例)
キーワード第2スコア算出部34の具体的な動作例として、入力音声から“beast”という単語(ワード)を検出する場合について、図6及び図7を参照して説明する。図6は、横軸(時間軸)にフレーム番号(frame)、縦軸に状態推移(state)を示している。図中点線は、全ての検出スコアのパスを示し、実線は逐次検出スコアPがP>0の検出スコアを持つパスを示し、一点鎖線は第2スコアの算出パスを示している。図7は、音声入力から第2スコアが算出され、単語が決定出力されるまでの処理の流れを示している。本実施形態では、音声入力があると(ステップS21)、フレーム毎に音声特徴量を生成し(特徴変換)(ステップS22)、逐次検出スコア算出処理によりフレーム毎にフレームスコアを算出して(ステップS23)、図6に示す始端のフレームスコアをスコアバッファ37に一次保存する(ステップS24)。次に、始端、終端の単語検出判定を行い(ステップS25)、始端、終端の時間情報とフレームスコアを基に第2スコアを算出し(ステップS26)、その第2スコアの結果に基づいて検出した単語を出力する(ステップS27)。このように始端、終端の定まっている系列スコアは高速に計算可能である。本実施形態において、第1スコアの算出パスと第2スコアの算出パスが同じであるが、逐次検出スコア算出時に、パスの長さや逐次検出スコアにしきい値を設けてパスの計算を打ち切るなどの近似計算を入れた場合では、第1スコアの算出パスと第2スコアの算出パスが異なってもよい。
ところで、少計算量、メモリ、低遅延で動作する単語(ワード)の検出処理において、逐次検出スコア計算による単語検出は、計算量、メモリ量が少なく、低遅延で動作する。しかしながら、この検出方法では、近似スコア、または、検出に特化したスコアを用いるため、別の検出対象の単語とスコアを比較することが困難であり、類似した単語を全て検出してしまう(例えば構造、構想など)。このようなスコア比較行うための正確なスコア計算には計算量、メモリ量が増大する。そこで、本実施形態では、図7に示した第1の実施形態の処理に加え、図8に示すように、第2スコアの算出結果について、単語毎に第2スコアを比較するステップS28を追加することで類似した単語の誤検出を低下させる。
実施形態の説明では、第2スコアを計算する区間を検出始終端区間(tms,te)としたが、始端または終端にマージンdフレームを加えた上で区間を広げての中で第2スコアを求めても良い。終端時間にマージンdを設ける場合にはマージンdフレーム分処理を待つ必要がある。また、時間に対して前向きにビタビアルゴリズムを適用するとき、始端が固定され、終端が異なる区間に対しては、アルゴリズムの特性により、追加フレーム毎に逐次最大累積スコアが算出可能である。このため、マージンdフレーム内で最も第2スコアが高くなるものをそのキーワードの第2スコアとしても良い。始端の変化に関しても、終端を固定して時間方向に対して後ろ向きにビタビアルゴリズムを行えば、同様のことは可能である。また、始端終端の変化の組み合わせで最大のスコアを第2スコアとして用いても良い。
なお、上記の説明では、入力音声からキーワードを検出する場合について説明したが、キーワードでなくても、単にワード(単語)の検出にも利用可能である。
10…音声キーワード検出装置、101…CPU、102…システムコントローラ、103…主メモリ、104…LCD、105…BIOS−ROM、106…不揮発性メモリ、107…マイクロホン、108…通信デバイス、109…キーボード、110…ポインティングデバイス、111…エンベデッドコントローラ(EC)、
201…オペレーティングシステム(OS)、202…音声キーワード検出プログラム、
31…音声取得部、32…キーワード第1スコア算出部、33…キーワード第1検出部、34…キーワード第2スコア算出部、35…キーワード第2検出部、36…キーワードモデル格納部、37…スコアバッファ。
Claims (10)
- 複数のフレームを含む音声データを取得して音声特徴量を生成する音声取得部と、
ターゲットとなるワードに対応付けられた前記音声特徴量に基づく参照モデルを前記音声データの複数のフレームそれぞれとマッチングすることによってフレームスコアを算出し、そのフレームスコアから前記ワードの第1スコアを算出する第1算出部と、
前記ワードのフレームスコアを保持する保持部と、
前記第1スコアに基づいて前記音声データから前記ワードを検出し、検出したワードの始端、終端の時間情報を出力する検出部と、
前記検出したワードの始端、終端の時間情報と前記保持部に保持されているフレームスコアに基づいて、前記ワードに対する第2スコアを算出する第2算出部と、
前記第2スコアの値を用いて複数のワードに対する第2スコアまたは予め決められた閾値スコアまたはその両方と比較し、その比較結果に基づいて出力対象とするワードを決定する出力部と
を具備するワード検出システム。 - 前記参照モデルは、前記音声特徴量として生成される音素、または音韻、または発音表記、または表記文字のいずれかに基づく請求項1記載のワード検出システム。
- 前記出力部は、さらに、前記第2スコアの算出結果から、複数のワードについてそれぞれの第2スコアを比較して、その比較結果に基づいて出力ワードを決定する請求項1記載のワード検出システム。
- 前記出力部は、一つのワードが検出された後に、予め定められた時間閾値内に別のワードが検出された場合に、前記第2スコアを比較し、その比較結果に基づいて出力するワードを決定する請求項3記載のワード検出システム。
- 前記出力部は、一つのワードが検出された後に、そのワードの始端、終端の時間情報を用いて検出されたワードとは別の検出ワード候補の第2スコアと比較し、その比較結果に基づいて出力するワードを決定する請求項3記載のワード検出システム。
- さらに、前記時間閾値の調整をユーザの画面操作に従って実行する調整手段を備える請求項4記載のワード検出システム。
- さらに、前記検出ワード候補に対する第2のスコアを算出するかどうかをユーザの画面操作に従って実行する選択手段を備える請求項5記載のワード検出システム。
- 前記出力部は、前記検出ワード候補に対して第2のスコアを算出するかどうかをワード間の距離に基づいて決定する請求項5記載のワード検出システム。
- 複数のフレームを含む音声データを取得して音声特徴量を生成し、
ターゲットとなるワードに対応付けられた前記音声特徴量に基づく参照モデルを前記音声データの複数のフレームそれぞれとマッチングすることによってフレームスコアを算出し、そのフレームスコアから前記ワードの第1スコアを算出し、
前記ワードのフレームスコアを保持し、
前記第1スコアに基づいて前記音声データから前記ワードを検出し、検出したワードの始端、終端の時間情報を出力し、
前記検出したワードの始端、終端の時間情報と前記保持されているフレームスコアに基づいて、前記ワードに対する第2スコアを算出し、
前記第2スコアの値を用いて複数のワードに対する第2スコアまたは予め決められた閾値スコアまたはその両方と比較し、その比較結果に基づいて出力対象とするワードを決定する
ワード検出方法。 - ユーザが発話する音声からワードを検出する処理をコンピュータに実行させるためのワード検出プログラムであって、
複数のフレームを含む音声データを取得して音声特徴量を生成する音声取得ステップと、
ターゲットとなるワードに対応付けられた前記音声特徴量に基づく参照モデルを前記音声データの複数のフレームそれぞれとマッチングすることによってフレームスコアを算出し、そのフレームスコアから前記ワードの第1スコアを算出する第1算出ステップと、
前記ワードのフレームスコアを保持する保持ステップと、
前記第1スコアに基づいて前記音声データから前記ワードを検出し、検出したワードの始端、終端の時間情報を出力する検出ステップと、
前記検出したワードの始端、終端の時間情報と前記保持されているフレームスコアに基づいて、前記ワードに対する第2スコアを算出する第2算出ステップと、
前記第2スコアの値を用いて複数のワードに対する第2スコアまたは予め決められた閾値スコアまたはその両方と比較し、その比較結果に基づいて出力対象とするワードを決定する出力ステップと
を具備するワード検出プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/130,538 US10964311B2 (en) | 2018-02-23 | 2018-09-13 | Word detection system, word detection method, and storage medium |
CN201811068253.7A CN110189750B (zh) | 2018-02-23 | 2018-09-13 | 词语检测系统、词语检测方法以及记录介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018031225 | 2018-02-23 | ||
JP2018031225 | 2018-02-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019144524A true JP2019144524A (ja) | 2019-08-29 |
JP6852029B2 JP6852029B2 (ja) | 2021-03-31 |
Family
ID=67772278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018170090A Active JP6852029B2 (ja) | 2018-02-23 | 2018-09-11 | ワード検出システム、ワード検出方法及びワード検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6852029B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292766A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 用于生成语音样本的方法、装置、电子设备和介质 |
-
2018
- 2018-09-11 JP JP2018170090A patent/JP6852029B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292766A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 用于生成语音样本的方法、装置、电子设备和介质 |
CN111292766B (zh) * | 2020-02-07 | 2023-08-08 | 抖音视界有限公司 | 用于生成语音样本的方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6852029B2 (ja) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
CN109155132B (zh) | 说话者验证方法和系统 | |
US10923111B1 (en) | Speech detection and speech recognition | |
US9484030B1 (en) | Audio triggered commands | |
JP6585112B2 (ja) | 音声キーワード検出装置および音声キーワード検出方法 | |
JP6574169B2 (ja) | 多方向の復号をする音声認識 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US20210312914A1 (en) | Speech recognition using dialog history | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5172021B2 (ja) | 自動音声認識音響モデルの適合 | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
CN110706714B (zh) | 说话者模型制作系统 | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
US20160118039A1 (en) | Sound sample verification for generating sound detection model | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
US11823669B2 (en) | Information processing apparatus and information processing method | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2017211513A (ja) | 音声認識装置、その方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210310 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6852029 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |