JP6571587B2 - 音声入力装置、その方法、及びプログラム - Google Patents

音声入力装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6571587B2
JP6571587B2 JP2016099255A JP2016099255A JP6571587B2 JP 6571587 B2 JP6571587 B2 JP 6571587B2 JP 2016099255 A JP2016099255 A JP 2016099255A JP 2016099255 A JP2016099255 A JP 2016099255A JP 6571587 B2 JP6571587 B2 JP 6571587B2
Authority
JP
Japan
Prior art keywords
utterance
speaker
unit
storage unit
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016099255A
Other languages
English (en)
Other versions
JP2017207602A (ja
Inventor
山口 義和
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016099255A priority Critical patent/JP6571587B2/ja
Publication of JP2017207602A publication Critical patent/JP2017207602A/ja
Application granted granted Critical
Publication of JP6571587B2 publication Critical patent/JP6571587B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声でコマンド(コンピュータに特定の機能を実行させるための指示)を入力(以下、「音声コマンド入力」ともいう)する技術に関する。
音声コマンド入力の従来技術として非特許文献1が知られている。非特許文献1では、音声コマンド入力を開始するためにボタンを押してマイクをONにする代わりに、マイクは常時ONのままで、事前に決められた特定の発話(以下、この発話を第一発話ともいう)をすると、音声コマンド入力(以下、音声コマンド入力に対応する発話を第二発話ともいう)の待ち状態となる。例えば、非特許文献1では"OK Google(登録商標)"という発話を第一発話として用いる。
Guoguo Chen, et al, "SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS", Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference, pp.4087 - 4091.
しかしながら、本来の利用者(第一発話の発話者)と、同一空間において会話をしている他者(第一発話の発話者以外の者)の発話を、音声入力装置が第二発話として認識する場合がある。その場合、本来の利用者(第一発話の発話者)が意図していたコマンドとは異なるコマンドが、音声入力装置に誤入力されてしまうという問題がある。
本発明は、本来の利用者が意図していたコマンドとは異なるコマンドが、誤入力されてしまうことを防ぐことができる音声入力装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音声入力装置は、入力音声データから特定の発話からなる第一発話を検知する第一発話検知部と、第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示部と、第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識部と、第一発話の発話者と、第二発話の発話者とが一致する場合、音声認識の結果を出力する出力判定部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音声入力装置が行う音声入力方法は、入力音声データから特定の発話からなる第一発話を検知する第一発話検知ステップと、第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示ステップと、第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識ステップと、第一発話の発話者と、第二発話の発話者とが一致する場合、音声認識の結果を出力する出力判定ステップとを含む。
本発明によれば、本来の利用者が意図していたコマンドとは異なるコマンドが、誤入力されてしまうことを防ぐことができるという効果を奏する。
第一実施形態に係る音声入力装置の機能ブロック図。 第一実施形態に係る音声入力装置の処理フローの例を示す図。 第一実施形態に係る音声入力装置の処理フローの例を示す図。 第一実施形態に係る話者データ登録更新部の機能ブロック図。 第一実施形態に係る話者識別部の機能ブロック図。 第一実施形態の変形例に係る音声入力装置の機能ブロック図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
図1は第一実施形態に係る音声入力装置100の機能ブロック図を、図2及び図3はその処理フローを示す。
音声入力装置100は、入力受付部110、話者データ登録更新部120、第一発話検知部131、第一発話音声記憶部132、第二発話入力指示部133、音声認識部141、第二発話音声記憶部142、第二発話テキスト記憶部143、話者識別部150及び出力判定部160を含む。
第一実施形態に係る音声入力装置100は、音声データを入力とし、後段の何らかのシステムに対して音声コマンドを出力して、音声コマンド入力を実現する情報処理装置である。
音声入力装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な情報処理装置である。
音声入力装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声入力装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声入力装置100の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
この音声入力装置100が後述する各ステップの処理を行うことにより実施形態の音声コマンド入力が実現される。
入力部1は、利用者の発話をスマートフォン等が取得するためのインターフェースである。言い換えれば、入力部1は、利用者が発話をスマートフォン等へ入力するためのインターフェースである。例えば、入力部1は利用者の発話音声を収音して音声データとするマイクロホンである。入力部1で収音した利用者の発話音声の音声データは、入力受付部110へ入力される。
出力部5は、音声入力装置100または音声コマンドを受け取った後段の何らかのシステムが生成した内容を利用者へ提示するためのインターフェースである。
例えば、入力部1はスマートフォンが備えるマイクロホン等であり、出力部5はスマートフォンが備える液晶ディスプレイやスピーカ等である。
入力部1及び出力部5を備えるスマートフォンと音声入力装置100とは通信回線等を介して通信可能とする。
<入力受付部110>
入力受付部110は、入力部1で収音した利用者の発話音声の音声データと制御信号とを受け付け、制御信号に基づき、音声データを第一発話検知部131、または、音声認識部141に出力する。
例えば、制御信号は第一発話の検知前か検知後かを直接的に又は間接的に示す信号であり、後述する第一発話検知部131がこの制御信号を入力受付部110に出力する。なお、第一発話の検知前か検知後かを間接的に示す信号とは、例えば、後述する第二発話入力指示部133は、利用者に対して第二発話の入力を指示するために、第一発話の検知後に出力部5に制御信号等を出力するが、この制御信号等を受け取り、第一発話が検知後であることを間接的に示す信号として利用してもよい。
例えば、制御信号が、第一発話の検知前であること示す場合、音声データを第一発話検知部131に出力する。一方、第一発話の検知後であること示す場合、音声データを音声認識部141に出力する。
<話者データ登録更新部120>
図4は、話者データ登録更新部120の機能ブロック図を示す。話者データ登録更新部120は、話者データ登録部121、第一発話用登録話者データ記憶部122、第二発話用登録話者データ記憶部123、話者データ更新部124を含む。
(話者データ登録部121、第一発話用登録話者データ記憶部122及び第二発話用登録話者データ記憶部123)
話者データ登録部121は、音声データと話者ID(音声データの話者を一意に特定するための識別子)とを入力とし、音声データから話者データを生成し、生成した話者データと話者IDとの組を、第一発話用登録話者データ記憶部122と第二発話用登録話者データ記憶部123とに登録する。
例えば、話者データは、音声データから得られるデータであって、話者識別を行なう際に用いられるデータである。例えば、話者データは、i-vectorなどの特徴量によって表現される。話者データの登録処理は既存のいかなる登録方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、参考文献1の登録方法を用いればよい。
(参考文献1)安藤厚志他、「登録発話分割を用いた短い発話に頑健な話者識別」、日本音響学会講演論文集、p.11-12、2016年.
また、例えば、話者データ登録部121は、後述する話者識別部150において、話者識別を行なうために、第一発話を含む30秒程度の音声データを入力とし、音声データから話者データを生成する。話者データと話者IDの登録は、利用者それぞれで音声入力処理を行う前に予め行っておき、個別に各記憶部に記憶される。例えば、登録処理中には、登録処理中であることを示す制御信号が入力受付部110に入力され、入力受付部110は、登録処理中に入力される音声データを話者データ登録更新部120に出力する。例えば、利用者は、スマートフォンの入力部1の一部であるマイクロホンを介して、音声データを入力し、スマートフォンの入力部1の一部であるタッチパネルに表示されるソフトウェアキーボードを介して話者IDを入力する。なお、第一発話用登録話者データ記憶部122と第二発話用登録話者データ記憶部123とに記憶される話者データは同じにしてもよい。なお、話者データ更新部124の処理については後述する。
後述する第一発話話者識別部151において、音声入力処理時に発せられた第一発話から話者データO1を生成し、この話者データO1と第一発話用登録話者データ記憶部122内に登録されている各話者データとのスコア(類似している度合いを示す指標)を計算する。そのため、第一発話用登録話者データ記憶部122内に登録されている各話者データを生成する際の音声データには、第一発話が含まれることが望ましい。第一発話を含む音声データから話者データを作成し、第一発話用登録話者データ記憶部122に登録することで、話者識別の精度を向上させることができる。例えば、第一発話を3回繰り返し利用者に発話させ、その音声データから話者データを生成する。
また、後述する第二発話話者識別部153において、音声入力処理時に発せられた第二発話から話者データO2を生成し、この話者データO2と第二発話用登録話者データ記憶部123内に登録されている各話者データとのスコアを計算する。そのため、第二発話用登録話者データ記憶部123内に登録されている各話者データを生成する際の音声データには、第二発話が含まれることが望ましい。第二発話を含む音声データから話者データを作成し、第二発話用登録話者データ記憶部123に登録することで、話者識別の精度を向上させることができる。なお、第二発話とは、後段の何らかのシステムに渡す音声データ、または、後段の何らかのシステムに渡すテキストデータに対応する音声データである。例えば、利用可能な様々な音声コマンドを第二発話として利用者に発話させ、その音声データから話者データを生成する。
<第一発話検知部131、第一発話音声記憶部132>
第一発話検知部131は、制御信号が第一発話の検知前であること示す場合、常時、音声データを受け付ける(S3)。第一発話検知部131は、受け付けた音声データから特定の発話からなる第一発話を検知する(S4)。第一発話は、事前に決められた特定の発話(キーワード、例えば、"○○さん"等)であり、後段の何らかのシステムを起動するための発話とも言え、後段の何らかのシステムに対する音声コマンド入力を開始することを知らせるための発話とも言える。第一発話検知部131は、第一発話を検知した場合(S4のyesの場合)、第一発話の検知後であること示す制御信号を入力受付部110に出力し、検知した第一発話(音声データ)を第一発話音声記憶部132に記憶する(S6)。さらに、第一発話検知部131は、第一発話を検知したことを知らせる制御信号を第二発話入力指示部133及び話者識別部150に出力する。特定の発話を検知する方法は既存のいかなる発話検知技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話検知部131は、非特許文献1の発話検知技術を用いて第一発話を検知する。
<第二発話入力指示部133>
第二発話入力指示部133は、第一発話を検知したことを知らせる制御信号を受け取ると、利用者に対して第二発話の入力を指示する(S5)。例えば、利用者のスマートフォンの出力部5であるタッチパネルに「音声コマンドを入力してください」と表示したり、スピーカから「音声コマンドを入力してください」との合成音声を再生することで、利用者に対して第二発話の入力を指示する。第二発話入力指示部133は、このような表示や再生を行うように利用者のスマートフォンを制御する。第二発話入力指示部133は、そのための制御信号や画面情報やテキスト情報とをスマートフォンに出力する。
<話者識別部150>
図5は、話者識別部150の機能ブロック図を示す。話者識別部150は、第一発話話者識別部151と、第一発話話者ID記憶部152と、第二発話話者識別部153と、第二発話話者ID記憶部154とを含む。
(第一発話話者識別部151、第一発話話者ID記憶部152)
話者識別部150内の第一発話話者識別部151は、第一発話を検知したことを知らせる制御信号を受け取ると、第一発話音声記憶部132に記憶された第一発話を取り出し、第一発話用登録話者データ記憶部122に記憶されている話者データ(第一発話用登録話者音声データ)を参照して、話者識別を行い(S7)、識別結果の話者IDを第一発話話者ID記憶部152に記憶する(S8)。話者識別技術は既存のいかなる話者識別技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話話者識別部151は、参考文献1の話者識別技術を用いて話者識別を行う。
例えば、第一発話話者識別部151は、第一発話音声記憶部132に記憶された第一発話から話者データO1を生成する。なお、第一発話から話者データO1を生成する方法は、話者データ登録部121で音声データから話者データを生成した方法と同様の方法を用いればよい。さらに、第一発話話者識別部151は、生成した話者データO1と第一発話用登録話者データ記憶部122に登録されている各話者データとのスコアを計算し、最もスコアの高い話者データO1'を求め、その話者データO1'に対応する話者IDを識別結果の話者ID1として取得し、第一発話話者ID記憶部152に記憶する。なお、スコアは二つの話者データが類似している度合いを示すものであり、例えば、コサイン類似度や標準ユークリッド距離、それらの値から得られる値(参考文献1等参照)等を用いることができる。ここでは、二つの話者データのスコアが高いほど、二つの話者データが類似していることを意味するものとする。
<音声認識部141、第二発話音声記憶部142、第二発話テキスト記憶部143>
音声認識部141は、制御信号が第一発話の検知後であること示す場合、入力受付部110から音声データを受け付け(図3のS11)、受け付けた音声データを第二発話音声記憶部142に記憶し(S12)、さらに、受け付けた音声データに対して音声認識を行い(S13)、音声認識結果(テキスト)を第二発話テキスト記憶部143に記憶する(S14)。なお、この音声データは、第二発話入力指示部133において第二発話の入力を指示した後の発話に対する音声データであり、必ずしも第一発話の話者が発した発話に対する音声データとは限らない。以下、この音声データを第二発話ともいう。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。音声認識部141は、第二発話を記憶したことを知らせる制御信号を話者識別部150に出力する。
(第二発話話者識別部153、第二発話話者ID記憶部154)
話者識別部150内の第二発話話者識別部153は、第二発話を記憶したことを知らせる制御信号を受け取ると、第二発話音声記憶部142に記憶された第二発話を取り出し、第二発話用登録話者データ記憶部123に記憶されている話者データ(第二発話用登録話者音声データ)を参照して、話者識別を行い(S15)、識別結果の話者IDを第二発話話者ID記憶部154に記憶する(S16)。話者識別技術は既存のいかなる話者識別技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話話者識別部151と同様の方法により、話者識別を行う。
例えば、第二発話話者識別部153は、第二発話音声記憶部142に記憶された第二発話から話者データO2を生成する。なお、第二発話から話者データO2を生成する方法は、話者データ登録部121で音声データから話者データを生成した方法と同様の方法を用いればよい。さらに、第二発話話者識別部153は、生成した話者データO2と第二発話用登録話者データ記憶部123に登録されている各話者データとのスコアを計算し、最もスコアの高い話者データO2'を求め、その話者データO2'に対応する話者IDを識別結果の話者ID2として取得し、第二発話話者ID記憶部154に記憶する。第二発話話者識別部153は、第二発話の話者を識別したことを知らせる制御信号を出力判定部160に出力する。
<出力判定部160>
出力判定部160は、第二発話の話者を識別したことを知らせる制御信号を受け取ると、第一発話の発話者と第二発話の発話者とが一致するか否かを判定し(S17)、一致する場合には、話者IDと共に、音声認識の結果を後段の何らかのシステムに対して出力する(S18)。なお、音声認識の結果が、前述の音声コマンドに相当する。例えば、出力判定部160は、第一発話話者ID記憶部152から話者ID1を取り出し、第二発話話者ID記憶部154から話者ID2を取り出し、話者ID1と話者ID2とが同じ利用者を示すときに第一発話の発話者と第二発話の発話者とが一致すると判定する。さらに、出力判定部160は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を話者データ更新部124に出力する。
なお、第一発話の発話者と第二発話の発話者とが一致しない場合、出力判定部160は、第一発話の話者と第二発話の話者とが一致しないことを示す制御信号を第二発話入力指示部133に出力し、第二発話入力指示部133は、再度、利用者に対して第二発話の入力を指示する(S5)。例えば、利用者のスマートフォンの出力部5であるタッチパネルに「音声が認識できませんでした。再度、音声コマンドを入力してください」と表示したり、スピーカから「音声が認識できませんでした。再度、音声コマンドを入力してください」との合成音声を再生することで、利用者に対して第二発話の入力を指示する。第二発話入力指示部133は、このような表示や再生を行うように利用者のスマートフォンを制御する。以降、S6〜S8は行わずに、S11〜S17の処理を繰り返す。なお、第一発話の発話者と第二発話の発話者とが一致しない場合には、第二発話音声記憶部142に記憶された音声データ(第二発話の入力を指示した後の発話に対する音声データ)、第二発話テキスト記憶部143に記憶された音声認識結果(第二発話の入力を指示した後の発話に対する音声データに対応する音声認識結果(テキスト))、第二発話話者ID記憶部154に記憶された識別結果の話者IDを削除してもよい。
(話者データ更新部124)
話者データ更新部124は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を受け取ると、その話者IDに対応する第一発話の話者データO1及び第二発話の話者データO2を、それぞれ第一発話音声記憶部132及び第二発話音声記憶部142から取り出し、第一発話用登録話者データ記憶部122及び第二発話用登録話者データ記憶部123内の話者データO1'、O2'をそれぞれ更新する(S19)。なお、第二発話用登録話者データ記憶部123内の話者データO2'を更新する際には、話者データO2に加えて、話者データO1も用いて、話者データO2'を更新してもよい。
<効果>
以上の構成により、同一話者性を考慮することで、不用意に入力された第二発話を棄却することができ、本来の利用者が意図していたコマンドとは異なるコマンドが、誤入力されてしまうことを防ぐことができる。
<第一変形例>
第一実施形態と異なる部分を中心に説明する。
そもそも話者の同一性判定だけが必要であれば話者識別ではなく、第一発話と第二発話の類似性を見ることで判断することもできる。参考文献2にあるように、各発話より混合正規分布モデルを求め、そのモデル間距離の小さければ同一話者であるとの判定も可能である。
(参考文献2)特開2010−32792号公報
ただし、この場合、登録話者データの事前登録も必要はないが、話者IDは出力されない。
図6は、この変形例における機能ブロック図を示す。この変形例の場合、話者データ登録更新部120を含まなくともよく、話者データ登録更新部120、話者識別部150に係る処理S7,S8,S15,S16,S19を省略してもよい。
第一発話検知部131は、第一発話を検知したことを知らせる制御信号を、話者識別部150には出力せず、第二発話入力指示部133のみに出力する。
音声認識部141は、第二発話を記憶したことを知らせる制御信号を、話者識別部150ではなく、出力判定部160に出力する。
出力判定部160は、第二発話を記憶したことを知らせる制御信号を受け取ると、第一発話の発話者と第二発話の発話者とが一致するか否かを判定し(S17)、一致する場合には、話者IDを出力せずに、音声認識の結果のみを後段の何らかのシステムに対して出力する(S18)。例えば、出力判定部160は、第一発話音声記憶部132から第一発話の音声データを取り出し、第一発話の音声データの混合正規分布モデルを求める。第二発話音声記憶部142から第二発話の音声データを取り出し、第二発話の音声データの混合正規分布モデルを求める。出力判定部160は、二つの混合正規分布モデルのモデル間距離を求め、求めたモデル間距離が所定の閾値より小さい場合に第一発話の発話者と第二発話の発話者とが一致すると判定し、求めたモデル間距離が所定の閾値以上の場合に第一発話の発話者と第二発話の発話者とが一致しないと判定する。出力判定部160は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を話者データ更新部124に出力しなくともよい。
出力判定部160は、他の方法により、第一発話の発話者と第二発話の発話者とが一致するか否かを判定してもよい。例えば、出力判定部160は、第一発話音声記憶部132から第一発話の音声データを取り出し、第一発話の音声データの話者データ(i-vector等)を求め、第二発話音声記憶部142から第二発話の音声データを取り出し、第二発話の音声データの話者データを求める。出力判定部160は、二つの話者データのスコアを計算し、スコアが所定の閾値以上の場合に第一発話の発話者と第二発話の発話者とが一致すると判定し、スコアが所定の閾値より小さい場合に第一発話の発話者と第二発話の発話者とが一致しないと判定する。なお、スコアは第一実施形態で用いたものと同じものであり、二つの話者データが類似している度合いを示すものである。
このような構成により、第一実施形態と同様に本来の利用者が意図していたコマンドとは異なるコマンドが、誤入力されてしまうことを防ぐことができる。
<その他の変形例>
第一実施形態では、話者データ更新部124は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を受け取ると、第一発話用登録話者データ記憶部122及び第二発話用登録話者データ記憶部123内の話者データO1'、O2'をそれぞれ更新しているが、更新処理S19を省略し、登録時の話者データO1'、O2'を更新せずに利用し続けてもよい。
第一実施形態では、第一発話の発話者と第二発話の発話者とが一致しない場合、出力判定部160は、第一発話の話者と第二発話の話者とが一致しないことを示す制御信号を第二発話入力指示部133に出力し、第二発話入力指示部133は、再度、利用者に対して第二発話の入力を指示している。しかし、このような再入力の指示を利用者に対して行わずに、音声入力処理を終了してもよい。
第一実施形態では、入力受付部110は、制御信号が、第一発話の検知前であること示す場合、音声データを第一発話検知部131に出力し、第一発話の検知後であること示す場合、音声データを音声認識部141に出力している。しかし、入力受付部110は、制御信号が、第一発話の検知後であること示す場合、音声データを第一発話検知部131及び音声認識部141に出力する構成としてもよい。この場合、第一発話検知部131では、常時、音声データを受け付け、第一発話を検知する。
また、本実施形態では、音声入力装置100は、後段の何らかのシステムに対して音声コマンドを出力しているが、音声コマンドに限定されない。第一発話の話者と第二発話の話者とが一致することが要求されるシステム全般に適用可能であり、音声入力装置100は、第二発話の音声データそのものや、第二発話の音声データから得られる特徴量等を出力してもよい。
また、本実施形態では、音声データを入力としているが、音声データから得られる特徴量等を入力としてもよい。
本実施形態では、話者データと話者IDとの組を第一発話用登録話者データ記憶部122と第二発話用登録話者データ記憶部123とに登録する際に、話者IDを利用者がソフトウェアキーボードを介して入力する例を示したが、他の方法により、話者IDを取得し、登録してもよい。例えば、音声入力装置100の内部、例えば、話者データ登録部121は、音声データが入力されると、その音声データに対して、自動的に話者IDを作成し、付与する構成としてもよい。例えば、登録順に1,2,…と話者IDを付与する。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、第一発話と第二発話とが同一話者の場合、同じ位置から発生する場合が多いことを判定に利用する。同じ位置から第一発話と第二発話とが発生した場合、音声の残響時間や音量が同程度になると考えられる。そこで、本実施形態では、第一発話と第二発話の音声の残響時間や音量が同程度か否かを加味することで、話者同一であるかの判定精度を高める。
第一発話話者識別部151、第二発話話者識別部153及び出力判定部160の処理内容が第一実施形態とは異なる。
(第一発話話者識別部151、第一発話話者ID記憶部152)
話者識別部150内の第一発話話者識別部151は、第一発話を検知したことを知らせる制御信号を受け取ると、第一発話音声記憶部132に記憶された第一発話を取り出し、第一発話用登録話者データ記憶部122に記憶されている話者データ(第一発話用登録話者音声データ)を参照して、話者識別を行う(S7)。また、第一発話話者識別部151は、第一発話の残響時間R1を算出する。残響時間算出の方法は既存のいかなる残響時間推定技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、参考文献3の残響時間推定技術を用いて残響時間R1を求めればよい。
(参考文献3)特開2009−211021号公報
また、第一発話話者識別部151は、第一発話の音量(パワー)P1を算出する。第一発話話者識別部151は、最もスコアの高い話者データに対応する識別結果の話者ID1、話者識別を行った際のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶する(S8)。
同様の処理を第二発話話者識別部153においても行う。
(第二発話話者識別部153、第二発話話者ID記憶部154)
話者識別部150内の第二発話話者識別部153は、第二発話を記憶したことを知らせる制御信号を受け取ると、第二発話音声記憶部142に記憶された第二発話を取り出し、第二発話用登録話者データ記憶部123に記憶されている話者データ(第二発話用登録話者音声データ)を参照して、話者識別を行う(S15)。また、第二発話話者識別部153は、第二発話の残響時間R2を算出する。また、第二発話話者識別部153は、第二発話の音量(パワー)P2を算出する。第二発話話者識別部153は、最もスコアの高い話者データに対応する識別結果の話者ID2、話者識別を行った際のスコアS2、残響時間R2、音量(パワー)P2を第二発話話者ID記憶部154に記憶する(S16)。第二発話話者識別部153は、第二発話の話者を識別したことを知らせる制御信号を出力判定部160に出力する。
<出力判定部160>
出力判定部160は、第二発話の話者を識別したことを知らせる制御信号を受け取ると、第一発話の発話者と第二発話の発話者とが一致するか否かを判定し(S17)、一致する場合には、話者IDと共に、音声認識の結果を後段の何らかのシステムに対して出力する(S18)。さらに、出力判定部160は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を話者データ更新部124に出力する。
例えば、出力判定部160は、第一発話話者ID記憶部152から第一発話の話者ID1、話者識別を行った際のスコアS1、残響時間R1、音量(パワー)P1を取り出し、第二発話話者ID記憶部154から第二発話話者ID2、話者識別を行った際のスコアS2、残響時間R2、音量(パワー)P2を取り出し、話者ID1と話者ID2とが同じ利用者を示し、かつ、次式により得られる出力判定スコアOが所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定する。
O=(αS1+S2)-β|R1-R2|-γ|P1-P2|
ただし、αは第一発話に対する重みであり、第一発話の識別精度が第二発話の識別精度よりも高く信頼できると想定し、1以上の数字を設定する。また、β、γは残響時間差もしくは音量差に対する重みであり、それぞれ0から1までの数字を設定する。
第一発話の話者と第二発話の話者とが一致しないと判定した場合(話者ID1と話者ID2とが異なる利用者を示す場合、または、出力判定スコアOが所定の閾値未満の場合)、出力判定部160は、第一発話の話者と第二発話の話者とが一致しないことを示す制御信号を第二発話入力指示部133に出力し、第二発話入力指示部133は、再度、利用者に対して第二発話の入力を指示する(S5)。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、このように話者の同一性だけでなく、発話位置に関する特徴量を考慮することで、同一性判定の精度を高めることができる。
<変形例>
本実施形態では、出力判定部160において、話者ID1と話者ID2とが同じ利用者を示し、かつ、出力判定スコアOが所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定しているが、話者IDを用いずに出力判定スコアOのみを用いて、第一発話の発話者と、第二発話の発話者とが一致しているか否かを判定してもよい。この場合、出力判定部160は、第一発話の話者ID1と第二発話の話者ID2とを必要としない。そのため、第一発話話者識別部151は、少なくとも話者識別を行った際のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶すればよい。ただし、最もスコアの高い話者データに対応するスコアS1、残響時間R1、音量(パワー)P1ではなく、全ての利用者のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶する必要がある。同様に、第二発話話者識別部153は、全ての利用者の、少なくとも話者識別を行った際のスコアS2、残響時間R2、音量(パワー)P2を第二発話話者ID記憶部154に記憶すればよい。出力判定部160は、全ての利用者に対する出力判定スコアOをそれぞれ算出する。さらに、出力判定部160は、出力判定スコアOの最大値が所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定する。
また、本実施形態と第一実施形態の変形例とを組合せてもよい。例えば、第一実施形態の第一変形例と本実施形態とを組み合わせた場合、出力判定部160では、以下のように、処理を行ってもよい。
出力判定部160は、第一発話音声記憶部132から第一発話の音声データを取り出し、第一発話の音声データの話者データ(i-vector等)を求め、第二発話音声記憶部142から第二発話の音声データを取り出し、第二発話の音声データの話者データを求める。出力判定部160は、二つの話者データのスコアを計算し、スコアが所定の閾値以上であって、かつ、次式により得られる出力判定スコアOが所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定する。
O=-β|R1-R2|-γ|P1-P2|
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 入力音声データから特定の発話からなる第一発話を検知する第一発話検知部と、
    前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示部と、
    第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識部と、
    前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定部とを含み、
    利用者の識別子と、その利用者の発話から得られる特徴量との組を、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録する話者データ登録部と、
    前記第一発話を検知した場合、その第一発話から得られる特徴量O 1 を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O 1 に類似する特徴量O' 1 に対応する利用者の識別子ID 1 を取得する第一発話話者識別部と、
    前記第二発話から得られる特徴量O 2 を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O 2 に類似する特徴量O' 2 に対応する利用者の識別子ID 2 を取得する第二発話話者識別部とを含み、
    前記出力判定部は、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定し、
    前記第一発話話者識別部は、前記特徴量O 1 と前記特徴量O' 1 とが類似している度合いを示すスコアS1を取得し、前記第一発話の残響時間R1を算出し、前記第一発話の音量P1を算出し、
    前記第二発話話者識別部は、前記特徴量O 2 と前記特徴量O' 2 とが類似している度合いを示すスコアS2を取得し、前記第二発話の残響時間R2を算出し、前記第二発話の音量P2を算出し、
    αを1以上の実数とし、β、γをそれぞれ0以上1以下の実数とし、前記出力判定部は、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示し、かつ、次式により得られる出力判定スコアOが所定の閾値よりも大きいときに前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定する、
    O=(αS1+S2)-β|R1-R2|-γ|P1-P2|
    音声入力装置。
  2. 入力音声データから特定の発話からなる第一発話を検知する第一発話検知部と、
    前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示部と、
    第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識部と、
    前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定部とを含み、
    利用者の識別子と、その利用者の発話から得られる特徴量との組を、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録する話者データ登録部と、
    前記第一発話を検知した場合、その第一発話から得られる特徴量O 1 を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O 1 に類似する特徴量O' 1 に対応する利用者の識別子ID 1 を取得する第一発話話者識別部と、
    前記第二発話から得られる特徴量O 2 を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O 2 に類似する特徴量O' 2 に対応する利用者の識別子ID 2 を取得する第二発話話者識別部とを含み、
    前記出力判定部は、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定し、
    前記第一発話の発話者と前記第二発話の発話者とが一致する場合に、前記特徴量O 1 を用いて前記第一発話用登録話者データ記憶部に登録された前記特徴量O' 1 を更新し、前記特徴量O 2 を用いて前記第二発話用登録話者データ記憶部に登録された前記特徴量O' 2 を更新する話者データ更新部を含む、
    音声入力装置。
  3. 請求項の音声入力装置であって、
    前記第一発話の発話者と前記第二発話の発話者とが一致する場合に、前記特徴量O1を用いて前記第一発話用登録話者データ記憶部に登録された前記特徴量O'1を更新し、前記特徴量O2を用いて前記第二発話用登録話者データ記憶部に登録された前記特徴量O'2を更新する話者データ更新部を含む、
    音声入力装置。
  4. 請求項1から請求項の何れかの音声入力装置であって、
    前記出力判定部は、前記第一発話の発話者と、前記第二発話の発話者とが一致しない場合、前記第二発話入力指示部が、再度、利用者に対して第二発話の入力を指示するように制御する、
    音声入力装置。
  5. 音声入力装置が行う音声入力方法であって、
    入力音声データから特定の発話からなる第一発話を検知する第一発話検知ステップと、
    前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示ステップと、
    第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識ステップと、
    前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定ステップとを含み、
    利用者の識別子と、その利用者の発話から得られる特徴量との組が、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録されているものとし、
    前記第一発話を検知した場合、その第一発話から得られる特徴量O 1 を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O 1 に類似する特徴量O' 1 に対応する利用者の識別子ID 1 を取得する第一発話話者識別ステップと、
    前記第二発話から得られる特徴量O 2 を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O 2 に類似する特徴量O' 2 に対応する利用者の識別子ID 2 を取得する第二発話話者識別ステップとを含み、
    前記出力判定ステップは、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定し、
    前記第一発話話者識別ステップは、前記特徴量O 1 と前記特徴量O' 1 とが類似している度合いを示すスコアS1を取得し、前記第一発話の残響時間R1を算出し、前記第一発話の音量P1を算出し、
    前記第二発話話者識別ステップは、前記特徴量O 2 と前記特徴量O' 2 とが類似している度合いを示すスコアS2を取得し、前記第二発話の残響時間R2を算出し、前記第二発話の音量P2を算出し、
    αを1以上の実数とし、β、γをそれぞれ0以上1以下の実数とし、前記出力判定ステップは、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示し、かつ、次式により得られる出力判定スコアOが所定の閾値よりも大きいときに前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定する、
    O=(αS1+S2)-β|R1-R2|-γ|P1-P2|
    音声入力方法。
  6. 音声入力装置が行う音声入力方法であって、
    入力音声データから特定の発話からなる第一発話を検知する第一発話検知ステップと、
    前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示ステップと、
    第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識ステップと、
    前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定ステップとを含み、
    利用者の識別子と、その利用者の発話から得られる特徴量との組が、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録されているものとし、
    前記第一発話を検知した場合、その第一発話から得られる特徴量O 1 を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O 1 に類似する特徴量O' 1 に対応する利用者の識別子ID 1 を取得する第一発話話者識別ステップと、
    前記第二発話から得られる特徴量O 2 を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O 2 に類似する特徴量O' 2 に対応する利用者の識別子ID 2 を取得する第二発話話者識別ステップとを含み、
    前記出力判定ステップは、前記識別子ID 1 と前記識別子ID 2 とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定し、
    前記第一発話の発話者と前記第二発話の発話者とが一致する場合に、前記特徴量O 1 を用いて前記第一発話用登録話者データ記憶部に登録された前記特徴量O' 1 を更新し、前記特徴量O 2 を用いて前記第二発話用登録話者データ記憶部に登録された前記特徴量O' 2 を更新する話者データ更新ステップを含む、
    音声入力方法。
  7. 請求項の音声入力方法であって、
    前記第一発話の発話者と前記第二発話の発話者とが一致する場合に、前記特徴量O1を用いて前記第一発話用登録話者データ記憶部に登録された前記特徴量O'1を更新し、前記特徴量O2を用いて前記第二発話用登録話者データ記憶部に登録された前記特徴量O'2を更新する話者データ更新ステップを含む、
    音声入力方法
  8. 請求項1から請求項の何れかの音声入力装置としてコンピュータを機能させるためのプログラム。
JP2016099255A 2016-05-18 2016-05-18 音声入力装置、その方法、及びプログラム Active JP6571587B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016099255A JP6571587B2 (ja) 2016-05-18 2016-05-18 音声入力装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016099255A JP6571587B2 (ja) 2016-05-18 2016-05-18 音声入力装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017207602A JP2017207602A (ja) 2017-11-24
JP6571587B2 true JP6571587B2 (ja) 2019-09-04

Family

ID=60415579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016099255A Active JP6571587B2 (ja) 2016-05-18 2016-05-18 音声入力装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6571587B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111902865B (zh) * 2018-12-03 2024-07-12 谷歌有限责任公司 文本无关的说话者识别

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60120062T2 (de) * 2000-09-19 2006-11-16 Thomson Licensing Sprachsteuerung von elektronischen Geräten
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
EP3043348B1 (en) * 2013-09-03 2017-10-04 Panasonic Intellectual Property Corporation of America Voice interaction control method

Also Published As

Publication number Publication date
JP2017207602A (ja) 2017-11-24

Similar Documents

Publication Publication Date Title
US11133027B1 (en) Context driven device arbitration
JP6596376B2 (ja) 話者識別方法及び話者識別装置
KR102180489B1 (ko) 센서 신호들에 기초한 라이브니스 결정
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN106663430A (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
WO2017166651A1 (zh) 语音识别模型训练方法、说话人类型识别方法及装置
WO2010086925A1 (ja) 音声認識装置
WO2020051971A1 (zh) 身份识别方法、装置、电子设备及计算机可读存储介质
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
WO2021213490A1 (zh) 一种身份验证方法、装置和电子设备
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
KR101995443B1 (ko) 화자 검증 방법 및 음성인식 시스템
US20140163986A1 (en) Voice-based captcha method and apparatus
KR101181060B1 (ko) 음성 인식 시스템 및 이를 이용한 화자 인증 방법
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム
JP2018010110A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
KR101925253B1 (ko) 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법
JP2011221101A (ja) コミュニケーション装置
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR20190077296A (ko) 화자 검증 방법 및 음성인식 시스템
WO2006027844A1 (ja) 話者照合装置
CN112513845A (zh) 与语音使能设备的暂时账户关联
US12081628B1 (en) Account association for voice-enabled devices
WO2024209802A1 (ja) プログラム、情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190808

R150 Certificate of patent or registration of utility model

Ref document number: 6571587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150