JP2017207602A - 音声入力装置、その方法、及びプログラム - Google Patents
音声入力装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2017207602A JP2017207602A JP2016099255A JP2016099255A JP2017207602A JP 2017207602 A JP2017207602 A JP 2017207602A JP 2016099255 A JP2016099255 A JP 2016099255A JP 2016099255 A JP2016099255 A JP 2016099255A JP 2017207602 A JP2017207602 A JP 2017207602A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speaker
- unit
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】音声入力装置は、入力音声データから特定の発話からなる第一発話を検知する第一発話検知部と、第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示部と、第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識部と、第一発話の発話者と、第二発話の発話者とが一致する場合、音声認識の結果を出力する出力判定部とを含む。
【選択図】図1
Description
図1は第一実施形態に係る音声入力装置100の機能ブロック図を、図2及び図3はその処理フローを示す。
入力受付部110は、入力部1で収音した利用者の発話音声の音声データと制御信号とを受け付け、制御信号に基づき、音声データを第一発話検知部131、または、音声認識部141に出力する。
図4は、話者データ登録更新部120の機能ブロック図を示す。話者データ登録更新部120は、話者データ登録部121、第一発話用登録話者データ記憶部122、第二発話用登録話者データ記憶部123、話者データ更新部124を含む。
話者データ登録部121は、音声データと話者ID(音声データの話者を一意に特定するための識別子)とを入力とし、音声データから話者データを生成し、生成した話者データと話者IDとの組を、第一発話用登録話者データ記憶部122と第二発話用登録話者データ記憶部123とに登録する。
(参考文献1)安藤厚志他、「登録発話分割を用いた短い発話に頑健な話者識別」、日本音響学会講演論文集、p.11-12、2016年.
第一発話検知部131は、制御信号が第一発話の検知前であること示す場合、常時、音声データを受け付ける(S3)。第一発話検知部131は、受け付けた音声データから特定の発話からなる第一発話を検知する(S4)。第一発話は、事前に決められた特定の発話(キーワード、例えば、"○○さん"等)であり、後段の何らかのシステムを起動するための発話とも言え、後段の何らかのシステムに対する音声コマンド入力を開始することを知らせるための発話とも言える。第一発話検知部131は、第一発話を検知した場合(S4のyesの場合)、第一発話の検知後であること示す制御信号を入力受付部110に出力し、検知した第一発話(音声データ)を第一発話音声記憶部132に記憶する(S6)。さらに、第一発話検知部131は、第一発話を検知したことを知らせる制御信号を第二発話入力指示部133及び話者識別部150に出力する。特定の発話を検知する方法は既存のいかなる発話検知技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話検知部131は、非特許文献1の発話検知技術を用いて第一発話を検知する。
第二発話入力指示部133は、第一発話を検知したことを知らせる制御信号を受け取ると、利用者に対して第二発話の入力を指示する(S5)。例えば、利用者のスマートフォンの出力部5であるタッチパネルに「音声コマンドを入力してください」と表示したり、スピーカから「音声コマンドを入力してください」との合成音声を再生することで、利用者に対して第二発話の入力を指示する。第二発話入力指示部133は、このような表示や再生を行うように利用者のスマートフォンを制御する。第二発話入力指示部133は、そのための制御信号や画面情報やテキスト情報とをスマートフォンに出力する。
図5は、話者識別部150の機能ブロック図を示す。話者識別部150は、第一発話話者識別部151と、第一発話話者ID記憶部152と、第二発話話者識別部153と、第二発話話者ID記憶部154とを含む。
話者識別部150内の第一発話話者識別部151は、第一発話を検知したことを知らせる制御信号を受け取ると、第一発話音声記憶部132に記憶された第一発話を取り出し、第一発話用登録話者データ記憶部122に記憶されている話者データ(第一発話用登録話者音声データ)を参照して、話者識別を行い(S7)、識別結果の話者IDを第一発話話者ID記憶部152に記憶する(S8)。話者識別技術は既存のいかなる話者識別技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話話者識別部151は、参考文献1の話者識別技術を用いて話者識別を行う。
音声認識部141は、制御信号が第一発話の検知後であること示す場合、入力受付部110から音声データを受け付け(図3のS11)、受け付けた音声データを第二発話音声記憶部142に記憶し(S12)、さらに、受け付けた音声データに対して音声認識を行い(S13)、音声認識結果(テキスト)を第二発話テキスト記憶部143に記憶する(S14)。なお、この音声データは、第二発話入力指示部133において第二発話の入力を指示した後の発話に対する音声データであり、必ずしも第一発話の話者が発した発話に対する音声データとは限らない。以下、この音声データを第二発話ともいう。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。音声認識部141は、第二発話を記憶したことを知らせる制御信号を話者識別部150に出力する。
話者識別部150内の第二発話話者識別部153は、第二発話を記憶したことを知らせる制御信号を受け取ると、第二発話音声記憶部142に記憶された第二発話を取り出し、第二発話用登録話者データ記憶部123に記憶されている話者データ(第二発話用登録話者音声データ)を参照して、話者識別を行い(S15)、識別結果の話者IDを第二発話話者ID記憶部154に記憶する(S16)。話者識別技術は既存のいかなる話者識別技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、第一発話話者識別部151と同様の方法により、話者識別を行う。
出力判定部160は、第二発話の話者を識別したことを知らせる制御信号を受け取ると、第一発話の発話者と第二発話の発話者とが一致するか否かを判定し(S17)、一致する場合には、話者IDと共に、音声認識の結果を後段の何らかのシステムに対して出力する(S18)。なお、音声認識の結果が、前述の音声コマンドに相当する。例えば、出力判定部160は、第一発話話者ID記憶部152から話者ID1を取り出し、第二発話話者ID記憶部154から話者ID2を取り出し、話者ID1と話者ID2とが同じ利用者を示すときに第一発話の発話者と第二発話の発話者とが一致すると判定する。さらに、出力判定部160は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を話者データ更新部124に出力する。
話者データ更新部124は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を受け取ると、その話者IDに対応する第一発話の話者データO1及び第二発話の話者データO2を、それぞれ第一発話音声記憶部132及び第二発話音声記憶部142から取り出し、第一発話用登録話者データ記憶部122及び第二発話用登録話者データ記憶部123内の話者データO1'、O2'をそれぞれ更新する(S19)。なお、第二発話用登録話者データ記憶部123内の話者データO2'を更新する際には、話者データO2に加えて、話者データO1も用いて、話者データO2'を更新してもよい。
以上の構成により、同一話者性を考慮することで、不用意に入力された第二発話を棄却することができ、本来の利用者が意図していたコマンドとは異なるコマンドが、誤入力されてしまうことを防ぐことができる。
第一実施形態と異なる部分を中心に説明する。
(参考文献2)特開2010−32792号公報
ただし、この場合、登録話者データの事前登録も必要はないが、話者IDは出力されない。
第一実施形態では、話者データ更新部124は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を受け取ると、第一発話用登録話者データ記憶部122及び第二発話用登録話者データ記憶部123内の話者データO1'、O2'をそれぞれ更新しているが、更新処理S19を省略し、登録時の話者データO1'、O2'を更新せずに利用し続けてもよい。
第一実施形態と異なる部分を中心に説明する。
話者識別部150内の第一発話話者識別部151は、第一発話を検知したことを知らせる制御信号を受け取ると、第一発話音声記憶部132に記憶された第一発話を取り出し、第一発話用登録話者データ記憶部122に記憶されている話者データ(第一発話用登録話者音声データ)を参照して、話者識別を行う(S7)。また、第一発話話者識別部151は、第一発話の残響時間R1を算出する。残響時間算出の方法は既存のいかなる残響時間推定技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、参考文献3の残響時間推定技術を用いて残響時間R1を求めればよい。
(参考文献3)特開2009−211021号公報
また、第一発話話者識別部151は、第一発話の音量(パワー)P1を算出する。第一発話話者識別部151は、最もスコアの高い話者データに対応する識別結果の話者ID1、話者識別を行った際のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶する(S8)。
話者識別部150内の第二発話話者識別部153は、第二発話を記憶したことを知らせる制御信号を受け取ると、第二発話音声記憶部142に記憶された第二発話を取り出し、第二発話用登録話者データ記憶部123に記憶されている話者データ(第二発話用登録話者音声データ)を参照して、話者識別を行う(S15)。また、第二発話話者識別部153は、第二発話の残響時間R2を算出する。また、第二発話話者識別部153は、第二発話の音量(パワー)P2を算出する。第二発話話者識別部153は、最もスコアの高い話者データに対応する識別結果の話者ID2、話者識別を行った際のスコアS2、残響時間R2、音量(パワー)P2を第二発話話者ID記憶部154に記憶する(S16)。第二発話話者識別部153は、第二発話の話者を識別したことを知らせる制御信号を出力判定部160に出力する。
出力判定部160は、第二発話の話者を識別したことを知らせる制御信号を受け取ると、第一発話の発話者と第二発話の発話者とが一致するか否かを判定し(S17)、一致する場合には、話者IDと共に、音声認識の結果を後段の何らかのシステムに対して出力する(S18)。さらに、出力判定部160は、第一発話の話者と第二発話の話者とが一致したことを示す制御信号を話者データ更新部124に出力する。
O=(αS1+S2)-β|R1-R2|-γ|P1-P2|
ただし、αは第一発話に対する重みであり、第一発話の識別精度が第二発話の識別精度よりも高く信頼できると想定し、1以上の数字を設定する。また、β、γは残響時間差もしくは音量差に対する重みであり、それぞれ0から1までの数字を設定する。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、このように話者の同一性だけでなく、発話位置に関する特徴量を考慮することで、同一性判定の精度を高めることができる。
本実施形態では、出力判定部160において、話者ID1と話者ID2とが同じ利用者を示し、かつ、出力判定スコアOが所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定しているが、話者IDを用いずに出力判定スコアOのみを用いて、第一発話の発話者と、第二発話の発話者とが一致しているか否かを判定してもよい。この場合、出力判定部160は、第一発話の話者ID1と第二発話の話者ID2とを必要としない。そのため、第一発話話者識別部151は、少なくとも話者識別を行った際のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶すればよい。ただし、最もスコアの高い話者データに対応するスコアS1、残響時間R1、音量(パワー)P1ではなく、全ての利用者のスコアS1、残響時間R1、音量(パワー)P1を第一発話話者ID記憶部152に記憶する必要がある。同様に、第二発話話者識別部153は、全ての利用者の、少なくとも話者識別を行った際のスコアS2、残響時間R2、音量(パワー)P2を第二発話話者ID記憶部154に記憶すればよい。出力判定部160は、全ての利用者に対する出力判定スコアOをそれぞれ算出する。さらに、出力判定部160は、出力判定スコアOの最大値が所定の閾値よりも大きいときに第一発話の発話者と、第二発話の発話者とが一致していると判定する。
O=-β|R1-R2|-γ|P1-P2|
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 入力音声データから特定の発話からなる第一発話を検知する第一発話検知部と、
前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示部と、
第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識部と、
前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定部とを含む、
音声入力装置。 - 請求項1の音声入力装置であって、
利用者の識別子と、その利用者の発話から得られる特徴量との組を、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録する話者データ登録部と、
前記第一発話を検知した場合、その第一発話から得られる特徴量O1を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O1に類似する特徴量O'1に対応する利用者の識別子ID1を取得する第一発話話者識別部と、
前記第二発話から得られる特徴量O2を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O2に類似する特徴量O'2に対応する利用者の識別子ID2を取得する第二発話話者識別部とを含み、
前記出力判定部は、前記識別子ID1と前記識別子ID2とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定する、
音声入力装置。 - 請求項2の音声入力装置であって、
前記第一発話話者識別部は、前記特徴量O1と前記特徴量O'1とが類似している度合いを示すスコアS1を取得し、前記第一発話の残響時間R1を算出し、前記第一発話の音量P1を算出し、
前記第二発話話者識別部は、前記特徴量O2と前記特徴量O'2とが類似している度合いを示すスコアS2を取得し、前記第二発話の残響時間R2を算出し、前記第二発話の音量P2を算出し、
αを1以上の実数とし、β、γをそれぞれ0以上1以下の実数とし、前記出力判定部は、前記識別子ID1と前記識別子ID2とが同じ利用者を示し、かつ、次式により得られる出力判定スコアOが所定の閾値よりも大きいときに前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定する、
O=(αS1+S2)-β|R1-R2|-γ|P1-P2|
音声入力装置。 - 請求項2または3の音声入力装置であって、
前記第一発話の発話者と前記第二発話の発話者とが一致する場合に、前記特徴量O1を用いて前記第一発話用登録話者データ記憶部に登録された前記特徴量O'1を更新し、前記特徴量O2を用いて前記第二発話用登録話者データ記憶部に登録された前記特徴量O'2を更新する話者データ更新部を含む、
音声入力装置。 - 請求項1から請求項4の何れかの音声入力装置であって、
前記出力判定部は、前記第一発話の発話者と、前記第二発話の発話者とが一致しない場合、前記第二発話入力指示部が、再度、利用者に対して第二発話の入力を指示するように制御する、
音声入力装置。 - 音声入力装置が行う音声入力方法であって、
入力音声データから特定の発話からなる第一発話を検知する第一発話検知ステップと、
前記第一発話を検知した場合、利用者に対して第二発話の入力を指示する第二発話入力指示ステップと、
第二発話の入力を指示した後の発話である第二発話を音声認識する音声認識ステップと、
前記第一発話の発話者と、前記第二発話の発話者とが一致する場合、前記音声認識の結果を出力する出力判定ステップとを含む、
音声入力方法。 - 請求項6の音声入力方法であって、
利用者の識別子と、その利用者の発話から得られる特徴量との組が、第一発話用登録話者データ記憶部と、第二発話用登録話者データ記憶部とに登録されているものとし、
前記第一発話を検知した場合、その第一発話から得られる特徴量O1を用いて、前記第一発話用登録話者データ記憶部から前記特徴量O1に類似する特徴量O'1に対応する利用者の識別子ID1を取得する第一発話話者識別ステップと、
前記第二発話から得られる特徴量O2を用いて、前記第二発話用登録話者データ記憶部から前記特徴量O2に類似する特徴量O'2に対応する利用者の識別子ID2を取得する第二発話話者識別ステップとを含み、
前記出力判定ステップは、前記識別子ID1と前記識別子ID2とが同じ利用者を示すときに、前記第一発話の発話者と、前記第二発話の発話者とが一致していると判定する、
音声入力方法。 - 請求項1から請求項5の何れかの音声入力装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099255A JP6571587B2 (ja) | 2016-05-18 | 2016-05-18 | 音声入力装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099255A JP6571587B2 (ja) | 2016-05-18 | 2016-05-18 | 音声入力装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017207602A true JP2017207602A (ja) | 2017-11-24 |
JP6571587B2 JP6571587B2 (ja) | 2019-09-04 |
Family
ID=60415579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016099255A Active JP6571587B2 (ja) | 2016-05-18 | 2016-05-18 | 音声入力装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6571587B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021520511A (ja) * | 2018-12-03 | 2021-08-19 | グーグル エルエルシーGoogle LLC | テキスト非依存話者認識 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123295A (ja) * | 2000-09-19 | 2002-04-26 | Thomson Licensing Sa | 消費者電化製品に関連する装置をボイス制御する方法及び装置 |
WO2015033523A1 (ja) * | 2013-09-03 | 2015-03-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声対話制御方法 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
-
2016
- 2016-05-18 JP JP2016099255A patent/JP6571587B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123295A (ja) * | 2000-09-19 | 2002-04-26 | Thomson Licensing Sa | 消費者電化製品に関連する装置をボイス制御する方法及び装置 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
WO2015033523A1 (ja) * | 2013-09-03 | 2015-03-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声対話制御方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021520511A (ja) * | 2018-12-03 | 2021-08-19 | グーグル エルエルシーGoogle LLC | テキスト非依存話者認識 |
JP7017643B2 (ja) | 2018-12-03 | 2022-02-08 | グーグル エルエルシー | テキスト非依存話者認識 |
US11527235B2 (en) | 2018-12-03 | 2022-12-13 | Google Llc | Text independent speaker recognition |
Also Published As
Publication number | Publication date |
---|---|
JP6571587B2 (ja) | 2019-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
CN106796785B (zh) | 用于产生声音检测模型的声音样本验证 | |
KR102180489B1 (ko) | 센서 신호들에 기초한 라이브니스 결정 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2016206660A (ja) | 話者識別方法及び話者識別装置 | |
CN106663430A (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
WO2017166651A1 (zh) | 语音识别模型训练方法、说话人类型识别方法及装置 | |
WO2020051971A1 (zh) | 身份识别方法、装置、电子设备及计算机可读存储介质 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
KR20190093962A (ko) | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 | |
JP2018004976A (ja) | 音声対話方法、音声対話装置及び音声対話プログラム | |
WO2021213490A1 (zh) | 一种身份验证方法、装置和电子设备 | |
KR101995443B1 (ko) | 화자 검증 방법 및 음성인식 시스템 | |
US20140163986A1 (en) | Voice-based captcha method and apparatus | |
KR101181060B1 (ko) | 음성 인식 시스템 및 이를 이용한 화자 인증 방법 | |
JP6571587B2 (ja) | 音声入力装置、その方法、及びプログラム | |
JPWO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
JP2018010110A (ja) | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム | |
WO2019150708A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP2011221101A (ja) | コミュニケーション装置 | |
KR20190077296A (ko) | 화자 검증 방법 및 음성인식 시스템 | |
CN112513845A (zh) | 与语音使能设备的暂时账户关联 | |
WO2006027844A1 (ja) | 話者照合装置 | |
US12081628B1 (en) | Account association for voice-enabled devices | |
JP2014178621A (ja) | 情報提供装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6571587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |