JP2020148805A

JP2020148805A - 音声認識システム、及び、音声認識方法

Info

Publication number: JP2020148805A
Application number: JP2019043545A
Authority: JP
Inventors: 近藤　裕介; Yusuke Kondo; 裕介近藤
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-09-17

Abstract

【課題】音声認識を有効とするためのトリガーワードを省略可能とすること。【解決手段】音声認識システム１は、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う。音声認識システム１は、音声に基づいて、周囲の人数を検出する。音声認識システム１は、検出した周囲の人数が、１人であり、且つ、発話内容が、質問形式である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。【選択図】図１

Description

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。

ＡＳＲ（Auto Speech Recognition）は、音声認識端末等において、端末を駆動させるためのトリガとして幅広く活用されている技術である。特許文献１には、トリガーワード（ホットワード）として、「オーケーコンピュータ」が記載されている。

以下、ＡＳＲが使用される理由について、説明する。音声認識端末（音声認識システム）は、図４に示す構成で実現されている。ここで、ＶＡＤは、Voice Activate Detectionの略であり、音声（声や物音を含む）を検知する処理である。ＳＴＴは、Speech to Textの略であり、音声をテキストに変換する処理である。ＮＬＵは、Natural Language Understandingの略であり、テキストをコマンド化し、対応したコマンドの応答をテキストで返却する処理である。ＴＴＳは、Text to Speechの略であり、テキストを音声に変換する処理である。ＡＳＲが、明示的なトリガーワードにより行われる理由は、主に２点ある。
１．音声端末への入力音声以外の音声を除くことができ、ＳＴＴ、ＮＬＵに係るコストを削減することができる。
２．ユーザーが音声録音の許可をしたと扱う。

特開２０１７−０７６１１７号公報

ＡＳＲのデメリットは、以下のとおりである。昨今では、会話形式を実現することもできるが、基本的には、ユーザーは、コマンドを要求するたびに、トリガーワードを発話する必要がある。ユーザーにとって、毎回トリガーワードを発しなければならないということが非常に煩わしい。

本発明の目的は、音声認識を有効とするためのトリガーワードを省略可能とすることである。

第１の発明の音声認識システムは、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識システムであって、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、１人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。

本発明では、音声認識システムは、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、１人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。従って、ユーザーは、音声認識システムの周囲に１人であれば、トリガーワードを省略することができる。

なお、ここでは、音声認識を有効とするためのワード（例えば、「オーケーコンピュータ」等）を、トリガーワードを呼ぶが、ボイストリガー、ホットワード等と呼ばれる場合があり、これらの文言を含む概念である。

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、検出した周囲の人数が、１人であり、且つ、発話内容が、質問形式である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。

第３の発明の音声認識システムは、第２の発明の音声認識システムにおいて、発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断することを特徴とする。

第４の発明の音声認識システムは、第１〜第３のいずれかの発明の音声認識システムにおいて、音声を検出し、所定の閾値以上の音声を検出した場合に、音声に基づいて、周囲の人数を検出することを特徴とする。

第５の発明の音声認識システムは、第１〜第４のいずれかの発明の音声認識システムにおいて、前記その後の音声認識処理は、音声をテキストに変換する処理、テキストをコマンド化し、対応したコマンドの応答をテキストで応答する処理、テキストを音声に変換する処理を含むことを特徴とする。

第６の発明の音声認識方法は、音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識方法であって、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、１人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする。

本発明によれば、トリガーワードを省略することができる。

本発明の実施形態に係る音声認識システムにおいて行われる処理を示すブロック図である。ＣＰを行う場合の音声認識システムの処理動作を示すフローチャートである。音声認識システムの処理動作を示すフローチャートである。従来の音声認識システムにおいて行われる処理を示すブロック図である。

以下、本発明の実施形態について説明する。図１は、本発明の実施形態に係る音声認識システム１により行われる処理を示すブロック図である。本実施形態に係る音声認識システム１は、例えば、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processing Unit）、マイク、スピーカー等を備えるスピーカー装置と、スピーカー装置と通信するクラウドサーバーと、から構成される。これに限らず、音声認識システム１は、スピーカー装置のみによって構成されていてもよい。この場合、ＶＡＤ等の処理は、例えば、ＤＳＰによって行われる。音声認識システム１が、スピーカー装置とクラウドサーバーとから構成される場合、全ての処理が、クラウドサーバーにより行われてもよいし、例えば、ＡＳＲまでの処理が、スピーカー装置により行われ、ＳＴＴ＋ＱＤ以降の処理がクラウドサーバーにより行われてもよい。

以下、各処理について説明する。図４に示す従来の音声認識システムで行われる処理に比べて、ＣＰが、増加している。また、ＳＴＴは、ＳＴＴ＋ＱＤに置き換わっている。ＶＡＤは、Voice Active Detectionの略であり、音声（声や物音を含む）を検出する処理である。ＣＰは、Count Personの略であり、周辺の人数を検出する処理である。詳細については、後述する。ＳＴＴは、Speech to Textの略であり、音声をテキストに変換する処理である。ＱＤは、Question Detectionの略であり、発話内容が質問形式であるか否かを判断する処理である。ＮＬＵは、Natural Language Understandingの略であり、テキストをコマンド化し、対応したコマンドの応答をテキストで応答（返却）する処理である。ＴＴＳは、Text to Speechの略であり、テキストを音声に変換する処理である。

上述のように、ＣＰは、周辺の人数を検出する処理である。人数の判断において、一定時間内に話した人数をカウントする。例えば、無音が１０分続くと、周辺の人数は、０人と判断する。１０分以内に、Ａの音声を検出すると、周辺の人数は、１人と判断する。加えて、１０分以内にＢを検出すると、周辺の人数は、２人と判断する。

また、ＱＤは、上述のように、発話内容が質問形式であるか否かを判断する処理である。例えば、音声認識システム１が、スピーカー装置単体から構成される場合、発話内容を毎回ＳＴＴするには、処理不可がかかるので、本実施形態では、例えば、スピーカー装置のＤＳＰ（ローカル）で駆動できる低負荷な簡易エンジンである。ＱＤは、文章全体の解析ではなく、発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断する。

以下、図１に基づいて、処理の流れを説明する。物音が発生すると、ＶＡＤにより、物音が検出される。ＶＡＤによる物音の検出により、ＣＰにより、周辺に人が何人いるかが判定される。ＣＰにより、１人であると判定された場合、ＱＤが駆動され、発話内容が常時バッファリングされる。ＱＤにより、ユーザーが発話した内容が質問形式であると判定されると、質問内容がＳＴＴされ、以降は、従来と同じ処理がなされる。

音声認識システム１は、通常、音声認識を有効とするためのトリガーワードを認識（ＡＳＲ）した場合に、その後の音声認識処理（ＳＴＴ等）を行う。一方、音声認識システム１は、音声に基づいて、周囲の人数を検出し（ＣＰ）、検出した周囲の人数が、１人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。本実施形態では、音声認識システム１は、検出した周囲の人数が、１人であり、且つ、発話内容が、質問形式である（ＱＤ）場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。

以下、ＣＰを行う場合の音声認識システム１の処理動作を、図２に示すフローチャートに基づいて、説明する。音声認識システム１は、ＣＰを行うための人数カウンターを備えており、所定時間に、人が検出されれば、カウンターが「＋１」され、例えば、所定時間内に、２人検出されれば、人数カウンターは、「２」となる。人数カウンターには、ユーザーの声の情報も登録される。音声認識システム１は、人数カウンターが、１人以上であるか否かを判断する（Ｓ１）。音声認識システム１は、人数カウンターが、１人以上でないと判断している間は（Ｓ１：Ｎｏ）、Ｓ１の処理を実行する。音声認識システム１は、人数カウンターの１０分タイマーを開始する（Ｓ２）。音声認識システム１は、人数カウンターが一定時間終了すると、人数カウンターを０人とする（Ｓ３）。

以下、音声認識システム１の処理動作を、図３に示すフローチャートに基づいて、説明する。音声認識システム１は、一定の閾値を超えた音（物音、音声）が入力されると（Ｓ１１）、入力された音が、人の声であるか否かを判断する（Ｓ１２）。音声認識システム１は、入力された音が、人の声でないと判断した場合（Ｓ１２：Ｎｏ）、Ｓ１１の処理に戻る。音声認識システム１は、入力された音が、人の声であると判断した場合（Ｓ１２：Ｙｅｓ）、声が、既に人数カウンターに登録されているか否かを判断する（Ｓ１３）。音声認識システム１は、声が、既に人数カウンターに登録されていないと判断した場合（Ｓ１３：Ｎｏ）、声の特徴を保存し、人数カウンターを１増加させる（＋１人）（Ｓ１４）。

音声認識システム１は、声が、既に人数カウンターに登録されていると判断した場合（Ｓ１３：Ｙｅｓ）、又は、Ｓ１４の処理の後、人数カウンターが１人であるか否かを判断する（Ｓ１５）。音声認識システム１は、人数カウンターが１人であると判断した場合（Ｓ１５：Ｙｅｓ）、発話内容が、質問形式であるか否かを判断する（Ｓ１６）。音声認識システム１は、発話内容が、質問形式であると判断した場合（Ｓ１６：Ｙｅｓ）、ＳＴＴ／ＮＬＵ／ＴＴＳを行う（Ｓ１７）。従って、この場合、トリガーワードの認識（ＡＳＲ）は、省略される。

一方、音声認識システム１は、人数カウンターが１人でないと判断した場合（Ｓ１５：Ｎｏ）、又は、発話内容が、質問形式ではないと判断した場合（Ｓ１６：Ｎｏ）、発話内容が、トリガーワードであるか否かを判断する（Ｓ１８）。従って、この場合、トリガーワードの認識（ＡＳＲ）は、省略されない。音声認識システム１は、発話内容が、トリガーワードであると判断した場合（Ｓ１８：Ｙｅｓ）、Ｓ１７の処理を行う。音声認識システム１は、発話内容が、トリガーワードでないと判断した場合（Ｓ１８：Ｎｏ）、処理を終了する。音声認識システム１は、Ｓ１７の処理の後、人数カウンタータイマーをリセットし（Ｓ１９）、処理を終了する。

先行技術との相違点を説明する。特許第６２２７２０９号公報では、自動車等において、車内の人数をカウントすることを前提としており、人数をカウントする手段として、カメラ、圧力センサーが用いられている。本実施形態では、例えば、車内を含む車外においても、人数を検出可能とするため、音声（マイク）を用いて人数をカウントすることで、トリガーワードの省略を可能としている。

以上説明したように、本実施形態では、音声認識システム１は、音声に基づいて、周囲の人数を検出し、検出した周囲の人数が、１人である場合、トリガーワードの認識を行うことなく、その後の音声認識処理を実行する。従って、ユーザーは、音声認識システムの周囲に１人であれば、トリガーワードを省略することができる。また、音声認識システム１は、カメラや圧力センサー等を用いることなく、人数を検出することが可能である。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。

１音声認識システム

Claims

音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識システムであって、
音声に基づいて、周囲の人数を検出し、
検出した周囲の人数が、１人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする音声認識システム。
検出した周囲の人数が、１人であり、且つ、発話内容が、質問形式である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする請求項１に記載の音声認識システム。
発話内容の文末及び語尾の分析を行い、発話内容が質問形式であるか否かを判断することを特徴とする請求項２に記載の音声認識システム。
音声を検出し、
所定の閾値以上の音声を検出した場合に、音声に基づいて、周囲の人数を検出することを特徴とする請求項１〜３のいずれか１項に記載の音声認識システム。
前記その後の音声認識処理は、
音声をテキストに変換する処理、
テキストをコマンド化し、対応したコマンドの応答をテキストで応答する処理、
テキストを音声に変換する処理を含むことを特徴とする請求項１〜４のいずれか１項に記載の音声認識システム。
音声認識を有効とするためのトリガーワードを認識した場合に、その後の音声認識処理を行う音声認識方法であって、
音声に基づいて、周囲の人数を検出し、
検出した周囲の人数が、１人である場合、前記トリガーワードの認識を行うことなく、その後の音声認識処理を実行することを特徴とする音声認識方法。