JP2021099534A

JP2021099534A - 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品

Info

Publication number: JP2021099534A
Application number: JP2021044277A
Authority: JP
Inventors: 文雄蔡; Wenxiong Cai
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2021-03-18
Publication date: 2021-07-01
Anticipated expiration: 2041-03-18
Also published as: CN111554298A; KR20210039354A; CN111554298B; KR102554916B1; JP7257434B2

Abstract

【課題】固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることで、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする音声対話方法、音声対話デバイス及び電子デバイスを提供する。【解決手段】音声対話方法は、音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、第１の音声命令の前回の音声命令である第２の音声命令に、音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断することと、第２の音声命令にウェイクアップ特徴ワードが含まれる場合、ウェイクアップ特徴ワードを第１のシソーラスに追加することと、を含む。【選択図】図１

Description

本願は、データ処理技術に関し、特に音声の技術分野に関し、具体的には、音声対話方法、音声対話デバイス及び電子デバイスに関する。

音声アシスタントなどのような音声対話デバイスは、徐々に人々の生活に入り込み、人々は、音声により音声対話デバイスに対して人間とコンピュータとの対話を行うことができる。現在、音声対話デバイスに対して人間とコンピュータとの対話を行うとき、まず特定のウェイクアップワードにより音声対話デバイスをウェイクアップする必要がある。

本願は、音声対話デバイスのウェイクアップ方式を豊かにするために、音声対話方法、音声対話デバイス及び電子デバイスを提供する。

上記技術的課題を解決するために、本願は、以下のように実現される。

第１の態様では、本願に係る音声対話方法は、
音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、前記第１の音声命令の前回の音声命令である第２の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第２の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第１のシソーラスに追加することと、を含む。

上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。

好ましくは、前記ウェイクアップワードは、予め設定されたものである。

該実施形態では、第１の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングするとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、音声対話デバイスの消費を節約することができる。

好ましくは、前記方法は、
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、前記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加することをさらに含む。

該実施形態では、誤ったウェイクアップシソーラスを自動的に更新することにより、音声対話デバイスが誤ってウェイクアップされることを回避し、音声対話デバイスのウェイクアップ効果を高めることができる。

好ましくは、前記の第４の音声命令に含まれる第２の単語を第２のシソーラスに追加することの後に、前記方法は、
前記第１のシソーラスに前記第２の単語が含まれるか否かを判断することと、
前記第１のシソーラスに前記第２の単語が含まれる場合、前記第１のシソーラスから前記第２の単語を削除することと、をさらに含む。

該実施形態では、音声対話デバイスが再び該単語により誤ってウェイクアップされることを効果的に回避するだけでなく、第１のシソーラスが占める記憶空間を節約し、かつ第１のシソーラスのマッチング効率を高めることができる。

好ましくは、前記の前記ウェイクアップ特徴ワードを第１のシソーラスに追加することの後に、前記方法は、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第２のシソーラスから前記ウェイクアップ特徴ワードを削除することと、をさらに含む。

該実施形態では、ユーザが新たなウェイクアップワードにより音声対話デバイスをウェイクアップできることを確保することができる。

第２の態様では、本願に係る音声対話デバイスは、
前記音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、前記第１の音声命令の前回の音声命令である第２の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第１の判断モジュールと、
前記第２の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第１のシソーラスに追加する第１の追加モジュールと、を含む。

好ましくは、
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、前記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加する第２の追加モジュールをさらに含む。

好ましくは、
前記第１のシソーラスに前記第２の単語が含まれるか否かを判断する第２の判断モジュールと、
前記第１のシソーラスに前記第２の単語が含まれる場合、前記第１のシソーラスから前記第２の単語を削除する第１の削除モジュールと、をさらに含む。

好ましくは、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断する第３の判断モジュールと、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第２のシソーラスから前記ウェイクアップ特徴ワードを削除する第２の削除モジュールと、をさらに含む。

第３の態様では、本願に係る電子デバイスは、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサに実行可能で、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに第１の態様におけるいずれか１項の方法を実行させる命令が記憶されている。

第４の態様では、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体には、第１の態様におけるいずれか１項の方法を前記コンピュータに実行させるコンピュータ命令が記憶されている。

本願における一実施例は、以下の利点又は有益な効果を有する。

本願では、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。

以下、具体的な実施例を参照しながら、上記好ましい方式が有する他の効果を説明する。

図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。

本願の実施例に係る音声対話方法のフローチャートである。本願の実施例に係る音声対話方法のフローの一例を示す図である。本願の実施例に係る音声対話デバイスの概略構成図である。本願の実施例に係る音声対話方法を実現する電子デバイスのブロック図である。

以下、理解を容易にするために、図面を参照しながら、様々な詳細を含めた本願の例示的な実施例を説明し、これらの実施例を単なる例示的なものと考えるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。

本願は、音声対話デバイスに適用できる音声対話方法を提供する。

図１に示すように、該音声対話方法は、以下のステップ１０１〜１０２を含む。

ステップ１０１では、音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、上記第１の音声命令の前回の音声命令である第２の音声命令に、上記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する。

上記第１の音声命令、第２の音声命令及び後続の第３の音声命令などの、本願に係る音声命令は、いずれもユーザが発した音声命令である。

上記音声対話デバイスのウェイクアップワードは、予め設定されたウェイクアップワードであってもよく、予め設定されていないウェイクアップワードであってもよく、したがって、上記第１の単語は、音声対話デバイスの予め設定されたウェイクアップワードとマッチングする単語であってもよく、音声対話デバイスの他のウェイクアップワードとマッチングする単語であってもよい。

ここでは、予め設定されたウェイクアップワードは、音声対話デバイスの予め設定された固有のウェイクアップワードとして理解でき、「予め設定されたウェイクアップワード」と略称でき、同様の音声対話デバイスは、一般的に同じ予め設定されたウェイクアップワードを有し、音声対話デバイスの予め設定されたウェイクアップワードは、一般的に音声対話デバイスの名前であり、音声対話デバイスの予め設定されたウェイクアップワードの数は、一般的に１つ又は２つであり、音声対話デバイスの予め設定されたウェイクアップワードは、精度の高いウェイクアップワードと呼ばれてもよい。例えば、音声対話デバイスの名前がＡちゃんであれば、「Ａちゃん」は音声対話デバイスの予め設定されたウェイクアップワードであってよい。

ここでは、予め設定されていないウェイクアップワードは、例えば、本願に係る音声対話方法によって新たに追加されたウェイクアップワードであってよく、後に具体的に説明する。

本願では、単語と単語とのマッチングについて、単語が完全に同じであってもよく、単語中の文字の一部が同じであってもよく、単語間の間隔で含まれるものであってもよく、単語がぼけて近似してもよい。したがって、第１の単語と音声対話デバイスのウェイクアップワードとのマッチングは、第１の単語が音声対話デバイスのウェイクアップワードと完全に同じである場合の他、第１の単語が音声対話デバイスのウェイクアップワードの文字の一部と同じであるか又はぼけて近似する場合も含む。

第２の音声命令が第１の音声命令の前回の音声命令であることは、第２の音声命令が第１の音声命令の前回の音声命令であり、或いは、第１の音声命令が第２の音声命令をユーザによって発した後に、一定の時間間隔内に発した音声命令であると理解することができる。該時間間隔は、ユーザがニーズに応じて自ら設定する時間間隔であってもよく、予め設定された時間間隔であってもよく、例えば、該時間間隔は、１０秒、２０秒、３０秒などであってよい。

本願では、第２の音声命令には、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれないため、音声対話デバイスは、第２の音声命令によってウェイクアップすることができず、第２の音声命令に応答しない。

本願では、第１の音声命令には、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれるため、音声対話デバイスは、第１の音声命令によってウェイクアップされ、第１の音声命令に応答することができる。ここでは、音声対話デバイスが第１の音声命令に応答することは、音声対話デバイスが第１の音声命令によってウェイクアップされ、かつそれに応答すると理解することができる。音声対話デバイスが第１の音声命令に応答する方式は、予め設定されてもよく、ユーザによって設定されてもよく、本願はこれを限定しない。

音声対話デバイスが第１の音声命令によりウェイクアップされた後、第２の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに判断することができる。例えば、音声対話デバイスの名称がＡちゃんであれば、ＡＸＸ（例えば、Ａ姉ちゃん、Ａ兄ちゃん）、ＸＸＡ、ＡＸ、ＸＡ、ＡＡちゃん、ＡＡ、ＡちゃんＡなどは、いずれもＡちゃんに関連付けられた単語とみなすことができ、それにより、これらの単語をウェイクアップ特徴ワードとみなすことができる。なお、該ステップにおけるウェイクアップ特徴ワードは、まだ音声対話デバイスのウェイクアップワードではなく、該ステップを実行する前に、ユーザは、ウェイクアップ特徴ワードによりデバイスをウェイクアップすることができない。

本願では、音声対話デバイスがウェイクアップされた後、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに判断するのは、ユーザの前回の音声命令に音声対話デバイスをウェイクアップする表現を有するか否か、又は、ユーザの前回の音声命令に他のウェイクアップ表現を有するか否かを判断するためである。

ステップ１０２では、上記第２の音声命令に上記ウェイクアップ特徴ワードが含まれる場合、上記ウェイクアップ特徴ワードを第１のシソーラスに追加する。

該ステップでは、音声対話デバイスが第２の音声命令にウェイクアップ特徴ワードが含まれると判断する場合、該ウェイクアップ特徴ワードを第１のシソーラスに追加することができる。

ここでは、第１のシソーラスに追加されたウェイクアップ特徴ワードは、音声対話デバイスのニックネーム、あだ名又は別名として理解することができ、第１のシソーラスは、デバイスの名称シソーラス、デバイスのニックネームシソーラス又はデバイスのあだ名シソーラスなどとして理解することができる。

ウェイクアップ特徴ワードを第１のシソーラスに追加した後、該ウェイクアップ特徴ワードは新たなウェイクアップワードとして理解することができ、ユーザは、該ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。該第１のシソーラスには、ウェイクアップ特徴ワードが記憶されている以外に、他のウェイクアップワードが記憶されていてもよいため、第１のシソーラスは、音声対話デバイスのウェイクアップワードシソーラスとして理解されてもよく、音声対話デバイスは、第１のシソーラスにおける単語とマッチングする任意の単語によりウェイクアップすることができる。

なお、ステップ１０１におけるウェイクアップ特徴ワードは、まだ音声対話デバイスのウェイクアップワードではなく、ステップ１０１を実行する前に、しかもステップ１０２を実行する前でさえ、ユーザは、ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができない。ステップ１０２を実行した後、即ち、ウェイクアップ特徴ワードを第１のシソーラスに追加した後にのみ、ユーザは、ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。

本願では、音声対話デバイスは、ウェイクアップ特徴ワードを第１のシソーラスに追加した後、ユーザは、固定されたウェイクアップワードに限定される必要がなく、該ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。該ウェイクアップ特徴ワードは、音声対話デバイスが人間とコンピュータとの対話過程において自動的に追加され、音声対話デバイスがユーザの自然表現から取得したものであるため、該ウェイクアップ特徴ワードは、ユーザに音声対話デバイスをより自然にウェイクアップさせることができる。

本願の技術的解決手段をよりよく理解するために、以下、具体的な音声対話シーンを参照しながら、本願におけるウェイクアップワードを追加する過程を例示的に説明する。

音声対話デバイスの１つのウェイクアップワードがＡちゃんであると仮定する。

［ユーザ］：Ａ姉ちゃん、今日の天気がどうですか

［ユーザ］：Ａちゃん、あなたを呼んでいるよ（或いは、Ａちゃん、いますか、或いは、Ａちゃん、話せよ）

［音声対話デバイス］：ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキストから音声へ）放送：今気が散っていますが、もう一度言ってください

音声対話デバイスが「Ａちゃん」によりウェイクアップされた後、音声対話デバイスは、「Ａ姉ちゃん、今日の天気がどうですか」における「Ａ姉ちゃん」が「Ａちゃん」に関連付けられることを検出すると、「Ａ姉ちゃん」を第１のシソーラスに追加することができる。

上記音声対話シーンから分かるように、ユーザが「Ａ姉ちゃん、今日の天気がどうですか」という音声命令を発するとき、該音声命令には、音声対話デバイスをウェイクアップする主観的表現が含まれるため、音声対話デバイスが応答しない場合、ユーザは再びウェイクアップワードを用いて音声対話デバイスをウェイクアップする。

したがって、音声対話デバイスは、ウェイクアップされた後、前回の音声命令を検出することにより、ユーザが発した、ウェイクアップ意図を含むウェイクアップ特徴ワードを自動的に識別し、かつ自動的にウェイクアップ特徴ワードを新たなウェイクアップワードとして追加することができる。音声対話デバイスに追加された新たなウェイクアップワードは、ユーザと音声対話デバイスとの対話過程において自然に形成されたものであり、音声対話デバイスのウェイクアップ方式を豊かにするだけでなく、音声対話デバイスのウェイクアップをより自然で、多様にする。

好ましくは、上記ウェイクアップワードは、予め設定されたものである。

予め設定されたウェイクアップワードは、音声対話デバイスの予め設定された固有のウェイクアップワードとして理解でき、「予め設定されたウェイクアップワード」と略称でき、同様の音声対話デバイスは、一般的に同じ予め設定されたウェイクアップワードを有し、音声対話デバイスの予め設定されたウェイクアップワードは、一般的に音声対話デバイスの名前であり、音声対話デバイスの予め設定されたウェイクアップワードの数は、一般的に１つ又は２つであり、音声対話デバイスの予め設定されたウェイクアップワードは、精度の高いウェイクアップワードと呼ばれてもよい。

このように、上記第１の単語は、上記音声対話デバイスの予め設定されたウェイクアップワードとマッチングする。

前述したように、第１の単語は、音声対話デバイスの予め設定されたウェイクアップワードとマッチングする単語であってもよく、音声対話デバイスの他のウェイクアップワードとマッチングする単語であってもよい。

実際の音声対話シーンに応じて、ユーザが、音声対話デバイスをウェイクアップする主観的表現を含む音声命令を発するとき、音声対話デバイスが、ウェイクアップされたという応答をしなければ、ユーザは、一般的に、精度のより高いウェイクアップワード、例えば、音声対話デバイスの予め設定されたウェイクアップワードを用いて、再びウェイクアップの主観的表現を行う傾向がある。

以上から分かるように、第１の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングする場合、ユーザの前回の音声命令にウェイクアップ特徴ワードを搬送する確率は比較的大きい。第１の単語が音声対話デバイスの他のウェイクアップワードとマッチングする場合、ユーザの前回の音声命令にウェイクアップ特徴ワードを搬送する確率は比較的小さい。これに鑑み、該実施形態では、第１の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングするとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、音声対話デバイスの消費を節約することができる。

さらに、上記第１の単語が上記音声対話デバイスの予め設定されたウェイクアップワードとマッチングし、かつ上記第１の音声命令にウェイクアップ強調ワードが含まれる場合、上記音声対話デバイスは、上記第２の音声命令にウェイクアップ特徴ワードが含まれるか否かを判断する。

ウェイクアップ強調ワードは、例えば、「あなたを呼んでいるよ」、「話せよ」、「聞いていますか」、「いますか」などの、ウェイクアップ意図を強調する単語であってよく、ウェイクアップ強調ワードは、一般的に、予め設定されたウェイクアップワードと同時に第１の音声命令に存在し、例えば、「Ａちゃん、あなたを呼んでいるよ」、「話せよ、Ａちゃん」、「Ａちゃん、聞いていますか」、「Ａちゃん、いますか」である。

実際の音声対話シーンに応じて、第１の音声命令には予め設定されたウェイクアップワードとマッチングする単語が含まれ、かつウェイクアップ強調ワードが含まれる場合、ユーザが前回の音声命令にウェイクアップの主観的表現を行う確率は大きい。これに鑑み、該実施形態では、第１の音声命令には予め設定されたウェイクアップワードとマッチングする単語が含まれ、かつウェイクアップ強調ワードが含まれるとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、さらに音声対話デバイスの消費を節約することができる。

好ましくは、上記方法は、
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、上記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、上記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加するステップをさらに含む。

該実施形態では、音声対話デバイスのウェイクアップワードがユーザと音声対話デバイスとの対話過程において自然に形成でき、音声対話デバイスのウェイクアップワードを多様にするため、音声対話デバイスは誤ってウェイクアップされる可能性がある。

以下、具体的な音声対話シーンを参照しながら、誤ったウェイクアップシーンを例示的に説明する。

音声対話デバイスの予め設定されたウェイクアップワードが「Ａちゃん」であり、かつ「Ａ姉ちゃん」を新たなウェイクアップワードとして第１のシソーラスに追加すると仮定する。

［ユーザ］：Ａ姉さんの電話番号を教えてくれますか（車内の他の乗員とチャットする）

［音声対話デバイス］：はい（１回目の誤ったウェイクアップ）

［ユーザ］：Ａちゃん、あなたを呼んでいない（或いは、Ａちゃん、あなたを呼ばなかった）

「あなたを呼んでいない」、「あなたを呼ばなかった」などは、誤ったウェイクアップ修正ワードとして理解でき、「Ａ姉さんの電話番号を教えてくれますか」という第４の音声命令における「Ａ姉さん」は「Ａ姉ちゃん」とマッチングし、音声対話デバイスは、ユーザがウェイクアップ表現を行ったと考えるため、応答する。音声対話デバイスは、「Ａちゃん、あなたを呼んでいない」という第３の音声命令に含まれる「あなたを呼んでいない」という誤ったウェイクアップ修正ワードを検出するとき、第４の音声命令における「Ａ姉さん」を第２のシソーラスに追加する。このように、後続の音声対話デバイスは、「Ａ姉さん」によりウェイクアップされない。

第２のシソーラスは、誤ったウェイクアップシソーラス、誤ったウェイクアップブラックリストなどと呼ばれてもよい。

本願では、第１のシソーラスと第２のシソーラスは、論理的に区分された２つのシソーラスであってもよく、記憶位置で離隔された２つのシソーラスであってもよい。第１のシソーラスは、ウェイクアップシソーラス、ウェイクアップホワイトリストなどとして理解することができ、第２のシソーラスは、誤ったウェイクアップシソーラス、誤ったウェイクアップブラックリストなどとして理解することができる。

また、音声対話デバイスには、誤ったウェイクアップ修正ワードを記憶する誤ったウェイクアップ修正シソーラスをさらに設定でき、このように、音声対話デバイスは、ユーザから発した音声命令を受信するとき、音声命令に、誤ったウェイクアップ修正シソーラスにおける単語とマッチングする単語が含まれるか否かを判断することができる。

本願では、音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避し、かつ音声対話デバイスが誤ってウェイクアップされることを回避するために、音声対話デバイスの音声命令における単語に対するマッチングの原則は、以下の条件を満たすことができる。音声命令における単語が第１のシソーラスにおける単語とマッチングするとき（完全に同じである場合と一部が同じである場合とを含む）、音声対話デバイスは、ウェイクアップ操作を実行でき（即ち、応答する）、つまり、音声対話デバイスは、第１のシソーラスにおける単語とマッチングする単語によりウェイクアップすることができ、或いは、音声対話デバイスは、第１のシソーラスにおける単語とマッチングする単語によるウェイクアップをサポートする。音声命令における単語が第２のシソーラスにおける単語と完全に同じであるときにのみ、音声対話デバイスは、誤ったウェイクアップ操作を実行し（即ち、応答しない）、つまり、音声対話デバイスは、第２のシソーラスにおける単語によりウェイクアップされず、或いは、音声対話デバイスは、第２のシソーラスにおける単語によるウェイクアップをサポートしない。

本願では、音声命令における単語が第１のシソーラスにおける単語とマッチングするが、同時に第２のシソーラスにおける単語と完全に同じである可能性を考慮して、音声対話デバイスは、ウェイクアップされるか否かを判断するとき、以下の方式で判断することができる。音声対話デバイスは、まず、音声命令における単語が第２のシソーラスにおける単語と同じであるか否かを判断し、同じであれば、誤ったウェイクアップ操作を直接実行し、同じでなければ、音声命令における単語が第１のシソーラスにおける単語とマッチングするか否かをさらに判断し、マッチングすれば、ウェイクアップ操作を実行する。このように、音声対話デバイスが誤ってウェイクアップされることを回避し、かつ音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避することができる。或いは、以下の方式で判断することができる。音声対話デバイスは、まず、音声命令における単語が第１のシソーラスにおける単語とマッチングするか否かを判断し、マッチングすれば、音声命令における単語が第２のシソーラスにおける単語と同じであるか否かをさらに判断し、同じであれば、誤ったウェイクアップ操作を実行し、同じでなければ、ウェイクアップ操作を実行する。このように、音声対話デバイスが誤ってウェイクアップされることを回避し、かつ音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避することもできる。

図２に示すように、具体的な音声対話シーンを参照しながら、音声対話デバイスは、以下のステップ２０１〜２０８を採用して音声対話を行うことができる。

ステップ２０１では、音声対話デバイスは、第１の音声命令を受信し、
ステップ２０２では、音声対話デバイスは、第１の音声命令に、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれるか否かを判断し、そうであれば、ステップ２０３を実行し、そうでなければ、ステップ２０６を実行し、
ステップ２０３では、音声対話デバイスは、該単語が第２のシソーラスにおける単語であるか否かを判断し、そうであれば、音声対話デバイスが応答せず、そうでなければ、音声対話デバイスが応答し、かつステップ２０４を実行し、
ステップ２０４では、音声対話デバイスは、第１の音声命令の次回の音声命令に誤ったウェイクアップ修正ワードが含まれるか否かを判断し、そうであれば、ステップ２０５を実行し、
ステップ２０５では、音声対話デバイスは、第２のシソーラスを更新し、該単語を第２のシソーラスに追加し、
ステップ２０６では、音声対話デバイスは、第１の音声命令の次回の音声命令に予め設定されたウェイクアップワードが含まれるか否かを判断し、そうであれば、ステップ２０７を実行し、そうでなければ、音声対話デバイスが応答せず、
ステップ２０７では、音声対話デバイスは、第１の音声命令にウェイクアップ特徴ワードが含まれるか否かを判断し、そうであれば、ステップ２０８を実行し、
ステップ２０８では、音声対話デバイスは、第１のシソーラスを更新し、第１の音声命令における、音声対話デバイスの名称に関連付けられた単語を第１のシソーラスに追加する。

以上が音声対話シーンの例に過ぎず、本願は、上記ステップに従って音声対話を行うことに限定されるものではない。

好ましくは、第４の音声命令に含まれる第２の単語を第２のシソーラスに追加する上記ステップの後に、上記方法は、
上記第１のシソーラスに上記第２の単語が含まれるか否かを判断するステップと、
上記第１のシソーラスに上記第２の単語が含まれる場合、上記第１のシソーラスから上記第２の単語を削除するステップと、をさらに含む。

実際の対話シーンでは、音声対話デバイスは、以前に、ある単語を新たなウェイクアップワードとして第１のシソーラスに記憶する可能性があり、その後に、この単語は、また音声対話デバイスによって誤ったウェイクアップワードとして第２のシソーラスに追加され、このとき、第１のシソーラスと第２のシソーラスには同じ単語が存在する可能性がある。

これに鑑み、該実施形態では、第１のシソーラスから第２のシソーラスにおける単語と同じものを削除でき、このように、音声対話デバイスが再び該単語により誤ってウェイクアップされることを効果的に回避するだけでなく、第１のシソーラスが占める記憶空間を節約し、かつ第１のシソーラスのマッチング効率を高めることができる。

好ましくは、上記ウェイクアップ特徴ワードを第１のシソーラスに追加する上記ステップの後に、上記方法は、
上記第２のシソーラスに上記ウェイクアップ特徴ワードが含まれるか否かを判断するステップと、
上記第２のシソーラスに上記ウェイクアップ特徴ワードが含まれる場合、上記第２のシソーラスから上記ウェイクアップ特徴ワードを削除するステップと、をさらに含む。

実際の対話シーンでは、音声対話デバイスは、以前に、ある単語を誤ったウェイクアップワードとして第２のシソーラスに記憶する可能性があり、その後に、この単語は、またユーザによって新たなウェイクアップワードとして用いられ、音声対話デバイスは、該単語（即ちウェイクアップ特徴ワード）を新たなウェイクアップワードとして第１のシソーラスに追加する。このとき、第２のシソーラスには、新たなウェイクアップワードと同じ単語が存在する。

これに鑑み、ユーザのウェイクアップ体験を向上させるために、該実施形態では、第２のシソーラスから該ウェイクアップ特徴ワードを削除して、ユーザが新たなウェイクアップワードにより音声対話デバイスをウェイクアップできることを確保することができる。

なお、本願に係る音声対話方法における様々な好ましい実施形態は、互いに組み合わせて実現されてもよく、単独で実現されてもよく、本願はこれを限定しない。

本願の上記実施例は、以下の利点又は有益な効果を有する。

本願は、人間とコンピュータとの対話体験を改善することができ、特定のウェイクアップワードに限定される必要がなくて音声対話デバイスをウェイクアップすることができ、音声対話デバイスの自然なウェイクアップを実現するとともに、誤ったウェイクアップを効果的に回避し、人間とコンピュータとの対話過程をより滑らかで自然にすることができる。

本願は、音声対話デバイスをさらに提供し、図３に示すように、音声対話デバイス３００は、
上記音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、上記第１の音声命令の前回の音声命令である第２の音声命令に、上記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第１の判断モジュール３０１と、
上記第２の音声命令に上記ウェイクアップ特徴ワードが含まれる場合、上記ウェイクアップ特徴ワードを第１のシソーラスに追加する第１の追加モジュール３０２と、を含む。

好ましくは、音声対話デバイス３００は、
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、上記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、上記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加する第２の追加モジュールをさらに含む。

好ましくは、音声対話デバイス３００は、
上記第１のシソーラスに上記第２の単語が含まれるか否かを判断する第２の判断モジュールと、
上記第１のシソーラスに上記第２の単語が含まれる場合、上記第１のシソーラスから上記第２の単語を削除する第１の削除モジュールと、をさらに含む。

好ましくは、音声対話デバイス３００は、
上記第２のシソーラスに上記ウェイクアップ特徴ワードが含まれるか否かを判断する第３の判断モジュールと、
上記第２のシソーラスに上記ウェイクアップ特徴ワードが含まれる場合、上記第２のシソーラスから上記ウェイクアップ特徴ワードを削除する第２の削除モジュールと、をさらに含む。

本願に係る音声対話デバイス３００は、上記音声対話方法の実施例における音声対話デバイスが実現可能な各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を避けるために、ここでは説明を省略する。

本願の実施例によれば、本願は、電子デバイス及び可読記憶媒体をさらに提供する。

図４に示すように、本願の実施例に係る音声対話方法のための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の類似の計算装置などの、様々な形態のモバイル装置を表すこともできる。本明細書で示されたコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例に過ぎず、本明細書で説明及び／又は要求された本願の実現を限定することを意図しない。

図４に示すように、該電子デバイスは、１つ以上のプロセッサ５０１と、メモリ５０２と、各コンポーネントを接続し、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各コンポーネントは、異なるバスを用いて互いに接続され、かつ共通のマザーボードに取り付けられてもよく、必要に応じて他の方式で取り付けられてもよい。プロセッサは、電子デバイス内で実行された、外部入力／出力装置（例えば、インタフェースに結合された表示デバイス）にＧＵＩのグラフィック情報を表示するようにメモリ内又はメモリに記憶されている命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと共に使用してよい。同様に、複数の電子デバイスが接続されてよく、各デバイスは、（例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）一部の必要な動作を提供する。図４では、１つのプロセッサ５０１を例とする。

メモリ５０２は、本願に係る非一時的なコンピュータ可読記憶媒体である。上記メモリには、少なくとも１つのプロセッサによって実行可能であり、上記少なくとも１つのプロセッサに本願に係る音声対話方法を実行させる命令が記憶されている。本願に係る非一時的なコンピュータ可読記憶媒体には、本願に係る音声対話方法をコンピュータに実行させるコンピュータ命令が記憶されている。

メモリ５０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における音声対話方法に対応するプログラム命令／モジュール（例えば、図３に示す第１の判断モジュール４０１及び第１の追加モジュール４０２）を記憶することができる。プロセッサ５０１は、メモリ５０２内に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、音声対話デバイスの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における音声対話方法を実現する。

メモリ５０２は、オペレーティングシステム及び機能に必要な少なくとも１つのアプリケーションプログラムを記憶可能なプログラム記憶領域と、音声対話方法のための電子デバイスの使用に基づいて作成されたデータなどを記憶可能なデータ記憶領域とを含んでよい。また、メモリ５０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスクメモリ素子、フラッシュメモリ素子、又は他の非一時的な固体メモリ素子などの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ５０２は、好ましくは、プロセッサ５０１に対して遠隔的に配置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して音声対話方法のための電子デバイスに接続できる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。

音声対話方法のための電子デバイスは、入力装置５０３及び出力装置５０４をさらに含んでよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バス又は他の方式で接続されてよく、図４では、バスによる接続を例とする。

入力装置５０３は、入力された数字又は文字情報を受信し、音声対話方法のための電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置５０４は、表示デバイス、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）などを含んでよい。該表示デバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでよいが、これらに限定されない。いくつかの実施形態では、表示デバイスは、タッチスクリーンであってよい。

ここで説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてよい。これらの様々な実施形態は、１つ以上のコンピュータプログラムにおける実施を含んでよく、該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈されてよく、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及び命令を受信して、データ及び命令を該記憶システム、該少なくとも１つの入力装置及び該少なくとも１つの出力装置に伝送することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる）は、プログラマブルプロセッサの機械語命令を含み、かつ高レベル手続き言語及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ言語／機械言語により実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令及び／又はデータを供給する任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を意味する。用語「機械可読信号」は、機械語命令及び／又はデータをプログラマブルプロセッサに提供する任意の信号を意味する。

ユーザとの対話を提供するために、コンピュータにおいて、ここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示する表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードと、ポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、該キーボード及び該ポインティングデバイスにより入力をコンピュータに提供することができる。他のタイプの装置は、ユーザとの対話をさらに提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック（例えば、視覚フィードバック、聴覚フィードバック又は触覚フィードバック）であってよく、また、任意の形式（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されたシステム及び技術は、バックオフィスコンポーネントを（例えば、データサーバとして）含むコンピュータシステム、又はミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、又はフロントエンドコンポーネント（例えば、それを介して、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）を含むコンピュータシステム、又はこのようなバックオフィスコンポーネント、ミドルウェアコンポーネント若しくはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムにおいて実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムのコンポーネントを互いに接続することができる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが挙げられる。

コンピュータシステムは、クライアントとサーバを含んでよい。クライアントとサーバは、一般的に、互いに離れ、かつ通常通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータで実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって生成すされる。

本願の実施例の技術手段によれば、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。

上記様々な形式のプローを用いて、ステップを並べ替えたり、追加したり、削除したりすることができることを理解されたい。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本願に開示されている技術手段の所望の結果を達成できる限り、本明細書はこれを限定しない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件及びその他の要因に応じて、様々な修正、組み合わせ、部分組み合わせ及び置換を行うことができることは、当業者に理解されるところである。本願の精神及び原則内に行われるいかなる修正、同等置換、改良などは、いずれも本願の保護範囲に含まれるべきである。

Claims

音声対話デバイスに適用される音声対話方法であって、
前記音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、前記第１の音声命令の前回の音声命令である第２の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第２の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第１のシソーラスに追加することと、を含むことを特徴とする、音声対話方法。
前記ウェイクアップワードは、予め設定されたものであることを特徴とする、請求項１に記載の方法。
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、前記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加することをさらに含むことを特徴とする、請求項１又は２に記載の方法。
前記の第４の音声命令に含まれる第２の単語を第２のシソーラスに追加することの後に、
前記第１のシソーラスに前記第２の単語が含まれるか否かを判断することと、
前記第１のシソーラスに前記第２の単語が含まれる場合、前記第１のシソーラスから前記第２の単語を削除することと、をさらに含むことを特徴とする、請求項３に記載の方法。
前記の前記ウェイクアップ特徴ワードを第１のシソーラスに追加することの後に、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第２のシソーラスから前記ウェイクアップ特徴ワードを削除することと、をさらに含むことを特徴とする、請求項３に記載の方法。
音声対話デバイスのウェイクアップワードとマッチングする第１の単語を含む第１の音声命令を受信したことに応答して、前記第１の音声命令の前回の音声命令である第２の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第１の判断モジュールと、
前記第２の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第１のシソーラスに追加する第１の追加モジュールと、を含むことを特徴とする、音声対話デバイス。
前記ウェイクアップワードは、予め設定されたものであることを特徴とする、請求項６に記載の音声対話デバイス。
第３の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第３の音声命令の前回の音声命令である第４の音声命令に含まれる、前記第１のシソーラスにおける単語とマッチングする第２の単語を第２のシソーラスに追加する第２の追加モジュールをさらに含むことを特徴とする、請求項６又は７に記載の音声対話デバイス。
前記第１のシソーラスに前記第２の単語が含まれるか否かを判断する第２の判断モジュールと、
前記第１のシソーラスに前記第２の単語が含まれる場合、前記第１のシソーラスから前記第２の単語を削除する第１の削除モジュールと、をさらに含むことを特徴とする、請求項８に記載の音声対話デバイス。
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断する第３の判断モジュールと、
前記第２のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第２のシソーラスから前記ウェイクアップ特徴ワードを削除する第２の削除モジュールと、をさらに含むことを特徴とする、請求項８に記載の音声対話デバイス。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサに実行可能で、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１〜５のいずれか１項に記載の方法を実行させる命令が記憶されていることを特徴とする、電子デバイス。
請求項１〜５のいずれか１項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されていることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜５のいずれか１項に記載の方法が実現される、ことを特徴とするコンピュータプログラム製品。