JP7257434B2 - 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 - Google Patents

音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP7257434B2
JP7257434B2 JP2021044277A JP2021044277A JP7257434B2 JP 7257434 B2 JP7257434 B2 JP 7257434B2 JP 2021044277 A JP2021044277 A JP 2021044277A JP 2021044277 A JP2021044277 A JP 2021044277A JP 7257434 B2 JP7257434 B2 JP 7257434B2
Authority
JP
Japan
Prior art keywords
word
thesaurus
wake
voice
voice interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021044277A
Other languages
English (en)
Other versions
JP2021099534A (ja
Inventor
文雄 蔡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2021099534A publication Critical patent/JP2021099534A/ja
Application granted granted Critical
Publication of JP7257434B2 publication Critical patent/JP7257434B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本願は、データ処理技術に関し、特に音声の技術分野に関し、具体的には、音声対話方法、音声対話デバイス及び電子デバイスに関する。
音声アシスタントなどのような音声対話デバイスは、徐々に人々の生活に入り込み、人々は、音声により音声対話デバイスに対して人間とコンピュータとの対話を行うことができる。現在、音声対話デバイスに対して人間とコンピュータとの対話を行うとき、まず特定のウェイクアップワードにより音声対話デバイスをウェイクアップする必要がある。
本願は、音声対話デバイスのウェイクアップ方式を豊かにするために、音声対話方法、音声対話デバイス及び電子デバイスを提供する。
上記技術的課題を解決するために、本願は、以下のように実現される。
第1の態様では、本願に係る音声対話方法は、
音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、前記第1の音声命令の前回の音声命令である第2の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第2の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第1のシソーラスに追加することと、を含む。
上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。
好ましくは、前記ウェイクアップワードは、予め設定されたものである。
該実施形態では、第1の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングするとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、音声対話デバイスの消費を節約することができる。
好ましくは、前記方法は、
第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、前記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加することをさらに含む。
該実施形態では、誤ったウェイクアップシソーラスを自動的に更新することにより、音声対話デバイスが誤ってウェイクアップされることを回避し、音声対話デバイスのウェイクアップ効果を高めることができる。
好ましくは、前記の第4の音声命令に含まれる第2の単語を第2のシソーラスに追加することの後に、前記方法は、
前記第1のシソーラスに前記第2の単語が含まれるか否かを判断することと、
前記第1のシソーラスに前記第2の単語が含まれる場合、前記第1のシソーラスから前記第2の単語を削除することと、をさらに含む。
該実施形態では、音声対話デバイスが再び該単語により誤ってウェイクアップされることを効果的に回避するだけでなく、第1のシソーラスが占める記憶空間を節約し、かつ第1のシソーラスのマッチング効率を高めることができる。
好ましくは、前記の前記ウェイクアップ特徴ワードを第1のシソーラスに追加することの後に、前記方法は、
前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断することと、
前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第2のシソーラスから前記ウェイクアップ特徴ワードを削除することと、をさらに含む。
該実施形態では、ユーザが新たなウェイクアップワードにより音声対話デバイスをウェイクアップできることを確保することができる。
第2の態様では、本願に係る音声対話デバイスは、
前記音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、前記第1の音声命令の前回の音声命令である第2の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第1の判断モジュールと、
前記第2の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第1のシソーラスに追加する第1の追加モジュールと、を含む。
好ましくは、前記ウェイクアップワードは、予め設定されたものである。
好ましくは、
第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、前記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加する第2の追加モジュールをさらに含む。
好ましくは、
前記第1のシソーラスに前記第2の単語が含まれるか否かを判断する第2の判断モジュールと、
前記第1のシソーラスに前記第2の単語が含まれる場合、前記第1のシソーラスから前記第2の単語を削除する第1の削除モジュールと、をさらに含む。
好ましくは、
前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断する第3の判断モジュールと、
前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第2のシソーラスから前記ウェイクアップ特徴ワードを削除する第2の削除モジュールと、をさらに含む。
第3の態様では、本願に係る電子デバイスは、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに第1の態様におけるいずれか1項の方法を実行させる命令が記憶されている。
第4の態様では、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体には、第1の態様におけるいずれか1項の方法を前記コンピュータに実行させるコンピュータ命令が記憶されている。
本願における一実施例は、以下の利点又は有益な効果を有する。
本願では、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。
以下、具体的な実施例を参照しながら、上記好ましい方式が有する他の効果を説明する。
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
本願の実施例に係る音声対話方法のフローチャートである。 本願の実施例に係る音声対話方法のフローの一例を示す図である。 本願の実施例に係る音声対話デバイスの概略構成図である。 本願の実施例に係る音声対話方法を実現する電子デバイスのブロック図である。
以下、理解を容易にするために、図面を参照しながら、様々な詳細を含めた本願の例示的な実施例を説明し、これらの実施例を単なる例示的なものと考えるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。
本願は、音声対話デバイスに適用できる音声対話方法を提供する。
図1に示すように、該音声対話方法は、以下のステップ101~102を含む。
ステップ101では、音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、上記第1の音声命令の前回の音声命令である第2の音声命令に、上記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する。
上記第1の音声命令、第2の音声命令及び後続の第3の音声命令などの、本願に係る音声命令は、いずれもユーザが発した音声命令である。
上記音声対話デバイスのウェイクアップワードは、予め設定されたウェイクアップワードであってもよく、予め設定されていないウェイクアップワードであってもよく、したがって、上記第1の単語は、音声対話デバイスの予め設定されたウェイクアップワードとマッチングする単語であってもよく、音声対話デバイスの他のウェイクアップワードとマッチングする単語であってもよい。
ここでは、予め設定されたウェイクアップワードは、音声対話デバイスの予め設定された固有のウェイクアップワードとして理解でき、「予め設定されたウェイクアップワード」と略称でき、同様の音声対話デバイスは、一般的に同じ予め設定されたウェイクアップワードを有し、音声対話デバイスの予め設定されたウェイクアップワードは、一般的に音声対話デバイスの名前であり、音声対話デバイスの予め設定されたウェイクアップワードの数は、一般的に1つ又は2つであり、音声対話デバイスの予め設定されたウェイクアップワードは、精度の高いウェイクアップワードと呼ばれてもよい。例えば、音声対話デバイスの名前がAちゃんであれば、「Aちゃん」は音声対話デバイスの予め設定されたウェイクアップワードであってよい。
ここでは、予め設定されていないウェイクアップワードは、例えば、本願に係る音声対話方法によって新たに追加されたウェイクアップワードであってよく、後に具体的に説明する。
本願では、単語と単語とのマッチングについて、単語が完全に同じであってもよく、単語中の文字の一部が同じであってもよく、単語間の間隔で含まれるものであってもよく、単語がぼけて近似してもよい。したがって、第1の単語と音声対話デバイスのウェイクアップワードとのマッチングは、第1の単語が音声対話デバイスのウェイクアップワードと完全に同じである場合の他、第1の単語が音声対話デバイスのウェイクアップワードの文字の一部と同じであるか又はぼけて近似する場合も含む。
第2の音声命令が第1の音声命令の前回の音声命令であることは、第2の音声命令が第1の音声命令の前回の音声命令であり、或いは、第1の音声命令が第2の音声命令をユーザによって発した後に、一定の時間間隔内に発した音声命令であると理解することができる。該時間間隔は、ユーザがニーズに応じて自ら設定する時間間隔であってもよく、予め設定された時間間隔であってもよく、例えば、該時間間隔は、10秒、20秒、30秒などであってよい。
本願では、第2の音声命令には、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれないため、音声対話デバイスは、第2の音声命令によってウェイクアップすることができず、第2の音声命令に応答しない。
本願では、第1の音声命令には、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれるため、音声対話デバイスは、第1の音声命令によってウェイクアップされ、第1の音声命令に応答することができる。ここでは、音声対話デバイスが第1の音声命令に応答することは、音声対話デバイスが第1の音声命令によってウェイクアップされ、かつそれに応答すると理解することができる。音声対話デバイスが第1の音声命令に応答する方式は、予め設定されてもよく、ユーザによって設定されてもよく、本願はこれを限定しない。
音声対話デバイスが第1の音声命令によりウェイクアップされた後、第2の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに判断することができる。例えば、音声対話デバイスの名称がAちゃんであれば、AXX(例えば、A姉ちゃん、A兄ちゃん)、XXA、AX、XA、AAちゃん、AA、AちゃんAなどは、いずれもAちゃんに関連付けられた単語とみなすことができ、それにより、これらの単語をウェイクアップ特徴ワードとみなすことができる。なお、該ステップにおけるウェイクアップ特徴ワードは、まだ音声対話デバイスのウェイクアップワードではなく、該ステップを実行する前に、ユーザは、ウェイクアップ特徴ワードによりデバイスをウェイクアップすることができない。
本願では、音声対話デバイスがウェイクアップされた後、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに判断するのは、ユーザの前回の音声命令に音声対話デバイスをウェイクアップする表現を有するか否か、又は、ユーザの前回の音声命令に他のウェイクアップ表現を有するか否かを判断するためである。
ステップ102では、上記第2の音声命令に上記ウェイクアップ特徴ワードが含まれる場合、上記ウェイクアップ特徴ワードを第1のシソーラスに追加する。
該ステップでは、音声対話デバイスが第2の音声命令にウェイクアップ特徴ワードが含まれると判断する場合、該ウェイクアップ特徴ワードを第1のシソーラスに追加することができる。
ここでは、第1のシソーラスに追加されたウェイクアップ特徴ワードは、音声対話デバイスのニックネーム、あだ名又は別名として理解することができ、第1のシソーラスは、デバイスの名称シソーラス、デバイスのニックネームシソーラス又はデバイスのあだ名シソーラスなどとして理解することができる。
ウェイクアップ特徴ワードを第1のシソーラスに追加した後、該ウェイクアップ特徴ワードは新たなウェイクアップワードとして理解することができ、ユーザは、該ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。該第1のシソーラスには、ウェイクアップ特徴ワードが記憶されている以外に、他のウェイクアップワードが記憶されていてもよいため、第1のシソーラスは、音声対話デバイスのウェイクアップワードシソーラスとして理解されてもよく、音声対話デバイスは、第1のシソーラスにおける単語とマッチングする任意の単語によりウェイクアップすることができる。
なお、ステップ101におけるウェイクアップ特徴ワードは、まだ音声対話デバイスのウェイクアップワードではなく、ステップ101を実行する前に、しかもステップ102を実行する前でさえ、ユーザは、ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができない。ステップ102を実行した後、即ち、ウェイクアップ特徴ワードを第1のシソーラスに追加した後にのみ、ユーザは、ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。
本願では、音声対話デバイスは、ウェイクアップ特徴ワードを第1のシソーラスに追加した後、ユーザは、固定されたウェイクアップワードに限定される必要がなく、該ウェイクアップ特徴ワードを用いて音声対話デバイスをウェイクアップすることができる。該ウェイクアップ特徴ワードは、音声対話デバイスが人間とコンピュータとの対話過程において自動的に追加され、音声対話デバイスがユーザの自然表現から取得したものであるため、該ウェイクアップ特徴ワードは、ユーザに音声対話デバイスをより自然にウェイクアップさせることができる。
本願の技術的解決手段をよりよく理解するために、以下、具体的な音声対話シーンを参照しながら、本願におけるウェイクアップワードを追加する過程を例示的に説明する。
音声対話デバイスの1つのウェイクアップワードがAちゃんであると仮定する。
[ユーザ]:A姉ちゃん、今日の天気がどうですか
[ユーザ]:Aちゃん、あなたを呼んでいるよ(或いは、Aちゃん、いますか、或いは、Aちゃん、話せよ)
[音声対話デバイス]:TTS(Text To Speech、テキストから音声へ)放送:今気が散っていますが、もう一度言ってください
音声対話デバイスが「Aちゃん」によりウェイクアップされた後、音声対話デバイスは、「A姉ちゃん、今日の天気がどうですか」における「A姉ちゃん」が「Aちゃん」に関連付けられることを検出すると、「A姉ちゃん」を第1のシソーラスに追加することができる。
上記音声対話シーンから分かるように、ユーザが「A姉ちゃん、今日の天気がどうですか」という音声命令を発するとき、該音声命令には、音声対話デバイスをウェイクアップする主観的表現が含まれるため、音声対話デバイスが応答しない場合、ユーザは再びウェイクアップワードを用いて音声対話デバイスをウェイクアップする。
したがって、音声対話デバイスは、ウェイクアップされた後、前回の音声命令を検出することにより、ユーザが発した、ウェイクアップ意図を含むウェイクアップ特徴ワードを自動的に識別し、かつ自動的にウェイクアップ特徴ワードを新たなウェイクアップワードとして追加することができる。音声対話デバイスに追加された新たなウェイクアップワードは、ユーザと音声対話デバイスとの対話過程において自然に形成されたものであり、音声対話デバイスのウェイクアップ方式を豊かにするだけでなく、音声対話デバイスのウェイクアップをより自然で、多様にする。
本願では、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。
好ましくは、上記ウェイクアップワードは、予め設定されたものである。
予め設定されたウェイクアップワードは、音声対話デバイスの予め設定された固有のウェイクアップワードとして理解でき、「予め設定されたウェイクアップワード」と略称でき、同様の音声対話デバイスは、一般的に同じ予め設定されたウェイクアップワードを有し、音声対話デバイスの予め設定されたウェイクアップワードは、一般的に音声対話デバイスの名前であり、音声対話デバイスの予め設定されたウェイクアップワードの数は、一般的に1つ又は2つであり、音声対話デバイスの予め設定されたウェイクアップワードは、精度の高いウェイクアップワードと呼ばれてもよい。
このように、上記第1の単語は、上記音声対話デバイスの予め設定されたウェイクアップワードとマッチングする。
前述したように、第1の単語は、音声対話デバイスの予め設定されたウェイクアップワードとマッチングする単語であってもよく、音声対話デバイスの他のウェイクアップワードとマッチングする単語であってもよい。
実際の音声対話シーンに応じて、ユーザが、音声対話デバイスをウェイクアップする主観的表現を含む音声命令を発するとき、音声対話デバイスが、ウェイクアップされたという応答をしなければ、ユーザは、一般的に、精度のより高いウェイクアップワード、例えば、音声対話デバイスの予め設定されたウェイクアップワードを用いて、再びウェイクアップの主観的表現を行う傾向がある。
以上から分かるように、第1の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングする場合、ユーザの前回の音声命令にウェイクアップ特徴ワードを搬送する確率は比較的大きい。第1の単語が音声対話デバイスの他のウェイクアップワードとマッチングする場合、ユーザの前回の音声命令にウェイクアップ特徴ワードを搬送する確率は比較的小さい。これに鑑み、該実施形態では、第1の単語が音声対話デバイスの予め設定されたウェイクアップワードとマッチングするとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、音声対話デバイスの消費を節約することができる。
さらに、上記第1の単語が上記音声対話デバイスの予め設定されたウェイクアップワードとマッチングし、かつ上記第1の音声命令にウェイクアップ強調ワードが含まれる場合、上記音声対話デバイスは、上記第2の音声命令にウェイクアップ特徴ワードが含まれるか否かを判断する。
ウェイクアップ強調ワードは、例えば、「あなたを呼んでいるよ」、「話せよ」、「聞いていますか」、「いますか」などの、ウェイクアップ意図を強調する単語であってよく、ウェイクアップ強調ワードは、一般的に、予め設定されたウェイクアップワードと同時に第1の音声命令に存在し、例えば、「Aちゃん、あなたを呼んでいるよ」、「話せよ、Aちゃん」、「Aちゃん、聞いていますか」、「Aちゃん、いますか」である。
実際の音声対話シーンに応じて、第1の音声命令には予め設定されたウェイクアップワードとマッチングする単語が含まれ、かつウェイクアップ強調ワードが含まれる場合、ユーザが前回の音声命令にウェイクアップの主観的表現を行う確率は大きい。これに鑑み、該実施形態では、第1の音声命令には予め設定されたウェイクアップワードとマッチングする単語が含まれ、かつウェイクアップ強調ワードが含まれるとき、前回の音声命令にウェイクアップ特徴ワードが含まれるか否かをさらに検出することを選択することにより、新たなウェイクアップワードを成功して取得する確率を高め、音声対話デバイスが前回の音声命令を過度に検出することを回避し、さらに音声対話デバイスの消費を節約することができる。
好ましくは、上記方法は、
第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、上記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、上記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加するステップをさらに含む。
該実施形態では、音声対話デバイスのウェイクアップワードがユーザと音声対話デバイスとの対話過程において自然に形成でき、音声対話デバイスのウェイクアップワードを多様にするため、音声対話デバイスは誤ってウェイクアップされる可能性がある。
以下、具体的な音声対話シーンを参照しながら、誤ったウェイクアップシーンを例示的に説明する。
音声対話デバイスの予め設定されたウェイクアップワードが「Aちゃん」であり、かつ「A姉ちゃん」を新たなウェイクアップワードとして第1のシソーラスに追加すると仮定する。
[ユーザ]:A姉さんの電話番号を教えてくれますか(車内の他の乗員とチャットする)
[音声対話デバイス]:はい(1回目の誤ったウェイクアップ)
[ユーザ]:Aちゃん、あなたを呼んでいない(或いは、Aちゃん、あなたを呼ばなかった)
「あなたを呼んでいない」、「あなたを呼ばなかった」などは、誤ったウェイクアップ修正ワードとして理解でき、「A姉さんの電話番号を教えてくれますか」という第4の音声命令における「A姉さん」は「A姉ちゃん」とマッチングし、音声対話デバイスは、ユーザがウェイクアップ表現を行ったと考えるため、応答する。音声対話デバイスは、「Aちゃん、あなたを呼んでいない」という第3の音声命令に含まれる「あなたを呼んでいない」という誤ったウェイクアップ修正ワードを検出するとき、第4の音声命令における「A姉さん」を第2のシソーラスに追加する。このように、後続の音声対話デバイスは、「A姉さん」によりウェイクアップされない。
第2のシソーラスは、誤ったウェイクアップシソーラス、誤ったウェイクアップブラックリストなどと呼ばれてもよい。
本願では、第1のシソーラスと第2のシソーラスは、論理的に区分された2つのシソーラスであってもよく、記憶位置で離隔された2つのシソーラスであってもよい。第1のシソーラスは、ウェイクアップシソーラス、ウェイクアップホワイトリストなどとして理解することができ、第2のシソーラスは、誤ったウェイクアップシソーラス、誤ったウェイクアップブラックリストなどとして理解することができる。
また、音声対話デバイスには、誤ったウェイクアップ修正ワードを記憶する誤ったウェイクアップ修正シソーラスをさらに設定でき、このように、音声対話デバイスは、ユーザから発した音声命令を受信するとき、音声命令に、誤ったウェイクアップ修正シソーラスにおける単語とマッチングする単語が含まれるか否かを判断することができる。
該実施形態では、誤ったウェイクアップシソーラスを自動的に更新することにより、音声対話デバイスが誤ってウェイクアップされることを回避し、音声対話デバイスのウェイクアップ効果を高めることができる。
本願では、音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避し、かつ音声対話デバイスが誤ってウェイクアップされることを回避するために、音声対話デバイスの音声命令における単語に対するマッチングの原則は、以下の条件を満たすことができる。音声命令における単語が第1のシソーラスにおける単語とマッチングするとき(完全に同じである場合と一部が同じである場合とを含む)、音声対話デバイスは、ウェイクアップ操作を実行でき(即ち、応答する)、つまり、音声対話デバイスは、第1のシソーラスにおける単語とマッチングする単語によりウェイクアップすることができ、或いは、音声対話デバイスは、第1のシソーラスにおける単語とマッチングする単語によるウェイクアップをサポートする。音声命令における単語が第2のシソーラスにおける単語と完全に同じであるときにのみ、音声対話デバイスは、誤ったウェイクアップ操作を実行し(即ち、応答しない)、つまり、音声対話デバイスは、第2のシソーラスにおける単語によりウェイクアップされず、或いは、音声対話デバイスは、第2のシソーラスにおける単語によるウェイクアップをサポートしない。
本願では、音声命令における単語が第1のシソーラスにおける単語とマッチングするが、同時に第2のシソーラスにおける単語と完全に同じである可能性を考慮して、音声対話デバイスは、ウェイクアップされるか否かを判断するとき、以下の方式で判断することができる。音声対話デバイスは、まず、音声命令における単語が第2のシソーラスにおける単語と同じであるか否かを判断し、同じであれば、誤ったウェイクアップ操作を直接実行し、同じでなければ、音声命令における単語が第1のシソーラスにおける単語とマッチングするか否かをさらに判断し、マッチングすれば、ウェイクアップ操作を実行する。このように、音声対話デバイスが誤ってウェイクアップされることを回避し、かつ音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避することができる。或いは、以下の方式で判断することができる。音声対話デバイスは、まず、音声命令における単語が第1のシソーラスにおける単語とマッチングするか否かを判断し、マッチングすれば、音声命令における単語が第2のシソーラスにおける単語と同じであるか否かをさらに判断し、同じであれば、誤ったウェイクアップ操作を実行し、同じでなければ、ウェイクアップ操作を実行する。このように、音声対話デバイスが誤ってウェイクアップされることを回避し、かつ音声対話デバイスがユーザのウェイクアップ表現を見逃すことを回避することもできる。
図2に示すように、具体的な音声対話シーンを参照しながら、音声対話デバイスは、以下のステップ201~208を採用して音声対話を行うことができる。
ステップ201では、音声対話デバイスは、第1の音声命令を受信し、
ステップ202では、音声対話デバイスは、第1の音声命令に、音声対話デバイスのウェイクアップワードとマッチングする単語が含まれるか否かを判断し、そうであれば、ステップ203を実行し、そうでなければ、ステップ206を実行し、
ステップ203では、音声対話デバイスは、該単語が第2のシソーラスにおける単語であるか否かを判断し、そうであれば、音声対話デバイスが応答せず、そうでなければ、音声対話デバイスが応答し、かつステップ204を実行し、
ステップ204では、音声対話デバイスは、第1の音声命令の次回の音声命令に誤ったウェイクアップ修正ワードが含まれるか否かを判断し、そうであれば、ステップ205を実行し、
ステップ205では、音声対話デバイスは、第2のシソーラスを更新し、該単語を第2のシソーラスに追加し、
ステップ206では、音声対話デバイスは、第1の音声命令の次回の音声命令に予め設定されたウェイクアップワードが含まれるか否かを判断し、そうであれば、ステップ207を実行し、そうでなければ、音声対話デバイスが応答せず、
ステップ207では、音声対話デバイスは、第1の音声命令にウェイクアップ特徴ワードが含まれるか否かを判断し、そうであれば、ステップ208を実行し、
ステップ208では、音声対話デバイスは、第1のシソーラスを更新し、第1の音声命令における、音声対話デバイスの名称に関連付けられた単語を第1のシソーラスに追加する。
以上が音声対話シーンの例に過ぎず、本願は、上記ステップに従って音声対話を行うことに限定されるものではない。
好ましくは、第4の音声命令に含まれる第2の単語を第2のシソーラスに追加する上記ステップの後に、上記方法は、
上記第1のシソーラスに上記第2の単語が含まれるか否かを判断するステップと、
上記第1のシソーラスに上記第2の単語が含まれる場合、上記第1のシソーラスから上記第2の単語を削除するステップと、をさらに含む。
実際の対話シーンでは、音声対話デバイスは、以前に、ある単語を新たなウェイクアップワードとして第1のシソーラスに記憶する可能性があり、その後に、この単語は、また音声対話デバイスによって誤ったウェイクアップワードとして第2のシソーラスに追加され、このとき、第1のシソーラスと第2のシソーラスには同じ単語が存在する可能性がある。
これに鑑み、該実施形態では、第1のシソーラスから第2のシソーラスにおける単語と同じものを削除でき、このように、音声対話デバイスが再び該単語により誤ってウェイクアップされることを効果的に回避するだけでなく、第1のシソーラスが占める記憶空間を節約し、かつ第1のシソーラスのマッチング効率を高めることができる。
好ましくは、上記ウェイクアップ特徴ワードを第1のシソーラスに追加する上記ステップの後に、上記方法は、
上記第2のシソーラスに上記ウェイクアップ特徴ワードが含まれるか否かを判断するステップと、
上記第2のシソーラスに上記ウェイクアップ特徴ワードが含まれる場合、上記第2のシソーラスから上記ウェイクアップ特徴ワードを削除するステップと、をさらに含む。
実際の対話シーンでは、音声対話デバイスは、以前に、ある単語を誤ったウェイクアップワードとして第2のシソーラスに記憶する可能性があり、その後に、この単語は、またユーザによって新たなウェイクアップワードとして用いられ、音声対話デバイスは、該単語(即ちウェイクアップ特徴ワード)を新たなウェイクアップワードとして第1のシソーラスに追加する。このとき、第2のシソーラスには、新たなウェイクアップワードと同じ単語が存在する。
これに鑑み、ユーザのウェイクアップ体験を向上させるために、該実施形態では、第2のシソーラスから該ウェイクアップ特徴ワードを削除して、ユーザが新たなウェイクアップワードにより音声対話デバイスをウェイクアップできることを確保することができる。
なお、本願に係る音声対話方法における様々な好ましい実施形態は、互いに組み合わせて実現されてもよく、単独で実現されてもよく、本願はこれを限定しない。
本願の上記実施例は、以下の利点又は有益な効果を有する。
本願では、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。
本願は、人間とコンピュータとの対話体験を改善することができ、特定のウェイクアップワードに限定される必要がなくて音声対話デバイスをウェイクアップすることができ、音声対話デバイスの自然なウェイクアップを実現するとともに、誤ったウェイクアップを効果的に回避し、人間とコンピュータとの対話過程をより滑らかで自然にすることができる。
本願は、音声対話デバイスをさらに提供し、図3に示すように、音声対話デバイス300は、
上記音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、上記第1の音声命令の前回の音声命令である第2の音声命令に、上記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第1の判断モジュール301と、
上記第2の音声命令に上記ウェイクアップ特徴ワードが含まれる場合、上記ウェイクアップ特徴ワードを第1のシソーラスに追加する第1の追加モジュール302と、を含む。
好ましくは、上記ウェイクアップワードは、予め設定されたものである。
好ましくは、音声対話デバイス300は、
第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、上記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、上記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加する第2の追加モジュールをさらに含む。
好ましくは、音声対話デバイス300は、
上記第1のシソーラスに上記第2の単語が含まれるか否かを判断する第2の判断モジュールと、
上記第1のシソーラスに上記第2の単語が含まれる場合、上記第1のシソーラスから上記第2の単語を削除する第1の削除モジュールと、をさらに含む。
好ましくは、音声対話デバイス300は、
上記第2のシソーラスに上記ウェイクアップ特徴ワードが含まれるか否かを判断する第3の判断モジュールと、
上記第2のシソーラスに上記ウェイクアップ特徴ワードが含まれる場合、上記第2のシソーラスから上記ウェイクアップ特徴ワードを削除する第2の削除モジュールと、をさらに含む。
本願に係る音声対話デバイス300は、上記音声対話方法の実施例における音声対話デバイスが実現可能な各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を避けるために、ここでは説明を省略する。
本願の実施例によれば、本願は、電子デバイス及び可読記憶媒体をさらに提供する。
図4に示すように、本願の実施例に係る音声対話方法のための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及びその他の類似の計算装置などの、様々な形態のモバイル装置を表すこともできる。本明細書で示されたコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例に過ぎず、本明細書で説明及び/又は要求された本願の実現を限定することを意図しない。
図4に示すように、該電子デバイスは、1つ以上のプロセッサ501と、メモリ502と、各コンポーネントを接続し、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各コンポーネントは、異なるバスを用いて互いに接続され、かつ共通のマザーボードに取り付けられてもよく、必要に応じて他の方式で取り付けられてもよい。プロセッサは、電子デバイス内で実行された、外部入力/出力装置(例えば、インタフェースに結合された表示デバイス)にGUIのグラフィック情報を表示するようにメモリ内又はメモリに記憶されている命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと共に使用してよい。同様に、複数の電子デバイスが接続されてよく、各デバイスは、(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)一部の必要な動作を提供する。図4では、1つのプロセッサ501を例とする。
メモリ502は、本願に係る非一時的なコンピュータ可読記憶媒体である。上記メモリには、少なくとも1つのプロセッサによって実行可能であり、上記少なくとも1つのプロセッサに本願に係る音声対話方法を実行させる命令が記憶されている。本願に係る非一時的なコンピュータ可読記憶媒体には、本願に係る音声対話方法をコンピュータに実行させるコンピュータ命令が記憶されている。
メモリ502は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における音声対話方法に対応するプログラム命令/モジュール(例えば、図3に示す第1の判断モジュール401及び第1の追加モジュール402)を記憶することができる。プロセッサ501は、メモリ502内に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、音声対話デバイスの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における音声対話方法を実現する。
メモリ502は、オペレーティングシステム及び機能に必要な少なくとも1つのアプリケーションプログラムを記憶可能なプログラム記憶領域と、音声対話方法のための電子デバイスの使用に基づいて作成されたデータなどを記憶可能なデータ記憶領域とを含んでよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスクメモリ素子、フラッシュメモリ素子、又は他の非一時的な固体メモリ素子などの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ502は、好ましくは、プロセッサ501に対して遠隔的に配置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して音声対話方法のための電子デバイスに接続できる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
音声対話方法のための電子デバイスは、入力装置503及び出力装置504をさらに含んでよい。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式で接続されてよく、図4では、バスによる接続を例とする。
入力装置503は、入力された数字又は文字情報を受信し、音声対話方法のための電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示デバイス、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでよい。該表示デバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでよいが、これらに限定されない。いくつかの実施形態では、表示デバイスは、タッチスクリーンであってよい。
ここで説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてよい。これらの様々な実施形態は、1つ以上のコンピュータプログラムにおける実施を含んでよく、該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈されてよく、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械語命令を含み、かつ高レベル手続き言語及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ言語/機械言語により実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令及び/又はデータを供給する任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を意味する。用語「機械可読信号」は、機械語命令及び/又はデータをプログラマブルプロセッサに提供する任意の信号を意味する。
ユーザとの対話を提供するために、コンピュータにおいて、ここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボードと、ポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボード及び該ポインティングデバイスにより入力をコンピュータに提供することができる。他のタイプの装置は、ユーザとの対話をさらに提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック(例えば、視覚フィードバック、聴覚フィードバック又は触覚フィードバック)であってよく、また、任意の形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されたシステム及び技術は、バックオフィスコンポーネントを(例えば、データサーバとして)含むコンピュータシステム、又はミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、又はフロントエンドコンポーネント(例えば、それを介して、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)を含むコンピュータシステム、又はこのようなバックオフィスコンポーネント、ミドルウェアコンポーネント若しくはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムにおいて実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを互いに接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが挙げられる。
コンピュータシステムは、クライアントとサーバを含んでよい。クライアントとサーバは、一般的に、互いに離れ、かつ通常通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータで実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成すされる。
本願の実施例の技術手段によれば、音声対話デバイスがウェイクアップされた後、音声対話デバイスは、前回の音声命令に含まれるウェイクアップ特徴ワードを新たなウェイクアップワードとして追加でき、このように、後続のユーザは、固定されたウェイクアップワードに限定される必要がなく、新たなウェイクアップワードを用いて音声対話デバイスをウェイクアップすることができる。上記技術手段を採用するため、音声対話デバイスのウェイクアップ方式を豊かにし、音声対話デバイスのウェイクアップをより自然で、多様にする。
本願は、人間とコンピュータとの対話体験を改善することができ、特定のウェイクアップワードに限定される必要がなくて音声対話デバイスをウェイクアップすることができ、音声対話デバイスの自然なウェイクアップを実現するとともに、誤ったウェイクアップを効果的に回避し、人間とコンピュータとの対話過程をより滑らかで自然にすることができる。
上記様々な形式のプローを用いて、ステップを並べ替えたり、追加したり、削除したりすることができることを理解されたい。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本願に開示されている技術手段の所望の結果を達成できる限り、本明細書はこれを限定しない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件及びその他の要因に応じて、様々な修正、組み合わせ、部分組み合わせ及び置換を行うことができることは、当業者に理解されるところである。本願の精神及び原則内に行われるいかなる修正、同等置換、改良などは、いずれも本願の保護範囲に含まれるべきである。

Claims (13)

  1. 音声対話デバイスに適用される音声対話方法であって、
    前記音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、前記第1の音声命令の前回の音声命令である第2の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断することと、
    前記第2の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第1のシソーラスに追加することと、を含み、
    前記第1のシソーラスは、前記音声対話デバイスのウェイクアップワードシソーラスであり、前記音声対話デバイスは、前記第1のシソーラスにおける単語とマッチングする単語によりウェイクアップされ得ることを特徴とする、音声対話方法。
  2. 前記ウェイクアップワードは、予め設定されたものであることを特徴とする、請求項1に記載の方法。
  3. 第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、前記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加することをさらに含み、
    前記第2のシソーラスは、誤ったウェイクアップシソーラスであり、前記音声対話デバイスは、前記第2のシソーラスにおける単語によりウェイクアップされ得ないことを特徴とする、請求項1又は2に記載の方法。
  4. 前記の第4の音声命令に含まれる第2の単語を第2のシソーラスに追加することの後に、
    前記第1のシソーラスに前記第2の単語が含まれるか否かを判断することと、
    前記第1のシソーラスに前記第2の単語が含まれる場合、前記第1のシソーラスから前記第2の単語を削除することと、をさらに含むことを特徴とする、請求項3に記載の方法。
  5. 前記の前記ウェイクアップ特徴ワードを第1のシソーラスに追加することの後に、
    前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断することと、
    前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第2のシソーラスから前記ウェイクアップ特徴ワードを削除することと、をさらに含むことを特徴とする、請求項3に記載の方法。
  6. 音声対話デバイスのウェイクアップワードとマッチングする第1の単語を含む第1の音声命令を受信したことに応答して、前記第1の音声命令の前回の音声命令である第2の音声命令に、前記音声対話デバイスの名称に関連付けられた単語であるウェイクアップ特徴ワードが含まれるか否かを判断する第1の判断モジュールと、
    前記第2の音声命令に前記ウェイクアップ特徴ワードが含まれる場合、前記ウェイクアップ特徴ワードを第1のシソーラスに追加する第1の追加モジュールと、を含み、
    前記第1のシソーラスは、前記音声対話デバイスのウェイクアップワードシソーラスであり、前記音声対話デバイスは、前記第1のシソーラスにおける単語とマッチングする単語によりウェイクアップされ得ることを特徴とする、音声対話デバイス。
  7. 前記ウェイクアップワードは、予め設定されたものであることを特徴とする、請求項6に記載の音声対話デバイス。
  8. 第3の音声命令に誤ったウェイクアップ修正ワードが含まれる場合、前記第3の音声命令の前回の音声命令である第4の音声命令に含まれる、前記第1のシソーラスにおける単語とマッチングする第2の単語を第2のシソーラスに追加する第2の追加モジュールをさらに含み、
    前記第2のシソーラスは、誤ったウェイクアップシソーラスであり、前記音声対話デバイスは、前記第2のシソーラスにおける単語によりウェイクアップされ得ないことを特徴とする、請求項6又は7に記載の音声対話デバイス。
  9. 前記第1のシソーラスに前記第2の単語が含まれるか否かを判断する第2の判断モジュールと、
    前記第1のシソーラスに前記第2の単語が含まれる場合、前記第1のシソーラスから前記第2の単語を削除する第1の削除モジュールと、をさらに含むことを特徴とする、請求項8に記載の音声対話デバイス。
  10. 前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれるか否かを判断する第3の判断モジュールと、
    前記第2のシソーラスに前記ウェイクアップ特徴ワードが含まれる場合、前記第2のシソーラスから前記ウェイクアップ特徴ワードを削除する第2の削除モジュールと、をさらに含むことを特徴とする、請求項8に記載の音声対話デバイス。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載の方法を実行させる命令が記憶されていることを特徴とする、電子デバイス。
  12. 請求項1~5のいずれか1項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されていることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~5のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータプログラム
JP2021044277A 2020-05-18 2021-03-18 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 Active JP7257434B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010419908.1 2020-05-18
CN202010419908.1A CN111554298B (zh) 2020-05-18 2020-05-18 语音交互方法、语音交互设备和电子设备

Publications (2)

Publication Number Publication Date
JP2021099534A JP2021099534A (ja) 2021-07-01
JP7257434B2 true JP7257434B2 (ja) 2023-04-13

Family

ID=72001648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044277A Active JP7257434B2 (ja) 2020-05-18 2021-03-18 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品

Country Status (3)

Country Link
JP (1) JP7257434B2 (ja)
KR (1) KR102554916B1 (ja)
CN (1) CN111554298B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114520002A (zh) * 2020-11-19 2022-05-20 华为技术有限公司 一种处理语音的方法及电子设备
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品
CN116798419A (zh) * 2022-03-14 2023-09-22 追觅创新科技(苏州)有限公司 设备的语音控制方法和装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341033A (ja) 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP2007213005A (ja) 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2010072098A (ja) 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2018180260A (ja) 2017-04-12 2018-11-15 トヨタ自動車株式会社 音声認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
JP2015148758A (ja) * 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
CN110012166B (zh) * 2019-03-31 2021-02-19 联想(北京)有限公司 一种信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341033A (ja) 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP2007213005A (ja) 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2010072098A (ja) 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2018180260A (ja) 2017-04-12 2018-11-15 トヨタ自動車株式会社 音声認識装置

Also Published As

Publication number Publication date
KR102554916B1 (ko) 2023-07-11
CN111554298B (zh) 2023-03-28
CN111554298A (zh) 2020-08-18
KR20210039354A (ko) 2021-04-09
JP2021099534A (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
JP7257434B2 (ja) 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品
JP2021099533A (ja) 音声インタラクション処理方法、装置及び電子機器
JP7167222B2 (ja) アプレットデータの取得方法、装置、機器及び記憶媒体
US20210349526A1 (en) Human-computer interaction controlling method, apparatus and system, and electronic device
JP7258932B2 (ja) 車載多音域に基づくノイズ低減方法、装置、電子機器及び記憶媒体
US20210385392A1 (en) Video processing method, electronic device and storage medium thereof
US11175823B2 (en) Method and apparatus for controlling terminal device using gesture control function, and non-transitory computer-readable storage medium
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7133055B2 (ja) 信号処理方法、装置、電子機器及びコンピュータプログラム製品
US11831735B2 (en) Method and device for processing mini program data
EP3796308A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
US11126260B2 (en) Control method and apparatus of intelligent device, and storage medium
CN113496703A (zh) 通过语音方式控制程序的方法、设备及程序产品
EP3842961A2 (en) Method and apparatus for mining tag, device, storage medium and computer program product
CN112037794A (zh) 语音交互方法、装置、设备以及存储介质
CN112752323A (zh) 热点接入状态的改变方法和装置
CN112507714B (zh) 文本的分割方法和装置
CN112037786B (zh) 语音交互方法、装置、设备以及存储介质
US11570306B2 (en) Call processing method, electronic device and storage medium
CN112527234B (zh) 音频帧的输出方法和装置
CN114006902B (zh) 云手机重启方法、装置、设备以及存储介质
EP3799038A1 (en) Speech control method and device, electronic device, and readable storage medium
CN113141292A (zh) 一种消息处理方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210318

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230403

R150 Certificate of patent or registration of utility model

Ref document number: 7257434

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150