JP2020034895A

JP2020034895A - 応答方法及び装置

Info

Publication number: JP2020034895A
Application number: JP2019129594A
Authority: JP
Inventors: ウェンユワン; Wenyu Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-08-30
Filing date: 2019-07-11
Publication date: 2020-03-05
Anticipated expiration: 2039-07-11
Also published as: CN109147800A; US11475897B2; JP6876752B2; US20200075024A1

Abstract

【課題】ユーザカテゴリとの親和性に富む応答音声で応答することを実現して、ユーザ体験を改善する応答方法及び装置を提供する。【解決手段】方法は、ユーザがクライアントを介して送信した音声情報を受信することと、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して音声情報に応答することとを含む。【選択図】なし

Description

発明の詳細な説明

［技術分野］
本願の実施例はコンピュータ技術分野に関し、具体的にはインターネット技術分野に関し、特に応答方法及び装置に関する。
［背景技術］

人工知能技術の発展に伴い、スクリーン付きスマートスピーカボックス及びスマートスピーカボックスはますます多くのユーザに使用されている。
ユーザは、音声によって上記スクリーン付きスマートスピーカボックスとスマートスピーカボックスに情報を送信して命令を取得させることができる。スクリーン付きスマートスピーカボックス又はスマートスピーカボックスは、ユーザからの情報に基づいて命令を取得して、ユーザに対してオーディオ又はビデオ情報などを再生する。

本願の実施例は応答方法及び装置を提供する。

第１態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信すること、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することとを含む応答方法を提供する。

いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザカテゴリを決定することを含む。

いくつかの実施例において、音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含む。

いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析することと、意味にマッチングする応答情報を決定することと、上記音声を使用して応答情報を再生することとを含む。

いくつかの実施例において、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定することと、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生することとを含む。

いくつかの実施例において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。

いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この方法は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることをさらに含む。

第２態様では、本願の実施例は、ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成される決定手段と、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するよう構成される応答手段とを備える応答装置を提供する。

いくつかの実施例において、決定手段は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。

いくつかの実施例において、決定手段は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。

いくつかの実施例において、応答手段は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。

いくつかの実施例において、応答手段は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。

いくつかの実施例において、音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。

いくつかの実施例において、ユーザカテゴリは子供のユーザであり、この装置は、ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段をさらに備える。

第３態様では、本願の実施例は、１つ又は複数のプロセッサと、１つ又は複数のプログラムが記憶されている記憶装置と、上記１つ又は複数のプログラムを上記１つ又は複数のプロセッサに実行させることにより、上記第１態様のいずれか１つの実施例に記載の方法を上記１つ又は複数のプロセッサに実現させる電子デバイスを提供する。

第４態様では、本願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、このコンピュータプログラムが実行される場合、上記第１態様のいずれか１つの実施例に記載の方法を実現させるコンピュータ可読媒体を提供する。

本願の実施例が提供する応答方法及び装置は、ユーザがクライアントを介して送信した音声情報を受信した後に、音声情報に基づいてユーザが属するユーザカテゴリを決定し、最後にユーザカテゴリにマッチングする音声を使用して、音声情報に応答する。それにより、応答音声とユーザのユーザカテゴリがマッチングして、ユーザカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。
本願の他の特徴、目的及び利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。

本願の一実施例にかかる応答方法を適用可能なシステム構成の一例を示す図である。本願の応答方法にかかる一実施例のフローチャートである。本願の応答方法にかかる適用シーンの概略図である。本願の応答方法にかかる別の実施例を示すフローチャートである。本願の応答装置にかかる一実施例の構成概略図である。本願の実施例の電子デバイスを実現するのに適したコンピュータシステムの構成概略図である。

以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。

なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。

図１には、本願の一実施例にかかる応答方法を適用可能なシステム構成の一例が示されている。

図１に示されるように、システム構成１００は、端末デバイス１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含むことができる。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために使用される。ネットワーク１０４は、例えば、有線や無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末デバイス１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５と対話して、メッセージなどを送受信することができる。端末デバイス１０１、１０２、１０３には、例えばマルチメディア情報再生アプリケーション、検索アプリケーション、インスタントメッセージングツールなどの各種のクライアントアプリケーションがインストールされることができる。

端末デバイス１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス１０１、１０２、１０３がハードウェアである場合、表示パネルを有するとともにマルチメディア情報の再生をサポートする様々な電子デバイスであってもよく、スマートフォン、スマートロボット、スマートスピーカボックス、スクリーン付きスマートスピーカボックス、ウェアラブルデバイス、タブレット型コンピュータ、電子ブックリーダ、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤ、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤ、ラップトップポータブルコンピュータ及びデスクトップコンピュータなどが挙げられるが、これらに限定されない。端末デバイス１０１、１０２、１０３がソフトウェアである場合、上記例示された電子デバイスにインストールされることができる。複数のソフトウェア又はソフトウェアモジュール（例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。

サーバ１０５は様々なサービスを提供することができ、例えば端末デバイス１０１、１０２、１０３から送信されたユーザの音声情報を受信して、音声情報を分析処理して、処理結果（例えばユーザのユーザカテゴリ）に基づいて音声情報に応答する。

なお、本願の実施例が提供する応答方法は、一般的にサーバ１０５によって実行され、それに応じて、応答装置は、一般的にサーバ１０５に設置される。

なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバから構成される分散型サーバクラスタとして実現されてもよく、単一のサーバとして実現されてもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば分散型サービスを提供するために使用されるソフトウェア又はソフトウェアモジュール）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは具体的に限定されるものではない。

図１の端末デバイス、ネットワーク及びサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを有することができる。

次に、図２を参照すると、本願の応答方法にかかる一実施例のフロー２００が示されている。該応答方法は、ユーザがクライアントを介して送信した音声情報を受信するステップ２０１を含む。

本実施例において、応答方法の実行主体（例えば図１に示すサーバ）は、有線接続方式又は無線接続方式で、ユーザが端末デバイス（例えば図１に示す端末デバイス）に設置されたクライアントを介して送信した音声情報を受信することができる。

インテリジェント音声対話は音声入力に基づく新世代のマンマシンインタラクションモードであり、人々は発話しただけでフィードバック情報を取得することができる。一般的には、人々はインテリジェント音声対話を実現可能なインテリジェント音声デバイスを利用して、インテリジェント音声デバイスに音声を入力することにより、対応するフィードバック情報を取得することができる。

実際には、１つのインテリジェント音声デバイス（例えば、スマートスピーカボックス）は、複数のユーザに音声サービスを提供することができる。例えば、インテリジェント音声デバイスが１つの家庭用である場合、このインテリジェント音声デバイスは複数の家族メンバーに音声サービスを提供することができる。インテリジェント音声デバイスが公共空間用である場合、このインテリジェント音声デバイスは複数のユーザに音声サービスを提供することができる。

本実施例において、ユーザは端末デバイスに音声情報を送信することができ、端末デバイスのクライアントはユーザが送信した音声情報を受信することができる。

ここで、上記音声情報は予め設定されたウェイクアップワードを含むことができ、例えばウェイクアップワードにはクライアントに対して予め定義された名称などが含まれることができる。

上記応答方法のフロー２００は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ２０２を含む。

本実施例において、ステップ２０１で得られたユーザの音声情報に基づいて、上記実行主体（例えば図１に示すサーバ）は様々な分析手段を利用して上記音声情報を分析することにより、ユーザが属するユーザカテゴリを決定することができる。

本実施例において、ユーザは、年齢に応じて分類されてもよいし、性別に応じて分類されてもよい。それに応じて、ユーザカテゴリは、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、さらに男性のユーザ及び女性のユーザなどを含むことができる。ここでのユーザカテゴリは、必要に応じて設定することができる。

以下、ユーザカテゴリを子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザに分類する例を挙げて説明する。ここで、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザは、それぞれ異なる年齢層のユーザグループに対応することができる。上記子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザのそれぞれに対応する年齢層は、具体的な応用に基づいて設定することができ、ここでは限定されない。

本実施例のいくつかの選択可能な実施形態において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することを含む。

音声は人間の自然な属性の１つであり、人々の音声は、個人的な音響特徴を有する。これらの音響特徴は、主に、話者の肺、気管、喉頭、咽頭、鼻及び口などの生理的特徴によって決定される。

声紋は、電気音響によって共に表示される音声情報を搬送する音波スペクトルである。ユーザの音響特徴は、声紋から抽出されることができる。

声紋認識は、生体認識技術の１つである。声紋認識は、音声によって話者の音響特徴を抽出して、音響特徴に基づいて話者の身元を判別して、話者に対応する年齢層を決定することができる。

年齢層の同じ人は比較的近い生理的特徴を有することにより、年齢層の同じ人が同様の音響特徴を有するようにすることができる。各年齢層の複数のユーザの共通性を有する音響特徴に対応する特徴パラメータ区間を事前に統計することができる。

これらの選択可能な実施形態において、上記実行主体は、音声情報に対して声紋認識を行い、声紋認識結果に基づいてユーザカテゴリを決定することができる。

上記声紋認識には、ユーザの音声情報からユーザの音響特徴の特徴値を抽出することが含まれることができる。そして、抽出されたユーザの音響特徴の特徴値と予め抽出された各年齢層に対応する音響特徴の特徴パラメータ区間を比較する。ユーザの音響特徴の特徴値を含む特徴パラメータ区間に対応する年齢層を、上記ユーザに対応する年齢層とする。そして、決定されたユーザに対応する年齢層に基づいてユーザのユーザカテゴリを決定する。

前記音響特徴は、時間長、基本周波数、エネルギー、ホルマント周波数、広帯域、周波数摂動、振幅摂動、ゼロクロス率及びメルケプストラムのうちの少なくとも１つを含むことができる。

本実施例のいくつかの選択可能な実施態様において、上記音声情報に基づいてユーザが属するユーザカテゴリを決定することは、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定することを含むことができる。

これらの選択可能な実施態様において、上記実行主体には予め訓練されたユーザカテゴリ認識モデルが設定されることができ、又は上記実行主体はネットワークを介して予め訓練されたユーザカテゴリ認識モデルにアクセスすることができる。上記ユーザカテゴリ認識モデルは、入力されたユーザの音声情報に基づいて、ユーザが属するユーザカテゴリを示すための出力結果を出力することができる。

上記ユーザカテゴリ認識モデルは、各種の機械学習モデルであってもよく、例えば、決定木モデル、選択木モデル、ニューラルネットワークモデルなどである。

上記ユーザカテゴリは、例えば、子供のユーザ、青年のユーザ、中年のユーザ及び高齢のユーザを含むことができ、又は女性のユーザ、男性のユーザなどである。

上記ユーザカテゴリ認識モデルは、予めユーザカテゴリマークを大量に追加した音声情報によって初期ユーザカテゴリ認識モデルを訓練して得られたものであってもよいことが理解されるべきである。

なお、上記機械学習モデルを訓練する方法は、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。

上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ２０３を含む。

本実施例において、上記実行主体は、様々な方法を用いてユーザカテゴリにマッチングする音声を決定して、ユーザの音声情報に応答することができる。

本実施例において、ユーザカテゴリのそれぞれに対して、該ユーザカテゴリが好む応答音声を事前に統計することができる。このように、上記実行主体には、各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声が予め記憶されていてもよいし、或いは、上記実行主体は、他の電子デバイスに記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声にネットワークを介してアクセスするようにしてもよい。

本実施例のいくつかの選択可能な実施形態において、上記ユーザカテゴリにマッチングする音声は合成音声であり、又は予め録音された音声である。すなわち、これらの選択可能な実施態様において、応答方法の実行主体は、ステップ２０２で得られたユーザカテゴリに基づいて、ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声を使用して、ユーザの音声情報に応答することができ、前記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用してユーザの音声情報に応答することができる。

いくつかの適用シーンにおいて、ユーザカテゴリにマッチングする音声は、ユーザカテゴリにマッチングする音声パラメータに基づいて合成されることができる。これらの適用シーンにおいて、上記実行主体には各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータが予め記憶されることができる。上記実行主体は、他の電子機器に記憶されている各ユーザカテゴリ及び各ユーザカテゴリがそれぞれ好む応答音声に対応する音声パラメータにネットワークを介してアクセスすることができる。

上記音声パラメータは、例えば、スペクトル、基本周波数、時間長、音高、音長、音声強度などのパラメータのうちの少なくとも１つを含むが、これらに限定されない。

これらの適用シーンにおいて、ステップ２０２でユーザのユーザカテゴリを決定した後、上記実行主体は、各ユーザカテゴリに対応する音声パラメータから、このユーザカテゴリに対応する音声パラメータを抽出して、その後上記音声パラメータを音声合成技術に適用することにより、上記音声パラメータに基づいて合成された合成音声を取得することができる。上記合成音声を使用してユーザの音声情報に応答する。

音声合成とは、任意のテキストを音声に変換する技術であり、マンマシンインタラクションに対して不可欠なモジュールである。

これらの適用シーンにおいて、上記実行主体には複数の応答テキストが予め設定されることができる。上記実行主体は、応答テキストを合成音声に変換して、ユーザの音声情報に応答することができる。

本実施例において、ユーザカテゴリが子供のユーザであれば、音声パラメータを子供にマッチングする音声パラメータに設定することができる。子供のユーザにマッチングする音声パラメータに基づいて音声合成技術によって合成された音声は、実際の子供音声と同じであり又は類似するように聞こえることにより、子供のユーザに対する応答音声の親和性を増加させる。

同様に、ユーザカテゴリが高齢のユーザであれば、音声パラメータを統計を経て得られた高齢のユーザの好む音声の音声パラメータに設定することができる。

つまり、上記実行主体は、ユーザのカテゴリに基づいて、ユーザのカテゴリに対応する音声パラメータを選択することにより、ユーザカテゴリにマッチングする合成音声を生成して、ユーザカテゴリに対応する合成音声を使用してユーザの音声情報に応答することができる。ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。

他の適用シーンにおいて、ユーザカテゴリにマッチングする音声は、事前に録音された音声であってもよい。これらの適用シーンにおいて、各ユーザカテゴリに対して、該ユーザカテゴリにマッチングする真人音声を事前に録音することができる。これにより、各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声を得ることができる。上記実行主体には、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声が保存されることができ、又は、上記実行主体は、他の電子デバイスに設定された上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声をネットワークを介してアクセスすることができる。これらの適用シーンにおいて、ステップ２０２でユーザのユーザカテゴリを決定した後に、上記実行主体は、上記各ユーザカテゴリにそれぞれマッチングする、予め録音された真人音声から、ステップ２０２で決定されたユーザカテゴリにマッチングする、予め録音された真人音声を選択して、上記ユーザの音声情報に応答することができる。

次に、図３を参照すると、図３は本実施例に係る応答方法の適用シーンの概略図３００である。図３の適用シーンにおいて、子供のユーザ３０１は、端末デバイス３０２に音声情報を送信することにより、端末デバイスをウェイクアップすることができる。端末デバイス３０２は、上記音声情報をサーバ３０３に送信することができる。サーバ３０３は、最初に、子供３０１が端末デバイス３０２を介して送信した音声情報を受信することができる。その後、サーバ３０３は、音声情報に基づいて子供のユーザ３０１が属するユーザカテゴリを子供のユーザとして決定することができる。そして、サーバ３０３は、子供のユーザにマッチングする音声パラメータを用いて合成された合成の子供の音声を使用することができる。そして、合成された子供の音声を使用して上記音声情報に応答する。次に、上記サーバ３０３は、合成された子供の音声で応答した応答音声信号を端末デバイス３０２に送信する。最後に、端末デバイス３０２は、子供のユーザ３０１に対して上記応答音声信号に対応する応答音声を再生する。

本願の上記実施例が提供する方法は、ユーザがクライアントを介して送信した音声情報を受信した後、音声情報に基づいてユーザが属するユーザカテゴリを決定して、最後にユーザカテゴリにマッチングする音声パラメータを用いて合成された合成音声を使用して、音声情報に応答することにより、応答音声がユーザのユーザカテゴリにマッチングして、ユーザのカテゴリと指向性を有する応答音声で応答することを実現して、ユーザ体験を改善することができる。

本実施例のいくつかの選択可能な実施形態において、上記ステップ２０３のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報の意味を解析するサブステップ２０３１を含む。

これらの選択可能な実施形態において、上記実行主体は、音声情報の意味を解析するために様々な方法を使用することができる。例示として、上記実行主体は、以下のステップにより音声情報の意味を解析することができる。まず、上記実行主体は上記音声情報に対して音声認識を行い、上記音声情報に対応するテキスト情報を取得する。その後、さらに各種の意味分析手段（例えば、単語分割、品詞マック、固有表現識別など）で上記テキスト情報を分析することにより、上記テキスト情報に対応する意味を取得する。

なお、音声情報の意味を解析することは、現在広く研究され応用されている公知技術であり、ここでは説明を省略する。

上記ステップ２０３のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、意味にマッチングする応答情報を決定するサブステップ２０３２を含む。

いくつかの適応シーンにおいて、上記実行主体には応答情報テーブルが予め記憶されることができる。応答情報テーブルには複数の意味、及び複数の意味にそれぞれ対応する応答情報が関連付けられて記憶されることができる。ここでの応答情報は、応答テキストを含むことができる。

他の適応シーンにおいて、上記実行主体は、インターネットから複数のチャット情報を取得することができる。チャット情報から、上記意味と同一又は類似する複数の対話情報を特定して、その後、複数の対話情報から上記意味にマッチングする応答情報を抽出する。

上記ステップ２０３のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、上記音声を使用して応答情報を再生するサブステップ２０３３を含む。

これらの選択可能な実施形態において、上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを使用して合成音声を生成して、上記合成音声を使用して上記応答情報を再生することができる。あるいは、上記実行主体は、予め録音されたユーザカテゴリにマッチングする音声を使用して上記応答情報を再生する。

これらの選択可能な実施態様において、音声情報に対応する意味に応じて、ユーザのカテゴリにマッチングする音声を使用して応答することにより、応答情報がユーザのニーズに合致するようにする。一方では、応答情報の精度を向上させることができ、他方では、ユーザの満足度をさらに向上させることができる。

本実施例のいくつかの選択可能な実施形態において、上記ステップ２０３のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれるか否かを判定するサブステップ２０３４をさらに含むことができる。

本実施例において、上記実行主体は、音声情報にマナー用語が含まれるか否かを判定するために種々の方法を用いることができる。

例示として、上記実行主体は、以下のステップに基づいてユーザの音声情報にマナー用語が含まれるか否かを判定することができる。まず、上記実行主体は、上記音声情報を音声認識して、上記音声情報に対応するテキスト情報を取得することができる。そして、上記実行主体は、予め設定されたマナー用語テーブルにおける各マナー用語を上記テキスト情報と照合させることができる。照合に成功すると、ユーザの音声情報にマナー用語が含まれると判定する。さらに、上記実行主体は、音声情報にどの／どちらのマナー用語が含まれるかを判定することができる。

上記マナー用語テーブルには複数のマナー用語が含まれることができる。上記マナー用語は、１つのワードであってもよく、単語であってもよく、又は１つのフレーズであってもよい。

上記予め設定されたマナー用語テーブルは、上記実行主体に設置されてもよいし、上記実行主体がネットワークを介して通信可能に接続される他の電子デバイスに設置されてもよい。

上記ステップ２０３のユーザカテゴリにマッチングする音声を使用して、音声情報に応答することは、音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するサブステップ２０３５を含む。

これらの選択可能な実施形態において、上記実行主体は、マナー用語ごとに対応する応答マナー用語を予め設定することができる。例えば、ユーザがマナー用語「…を伺えますでしょうか」を使用した場合、対応する予め設定されたマナー用語は「優雅なご質問、ありがとうございます」などであってもよい。上記実行主体は、ユーザカテゴリにマッチングする音声パラメータを用いて合成音声を生成して、合成音声を使用して上記予め設定された応答用のマナー用語を再生するができる。上記実行主体は、さらに事前に録音された、ユーザカテゴリにマッチングする音声を使用して上記予め設定された応答用のマナー用語を再生することができる。

これらの選択可能な実施態様において、ユーザカテゴリが子供のユーザであれば、子供のユーザが言語コミュニケーションにおいてマナー用語を使用する習慣を容易に育成することができる。ユーザが青年のユーザ、中年のユーザ又は高齢のユーザであれば、ユーザに対する応答情報の親和性を向上させることに有利である。

さらに図４を参照すると、応答方法の別の実施例のフロー４００が示されている。該応答方法のフロー４００は、ユーザがクライアントを介して送信した音声情報を受信するステップ４０１を含む。

本実施例において、ステップ４０１は図２に示すステップ２０１と同様であり、ここでは詳細な説明を省略する。

上記応答方法のフロー４００は、音声情報に基づいてユーザが属するユーザカテゴリを決定するステップ４０２を含む。

本実施例において、ステップ４０２は図２に示すステップ２０２と同様であり、ここでは詳細な説明を省略する。

上記応答方法は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するステップ４０３を含む。

本実施例において、ステップ４０３は図２に示すステップ２０３と同様であり、ここでは詳細な説明を省略する。

上記応答方法のフロー４００は、ユーザカテゴリが子供のユーザであり、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするステップ４０４を含む。

本実施例において、ユーザカテゴリは子供のユーザであってもよい。

上記実行主体は、各種の方法によって子供のユーザに対応するマルチメディア情報を取得することができる。例えば、アニメーションや童謡、子供のストーリーなどである。

例えば、上記実行主体には、子供のユーザに対応するマルチメディア情報が予め記憶されることができる。或いは、上記実行主体は他の電子デバイスに設定された子供のユーザにマッチングするマルチメディア情報にネットワークを介してアクセスすることができる。

上記子供のユーザにマッチングするマルチメディア情報は、予め記憶されたマルチメディア情報であってもよい。これらのマルチメディア情報は、例えばオンライン又はオフラインで大量の子供のユーザを統計することにより得られたマルチメディア情報であってもよい。

いくつかの適用シーンにおいて、ユーザカテゴリが子供のユーザであれば、上記実行主体は、ソーシャル情報、暴力情報、ポルノ情報などを自動的にマスクすることができる。

図４から分かるように、図２に対応する実施例に比べて、本実施例における応答方法のフロー４００は、子供のユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするステップを強調する。これにより、ユーザに対する情報のプッシュがユーザのニーズに合致させ、指向性に富む情報プッシュを実現する。

更に図５を参照すると、上記各図に示される方法の実施として、本願は応答装置の一実施例を提供して、この装置の実施例は図２に示される方法の実施例に対応して、この装置は具体的に様々な電子デバイスに適用されることができる。

図５に示すように、本実施例の応答装置５００は、受信手段５０１、決定手段５０２及び応答手段５０３を備える。ここで、受信手段５０１は、ユーザがクライアントを介して送信した音声情報を受信するように構成され、決定手段５０２は、音声情報に基づいてユーザが属するユーザカテゴリを決定するように構成され、応答手段５０３は、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答するように構成される。

本実施例において、応答装置５００における受信手段５０１、決定手段５０２及び応答中三５０３の具体的な処理及びそれによる技術的効果は、それぞれ図２の対応する実施例におけるステップ２０１、ステップ２０２及びステップ２０３の関連説明を参照することができ、ここでは詳細な説明を省略する。

本実施例のいくつかの選択可能な実施態様において、決定手段５０２は、さらに、音声情報に対して声紋認識を行い、認識結果に基づいてユーザが属するユーザのカテゴリを決定するように構成される。

本実施例のいくつかの選択可能な実施態様において、決定手段５０２は、さらに、音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、ユーザカテゴリ認識モデルの出力に基づいてユーザが属するユーザカテゴリを決定するように構成される。

本実施例のいくつかの選択可能な実施態様において、応答手段５０３は、さらに、音声情報の意味を解析して、意味にマッチングする応答情報を決定して、音声を使用して応答情報を再生するように構成される。

本実施例のいくつかの選択可能な実施態様において、応答手段５０３は、さらに、音声情報にマナー用語が含まれているか否かを決定するように構成されており、音声情報にマナー用語が含まれるか否かを判定して、前記音声情報にマナー用語が含まれると判定したことに応答して、上記音声を使用して予め設定されたマナー用語を再生するように構成される。

本実施例のいくつかの選択可能な実施態様において、上記音声はユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である。

本実施例のいくつかの選択可能な実施態様において、ユーザカテゴリは子供のユーザである。応答装置５００は、ユーザに子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段５０４をさらに備える。

図６に示すように、コンピュータシステム６００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に格納されたプログラムや記憶部６０６からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３にロードされたプログラムに従って各種の適切な動作や処理を実行することができるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１を備える。ＲＡＭ６０３には、システム６００が操作するために必要な各種プログラムやデータも格納されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して相互に接続されている。また、バス６０４には、入出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース６０５も接続されている。

Ｉ／Ｏインタフェース６０５には、ハードディスク等の記憶部６０６と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムなどのネットワークインタフェースカードを含む通信部６０７とが接続されている。通信部６０７は、インターネットのようなネットワークを介して通信処理を行う。ドライブ６０８も、必要に応じてＩ／Ｏインタフェース６０５に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア６０９は、必要に応じてドライブ６０８にインストールされることにより、リムーバブルメディア７１１から読み出されたコンピュータプログラムが必要に応じて記憶部６０６にインストールされる。

特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部６０７を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブルメディア６０９からインストールされることができる。このコンピュータプログラムが中央処理手段（ＣＰＵ）６０１によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線又は半導体のシステム、装置又はデバイスであってもよく、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、１つ又は複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みか又は格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置又はデバイスによって使用されてもよく、又はそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドで又はキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置又はデバイスによって使用され、又はそれらとともに使用されるプログラムを送信、伝播又は伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、ＲＦなど、又はそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されることができるが、これらに限定されない。

本願の操作を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向のプログラミング言語、並びに「Ｃ」言語又は同様のプログラミング言語などの一般的な手続き型プログラミング言語を含む、１つ又は複数のプログラミング言語又はそれらの組合せにより記述されることができる。プログラムコードは、全部がパーソナルコンピュータ上で実行されてもよく、一部がパーソナルコンピュータ上で実行されてもよく、別個のソフトウェアパッケージとして実行されてもよく、一部がパーソナルコンピュータ上で実行され残りの一部がリモートコンピュータ上で実行されてもよく、又は全部がリモートコンピュータ又はサーバ上で実行されてもよい。リモートコンピュータに関連する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してパーソナルコンピュータに接続されてもよく、又は外部のコンピュータに接続されてもよい（例えば、インターネットサービスプロバイダによりインターネットを介して接続される）。

図面におけるフローチャート及びブロック図は、本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実施可能な構成、機能及び操作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、所定の論理機能を実施するための１つ又は複数の実行可能な命令を含むモジュール、ブロック又はコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される２つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各ブロック、ならびにブロック図及び／又はフローチャートにおけるブロックの組合せは、所定の機能又は操作を実行する専用のハードウェアによるシステムによって実施されてもよく、又は専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。

本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは受信手段と、決定手段と、応答手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、受信手段は、さらに「ユーザがクライアントを介して送信した音声情報を受信する手段」として説明されることができる。

別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、又は、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムが装置により実行される場合、ユーザがクライアントを介して送信した音声情報を受信することと、音声情報に基づいてユーザが属するユーザカテゴリを決定することと、ユーザカテゴリにマッチングする音声を使用して、音声情報に応答することを、この装置に実行させる。

以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されるべきである。例えば、上記特徴が本願に開示された（これに限定されない）同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。

Claims

ユーザがクライアントを介して送信した音声情報を受信することと、
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することと、
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することとを含む応答方法。
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項１に記載の方法。
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定することは、
前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定することを含む、請求項１に記載の方法。
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
前記音声情報の意味を解析することと、
前記意味にマッチングする応答情報を決定することと、
前記音声を使用して前記応答情報を再生することとを含む、請求項１に記載の方法。
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答することは、
音声情報にマナー用語が含まれるか否かを判定することと、
前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生することとを含む、請求項１に記載の方法。
前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項１〜５のいずれか１項に記載の方法。
前記ユーザカテゴリは子供のユーザであり、前記方法は、
前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュすることをさらに含む、請求項１に記載の方法。
ユーザがクライアントを介して送信した音声情報を受信するように構成される受信手段と、
前記音声情報に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される決定手段と、
前記ユーザカテゴリにマッチングする音声を使用して、前記音声情報に応答するよう構成される応答手段とを備える、応答装置。
前記決定手段は、さらに、
前記音声情報に対して声紋認識を行い、認識結果に基づいて前記ユーザが所属するユーザカテゴリを決定するように構成される、請求項８に記載の装置。
前記決定手段は、さらに、
前記音声情報を予め訓練されたユーザカテゴリ認識モデルに入力して、前記ユーザカテゴリ認識モデルの出力に基づいて前記ユーザが属するユーザカテゴリを決定するように構成される、請求項８に記載の装置。
前記応答手段は、さらに、
前記音声情報の意味を解析して、
前記意味にマッチングする応答情報を決定して、
前記音声を使用して前記応答情報を再生するように構成される、請求項８に記載の装置。
前記応答手段は、さらに、
音声情報にマナー用語が含まれるか否かを判定して、
前記音声情報にマナー用語が含まれると判定したことに応答して、前記音声を使用して予め設定されたマナー用語を再生するように構成される、請求項８に記載の装置。
前記音声は、前記ユーザカテゴリにマッチングする音声パラメータに基づいて合成された合成音声であるか、又は予め録音された音声である、請求項８〜１２のいずれか１項に記載の装置。
前記ユーザカテゴリは子供のユーザであり、前記装置は、前記ユーザに対して子供のユーザにマッチングするマルチメディア情報をプッシュするように構成されるプッシュ手段をさらに備える、請求項８に記載の装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが記憶されている記憶装置と、
前記１つ又は複数のプログラムを前記１つ又は複数のプロセッサに実行させることにより、請求項１〜７のいずれか１項に記載の方法を１つ又は複数のプロセッサに実現させる、電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが実行される場合、請求項１〜７のいずれか１項に記載の方法を実現させる、コンピュータ可読媒体。